Ajuste do Modelo

Nosso modelo se ajusta bem?

Lembre-se de que a equação linear que construímos tem um valor de erro aleatório (ε).

\[ SALÁRIO = 9449.96(XP) + 25792.20 + ε \]

Como ε é um valor de erro que não conseguimos determinar exatamente, precisamos nos perguntar:

  1. Quão bem o nosso modelo representa a realidade, ou seja, quão bem ele se ajusta aos dados que temos?
  2. Como podemos saber se Anos de Experiência realmente têm efeito sobre o Salário?

Existem muitas formas de descobrir isso, mas no mundo do machine learning e da estatística, existe um valor que podemos usar. Esse valor é chamado de R-Quadrado ou R2.

R-Quadrado — é uma medida que fornece informações sobre a qualidade do ajuste (goodness of fit) de um modelo. No contexto da regressão, é uma medida estatística de quão bem a linha de regressão se aproxima dos dados reais.
Como regra geral, se o valor de R2 for próximo de 1, significa que o modelo matemático que escolhemos tem um bom ajuste ou realmente aproxima os valores reais dos nossos dados.


Exercício 1: Encontrando o R-Quadrado

O arquivo Experience_vs_Salary-More_Data tem mais de 10.000 entradas onde é possível ver o salário e os anos de experiência dos funcionários da empresa onde você trabalha.
O código no Replit abaixo irá pegar a amostra inicial de 30 funcionários e encontrar o erro padrão e o valor de R2.

Executar no Replit

Como você pode ver, o valor de R2 é 0,973.
Agora, se alguém nos perguntar se existe relação nos nossos dados, podemos dizer que:

“Temos 97,3% de confiança de que os anos de experiência de um funcionário estão relacionados ao salário que ele recebe.”

Recomendo alterar a variável sample_size para um valor maior ou menor e observar como o valor de R2 é afetado.

Agora, vamos fazer algumas previsões!