Nosso modelo se ajusta bem?
Lembre-se de que a equação linear que construímos tem um valor de erro aleatório (ε).
\[ SALÁRIO = 9449.96(XP) + 25792.20 + ε \]
Como ε é um valor de erro que não conseguimos determinar exatamente, precisamos nos perguntar:
- Quão bem o nosso modelo representa a realidade, ou seja, quão bem ele
se ajustaaos dados que temos? - Como podemos saber se Anos de Experiência realmente têm efeito sobre o Salário?
Existem muitas formas de descobrir isso, mas no mundo do machine learning e da estatística, existe um valor que podemos usar. Esse valor é chamado de R-Quadrado ou R2.
R-Quadrado
— é uma medida que fornece informações sobre a qualidade do ajuste (goodness of fit) de um modelo. No contexto da regressão, é uma medida estatística de quão bem a linha de regressão se aproxima dos dados reais.
Como regra geral, se o valor de R2 for próximo de 1, significa que o modelo matemático que escolhemos tem um bom ajuste ou realmente aproxima os valores reais dos nossos dados.
Exercício 1: Encontrando o R-Quadrado
O arquivo Experience_vs_Salary-More_Data tem mais de 10.000 entradas onde é possível ver o salário e os anos de experiência dos funcionários da empresa onde você trabalha.
O código no Replit abaixo irá pegar a amostra inicial de 30 funcionários e encontrar o erro padrão e o valor de R2.
Como você pode ver, o valor de R2 é 0,973.
Agora, se alguém nos perguntar se existe relação nos nossos dados, podemos dizer que:
“Temos 97,3% de confiança de que os anos de experiência de um funcionário estão relacionados ao salário que ele recebe.”
Recomendo alterar a variável sample_size para um valor maior ou menor e observar como o valor de R2 é afetado.
Agora, vamos fazer algumas previsões!