Na última seção, encontramos o coeficiente e o intercepto da nossa equação linear usando um conjunto de dados de 30 funcionários aleatórios.
\[ Intercepto = 25792.20 \] \[ Coeficiente = 9449.96 \] \[ SALÁRIO = 9449.96(XP) + 25792.20 + ε \]
Mas isso levanta uma questão: o salário realmente está relacionado com os anos de experiência do funcionário? A relação é forte o suficiente para afirmarmos que existe essa ligação? 30 funcionários aleatórios são suficientes para determinar isso? Como ter certeza que esses valores estão corretos?
Lembre-se de que encontramos os valores usando uma pequena amostra de um conjunto muito maior. Como temos apenas uma amostra, os valores de coeficiente e inclinação são mais incertos.
O que podemos fazer para validar os valores?
Exercício 1: Verificando mais amostras
Suponha que agora você tenha mais de 10.000 registros de funcionários da empresa 😯! Isso é ótimo, pois, no machine learning, quanto mais dados, melhores resultados.
Pegue 30 registros aleatórios desse conjunto e verifique se o intercepto e o coeficiente diferem do que obtivemos antes. Execute o código várias vezes e note que os valores ficam próximos aos originais.
Isso acontece porque, a cada execução, uma nova amostra de 30 registros é escolhida. Os valores mudam, mas vêm do mesmo conjunto.
Intervalos de Confiança
Quando usamos amostras aleatórias, os valores de intercepto e coeficiente variam dentro de um intervalo. Sabemos que o valor real está entre dois pontos, mas não sabemos exatamente quais. Esse intervalo é o intervalo de confiança.
Se rodarmos o código do Exercício 1 várias vezes, veremos que o coeficiente raramente fica abaixo de 9000 ou acima de 10000. A diferença entre todos os coeficientes possíveis é o erro padrão.
Erro Padrão → distância média que os valores estão da linha de regressão.
Exemplo 2: Encontrando o Erro Padrão
Com a biblioteca StatsModels
conseguimos obter o stderr (erro padrão).
Se o erro padrão for 409,40, significa que o coeficiente da linha pode variar em até 409,40.
Exemplo 3: Distribuição Normal
A estatística usa a curva normal ou curva em sino para medir a probabilidade de ocorrência de valores.
![]() |
|---|
| Figura: Distribuição Normal |
Se compararmos com alturas de pessoas, é raro ver pessoas muito baixas ou muito altas, mas comum ver alturas médias.
Rodando o código, veremos que o histograma gerado se parece com uma curva normal. Podemos usar o erro padrão e a fórmula:
[ IntervaloCoef = Coeficiente \pm 2 * (ErroPadrão) ]
Se o coeficiente for 9449,96 e o erro padrão 409,40:
[ IntervaloCoef = [8631,16, 10268,76] ]
Isso significa:
- O coeficiente estará entre 8.631,16 e 10.268,76.
- O aumento salarial por ano está nesse intervalo.
