O que é regressão?

O que é regressão?

Regressão é uma técnica para modelar a relação entre uma característica (variáveis independentes) e uma previsão (variáveis dependentes).
Ela nos ajuda a entender como o valor de uma variável dependente muda com base no valor da variável independente.
Quando aplicada corretamente, ela nos ajuda a prever valores 😯!

Regressão
Regressão

A regressão é uma técnica poderosa que nos permite encontrar uma linha ou curva que se ajusta aos dados que temos.
Ao fazer regressão, podemos criar ou reutilizar modelos matemáticos que mostram como as variáveis dependentes e independentes estão relacionadas.
Modelos matemáticos são úteis porque ajudam a entender um sistema e fazer previsões com base nas variáveis desse sistema.
Às vezes, o modelo escolhido pode não se ajustar bem aos dados, então precisamos buscar um modelo melhor que capture os padrões observados.


Exemplo 1: Como sabemos se vai chover?

Sempre que você usa o celular, assiste à previsão do tempo ou pesquisa na internet “Qual a chance de chover hoje?”, modelos matemáticos são usados por meteorologistas para prever a possibilidade de chuva.
Você pode se perguntar: Quais variáveis são consideradas nesses modelos? Será que só o cheiro de chuva é suficiente?

Quais variáveis considerar para saber se vai chover?

Exercício 1

Imagine que alguém quer saber o tipo de figura apenas com base na área.

  1. É possível saber a forma apenas com a área?
Clique para ver a resposta

  1. Qual relação podemos usar para identificar a forma?
Clique para ver a resposta

Um modelo, nesse caso, é uma função que estabelece a relação entre as variáveis dependentes e independentes.
Exemplos de modelos: linha reta (y = ax + b), parábola (y = a(x - h)^2), curva cúbica (y = ax^3 + bx^2 + cx + d).


Como garantir que o modelo se ajusta aos dados?

Ao usar um modelo de machine learning, precisamos garantir que ele representa bem os dados.

Exemplo: imagine que os pontos dos dados formam uma parábola. Nesse caso, um modelo parabólico como:

[ y = a(x - h)^2 ]

provavelmente funcionará melhor.

Se não ajustarmos corretamente:

Exemplo de ajuste de dados
Imagem 1: Under-Fitting e Over-Fitting