A regressão linear encontra a reta que melhor se ajusta a um conjunto de pontos de dados . "Melhor" é definido pelo critério de mínimos quadrados: minimizar a soma das distâncias verticais ao quadrado entre a reta e os pontos.
A inclinação e o intercepto têm soluções de forma fechada:
O coeficiente de determinação mede a qualidade do ajuste (entre 0 e 1; quanto mais perto de 1, melhor o ajuste).
A regressão linear é o modelo preditivo mais simples e o fundamento de métodos mais sofisticados:
- A regressão múltipla usa várias entradas.
- A regressão logística adapta a ideia para resultados binários.
- Ridge / Lasso acrescentam regularização.
- Os "modelos lineares" do aprendizado de máquina moderno são descendentes diretos.
Apesar de sua simplicidade, a regressão linear continua amplamente usada em finanças (CAPM), epidemiologia, economia e como linha de base contra a qual modelos mais sofisticados devem justificar sua complexidade.