A regressão linear encontra a reta $y = mx + b$ que melhor se ajusta a um conjunto de pontos de dados $(x, y)$ . "Melhor" é definido pelo critério de mínimos quadrados: minimizar a soma das distâncias verticais ao quadrado entre a reta e os pontos.

A inclinação e o intercepto têm soluções de forma fechada:

$m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}$

O coeficiente de determinação $R^2$ mede a qualidade do ajuste (entre 0 e 1; quanto mais perto de 1, melhor o ajuste).

A regressão linear é o modelo preditivo mais simples e o fundamento de métodos mais sofisticados:

A regressão múltipla usa várias entradas.
A regressão logística adapta a ideia para resultados binários.
Ridge / Lasso acrescentam regularização.
Os "modelos lineares" do aprendizado de máquina moderno são descendentes diretos.

Apesar de sua simplicidade, a regressão linear continua amplamente usada em finanças (CAPM), epidemiologia, economia e como linha de base contra a qual modelos mais sofisticados devem justificar sua complexidade.

Regressão linear

A regressão linear ajusta uma reta aos dados: y = mx + b. A reta minimiza a soma das distâncias verticais ao quadrado até os pontos (mínimos quadrados).