statistics

Regressão linear

A regressão linear ajusta uma reta aos dados: y = mx + b. A reta minimiza a soma das distâncias verticais ao quadrado até os pontos (mínimos quadrados).

A regressão linear encontra a reta y=mx+by = mx + b que melhor se ajusta a um conjunto de pontos de dados (x,y)(x, y). "Melhor" é definido pelo critério de mínimos quadrados: minimizar a soma das distâncias verticais ao quadrado entre a reta e os pontos.

A inclinação e o intercepto têm soluções de forma fechada:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

O coeficiente de determinação R2R^2 mede a qualidade do ajuste (entre 0 e 1; quanto mais perto de 1, melhor o ajuste).

A regressão linear é o modelo preditivo mais simples e o fundamento de métodos mais sofisticados:

  • A regressão múltipla usa várias entradas.
  • A regressão logística adapta a ideia para resultados binários.
  • Ridge / Lasso acrescentam regularização.
  • Os "modelos lineares" do aprendizado de máquina moderno são descendentes diretos.

Apesar de sua simplicidade, a regressão linear continua amplamente usada em finanças (CAPM), epidemiologia, economia e como linha de base contra a qual modelos mais sofisticados devem justificar sua complexidade.