statistics

Régression linéaire

La régression linéaire ajuste une droite aux données : y = mx + b. La droite minimise la somme des distances verticales au carré jusqu'aux points (moindres carrés).

La régression linéaire trouve la droite y=mx+by = mx + b qui s'ajuste le mieux à un ensemble de points de données (x,y)(x, y). Le « mieux » est défini par le critère des moindres carrés : minimiser la somme des distances verticales au carré entre la droite et les points.

La pente et l'ordonnée à l'origine ont des solutions explicites :

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

Le coefficient de détermination R2R^2 mesure la qualité de l'ajustement (entre 0 et 1 ; plus proche de 1 = meilleur ajustement).

La régression linéaire est le modèle prédictif le plus simple et le fondement de méthodes plus sophistiquées :

  • La régression multiple utilise plusieurs entrées.
  • La régression logistique adapte l'idée aux résultats binaires.
  • Ridge / Lasso ajoutent une régularisation.
  • Les « modèles linéaires » de l'apprentissage automatique moderne en sont les descendants directs.

Malgré sa simplicité, la régression linéaire reste très utilisée en finance (CAPM), en épidémiologie, en économie, et comme référence face à laquelle des modèles plus élaborés doivent justifier leur complexité.