La régression linéaire trouve la droite $y = mx + b$ qui s'ajuste le mieux à un ensemble de points de données $(x, y)$ . Le « mieux » est défini par le critère des moindres carrés : minimiser la somme des distances verticales au carré entre la droite et les points.

La pente et l'ordonnée à l'origine ont des solutions explicites :

$m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}$

Le coefficient de détermination $R^2$ mesure la qualité de l'ajustement (entre 0 et 1 ; plus proche de 1 = meilleur ajustement).

La régression linéaire est le modèle prédictif le plus simple et le fondement de méthodes plus sophistiquées :

La régression multiple utilise plusieurs entrées.
La régression logistique adapte l'idée aux résultats binaires.
Ridge / Lasso ajoutent une régularisation.
Les « modèles linéaires » de l'apprentissage automatique moderne en sont les descendants directs.

Malgré sa simplicité, la régression linéaire reste très utilisée en finance (CAPM), en épidémiologie, en économie, et comme référence face à laquelle des modèles plus élaborés doivent justifier leur complexité.

Régression linéaire

La régression linéaire ajuste une droite aux données : y = mx + b. La droite minimise la somme des distances verticales au carré jusqu'aux points (moindres carrés).