La régression linéaire trouve la droite qui s'ajuste le mieux à un ensemble de points de données . Le « mieux » est défini par le critère des moindres carrés : minimiser la somme des distances verticales au carré entre la droite et les points.
La pente et l'ordonnée à l'origine ont des solutions explicites :
Le coefficient de détermination mesure la qualité de l'ajustement (entre 0 et 1 ; plus proche de 1 = meilleur ajustement).
La régression linéaire est le modèle prédictif le plus simple et le fondement de méthodes plus sophistiquées :
- La régression multiple utilise plusieurs entrées.
- La régression logistique adapte l'idée aux résultats binaires.
- Ridge / Lasso ajoutent une régularisation.
- Les « modèles linéaires » de l'apprentissage automatique moderne en sont les descendants directs.
Malgré sa simplicité, la régression linéaire reste très utilisée en finance (CAPM), en épidémiologie, en économie, et comme référence face à laquelle des modèles plus élaborés doivent justifier leur complexité.