La regressione lineare trova la retta che meglio si adatta a un insieme di punti dati . Il "meglio" è definito dal criterio dei minimi quadrati: minimizzare la somma dei quadrati delle distanze verticali tra la retta e i punti.
La pendenza e l'intercetta hanno soluzioni in forma chiusa:
Il coefficiente di determinazione misura la qualità dell'adattamento (tra 0 e 1; più vicino a 1 = adattamento migliore).
La regressione lineare è il modello predittivo più semplice e il fondamento di metodi più sofisticati:
- La regressione multipla usa più variabili in ingresso.
- La regressione logistica adatta l'idea agli esiti binari.
- Ridge / Lasso aggiungono la regolarizzazione.
- I "modelli lineari" del moderno apprendimento automatico ne sono discendenti diretti.
Nonostante la sua semplicità, la regressione lineare resta largamente usata in finanza (CAPM), epidemiologia, economia e come riferimento di base rispetto al quale i modelli più sofisticati devono giustificare la loro complessità.