La regressione lineare trova la retta $y = mx + b$ che meglio si adatta a un insieme di punti dati $(x, y)$ . Il "meglio" è definito dal criterio dei minimi quadrati: minimizzare la somma dei quadrati delle distanze verticali tra la retta e i punti.

La pendenza e l'intercetta hanno soluzioni in forma chiusa:

$m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}$

Il coefficiente di determinazione $R^2$ misura la qualità dell'adattamento (tra 0 e 1; più vicino a 1 = adattamento migliore).

La regressione lineare è il modello predittivo più semplice e il fondamento di metodi più sofisticati:

La regressione multipla usa più variabili in ingresso.
La regressione logistica adatta l'idea agli esiti binari.
Ridge / Lasso aggiungono la regolarizzazione.
I "modelli lineari" del moderno apprendimento automatico ne sono discendenti diretti.

Nonostante la sua semplicità, la regressione lineare resta largamente usata in finanza (CAPM), epidemiologia, economia e come riferimento di base rispetto al quale i modelli più sofisticati devono giustificare la loro complessità.

Regressione lineare

La regressione lineare adatta una retta ai dati: y = mx + b. La retta minimizza la somma dei quadrati delle distanze verticali dai punti (minimi quadrati).