statistics

Regressione lineare

La regressione lineare adatta una retta ai dati: y = mx + b. La retta minimizza la somma dei quadrati delle distanze verticali dai punti (minimi quadrati).

La regressione lineare trova la retta y=mx+by = mx + b che meglio si adatta a un insieme di punti dati (x,y)(x, y). Il "meglio" è definito dal criterio dei minimi quadrati: minimizzare la somma dei quadrati delle distanze verticali tra la retta e i punti.

La pendenza e l'intercetta hanno soluzioni in forma chiusa:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

Il coefficiente di determinazione R2R^2 misura la qualità dell'adattamento (tra 0 e 1; più vicino a 1 = adattamento migliore).

La regressione lineare è il modello predittivo più semplice e il fondamento di metodi più sofisticati:

  • La regressione multipla usa più variabili in ingresso.
  • La regressione logistica adatta l'idea agli esiti binari.
  • Ridge / Lasso aggiungono la regolarizzazione.
  • I "modelli lineari" del moderno apprendimento automatico ne sono discendenti diretti.

Nonostante la sua semplicità, la regressione lineare resta largamente usata in finanza (CAPM), epidemiologia, economia e come riferimento di base rispetto al quale i modelli più sofisticati devono giustificare la loro complessità.