statistics

Correlazione

La correlazione misura l'intensità e la direzione della relazione lineare tra due variabili. Il coefficiente di Pearson r è in [-1, 1]: 1 = positiva perfetta, -1 = negativa perfetta, 0 = nessuna relazione lineare.

La correlazione misura l'intensità e la direzione della relazione lineare tra due variabili XX e YY. Il coefficiente di correlazione di Pearson:

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

Interpretazione:

  • r=1r = 1: relazione lineare positiva perfetta.
  • r=1r = -1: relazione lineare negativa perfetta.
  • r=0r = 0: nessuna relazione lineare (ma possibilmente una non lineare!).
  • r>0.7|r| > 0.7: forte; 0.3<r<0.70.3 < |r| < 0.7: moderata; r<0.3|r| < 0.3: debole.

Avvertenze cruciali:

  • Correlazione non è causalità. Le vendite di gelato sono correlate ai decessi per annegamento — entrambi guidati dal clima caldo.
  • Sensibile ai valori anomali. Un singolo punto estremo può capovolgere rr.
  • Solo lineare. Una relazione quadratica perfetta y=x2y = x^2 ha r0r \approx 0 attorno a dati simmetrici.

Per relazioni monotòne non lineari o per ranghi, usa il ρ\rho di Spearman. Per l'associazione tra categorie, usa il chi-quadrato o la V di Cramér.