statistics

Corrélation

La corrélation mesure la force et le sens de la relation linéaire entre deux variables. Le coefficient de Pearson r appartient à [-1, 1] : 1 = positive parfaite, -1 = négative parfaite, 0 = aucune relation linéaire.

La corrélation mesure la force et le sens de la relation linéaire entre deux variables XX et YY. Le coefficient de corrélation de Pearson :

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

Interprétation :

  • r=1r = 1 : relation linéaire positive parfaite.
  • r=1r = -1 : relation linéaire négative parfaite.
  • r=0r = 0 : aucune relation linéaire (mais éventuellement une relation non linéaire !).
  • r>0.7|r| > 0.7 : forte ; 0.3<r<0.70.3 < |r| < 0.7 : modérée ; r<0.3|r| < 0.3 : faible.

Mises en garde essentielles :

  • Corrélation n'est pas causalité. Les ventes de glaces sont corrélées aux noyades — les deux sont dues au temps chaud.
  • Sensible aux valeurs aberrantes. Un seul point extrême peut inverser rr.
  • Linéaire seulement. Une relation quadratique parfaite y=x2y = x^2 donne r0r \approx 0 autour de données symétriques.

Pour des relations monotones par rangs ou non linéaires, utilisez le ρ\rho de Spearman. Pour une association entre catégories, utilisez le khi-deux ou le V de Cramér.