statistics

Korrelation

Die Korrelation misst Stärke und Richtung des linearen Zusammenhangs zwischen zwei Variablen. Der Pearson-Koeffizient r liegt in [-1, 1]: 1 = perfekt positiv, -1 = perfekt negativ, 0 = kein linearer Zusammenhang.

Die Korrelation misst Stärke und Richtung des linearen Zusammenhangs zwischen zwei Variablen XX und YY. Der Pearson-Korrelationskoeffizient:

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

Deutung:

  • r=1r = 1: perfekter positiver linearer Zusammenhang.
  • r=1r = -1: perfekter negativer linearer Zusammenhang.
  • r=0r = 0: kein linearer Zusammenhang (aber möglicherweise ein nichtlinearer!).
  • r>0.7|r| > 0.7: stark; 0.3<r<0.70.3 < |r| < 0.7: mäßig; r<0.3|r| < 0.3: schwach.

Entscheidende Vorbehalte:

  • Korrelation ist keine Kausalität. Speiseeisverkäufe korrelieren mit Ertrinkungstoten — beides wird durch heißes Wetter getrieben.
  • Empfindlich gegenüber Ausreißern. Ein einziger extremer Punkt kann rr umkehren.
  • Nur linear. Ein perfekter quadratischer Zusammenhang y=x2y = x^2 hat bei symmetrischen Daten r0r \approx 0.

Für rangbasierte / nichtlineare monotone Zusammenhänge verwende Spearmans ρ\rho. Für kategoriale Assoziation verwende Chi-Quadrat oder Cramérs V.