statistics

Varianz

Die Varianz misst die Streuung eines Datensatzes um seinen Mittelwert. Sie ist der Durchschnitt der quadrierten Abweichungen. Die Standardabweichung ist die Quadratwurzel der Varianz.

Die Varianz misst, wie weit die Werte eines Datensatzes vom Mittelwert streuen. Für eine Grundgesamtheit aus NN Werten x1,,xNx_1, \ldots, x_N mit Mittelwert μ\mu:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

Für eine Stichprobe aus nn Werten mit Stichprobenmittel xˉ\bar{x} teilt man durch n1n - 1 statt durch nn (Bessel-Korrektur, ein erwartungstreuer Schätzer).

Eine kleine Varianz bedeutet, dass die Werte nahe am Mittelwert liegen; eine große Varianz bedeutet, dass sie gestreut sind. Die Varianz hat die quadrierten Einheiten der ursprünglichen Daten (kg², wenn die Daten in kg vorliegen) — deshalb berichten wir gewöhnlich die Standardabweichung σ=σ2\sigma = \sqrt{\sigma^2}, die dieselben Einheiten wie die Daten hat.

Die Varianz liegt der gesamten schließenden Statistik zugrunde: Konfidenzintervalle, Hypothesentests und Regression hängen alle von der Schätzung der Varianz ab. Der Verzerrung-Varianz-Kompromiss im maschinellen Lernen ist nach ihr benannt.