Die Standardabweichung ist das am häufigsten missverstandene Konzept der einführenden Statistik. Die Leute wissen, dass sie „die Streuung misst“, erstarren aber, wenn man fragt, was die Zahl eigentlich bedeutet. Dieser Leitfaden erklärt sie auf drei Arten — geometrisch, rechnerisch und intuitiv —, damit du beim nächsten Mal, wenn du in einer Arbeit oder einem Bericht siehst, wirklich verstehst, was dort steht.
Definition in klarer Sprache
Die Standardabweichung beantwortet: Wie weit liegt im Durchschnitt jeder Datenpunkt vom Mittelwert entfernt?
Symbolisch, für eine Grundgesamtheit von Werten mit Mittelwert :
Laut vorgelesen: „mittlere quadrierte Abweichung, dann Quadratwurzel.“
Warum quadrieren und dann die Wurzel ziehen?
Ein vernünftiger erster Versuch für „durchschnittlicher Abstand vom Mittelwert“ wäre — die mittlere absolute Abweichung. Sie funktioniert, und Statistiker verwenden sie manchmal (sie ist robuster gegenüber Ausreißern).
Aber der Betrag ist mathematisch unhandlich — er ist bei null nicht differenzierbar, Ableitungen explodieren, und man kann damit nicht sauber Analysis betreiben. Das Quadrieren umgeht all das, und die Quadratwurzel am Ende bringt die Einheiten zurück auf die ursprüngliche Skala (sodass in Euro angegeben wird, wenn in Euro ist, nicht in Euro²).
Aus demselben Grund verwendet maschinelles Lernen den quadratischen Verlust (mittlerer quadratischer Fehler) — das Quadrieren ist differenzierbar, harmoniert mit der Analysis, und die resultierenden Schätzer sind oft optimal.
Grundgesamtheit vs. Stichprobe — die Sache mit vs.
Es gibt zwei Formeln, und der Unterschied ist wichtig:
- Grundgesamtheit (du hast alle Daten): teile durch . Symbol .
- Stichprobe (du hast eine Stichprobe und willst die Grundgesamtheit schätzen): teile durch . Symbol .
Das in der Stichprobenformel ist die Bessel-Korrektur. Warum? Mit würde man die Standardabweichung der Grundgesamtheit systematisch unterschätzen, weil man den Stichprobenmittelwert verwendet hat (der konstruktionsbedingt die beste Anpassung an die Stichprobe ist), wodurch die Abweichungen kleiner ausfallen, als sie gegenüber dem wahren Mittelwert der Grundgesamtheit wären. Das Teilen durch statt gleicht das genau aus.
Die meisten Taschenrechner und Programme verwenden standardmäßig die Stichprobenformel. Achte darauf.
Durchgerechnetes Beispiel 1: kleiner symmetrischer Datensatz
Daten: . (8 Werte; klassisches Lehrbuchbeispiel.)
- Mittelwert: .
- Abweichungen vom Mittelwert: .
- Quadrierte Abweichungen: .
- Summe: .
- Grundgesamtheit (): Varianz , .
- Stichprobe (): Varianz , .
Die 68-95-99,7-Regel (nur für Normalverteilungen)
Wenn deine Daten näherungsweise normalverteilt (glockenförmig) sind:
- der Werte liegen innerhalb von um den Mittelwert.
- innerhalb von .
- innerhalb von .
Deshalb ist „“ oder „zwei Sigma“ die übliche umgangssprachliche Definition von „statistisch ungewöhnlich“.
⚠️ Warnung: Diese Regel gilt nur für Normalverteilungen. Bei schiefen oder schwerschwänzigen Daten (Einkommen, Reaktionszeit) könnte 80 % der Daten abdecken — oder 50 %. Prüfe immer die Form der Verteilung (Histogramm, QQ-Plot), bevor du die 68-95-99,7-Zahlen zitierst.
Standardabweichung vs. Varianz
Die Varianz ist einfach . Sie enthalten identische Informationen — warum also beide?
- Die Standardabweichung hat dieselben Einheiten wie die Daten — interpretierbar.
- Die Varianz zerlegt sich additiv für unabhängige Variablen ( bei Unabhängigkeit), was sie zur algebraisch bequemen Größe für Beweise, Erwartungswerte und Varianzanalyse macht.
Verwende beim Berichten; verwende beim Rechnen.
Häufige Fehler
- ohne Kontext zitieren. „“ bedeutet nichts, wenn man den Mittelwert nicht kennt. Gib stets beides an: „Mittelwert , .“
- Formeln für Grundgesamtheit und Stichprobe vermischen. Bei kleinen Stichproben macht es einen echten Unterschied. Bei großen Stichproben () ist der Unterschied vernachlässigbar.
- Empfindlichkeit gegenüber Ausreißern vergessen. Ein einziger Extremwert kann aufblähen. Bei schwerschwänzigen Daten gib zusätzlich die mittlere absolute Abweichung um den Median (MAD) für Robustheit an.
- 68-95-99,7 auf nicht normalverteilte Daten anwenden. Siehe oben.
Probiere es selbst
Gib einen beliebigen Datensatz in unseren kostenlosen Standardabweichungsrechner ein — wähle Grundgesamtheit oder Stichprobe, sieh die schrittweise Berechnung und prüfe sie gegen diesen Leitfaden.
Verwandtes Material: