Der Hypothesentest ist das Arbeitspferd der statistischen Inferenz und wird überall eingesetzt, von klinischen Studien bis zu A/B-Tests auf Websites. Dennoch ist er auch das am meisten missverstandene Thema der Statistik. Dieser Leitfaden durchläuft die gesamte Abfolge einmal — klar —, damit du verstehst, was ein p-Wert wirklich bedeutet.

Die fünf Schritte

Stelle $H_0$ und $H_1$ auf: die Nullhypothese (Status quo) und die Alternative (die Behauptung, die du stützen möchtest).
Wähle ein Signifikanzniveau $\alpha$ : meist 0,05 oder 0,01.
Berechne die Teststatistik aus deinen Daten ( $z$ , $t$ , $\chi^2$ usw.).
Bestimme den p-Wert: die Wahrscheinlichkeit, derart extreme Daten zu sehen, falls $H_0$ wahr wäre.
Entscheide: Wenn $p < \alpha$ , verwirf $H_0$ ; andernfalls kann $H_0$ nicht verworfen werden.

Hinweis: "nicht verwerfen" ≠ " $H_0$ akzeptieren". Du hast lediglich nicht genug Evidenz dagegen.

Einstichproben-z-Test (durchgerechnetes Beispiel)

Eine Fabrik behauptet, ihre Glühbirnen halten im Mittel 1000 Stunden ( $\sigma = 50$ ). Du testest 25 Glühbirnen und misst $\bar x = 980$ . Wird die Behauptung bei $\alpha = 0.05$ widerlegt?

$H_0: \mu = 1000$ , $H_1: \mu \ne 1000$ .
$\alpha = 0.05$ , zweiseitig.
Teststatistik: $z = \frac{\bar x - \mu_0}{\sigma / \sqrt{n}} = \frac{980 - 1000}{50/\sqrt{25}} = \frac{-20}{10} = -2$ .
p-Wert: $2 \cdot P(Z < -2) \approx 2 \cdot 0.0228 = 0.0456$ .
Da $0.0456 < 0.05$ , verwirf $H_0$ . Die mittlere Lebensdauer unterscheidet sich signifikant von 1000 Stunden.

Den richtigen Test wählen

Situation	Test
Ein Mittelwert, $\sigma$ bekannt	Einstichproben-z-Test
Ein Mittelwert, $\sigma$ unbekannt, n klein	Einstichproben-t-Test
Zwei Mittelwerte, unabhängige Stichproben	Zweistichproben-t-Test
Zwei gepaarte Mittelwerte	gepaarter t-Test
Anteil(e)	z-Test für Anteile
Anpassungsgüte / Kontingenz	Chi-Quadrat

Fehler 1. Art vs. Fehler 2. Art

Fehler 1. Art: ein wahres $H_0$ verwerfen. Wahrscheinlichkeit = $\alpha$ .
Fehler 2. Art: ein falsches $H_0$ nicht verwerfen. Wahrscheinlichkeit = $\beta$ .
Trennschärfe = $1 - \beta$ : Wahrscheinlichkeit, einen realen Effekt korrekt zu erkennen.

Diese drei bewegen sich gemeinsam: Verkleinert man $\alpha$ bei festem Stichprobenumfang, steigt $\beta$ ; vergrößert man den Stichprobenumfang, sinken beide.

Häufige Fehler

"p-Wert = Wahrscheinlichkeit, dass $H_0$ wahr ist" — falsch. Der p-Wert ist $P(\text{Daten} \mid H_0)$ , nicht $P(H_0 \mid \text{Daten})$ .
Mehrfachvergleiche — 20 Tests bei $\alpha = 0.05$ durchzuführen, garantiert im Mittel ≈1 falsch Positives. Verwende eine Korrektur.
Signifikanz mit Bedeutsamkeit verwechseln — ein winziger Effekt mit riesigem $n$ kann hochsignifikant und doch praktisch irrelevant sein.

Mit dem KI-Hypothesentest-Löser ausprobieren

Verwende den Hypothesentest-Löser, um deine Daten einzugeben und Teststatistik, p-Wert und Entscheidung zu erhalten.

Verwandte Verweise:

Z-Wert-Rechner — der Baustein jedes z-Tests
Standardabweichungsrechner — die Streuungseingabe
Normalverteilungsrechner — was z-Tests voraussetzen

Hypothesentests Schritt für Schritt: von H0 zum p-Wert

Ein praktischer Leitfaden zu Hypothesentests — H0 und H1 definieren, den richtigen Test wählen, die Teststatistik berechnen und den p-Wert ohne Fehlinterpretation deuten.