p-Wert-Rechner
Berechne und interpretiere p-Werte für Hypothesentests mit KI-gestützten Schritt-für-Schritt-Lösungen
Ziehen und ablegen oder klicken , um Bilder oder PDF hinzuzufügen
Was ist ein p-Wert?
Ein p-Wert ist die Wahrscheinlichkeit, Testergebnisse zu beobachten, die so extrem oder extremer sind als die tatsächlichen Ergebnisse — unter der Annahme, dass die Nullhypothese wahr ist.
Formal, für eine Teststatistik mit beobachtetem Wert :
- Rechtsseitig:
- Linksseitig:
- Zweiseitig:
Interpretation: Ein kleiner p-Wert bedeutet, dass die beobachteten Daten überraschend wären, wenn wahr wäre, also haben wir Belege gegen . Ein großer p-Wert bedeutet, dass die Daten mit vereinbar sind — beweist aber nicht, dass wahr ist.
Entscheidungsregel: Vergleiche mit einem vorab gewählten Signifikanzniveau (typischerweise 0,05):
- → verwerfen ('statistisch signifikant')
- → nicht verwerfen (nicht genügend Belege)
Was der p-Wert NICHT ist:
- Er ist nicht die Wahrscheinlichkeit, dass wahr ist.
- Er ist nicht die Wahrscheinlichkeit, dass die Alternative wahr ist.
- Er ist kein Maß für die Effektgröße.
- Er unterscheidet nicht 'praktische Signifikanz' von 'statistischer Signifikanz'.
So berechnet und verwendet man p-Werte
Schritt für Schritt
- Stelle die Hypothesen und auf.
- Wähle einen Test, der für die Daten geeignet ist (z-Test, t-Test, Chi-Quadrat, F-Test, ...).
- Berechne die Teststatistik aus den Daten.
- Bestimme die Schwänze anhand von : rechtsseitig (), linksseitig () oder zweiseitig ().
- Finde den p-Wert aus der Verteilung des Tests.
- Vergleiche mit und schließe.
p-Werte aus einer z-Statistik
Für eine standardnormalverteilte :
- Rechtsseitig:
- Linksseitig:
- Zweiseitig:
Schnellreferenz: → zweiseitig . → zweiseitig .
p-Werte aus einer t-Statistik
Nutze die t-Verteilung mit Freiheitsgraden (oder wie vom Test vorgegeben). Gleiche Schwanz-Logik wie bei z, aber die Verteilung hat bei kleinen Freiheitsgraden etwas schwerere Schwänze.
p-Werte aus einer Chi-Quadrat-Statistik
Chi-Quadrat-Tests sind von Natur aus rechtsseitig, da und größere Werte eine schlechtere Anpassung an anzeigen:
Einseitig vs. zweiseitig: Welcher ist zu verwenden?
- Zweiseitig: wenn dich eine Abweichung von in beide Richtungen interessiert. Standard in den meisten akademischen Kontexten.
- Einseitig: wenn die Alternativhypothese gerichtet und vorab festgelegt ist (, nicht ). Halbiert den p-Wert, wenn die Richtung übereinstimmt.
Wähle den Schwanz nie nach dem Betrachten der Daten — das ist p-Hacking.
Häufige Signifikanzschwellen
| Übliche Bezeichnung | |
|---|---|
| 0.10 | hinweisend |
| 0.05 | Standard |
| 0.01 | stark |
| 0.001 | sehr stark |
Die American Statistical Association hat davor gewarnt, als scharfe Grenze zu behandeln — Kontext und Effektgröße sind wichtiger als das Überschreiten einer Schwelle.
Häufige Fehler, die man vermeiden sollte
- 'Der p-Wert ist die Wahrscheinlichkeit, dass wahr ist': FALSCH. Der p-Wert wird unter der Annahme berechnet, dass wahr ist; er misst nicht, wie wahrscheinlich ist.
- und als grundlegend verschieden behandeln: Sind sie nicht. Die 0,05-Schwelle ist eine Konvention, kein Phasenübergang.
- Den Schwanz nach dem Betrachten der Daten wählen: Wenn du siehst und zu einem linksseitigen Test wechselst, hast du deine Falsch-Positiv-Rate verdoppelt. Lege es vorab fest.
- Signifikanz mit Effektgröße verwechseln: Ein winziger Effekt mit einer riesigen Stichprobe kann 'hochsignifikant' sein, aber praktisch irrelevant. Berichte immer Effektgrößen zusammen mit p-Werten.
- Inflation bei multiplen Vergleichen: Führt man 20 Tests bei durch, ist ein Falsch-Positiv zufällig zu erwarten. Nutze Bonferroni- oder FDR-Korrekturen.
- ' beweist ': NEIN. Nicht-Verwerfen ist nicht dasselbe wie Akzeptieren. Es bedeutet nur, dass die Daten bei diesem Stichprobenumfang nicht genug Belege gegen haben.
Examples
Frequently Asked Questions
Es bedeutet, dass die beobachteten Daten (oder extremere Daten) in weniger als 5% wiederholter Stichproben auftreten würden, wenn die Nullhypothese wahr wäre. Konventionsgemäß wird das als 'statistisch signifikant' behandelt — aber es bedeutet nicht, dass die Nullhypothese notwendigerweise falsch ist, und es misst nicht die Größe des Effekts.
Der p-Wert wird *unter der Annahme* berechnet, dass H₀ wahr ist — er ist bedingt auf H₀. Die Berechnung von P(H₀ wahr | Daten) erfordert Bayessche Methoden mit einer A-priori-Wahrscheinlichkeit für H₀, die der frequentistische p-Wert nicht verwendet.
Nur wenn die Forschungsfrage wirklich gerichtet und vor dem Betrachten der Daten festgelegt ist — z. B. muss ein neues Medikament *besser* als ein Placebo abschneiden, um nützlich zu sein, wobei schlechtere Leistung gleichbedeutend mit keinem Effekt ist. Den Schwanz nachträglich zu wählen ist p-Hacking.
p-Hacking ist die Praxis, viele Analysen (verschiedene Teilmengen, Transformationen, Ausschlüsse) durchzuführen und nur die signifikanten zu berichten, oder die Testrichtungen nach dem Betrachten der Daten zu wechseln. Es bläht die Falsch-Positiv-Raten auf und trägt maßgeblich zur Replikationskrise bei.
Related Solvers
Try AI-Math for Free
Get step-by-step solutions to any math problem. Upload a photo or type your question.
Start Solving