P 值计算器
用 AI 分步计算并解读假设检验的 P 值
拖拽或 点击 上传图片或 PDF
∑Math Input
p-value for z = 2.1 two-tailed
p-value for t = 1.8 with 19 degrees of freedom, right-tailed
p-value for chi-square = 7.5 with 3 df
Is p = 0.03 significant at alpha = 0.05?
什么是 P 值?
P 值是在假设原假设 为真的前提下,观察到与实际结果一样极端或更极端结果的概率。
形式上,对于观测值为 的检验统计量 :
- 右尾:
- 左尾:
- 双尾:
解读:P 值小意味着若 为真则观测数据会令人意外,所以我们有反对 的证据。P 值大意味着数据与 一致——但不能证明 为真。
决策规则:把 与预先选定的显著性水平 (通常 0.05)比较:
- → 拒绝 (「统计显著」)
- → 不拒绝 (证据不足)
P 值不是什么:
- 它不是 为真的概率。
- 它不是备择假设 为真的概率。
- 它不是效应量的度量。
- 它不能区分「实际显著性」和「统计显著性」。
如何计算与使用 P 值
分步
- 陈述假设 和 。
- 选择适合数据的检验(z 检验、t 检验、卡方检验、F 检验……)。
- 从数据计算检验统计量。
- 根据 确定尾数:右尾()、左尾()或双尾()。
- 从检验的分布求 P 值。
- 与 比较并得出结论。
由 Z 统计量求 P 值
对于标准正态 :
- 右尾:
- 左尾:
- 双尾:
速查: → 双尾 。 → 双尾 。
由 T 统计量求 P 值
用自由度为 (或检验指定值)的 t 分布。尾数逻辑与 z 相同,但小自由度时该分布尾部稍重。
由卡方统计量求 P 值
卡方检验本质上是右尾的,因为 且较大的值表示与 拟合更差:
单尾与双尾:用哪个?
- 双尾:当你关注 任一方向的偏离时。大多数学术场合的默认值。
- 单尾:当备择假设有方向且预先指定时(,而非 )。若方向匹配则 P 值减半。
绝不要看到数据后再选尾数——那是 P 值操纵。
常见显著性阈值
| 常用标签 | |
|---|---|
| 0.10 | 暗示性 |
| 0.05 | 标准 |
| 0.01 | 强 |
| 0.001 | 非常强 |
美国统计协会警告不要把 当作明确分界线——背景和效应量比跨过某个阈值更重要。
需要避免的常见错误
- 「P 值是 为真的概率」:错误。P 值是在假设 为真的前提下计算的;它不衡量 有多可能为真。
- 把 和 视为本质不同:它们不是。0.05 阈值是约定,不是相变。
- 看到数据后再选尾数:如果你看到 然后改用左尾检验,就把假阳性率翻倍了。要预先指定。
- 混淆显著性与效应量:在巨大样本下的微小效应可能「高度显著」却几乎无实际意义。始终在 P 值旁报告效应量。
- 多重比较膨胀:在 下做 20 次检验,偶然预期会出现一个假阳性。使用 Bonferroni 或 FDR 校正。
- 「 证明 」:不。不拒绝不等于接受。它只意味着在此样本量下数据没有足够反对 的证据。
示例题目
Step 1: 查
Step 2: 右尾概率:
Step 3: 双尾 P 值:
Answer: (significant at )
Step 1: 用自由度 的 t 分布
Step 2: 由 t 表:
Step 3: 与常见阈值比较:在 下显著,在 下不显著
Answer: (significant at )
Step 1: 卡方是右尾的
Step 2: 由卡方表求
Step 3: df = 3 的临界值:,
Step 4: 介于两者之间,所以
Step 5: 更精确地,
Answer: (not significant at , suggestive at )
常见问题
它意味着如果原假设为真,则观测数据(或更极端的数据)在重复抽样中出现的频率不到 5%。按约定这被视为「统计显著」——但这并不意味着原假设必然为假,也不衡量效应大小。
P 值是在*假设* H₀ 为真的前提下计算的——它以 H₀ 为条件。计算 P(H₀ 为真 | 数据) 需要带有 H₀ 先验概率的贝叶斯方法,而频率派 P 值不使用它。
只有当研究问题确实有方向且在看到数据之前预先指定时——例如,新药必须比安慰剂表现*更好*才有用,表现更差等同于无效。事后选尾数是 P 值操纵。
P 值操纵指做许多分析(不同子集、变换、剔除)只报告显著的那些,或看到数据后切换检验方向。它会膨胀假阳性率,是可重复性危机的主要原因之一。
相关求解器
相关学习指南
免费试用 AI-Math
任何数学问题都能获得分步解答。拍照上传或输入问题即可。
开始解题