P 值计算器

用 AI 分步计算并解读假设检验的 P 值

拖拽或 点击 上传图片或 PDF

Math Input
p-value for z = 2.1 two-tailed
p-value for t = 1.8 with 19 degrees of freedom, right-tailed
p-value for chi-square = 7.5 with 3 df
Is p = 0.03 significant at alpha = 0.05?

什么是 P 值?

P 值是在假设原假设 H0H_0 为真的前提下,观察到与实际结果一样极端或更极端结果的概率。

形式上,对于观测值为 tt 的检验统计量 TT

  • 右尾p=P(TtH0)p = P(T \geq t \mid H_0)
  • 左尾p=P(TtH0)p = P(T \leq t \mid H_0)
  • 双尾p=2P(TtH0)p = 2 \cdot P(T \geq |t| \mid H_0)

解读:P 值小意味着若 H0H_0 为真则观测数据会令人意外,所以我们有反对 H0H_0 的证据。P 值大意味着数据与 H0H_0 一致——但不能证明 H0H_0 为真。

决策规则:把 pp 与预先选定的显著性水平 α\alpha(通常 0.05)比较:

  • p<αp < \alpha → 拒绝 H0H_0(「统计显著」)
  • pαp \geq \alpha → 不拒绝 H0H_0(证据不足)

P 值不是什么

  • 不是 H0H_0 为真的概率。
  • 不是备择假设 H1H_1 为真的概率。
  • 不是效应量的度量。
  • 不能区分「实际显著性」和「统计显著性」。

如何计算与使用 P 值

分步

  1. 陈述假设 H0H_0H1H_1
  2. 选择适合数据的检验(z 检验、t 检验、卡方检验、F 检验……)。
  3. 从数据计算检验统计量
  4. 根据 H1H_1 确定尾数:右尾(>>)、左尾(<<)或双尾(\neq)。
  5. 从检验的分布求 P 值
  6. α\alpha 比较并得出结论。

由 Z 统计量求 P 值

对于标准正态 ZZ

  • 右尾:p=1Φ(z)p = 1 - \Phi(z)
  • 左尾:p=Φ(z)p = \Phi(z)
  • 双尾:p=2(1Φ(z))p = 2(1 - \Phi(|z|))

速查:z=1.96z = 1.96 → 双尾 p0.05p \approx 0.05z=2.576z = 2.576 → 双尾 p0.01p \approx 0.01

由 T 统计量求 P 值

用自由度为 n1n - 1(或检验指定值)的 t 分布。尾数逻辑与 z 相同,但小自由度时该分布尾部稍重。

由卡方统计量求 P 值

卡方检验本质上是右尾的,因为 χ20\chi^2 \geq 0 且较大的值表示与 H0H_0 拟合更差:

p=P(χdf2observed)p = P(\chi^2_{df} \geq \text{observed})

单尾与双尾:用哪个?

  • 双尾:当你关注 H0H_0 任一方向的偏离时。大多数学术场合的默认值。
  • 单尾:当备择假设有方向且预先指定时(H1:μ>0H_1: \mu > 0,而非 μ0\mu \neq 0)。若方向匹配则 P 值减半。

绝不要看到数据后再选尾数——那是 P 值操纵。

常见显著性阈值

α\alpha常用标签
0.10暗示性
0.05标准
0.01
0.001非常强

美国统计协会警告不要把 α=0.05\alpha = 0.05 当作明确分界线——背景和效应量比跨过某个阈值更重要。

需要避免的常见错误

  • 「P 值是 H0H_0 为真的概率」:错误。P 值是在假设 H0H_0 为真的前提下计算的;它不衡量 H0H_0 有多可能为真。
  • p=0.049p = 0.049p=0.051p = 0.051 视为本质不同:它们不是。0.05 阈值是约定,不是相变。
  • 看到数据后再选尾数:如果你看到 z=2z = -2 然后改用左尾检验,就把假阳性率翻倍了。要预先指定。
  • 混淆显著性与效应量:在巨大样本下的微小效应可能「高度显著」却几乎无实际意义。始终在 P 值旁报告效应量。
  • 多重比较膨胀:在 α=0.05\alpha = 0.05 下做 20 次检验,偶然预期会出现一个假阳性。使用 Bonferroni 或 FDR 校正。
  • p>0.05p > 0.05 证明 H0H_0:不。不拒绝不等于接受。它只意味着在此样本量下数据没有足够反对 H0H_0 的证据。

示例题目

Step 1:Φ(2.1)0.9821\Phi(2.1) \approx 0.9821
Step 2: 右尾概率:10.9821=0.01791 - 0.9821 = 0.0179
Step 3: 双尾 P 值:2×0.0179=0.03582 \times 0.0179 = 0.0358
Answer: p0.0358p \approx 0.0358 (significant at α=0.05\alpha = 0.05)

Step 1: 用自由度 df=19df = 19 的 t 分布
Step 2: 由 t 表:P(T191.8)0.0438P(T_{19} \geq 1.8) \approx 0.0438
Step 3: 与常见阈值比较:在 α=0.05\alpha = 0.05 下显著,在 α=0.01\alpha = 0.01 下不显著
Answer: p0.044p \approx 0.044 (significant at α=0.05\alpha = 0.05)

Step 1: 卡方是右尾的
Step 2: 由卡方表求 P(χ327.5)P(\chi^2_3 \geq 7.5)
Step 3: df = 3 的临界值:χ0.102=6.25\chi^2_{0.10} = 6.25χ0.052=7.81\chi^2_{0.05} = 7.81
Step 4: 7.57.5 介于两者之间,所以 0.05<p<0.100.05 < p < 0.10
Step 5: 更精确地,p0.058p \approx 0.058
Answer: p0.058p \approx 0.058 (not significant at α=0.05\alpha = 0.05, suggestive at α=0.10\alpha = 0.10)

常见问题

它意味着如果原假设为真,则观测数据(或更极端的数据)在重复抽样中出现的频率不到 5%。按约定这被视为「统计显著」——但这并不意味着原假设必然为假,也不衡量效应大小。

P 值是在*假设* H₀ 为真的前提下计算的——它以 H₀ 为条件。计算 P(H₀ 为真 | 数据) 需要带有 H₀ 先验概率的贝叶斯方法,而频率派 P 值不使用它。

只有当研究问题确实有方向且在看到数据之前预先指定时——例如,新药必须比安慰剂表现*更好*才有用,表现更差等同于无效。事后选尾数是 P 值操纵。

P 值操纵指做许多分析(不同子集、变换、剔除)只报告显著的那些,或看到数据后切换检验方向。它会膨胀假阳性率,是可重复性危机的主要原因之一。

相关求解器

相关学习指南

免费试用 AI-Math

任何数学问题都能获得分步解答。拍照上传或输入问题即可。

开始解题