AI-Math - P 值计算器

什么是 P 值？

P 值是在假设原假设 $H_0$ 为真的前提下，观察到与实际结果一样极端或更极端结果的概率。

形式上，对于观测值为 $t$ 的检验统计量 $T$ ：

右尾： $p = P(T \geq t \mid H_0)$
左尾： $p = P(T \leq t \mid H_0)$
双尾： $p = 2 \cdot P(T \geq |t| \mid H_0)$

解读：P 值小意味着若 $H_0$ 为真则观测数据会令人意外，所以我们有反对 $H_0$ 的证据。P 值大意味着数据与 $H_0$ 一致——但不能证明 $H_0$ 为真。

决策规则：把 $p$ 与预先选定的显著性水平 $\alpha$ （通常 0.05）比较：

$p < \alpha$ → 拒绝 $H_0$ （「统计显著」）
$p \geq \alpha$ → 不拒绝 $H_0$ （证据不足）

P 值不是什么：

它不是 $H_0$ 为真的概率。
它不是备择假设 $H_1$ 为真的概率。
它不是效应量的度量。
它不能区分「实际显著性」和「统计显著性」。

如何计算与使用 P 值

分步

陈述假设 $H_0$ 和 $H_1$ 。
选择适合数据的检验（z 检验、t 检验、卡方检验、F 检验……）。
从数据计算检验统计量。
根据 $H_1$ 确定尾数：右尾（ $>$ ）、左尾（ $<$ ）或双尾（ $\neq$ ）。
从检验的分布求 P 值。
与 $\alpha$ 比较并得出结论。

由 Z 统计量求 P 值

对于标准正态 $Z$ ：

右尾： $p = 1 - \Phi(z)$
左尾： $p = \Phi(z)$
双尾： $p = 2(1 - \Phi(|z|))$

速查： $z = 1.96$ → 双尾 $p \approx 0.05$ 。 $z = 2.576$ → 双尾 $p \approx 0.01$ 。

由 T 统计量求 P 值

用自由度为 $n - 1$ （或检验指定值）的 t 分布。尾数逻辑与 z 相同，但小自由度时该分布尾部稍重。

由卡方统计量求 P 值

卡方检验本质上是右尾的，因为 $\chi^2 \geq 0$ 且较大的值表示与 $H_0$ 拟合更差：

$p = P(\chi^2_{df} \geq \text{observed})$

单尾与双尾：用哪个？

双尾：当你关注 $H_0$ 任一方向的偏离时。大多数学术场合的默认值。
单尾：当备择假设有方向且预先指定时（ $H_1: \mu > 0$ ，而非 $\mu \neq 0$ ）。若方向匹配则 P 值减半。

绝不要看到数据后再选尾数——那是 P 值操纵。

常见显著性阈值

$\alpha$	常用标签
0.10	暗示性
0.05	标准
0.01	强
0.001	非常强

美国统计协会警告不要把 $\alpha = 0.05$ 当作明确分界线——背景和效应量比跨过某个阈值更重要。

需要避免的常见错误

「P 值是 $H_0$ 为真的概率」：错误。P 值是在假设 $H_0$ 为真的前提下计算的；它不衡量 $H_0$ 有多可能为真。
把 $p = 0.049$ 和 $p = 0.051$ 视为本质不同：它们不是。0.05 阈值是约定，不是相变。
看到数据后再选尾数：如果你看到 $z = -2$ 然后改用左尾检验，就把假阳性率翻倍了。要预先指定。
混淆显著性与效应量：在巨大样本下的微小效应可能「高度显著」却几乎无实际意义。始终在 P 值旁报告效应量。
多重比较膨胀：在 $\alpha = 0.05$ 下做 20 次检验，偶然预期会出现一个假阳性。使用 Bonferroni 或 FDR 校正。
「 $p > 0.05$ 证明 $H_0$ 」：不。不拒绝不等于接受。它只意味着在此样本量下数据没有足够反对 $H_0$ 的证据。

示例题目

Step 1: 查

\Phi(2.1) \approx 0.9821

Step 2: 右尾概率：

1 - 0.9821 = 0.0179

Step 3: 双尾 P 值：

2 \times 0.0179 = 0.0358

Answer:

p \approx 0.0358

(significant at

\alpha = 0.05

)

Step 1: 用自由度

df = 19

的 t 分布

Step 2: 由 t 表：

P(T_{19} \geq 1.8) \approx 0.0438

Step 3: 与常见阈值比较：在

\alpha = 0.05

下显著，在

\alpha = 0.01

下不显著

Answer:

p \approx 0.044

(significant at

\alpha = 0.05

)

Step 1: 卡方是右尾的

Step 2: 由卡方表求

P(\chi^2_3 \geq 7.5)

Step 3: df = 3 的临界值：

\chi^2_{0.10} = 6.25

，

\chi^2_{0.05} = 7.81

Step 4:

7.5

介于两者之间，所以

0.05 < p < 0.10

Step 5: 更精确地，

p \approx 0.058

Answer:

p \approx 0.058

(not significant at

\alpha = 0.05

, suggestive at

\alpha = 0.10

)

常见问题

它意味着如果原假设为真，则观测数据（或更极端的数据）在重复抽样中出现的频率不到 5%。按约定这被视为「统计显著」——但这并不意味着原假设必然为假，也不衡量效应大小。

P 值是在*假设* H₀ 为真的前提下计算的——它以 H₀ 为条件。计算 P(H₀ 为真 | 数据) 需要带有 H₀ 先验概率的贝叶斯方法，而频率派 P 值不使用它。

只有当研究问题确实有方向且在看到数据之前预先指定时——例如，新药必须比安慰剂表现*更好*才有用，表现更差等同于无效。事后选尾数是 P 值操纵。

P 值操纵指做许多分析（不同子集、变换、剔除）只报告显著的那些，或看到数据后切换检验方向。它会膨胀假阳性率，是可重复性危机的主要原因之一。

P 值计算器

用 AI 分步计算并解读假设检验的 P 值

什么是 P 值？

如何计算与使用 P 值

分步

由 Z 统计量求 P 值

由 T 统计量求 P 值

由卡方统计量求 P 值

单尾与双尾：用哪个？

常见显著性阈值

需要避免的常见错误

示例题目

常见问题

p < 0.05 是什么意思？

为什么 P 值不是原假设为真的概率？

什么时候该用单尾检验？

什么是 P 值操纵（p-hacking）？

相关求解器

相关学习指南

免费试用 AI-Math

P 值计算器

用 AI 分步计算并解读假设检验的 P 值

什么是 P 值？

如何计算与使用 P 值

分步

由 Z 统计量求 P 值

由 T 统计量求 P 值

由卡方统计量求 P 值

单尾与双尾：用哪个？

常见显著性阈值

需要避免的常见错误

示例题目

Problem: Findthep−valueforFind the p-value for Findthep−valueforz = 2.1(two−tailedtest) (two-tailed test)(two−tailedtest)

Problem: Findtheright−tailedp−valueforFind the right-tailed p-value for Findtheright−tailedp−valuefort = 1.8with19degreesoffreedom with 19 degrees of freedomwith19degreesoffreedom

Problem: Achi−squaretestgivesA chi-square test gives Achi−squaretestgives\chi^2 = 7.5with3degreesoffreedom.Findthep−value with 3 degrees of freedom. Find the p-valuewith3degreesoffreedom.Findthep−value

常见问题

p < 0.05 是什么意思？

p < 0.05 是什么意思？

为什么 P 值不是原假设为真的概率？

为什么 P 值不是原假设为真的概率？

什么时候该用单尾检验？

什么时候该用单尾检验？

什么是 P 值操纵（p-hacking）？

什么是 P 值操纵（p-hacking）？

相关求解器

相关学习指南

免费试用 AI-Math