假设检验是统计推断的主力工具,从临床试验到网站的 A/B 测试,处处都在用它。然而它也是统计学中最被误解的话题。本指南把整条流程清晰地走一遍,让你真正明白 p 值到底意味着什么。
五个步骤
- 陈述 和 :原假设(现状)和备择假设(你想支持的论断)。
- 选定显著性水平 :通常是 0.05 或 0.01。
- 从你的数据计算检验统计量(、、 等)。
- 求 p 值:在 为真的前提下,看到这样极端数据的概率。
- 作出判断:若 ,拒绝 ;否则不能拒绝。
注意:"不能拒绝" ≠ "接受 "。你只是没有足够的证据反对它而已。
单样本 z 检验(解题示例)
某工厂声称其灯泡平均寿命 1000 小时()。你检验了 25 个灯泡,测得 。在 下,这个声称被推翻了吗?
- ,。
- ,双侧检验。
- 检验统计量:。
- p 值:。
- 由于 ,拒绝 。平均寿命与 1000 小时有显著差异。
选对检验方法
| 情形 | 检验 |
|---|---|
| 一个均值, 已知 | 单样本 z 检验 |
| 一个均值, 未知,n 较小 | 单样本 t 检验 |
| 两个均值,独立样本 | 双样本 t 检验 |
| 两个配对均值 | 配对 t 检验 |
| 比例 | 比例的 z 检验 |
| 拟合优度 / 列联表 | 卡方 |
第一类错误 vs 第二类错误
- 第一类错误:拒绝一个为真的 。概率 = 。
- 第二类错误:没有拒绝一个为假的 。概率 = 。
- 检验功效 = :正确检出真实效应的概率。
这三者一起联动:在样本量固定时,缩小 会抬高 ;增大样本量则会同时降低两者。
常见错误
- "p 值 = 为真的概率"——错误。p 值是 ,而不是 。
- 多重比较——在 下做 20 次检验,平均必然会出现约 1 个假阳性。要使用校正。
- 把显著性与重要性混为一谈——一个伴随巨大 的微小效应可能在统计上高度显著,但在实践中无关紧要。
用 AI 假设检验求解器试试
用假设检验求解器输入你的数据,得到检验统计量、p 值和判断结论。
相关参考: