假设检验是一套利用样本数据,在关于总体的两个相互竞争的主张之间做出判定的框架:
- 原假设 :默认的/「没有什么有趣之处」的主张(例如硬币是公正的、药物没有效果)。
- 备择假设 :我们所怀疑/想要证明的事。
步骤:
- 陈述 与 。
- 选择一个显著性水平 (常用 0.05)——错误拒绝的概率(第一类错误)。
- 由数据计算一个检验统计量(z 分数、t 统计量、卡方、F 比值)。
- 计算 p 值——在 之下,观察到至少同样极端之数据的概率。
- 判定:若 则拒绝 ;否则无法拒绝。
两种错误类型:
- 第一类错误:拒绝了为真的 (概率为 )。
- 第二类错误:未能拒绝为假的 (概率为 ); 称为检验功效。
常见的混淆:「无法拒绝」≠「接受 」。没有证据并不等于不存在的证据——样本量过小可能掩盖真实的效应。
这套框架是临床试验、A/B 测试、质量管控,以及大多数已发表之「统计显著性」主张的基础。