置信区间(CI)是总体参数(例如均值、比例)的一段合理数值范围,由样本数据构建而成,并附带一个明示的置信水平(常用 95%)。
对于 已知的总体均值,95% 置信区间为
其中 是标准正态分布的第 97.5 百分位数(对应 95%)。
正确的解释:“若我们把这个抽样过程重复许多次,每次都构建一个 CI,则其中约 95% 的 CI 会包含真实的参数。”这是对过程在长期上的可靠度所做的陈述,而不是对某个特定区间。
常见的错误解释(每位统计老师都会反复强调):“真实值落在这个特定区间内的概率为 95%。”这是错的——参数是固定的,随机的是区间。
置信水平涉及一种取舍:
- 99% CI:置信度更高,区间更宽。
- 90% CI:区间更窄,置信度较低。
CI 是 p 值的现代替代方案:它传达关于统计显著性的相同信息,并额外提供效应的大小。