平均数、中位数与众数是总结数据集“中间”的三种不同方法。选错一个会让你的分析严重误导。
平均数(算术平均)
平均数使用每一个数据点,这既是它的优点也是它的缺点。优点:最小化平方损失,与微积分配合良好,是回归 / 方差 / 高斯分布的基础。缺点:单个极端离群值就能把它拉离数据主体很远。
当数据大致对称且离群值罕见或已被移除时,使用平均数。
中位数(中间值)
中位数是排序后位于中间的观测值。对于收入、响应时间、文件大小及其他重尾分布,中位数比平均数更具代表性——比尔·盖茨走进一间酒吧会抬高平均收入,却几乎不会撼动中位数。
对于偏态数据、报告“典型”值,或当稳健性重要时,使用中位数。
众数(出现最频繁的值)
众数是出现次数最多的值。主要对类别数据有用(最爱的颜色、浏览器类型),在那里平均数与中位数根本不适用。对于连续数值数据,众数通常在任何有意义的层面上都不存在——每个观测值都是唯一的。
该用哪一个
| 情境 | 最佳量数 |
|---|---|
| 对称、无离群值的数值 | 平均数 |
| 偏态数值(收入、延迟) | 中位数 |
| 类别 | 众数 |
| 向一般大众报告“典型”值 | 中位数 |
| 作为进一步微积分 / 统计的基础 | 平均数 |
如果你刚开始学统计,把这一点内化:数学用平均数,故事用中位数。
亲自试试
把任何数据集粘进我们的平均数中位数众数计算器,一次看到三者。
At a glance
| Feature | 平均数 | 中位数(vs 众数) |
|---|---|---|
| 受离群值影响 | 严重 | 几乎不 |
| 适用于类别数据 | 否 | 否(请用众数) |
| 是方差 / 回归的基础 | 是 | 否 |
| 最适合偏态分布 | 否 | 是 |
Verdict
对对称、干净的数值数据用平均数;对偏态分布或报告“典型”值用中位数;对类别数据用众数。