Compare

平均数 vs 中位数 vs 众数

平均数中位数众数是总结数据集“中间”的三种不同方法。选错一个会让你的分析严重误导。

平均数(算术平均)

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i

平均数使用每一个数据点,这既是它的优点也是它的缺点。优点:最小化平方损失,与微积分配合良好,是回归 / 方差 / 高斯分布的基础。缺点:单个极端离群值就能把它拉离数据主体很远。

当数据大致对称且离群值罕见或已被移除时,使用平均数。

中位数(中间值)

中位数是排序后位于中间的观测值。对于收入、响应时间、文件大小及其他重尾分布,中位数比平均数更具代表性——比尔·盖茨走进一间酒吧会抬高平均收入,却几乎不会撼动中位数。

对于偏态数据、报告“典型”值,或当稳健性重要时,使用中位数。

众数(出现最频繁的值)

众数是出现次数最多的值。主要对类别数据有用(最爱的颜色、浏览器类型),在那里平均数与中位数根本不适用。对于连续数值数据,众数通常在任何有意义的层面上都不存在——每个观测值都是唯一的。

该用哪一个

情境最佳量数
对称、无离群值的数值平均数
偏态数值(收入、延迟)中位数
类别众数
向一般大众报告“典型”值中位数
作为进一步微积分 / 统计的基础平均数

如果你刚开始学统计,把这一点内化:数学用平均数,故事用中位数

亲自试试

把任何数据集粘进我们的平均数中位数众数计算器,一次看到三者。

At a glance

Feature平均数中位数(vs 众数)
受离群值影响严重几乎不
适用于类别数据否(请用众数)
是方差 / 回归的基础
最适合偏态分布
Verdict

对对称、干净的数值数据用平均数;对偏态分布或报告“典型”值用中位数;对类别数据用众数