众数是数据集中出现最多次的数值(或数个数值)。与平均数和中位数不同,众数对于算术运算没有意义的类别型数据(最喜欢的颜色、浏览器类型、血型)也能有意义地适用。
一个数据集可以是:
- 单峰——只有一个众数(例如 {1, 2, 2, 3, 4})
- 双峰——有两个众数(例如 {1, 1, 2, 3, 3})
- 多峰——有两个以上的众数
- 无众数——所有数值出现次数相同(未经四舍五入的连续数据常见此情形)
对于连续分布,“众数”推广为概率密度函数的峰值。正态分布在其平均数处呈单峰;混合模型可能是多峰的,这表示存在不同的子总体。
众数对离群值最为稳健(单一极端值绝不会成为众数),但它忽略了大部分数据——对于对称的数值数据,它是较差的集中趋势量数,此时平均数或中位数能提供更多信息。