最頻値は、データセットの中で最も多く現れる値(または複数の値)である。平均値や中央値と異なり、最頻値は算術が意味をなさないカテゴリデータ(好きな色、ブラウザの種類、血液型)にも意味をもって適用できる。
データセットは次のいずれかになりうる:
- 単峰——最頻値が一つ(例:{1, 2, 2, 3, 4})
- 二峰——最頻値が二つ(例:{1, 1, 2, 3, 3})
- 多峰——最頻値が三つ以上
- 最頻値なし——すべての値が同じ頻度で現れる(丸めのない連続データに典型的)
連続分布の場合、「最頻値」は確率密度関数のピークへと一般化される。正規分布はその平均値で単峰であり、混合モデルは多峰になりうるため、異なる部分集団があることを示す。
最頻値は外れ値に対して最も頑健である(一つの極端な値が最頻値になることは決してない)が、データの大部分を無視する——対称な数値データに対しては中心傾向の指標として劣り、その場合は平均値や中央値の方が多くの情報を与える。