statistics

最頻値

最頻値は、データセットの中で最も頻繁に現れる値である。データセットは、最頻値が一つの場合、複数の場合、または存在しない場合がある。カテゴリデータに有用である。

最頻値は、データセットの中で最も多く現れる値(または複数の値)である。平均値や中央値と異なり、最頻値は算術が意味をなさないカテゴリデータ(好きな色、ブラウザの種類、血液型)にも意味をもって適用できる。

データセットは次のいずれかになりうる:

  • 単峰——最頻値が一つ(例:{1, 2, 2, 3, 4})
  • 二峰——最頻値が二つ(例:{1, 1, 2, 3, 3})
  • 多峰——最頻値が三つ以上
  • 最頻値なし——すべての値が同じ頻度で現れる(丸めのない連続データに典型的)

連続分布の場合、「最頻値」は確率密度関数のピークへと一般化される。正規分布はその平均値で単峰であり、混合モデルは多峰になりうるため、異なる部分集団があることを示す。

最頻値は外れ値に対して最も頑健である(一つの極端な値が最頻値になることは決してない)が、データの大部分を無視する——対称な数値データに対しては中心傾向の指標として劣り、その場合は平均値や中央値の方が多くの情報を与える。