statistics

최빈값

최빈값은 데이터 집합에서 가장 자주 나타나는 값이다. 데이터 집합은 최빈값이 하나일 수도, 여러 개일 수도, 없을 수도 있다. 범주형 데이터에 유용하다.

최빈값은 데이터 집합에서 가장 많이 나타나는 값(또는 값들)이다. 평균이나 중앙값과 달리 최빈값은 산술이 의미가 없는 범주형 데이터(좋아하는 색, 브라우저 종류, 혈액형)에도 의미 있게 적용된다.

데이터 집합은 다음 중 하나가 될 수 있다:

  • 단봉형 — 최빈값이 하나(예: {1, 2, 2, 3, 4})
  • 이봉형 — 최빈값이 둘(예: {1, 1, 2, 3, 3})
  • 다봉형 — 최빈값이 셋 이상
  • 최빈값 없음 — 모든 값이 같은 빈도로 나타남(반올림이 없는 연속 데이터에 전형적)

연속분포의 경우 "최빈값"은 확률밀도함수의 봉우리로 일반화된다. 정규분포는 평균에서 단봉형이고, 혼합 모형은 다봉형이 될 수 있어 서로 다른 부분 모집단이 있음을 시사한다.

최빈값은 이상값에 가장 강건하지만(하나의 극단값이 최빈값이 되는 일은 결코 없다) 데이터의 대부분을 무시한다 — 대칭적인 수치 데이터에는 중심 경향 척도로 부적절하며, 그 경우 평균이나 중앙값이 더 많은 정보를 준다.