Compare

평균 vs 중앙값 vs 최빈값

평균, 중앙값, 최빈값은 데이터셋의 "중간"을 요약하는 세 가지 서로 다른 방법입니다. 잘못된 것을 고르면 분석이 크게 오해를 부를 수 있습니다.

평균 (산술 평균)

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i

평균은 모든 데이터 점을 사용하는데, 이것이 강점이자 약점입니다. 강점: 제곱 손실을 최소화하고, 미적분과 잘 어울리며, 회귀 / 분산 / 가우스 분포의 기초가 됩니다. 약점: 단 하나의 극단적 이상치가 데이터 대부분에서 멀리 끌고 갈 수 있습니다.

데이터가 대체로 대칭이고 이상치가 드물거나 이미 제거된 경우 평균을 사용하세요.

중앙값 (가운데 값)

중앙값은 정렬한 뒤 가운데에 위치한 관측값입니다. 소득, 응답 시간, 파일 크기 등 꼬리가 두꺼운 분포에서는 중앙값이 평균보다 훨씬 더 대표적입니다. 빌 게이츠가 술집에 들어오면 평균 소득은 치솟지만 중앙값은 거의 움직이지 않습니다.

치우친 데이터, "전형적인" 값을 보고할 때, 또는 견고성이 중요할 때 중앙값을 사용하세요.

최빈값 (가장 자주 나오는 값)

최빈값은 가장 자주 나타나는 값입니다. 주로 범주형 데이터(가장 좋아하는 색, 브라우저 종류)에 유용하며, 거기서는 평균과 중앙값이 아예 적용되지 않습니다. 연속 수치 데이터에서는 최빈값이 의미 있는 형태로 존재하지 않는 경우가 많아, 모든 관측값이 고유합니다.

무엇을 사용할까

시나리오최적의 지표
대칭이고 이상치가 없는 수치평균
치우친 수치 (소득, 지연 시간)중앙값
범주형최빈값
일반 청중에게 "전형적인" 값 보고중앙값
추가 미적분 / 통계의 기초평균

통계를 막 시작했다면 이것을 새기세요: 수학에는 평균, 이야기에는 중앙값.

직접 해보기

아무 데이터셋이나 평균 중앙값 최빈값 계산기에 붙여넣고 세 가지를 한 번에 확인하세요.

At a glance

Feature평균중앙값 (vs 최빈값)
이상치의 영향을 받음크게거의 없음
범주형 데이터에 적용 가능아니요아니요 (최빈값 사용)
분산 / 회귀의 기초아니요
치우친 분포에 가장 적합아니요
Verdict

대칭이고 깨끗한 수치 데이터에는 평균을, 치우친 분포나 "전형적인" 값을 보고할 때는 중앙값을, 범주형 데이터에는 최빈값을 사용하세요.