statistics

중앙값

중앙값은 정렬된 데이터셋의 가운데 값이다. 데이터 개수가 짝수이면 가운데 두 값의 평균을 취한다. 이상값에 대해 견고하다.

중앙값은 정렬된 데이터셋의 가운데 값이다. nn 개의 데이터를 오름차순으로 정렬했을 때:

  • nn 이 홀수이면 중앙값은 (n+12)\left(\frac{n+1}{2}\right) 번째 값이다.
  • nn 이 짝수이면 중앙값은 n2\frac{n}{2} 번째 값과 (n2+1)\left(\frac{n}{2}+1\right) 번째 값의 평균이다.

중앙값은 표준적인 중심 측도 중 가장 견고하다. 평균은 하나의 극단적 이상값으로 크게 흔들리지만, 중앙값은 영향을 받지 않는다. 그래서 경제학자들은 평균이 아니라 중앙값 가구 소득을 보고한다 — 베이조스가 한 동네 블록에 들어오면 평균 소득은 수백만으로 치솟지만, 중앙값은 그대로 유지된다.

치우친 분포(소득, 응답 시간, 파일 크기)에는 중앙값을 사용한다. 데이터가 대체로 대칭이고 이상값이 드물면 평균을 사용한다. 중앙값은 절대 편차의 합 xic\sum |x_i - c| 을 최소화하는 값이기도 하며, 평균이 제곱 편차를 최소화하는 것과 대응된다.