중앙값은 정렬된 데이터셋의 가운데 값이다. 개의 데이터를 오름차순으로 정렬했을 때:
- 이 홀수이면 중앙값은 번째 값이다.
- 이 짝수이면 중앙값은 번째 값과 번째 값의 평균이다.
중앙값은 표준적인 중심 측도 중 가장 견고하다. 평균은 하나의 극단적 이상값으로 크게 흔들리지만, 중앙값은 영향을 받지 않는다. 그래서 경제학자들은 평균이 아니라 중앙값 가구 소득을 보고한다 — 베이조스가 한 동네 블록에 들어오면 평균 소득은 수백만으로 치솟지만, 중앙값은 그대로 유지된다.
치우친 분포(소득, 응답 시간, 파일 크기)에는 중앙값을 사용한다. 데이터가 대체로 대칭이고 이상값이 드물면 평균을 사용한다. 중앙값은 절대 편차의 합 을 최소화하는 값이기도 하며, 평균이 제곱 편차를 최소화하는 것과 대응된다.