statistics

Z 점수(표준 점수)

Z 점수는 어떤 값이 평균보다 표준편차 단위로 얼마나 위 또는 아래에 있는지를 측정한다. z = (x − μ) / σ. 여러 분포에 걸쳐 값을 비교하거나 확률을 조회하는 데 사용한다.

Z 점수(표준 점수)는 어떤 값의 평균으로부터의 거리를 표준편차 단위로 표현한 것이다:

z=xμσz = \frac{x - \mu}{\sigma}

(표본 데이터에는 xˉ\bar{x}ss 를 사용한다).

Z 점수 +2+2 는 "평균보다 표준편차 2개만큼 위"를, 1.5-1.5 는 "1.5개만큼 아래"를 뜻한다.

Z 점수를 사용하면 다음을 할 수 있다:

  • 서로 다른 분포의 값을 비교한다 — 시험 A(μ=70,σ=5\mu=70, \sigma=5)에서 80점을 받은 학생(z=2)이 시험 B(μ=75,σ=10\mu=75, \sigma=10, z=0.5)에서 80점을 받은 경우보다 더 인상적이다.
  • 표준정규분포표에서 확률을 조회한다 — P(Z<1.96Z < 1.96) ≈ 0.975 이며, 이는 95% 신뢰 구간의 기초이다.
  • 이상치를 식별한다 — 관례상 거의 정규인 데이터에서 z>3|z| > 3 이면 비정상적인 관측을 표시한다.

표준화(z 점수화)는 기계 학습의 기본 전처리 단계이기도 하다. 입력을 평균 0, 표준편차 1로 스케일링하면 경사 하강법의 수렴에 도움이 되고, 단위가 큰 특성(예: 달러 단위의 소득 대 연 단위의 나이)이 거리 기반 모델을 지배하는 것을 막는다.