statistics

카이제곱(χ²) 검정

카이제곱 검정은 범주형 데이터에서 관측 빈도와 기대 빈도를 비교한다. χ² = Σ(O−E)²/E. 적합도 검정과 독립성 검정에 사용된다.

카이제곱(χ2\chi^2) 검정범주형 데이터를 위한 표준 도구이다. 검정 통계량:

χ2=i(OiEi)2Ei\chi^2 = \sum_i \frac{(O_i - E_i)^2}{E_i}

여기서 OiO_i는 관측 빈도, EiE_iH0H_0 하에서의 기대 빈도이다.

자주 쓰이는 세 가지 형태:

  • 적합도 검정: 관측된 분포가 이론적 분포와 일치하는가? (주사위가 공정한가?). df=k1df = k - 1.
  • 독립성 검정: 두 범주형 변수가 독립인가? (성별이 투표 성향과 독립인가?). r×cr \times c 분할표에 대해 df=(r1)(c1)df = (r-1)(c-1).
  • 분산 검정: 덜 일반적이다.

가정: 기대 빈도가 충분히 커야 한다(보통 각 칸에서 5\geq 5). 표본이 작을 때는 대신 피셔의 정확 검정을 사용한다.

카이제곱 분포 자체는 표준 정규분포를 따르는 변수의 제곱합의 분포이며, 기각 임계값을 구성하는 데 쓰인다.