statistics

Критерий хи-квадрат (χ²)

Критерий хи-квадрат сравнивает наблюдаемые частоты с ожидаемыми для категориальных данных. χ² = Σ(O−E)²/E. Используется для проверки согласия и независимости.

Критерий хи-квадрат (χ2\chi^2) — это стандартный инструмент для категориальных данных. Статистика критерия:

χ2=i(OiEi)2Ei\chi^2 = \sum_i \frac{(O_i - E_i)^2}{E_i}

где OiO_i — наблюдаемые частоты, а EiE_i — ожидаемые при H0H_0.

Три распространённых варианта:

  • Согласие: соответствует ли наблюдаемое распределение теоретическому? (Честна ли игральная кость?). df=k1df = k - 1.
  • Независимость: независимы ли две категориальные переменные? (Независим ли пол от предпочтений в голосовании?). df=(r1)(c1)df = (r-1)(c-1) для таблиц сопряжённости r×cr \times c.
  • Критерий дисперсии: встречается реже.

Предположение: ожидаемые частоты должны быть достаточно большими (обычно 5\geq 5 в каждой ячейке). Для малых выборок используйте вместо этого точный критерий Фишера.

Само распределение хи-квадрат — это распределение суммы квадратов стандартных нормальных величин; оно используется для построения критических значений.