statistics

z 得点(標準得点)

z 得点は、ある値が平均からどれだけ標準偏差の単位で上または下にあるかを測る。z = (x − μ) / σ。異なる分布間で値を比較したり確率を求めたりするのに使う。

z 得点(標準得点)は、ある値の平均からの距離を標準偏差の単位で表したものである:

z=xμσz = \frac{x - \mu}{\sigma}

(標本データには xˉ\bar{x}ss を用いる)。

z 得点 +2+2 は「平均より標準偏差 2 つ分上」を、1.5-1.5 は「1.5 つ分下」を意味する。

z 得点を使うと次のことができる:

  • 異なる分布の値を比較する——テスト A(μ=70,σ=5\mu=70, \sigma=5)で 80 点をとった生徒(z=2)は、テスト B(μ=75,σ=10\mu=75, \sigma=10、z=0.5)で 80 点をとった生徒より優秀である。
  • 標準正規分布表で確率を調べる——P(Z<1.96Z < 1.96) ≈ 0.975 で、これは 95% 信頼区間の基礎となる。
  • 外れ値を特定する——慣例として、ほぼ正規なデータでは z>3|z| > 3 が異常な観測を示す。

標準化(z 得点化)は機械学習における基本的な前処理でもある。入力を平均 0、標準偏差 1 にスケーリングすると勾配降下法の収束が助けられ、単位の大きい特徴量(例:ドル単位の収入と年単位の年齢)が距離ベースのモデルを支配するのを防げる。