z 得点(標準得点)は、ある値の平均からの距離を標準偏差の単位で表したものである:
(標本データには と を用いる)。
z 得点 は「平均より標準偏差 2 つ分上」を、 は「1.5 つ分下」を意味する。
z 得点を使うと次のことができる:
- 異なる分布の値を比較する——テスト A()で 80 点をとった生徒(z=2)は、テスト B(、z=0.5)で 80 点をとった生徒より優秀である。
- 標準正規分布表で確率を調べる——P() ≈ 0.975 で、これは 95% 信頼区間の基礎となる。
- 外れ値を特定する——慣例として、ほぼ正規なデータでは が異常な観測を示す。
標準化(z 得点化)は機械学習における基本的な前処理でもある。入力を平均 0、標準偏差 1 にスケーリングすると勾配降下法の収束が助けられ、単位の大きい特徴量(例:ドル単位の収入と年単位の年齢)が距離ベースのモデルを支配するのを防げる。