statistics

Z 分数(标准分数)

Z 分数衡量某个数值高于或低于平均数多少个标准差。z = (x − μ) / σ。用于跨分布比较数值以及查表求概率。

Z 分数(标准分数)是某个数值与平均数的距离,以标准差为单位来表示:

z=xμσz = \frac{x - \mu}{\sigma}

(样本数据则改用 xˉ\bar{x}ss)。

Z 分数为 +2+2 表示「在平均数之上两个标准差」;1.5-1.5 表示「在平均数之下 1.5 个标准差」。

Z 分数让你能够:

  • 比较来自不同分布的数值——在测验 A(μ=70,σ=5\mu=70, \sigma=5)考 80 分的学生(z=2)比在测验 B(μ=75,σ=10\mu=75, \sigma=10,z=0.5)考 80 分更为出色。
  • 在标准正态分布表中查找概率——P(Z<1.96Z < 1.96) ≈ 0.975,这是 95% 置信区间的基础。
  • 识别离群值——按惯例,在近似正态的数据中 z>3|z| > 3 即标示出一个不寻常的观测值。

标准化(转换为 z 分数)也是机器学习中一个基本的预处理步骤:将输入缩放到平均数 0、标准差 1,有助于梯度下降收敛,并可避免单位较大的特征(例如以美元计的收入相对于以年计的年龄)主宰以距离为基础的模型。