statistics

百分位数

第 k 百分位数是有 k% 的观测值落在其以下的数值。第 50 百分位数即中位数;第 25 与第 75 百分位数即四分位数。

第 k 百分位数 PkP_k 是数据集中有 k%k\% 观测值落在其以下的数值。常见的百分位数:

  • 第 25 百分位数(Q1):下四分位数。
  • 第 50 百分位数(Q2):中位数。
  • 第 75 百分位数(Q3):上四分位数。
  • 第 90、95、99 百分位数:尾部——用于极端值。

四分位距(IQR) = Q3Q1Q3 - Q1,是一个稳健的离散程度量数(与标准差不同,不受离群值影响)。

计算方式:将数据排序,计算名次 r=(k/100)(n+1)r = (k/100)(n+1),取第 rr 个观测值(整数名次之间以插值法处理)。存在多种略有差异的定义——Excel、R、NumPy 采用不同的约定。

应用:标准化测验分数、儿科生长曲线、工程上的 P99 延迟、箱线图。百分位数是非参数的——对分布形状不作任何假设。