statistics

線形回帰

線形回帰はデータに直線 y = mx + b を当てはめる。この直線は、各点までの鉛直距離の二乗和を最小にする(最小二乗法)。

線形回帰は、(x,y)(x, y) のデータ点の集合に最もよく当てはまる直線 y=mx+by = mx + b を求める手法である。「最もよく」は最小二乗の基準で定義され、直線と各点との鉛直距離の二乗和を最小にする。

傾きと切片は閉形式の解をもつ:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

決定係数 R2R^2 は当てはまりの良さを表す(0 から 1 の値で、1 に近いほど当てはまりが良い)。

線形回帰は最も単純な予測モデルであり、より高度な手法の基礎となる:

  • 重回帰は複数の入力を用いる。
  • ロジスティック回帰はこの考え方を二値の結果に適用する。
  • リッジ/ラッソは正則化を加える。
  • 現代の機械学習における「線形モデル」はその直系の子孫である。

その単純さにもかかわらず、線形回帰は金融(CAPM)、疫学、経済学で広く使われ続けており、より凝ったモデルがその複雑さを正当化すべき基準(ベースライン)としても用いられる。