線形回帰は、 のデータ点の集合に最もよく当てはまる直線 を求める手法である。「最もよく」は最小二乗の基準で定義され、直線と各点との鉛直距離の二乗和を最小にする。
傾きと切片は閉形式の解をもつ:
決定係数 は当てはまりの良さを表す(0 から 1 の値で、1 に近いほど当てはまりが良い)。
線形回帰は最も単純な予測モデルであり、より高度な手法の基礎となる:
- 重回帰は複数の入力を用いる。
- ロジスティック回帰はこの考え方を二値の結果に適用する。
- リッジ/ラッソは正則化を加える。
- 現代の機械学習における「線形モデル」はその直系の子孫である。
その単純さにもかかわらず、線形回帰は金融(CAPM)、疫学、経済学で広く使われ続けており、より凝ったモデルがその複雑さを正当化すべき基準(ベースライン)としても用いられる。