statistics

Линейная регрессия

Линейная регрессия подгоняет к данным прямую: y = mx + b. Прямая минимизирует сумму квадратов вертикальных расстояний до точек (метод наименьших квадратов).

Линейная регрессия находит прямую y=mx+by = mx + b, которая наилучшим образом подгоняется к набору точек данных (x,y)(x, y). «Наилучшим образом» определяется критерием наименьших квадратов: минимизацией суммы квадратов вертикальных расстояний между прямой и точками.

Угловой коэффициент и свободный член имеют решения в замкнутой форме:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

Коэффициент детерминации R2R^2 измеряет качество подгонки (от 0 до 1; чем ближе к 1, тем лучше подгонка).

Линейная регрессия — это простейшая прогнозная модель и основа более сложных методов:

  • Множественная регрессия использует несколько входных переменных.
  • Логистическая регрессия адаптирует эту идею для бинарных исходов.
  • Гребневая регрессия / Lasso добавляют регуляризацию.
  • «Линейные модели» современного машинного обучения — их прямые потомки.

Несмотря на свою простоту, линейная регрессия по-прежнему широко используется в финансах (CAPM), эпидемиологии, экономике и как опорный уровень, относительно которого более изощрённые модели должны оправдывать свою сложность.