Линейная регрессия находит прямую $y = mx + b$ , которая наилучшим образом подгоняется к набору точек данных $(x, y)$ . «Наилучшим образом» определяется критерием наименьших квадратов: минимизацией суммы квадратов вертикальных расстояний между прямой и точками.

Угловой коэффициент и свободный член имеют решения в замкнутой форме:

$m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}$

Коэффициент детерминации $R^2$ измеряет качество подгонки (от 0 до 1; чем ближе к 1, тем лучше подгонка).

Линейная регрессия — это простейшая прогнозная модель и основа более сложных методов:

Множественная регрессия использует несколько входных переменных.
Логистическая регрессия адаптирует эту идею для бинарных исходов.
Гребневая регрессия / Lasso добавляют регуляризацию.
«Линейные модели» современного машинного обучения — их прямые потомки.

Несмотря на свою простоту, линейная регрессия по-прежнему широко используется в финансах (CAPM), эпидемиологии, экономике и как опорный уровень, относительно которого более изощрённые модели должны оправдывать свою сложность.

Линейная регрессия

Линейная регрессия подгоняет к данным прямую: y = mx + b. Прямая минимизирует сумму квадратов вертикальных расстояний до точек (метод наименьших квадратов).