Линейная регрессия находит прямую , которая наилучшим образом подгоняется к набору точек данных . «Наилучшим образом» определяется критерием наименьших квадратов: минимизацией суммы квадратов вертикальных расстояний между прямой и точками.
Угловой коэффициент и свободный член имеют решения в замкнутой форме:
Коэффициент детерминации измеряет качество подгонки (от 0 до 1; чем ближе к 1, тем лучше подгонка).
Линейная регрессия — это простейшая прогнозная модель и основа более сложных методов:
- Множественная регрессия использует несколько входных переменных.
- Логистическая регрессия адаптирует эту идею для бинарных исходов.
- Гребневая регрессия / Lasso добавляют регуляризацию.
- «Линейные модели» современного машинного обучения — их прямые потомки.
Несмотря на свою простоту, линейная регрессия по-прежнему широко используется в финансах (CAPM), эпидемиологии, экономике и как опорный уровень, относительно которого более изощрённые модели должны оправдывать свою сложность.