Regresi linear menemukan garis lurus $y = mx + b$ yang paling baik menyesuaikan sekumpulan titik data $(x, y)$ . "Paling baik" didefinisikan oleh kriteria kuadrat terkecil: meminimalkan jumlah kuadrat jarak vertikal antara garis dan titik-titik data.

Kemiringan dan konstanta memiliki solusi bentuk tertutup:

$m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}$

Koefisien determinasi $R^2$ mengukur kualitas kesesuaian (antara 0 dan 1; semakin dekat ke 1 = kesesuaian semakin baik).

Regresi linear adalah model prediktif paling sederhana dan fondasi metode-metode yang lebih canggih:

Regresi berganda menggunakan beberapa variabel masukan.
Regresi logistik mengadaptasi konsep ini untuk hasil biner.
Ridge / Lasso menambahkan regularisasi.
"Model linear" dalam pembelajaran mesin modern adalah keturunan langsungnya.

Meskipun sederhana, regresi linear tetap banyak digunakan dalam keuangan (CAPM), epidemiologi, ekonomi, dan sebagai garis dasar yang harus dilampaui oleh model-model yang lebih canggih dalam membenarkan kompleksitasnya.

Regresi Linear

Regresi linear menyesuaikan garis lurus pada data: y = mx + b. Garis tersebut meminimalkan jumlah kuadrat jarak vertikal ke titik-titik data (kuadrat terkecil).