statistics

Regresi Linear

Regresi linear menyesuaikan garis lurus pada data: y = mx + b. Garis tersebut meminimalkan jumlah kuadrat jarak vertikal ke titik-titik data (kuadrat terkecil).

Regresi linear menemukan garis lurus y=mx+by = mx + b yang paling baik menyesuaikan sekumpulan titik data (x,y)(x, y). "Paling baik" didefinisikan oleh kriteria kuadrat terkecil: meminimalkan jumlah kuadrat jarak vertikal antara garis dan titik-titik data.

Kemiringan dan konstanta memiliki solusi bentuk tertutup:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

Koefisien determinasi R2R^2 mengukur kualitas kesesuaian (antara 0 dan 1; semakin dekat ke 1 = kesesuaian semakin baik).

Regresi linear adalah model prediktif paling sederhana dan fondasi metode-metode yang lebih canggih:

  • Regresi berganda menggunakan beberapa variabel masukan.
  • Regresi logistik mengadaptasi konsep ini untuk hasil biner.
  • Ridge / Lasso menambahkan regularisasi.
  • "Model linear" dalam pembelajaran mesin modern adalah keturunan langsungnya.

Meskipun sederhana, regresi linear tetap banyak digunakan dalam keuangan (CAPM), epidemiologi, ekonomi, dan sebagai garis dasar yang harus dilampaui oleh model-model yang lebih canggih dalam membenarkan kompleksitasnya.