statistics

การถดถอยเชิงเส้น

การถดถอยเชิงเส้นเหมาะสายตรงกับข้อมูล: y = mx + b เส้นนี้ทำให้ผลรวมของระยะห่างแนวตั้งกำลังสองจากจุดต่าง ๆ น้อยที่สุด (กำลังสองน้อยที่สุด)

การถดถอยเชิงเส้น หาสายตรง y=mx+by = mx + b ที่เหมาะสมที่สุดกับชุดจุดข้อมูล (x,y)(x, y) "เหมาะสมที่สุด" กำหนดโดยเกณฑ์กำลังสองน้อยที่สุด: ลดผลรวมของระยะห่างแนวตั้งกำลังสองระหว่างเส้นและจุดต่าง ๆ

ความชันและจุดตัดแกนมีคำตอบแบบปิด:

m=nxyxynx2(x)2,b=yˉmxˉm = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}, \qquad b = \bar{y} - m\bar{x}

สัมประสิทธิ์การตัดสินใจ R2R^2 วัดคุณภาพการเหมาะสม (ระหว่าง 0 ถึง 1 ยิ่งใกล้ 1 ยิ่งเหมาะสม)

การถดถอยเชิงเส้นเป็นโมเดลพยากรณ์ที่ง่ายที่สุดและเป็นรากฐานของวิธีที่ซับซ้อนกว่า:

  • การถดถอยพหุ ใช้ตัวแปรป้อนเข้าหลายตัว
  • การถดถอยโลจิสติก ปรับแนวคิดนี้สำหรับผลลัพธ์ไบนารี
  • Ridge / Lasso เพิ่มการปรับสมดุล
  • "โมเดลเชิงเส้น" ในการเรียนรู้ของเครื่องสมัยใหม่เป็นลูกหลานโดยตรง

แม้จะเรียบง่าย การถดถอยเชิงเส้นยังคงใช้กันอย่างแพร่หลายในการเงิน (CAPM) ระบาดวิทยา เศรษฐศาสตร์ และเป็นเส้นฐานที่โมเดลที่ซับซ้อนกว่าต้องพิสูจน์ความซับซ้อนของตน