statistics

Tương quan

Tương quan đo độ mạnh và chiều của mối quan hệ tuyến tính giữa hai biến. Hệ số Pearson r nằm trong [-1, 1]: 1 = dương hoàn hảo, -1 = âm hoàn hảo, 0 = không có quan hệ tuyến tính.

Tương quan đo độ mạnh và chiều của mối quan hệ tuyến tính giữa hai biến XXYY. Hệ số tương quan Pearson:

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \in [-1, 1]

Cách diễn giải:

  • r=1r = 1: quan hệ tuyến tính dương hoàn hảo.
  • r=1r = -1: quan hệ tuyến tính âm hoàn hảo.
  • r=0r = 0: không có quan hệ tuyến tính (nhưng có thể có quan hệ phi tuyến!).
  • r>0.7|r| > 0.7: mạnh; 0.3<r<0.70.3 < |r| < 0.7: trung bình; r<0.3|r| < 0.3: yếu.

Những lưu ý then chốt:

  • Tương quan không phải là nhân quả. Doanh số kem tương quan với số ca tử vong do đuối nước — cả hai đều do thời tiết nóng gây ra.
  • Nhạy với giá trị ngoại lai. Một điểm cực trị duy nhất có thể đảo ngược rr.
  • Chỉ tuyến tính. Một quan hệ bậc hai hoàn hảo y=x2y = x^2 cho r0r \approx 0 quanh dữ liệu đối xứng.

Đối với quan hệ đơn điệu phi tuyến hoặc dựa trên thứ hạng, dùng ρ\rho Spearman. Đối với liên hệ giữa các phạm trù, dùng khi bình phương hoặc V Cramér.