Độ lệch chuẩn là khái niệm bị hiểu sai nhiều nhất trong thống kê nhập môn. Người ta biết nó "đo độ phân tán" nhưng đứng hình khi được hỏi con số đó thực sự nghĩa là gì. Hướng dẫn này giải thích nó theo ba cách — hình học, tính toán, và trực giác — để lần tới khi bạn thấy trong một bài báo hay báo cáo, bạn thực sự hiểu nó là gì.
Định nghĩa bằng ngôn ngữ đơn giản
Độ lệch chuẩn trả lời: trung bình, mỗi điểm dữ liệu cách giá trị trung bình bao xa?
Bằng ký hiệu, với một tổng thể gồm giá trị có trung bình :
Đọc to: "độ lệch bình phương trung bình, rồi lấy căn bậc hai."
Tại sao bình phương, rồi lấy căn bậc hai?
Một thử nghiệm đầu tiên hợp lý cho "khoảng cách trung bình tới giá trị trung bình" có thể là — độ lệch tuyệt đối trung bình. Nó hoạt động, và các nhà thống kê đôi khi vẫn dùng (nó bền vững hơn với điểm ngoại lai).
Nhưng giá trị tuyệt đối lại bất tiện về mặt toán học — nó không khả vi tại không, đạo hàm bùng nổ, và bạn không thể làm giải tích với nó một cách gọn gàng. Bình phương né tránh tất cả những điều đó, và căn bậc hai ở cuối đưa đơn vị về lại thang đo ban đầu (nên tính bằng đô la nếu tính bằng đô la, không phải đô la²).
Đây cũng chính là lý do học máy dùng hàm mất mát bình phương (sai số bình phương trung bình) — bình phương khả vi, hợp với giải tích, và các ước lượng thu được thường tối ưu.
Tổng thể và mẫu — chuyện so với
Tồn tại hai công thức, và sự khác biệt rất quan trọng:
- Tổng thể (bạn có tất cả dữ liệu): chia cho . Ký hiệu .
- Mẫu (bạn có một mẫu, muốn ước lượng tổng thể): chia cho . Ký hiệu .
Số trong công thức mẫu là hiệu chỉnh Bessel. Tại sao? Dùng sẽ ước lượng thiếu độ lệch chuẩn của tổng thể một cách có hệ thống vì bạn đã dùng trung bình mẫu (vốn theo cấu trúc là phù hợp nhất với mẫu), ép các độ lệch nhỏ hơn so với khi dùng trung bình tổng thể thực. Chia cho thay vì bù trừ chính xác điều đó.
Hầu hết máy tính và phần mềm mặc định dùng công thức mẫu. Hãy chú ý.
Ví dụ giải mẫu 1: tập dữ liệu nhỏ đối xứng
Dữ liệu: . (8 giá trị; ví dụ kinh điển trong giáo trình.)
- Trung bình: .
- Độ lệch so với trung bình: .
- Độ lệch bình phương: .
- Tổng: .
- Tổng thể (): phương sai , .
- Mẫu (): phương sai , .
Quy tắc 68-95-99,7 (chỉ cho phân phối chuẩn)
Nếu dữ liệu của bạn xấp xỉ chuẩn (hình chuông):
- giá trị nằm trong quanh trung bình.
- trong .
- trong .
Đây là lý do "" hay "hai sigma" là định nghĩa thông thường mặc định của "bất thường về mặt thống kê".
⚠️ Cảnh báo: quy tắc này chỉ áp dụng cho phân phối chuẩn. Với dữ liệu lệch hoặc đuôi nặng (thu nhập, thời gian phản hồi), có thể bao phủ 80% dữ liệu — hoặc 50%. Luôn kiểm tra hình dạng phân phối (biểu đồ tần suất, biểu đồ QQ) trước khi trích các con số 68-95-99,7.
Độ lệch chuẩn và phương sai
Phương sai chỉ là . Chúng chứa thông tin giống hệt nhau, vậy tại sao lại có cả hai?
- Độ lệch chuẩn có cùng đơn vị với dữ liệu — diễn giải được.
- Phương sai phân rã cộng tính cho các biến độc lập ( khi độc lập), khiến nó là đại lượng thuận tiện về mặt đại số cho các chứng minh, kỳ vọng, và ANOVA.
Dùng khi báo cáo; dùng khi tính toán.
Những lỗi thường gặp
- Trích mà không có ngữ cảnh. "" chẳng nghĩa gì nếu bạn không biết trung bình. Luôn ghép cặp: "trung bình , ."
- Lẫn lộn công thức tổng thể và mẫu. Với mẫu nhỏ nó tạo khác biệt thực sự. Với mẫu lớn () khác biệt không đáng kể.
- Quên độ nhạy với điểm ngoại lai. Một giá trị cực trị có thể làm phình to. Với dữ liệu đuôi nặng, hãy báo cáo thêm độ lệch tuyệt đối trung vị (MAD) để bền vững hơn.
- Áp dụng 68-95-99,7 cho dữ liệu không chuẩn. Xem ở trên.
Tự thử
Nhập bất kỳ tập dữ liệu nào vào Máy tính Độ lệch chuẩn miễn phí của chúng tôi — chọn tổng thể hoặc mẫu, xem cách tính từng bước, và đối chiếu với hướng dẫn này.
Tài liệu liên quan: