Trung bình, trung vị và yếu vị là ba cách khác nhau để tóm tắt "phần giữa" của một tập dữ liệu. Chọn sai có thể khiến phân tích của bạn cực kỳ sai lệch.
Trung bình (trung bình cộng)
Trung bình dùng mọi điểm dữ liệu, đó là điểm mạnh và cũng là điểm yếu của nó. Điểm mạnh: tối thiểu hóa tổn thất bình phương, hợp với giải tích, là nền tảng của hồi quy / phương sai / phân phối Gauss. Điểm yếu: một giá trị ngoại lai cực đoan duy nhất có thể kéo nó ra xa phần lớn dữ liệu.
Dùng trung bình khi dữ liệu gần đối xứng và giá trị ngoại lai hiếm hoặc đã được loại bỏ.
Trung vị (giá trị giữa)
Trung vị là quan sát ở giữa sau khi sắp xếp. Với thu nhập, thời gian phản hồi, kích thước tệp và các phân phối đuôi nặng khác, trung vị đại diện tốt hơn nhiều so với trung bình — Bill Gates bước vào một quán rượu làm thu nhập trung bình tăng vọt nhưng trung vị hầu như không nhúc nhích.
Dùng trung vị cho dữ liệu lệch, khi báo cáo một giá trị "điển hình", hoặc khi tính bền vững quan trọng.
Yếu vị (giá trị xuất hiện nhiều nhất)
Yếu vị là giá trị xuất hiện thường xuyên nhất. Chủ yếu hữu ích cho dữ liệu phân loại (màu yêu thích, loại trình duyệt) nơi trung bình và trung vị thậm chí không áp dụng được. Với dữ liệu số liên tục, yếu vị thường không tồn tại theo bất kỳ nghĩa có ý nghĩa nào — mỗi quan sát đều là duy nhất.
Dùng cái nào
| Tình huống | Thước đo tốt nhất |
|---|---|
| Số đối xứng, không có ngoại lai | Trung bình |
| Số lệch (thu nhập, độ trễ) | Trung vị |
| Phân loại | Yếu vị |
| Báo cáo giá trị "điển hình" cho công chúng | Trung vị |
| Nền tảng cho giải tích / thống kê tiếp theo | Trung bình |
Nếu bạn mới bắt đầu thống kê, hãy thấm nhuần điều này: trung bình cho toán, trung vị cho câu chuyện.
Tự thử
Dán bất kỳ tập dữ liệu nào vào Máy tính Trung bình Trung vị Yếu vị của chúng tôi và xem cả ba cùng lúc.
At a glance
| Feature | Trung bình | Trung vị (vs Yếu vị) |
|---|---|---|
| Bị ảnh hưởng bởi giá trị ngoại lai | Mạnh | Hầu như không |
| Hoạt động với dữ liệu phân loại | Không | Không (dùng yếu vị) |
| Là nền tảng của phương sai / hồi quy | Có | Không |
| Tốt nhất cho phân phối lệch | Không | Có |
Dùng trung bình cho dữ liệu số đối xứng, sạch; trung vị cho phân phối lệch hoặc khi báo cáo giá trị "điển hình"; yếu vị cho dữ liệu phân loại.