Compare

Trung bình vs trung vị vs yếu vị

Trung bình, trung vịyếu vị là ba cách khác nhau để tóm tắt "phần giữa" của một tập dữ liệu. Chọn sai có thể khiến phân tích của bạn cực kỳ sai lệch.

Trung bình (trung bình cộng)

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i

Trung bình dùng mọi điểm dữ liệu, đó là điểm mạnh và cũng là điểm yếu của nó. Điểm mạnh: tối thiểu hóa tổn thất bình phương, hợp với giải tích, là nền tảng của hồi quy / phương sai / phân phối Gauss. Điểm yếu: một giá trị ngoại lai cực đoan duy nhất có thể kéo nó ra xa phần lớn dữ liệu.

Dùng trung bình khi dữ liệu gần đối xứng và giá trị ngoại lai hiếm hoặc đã được loại bỏ.

Trung vị (giá trị giữa)

Trung vị là quan sát ở giữa sau khi sắp xếp. Với thu nhập, thời gian phản hồi, kích thước tệp và các phân phối đuôi nặng khác, trung vị đại diện tốt hơn nhiều so với trung bình — Bill Gates bước vào một quán rượu làm thu nhập trung bình tăng vọt nhưng trung vị hầu như không nhúc nhích.

Dùng trung vị cho dữ liệu lệch, khi báo cáo một giá trị "điển hình", hoặc khi tính bền vững quan trọng.

Yếu vị (giá trị xuất hiện nhiều nhất)

Yếu vị là giá trị xuất hiện thường xuyên nhất. Chủ yếu hữu ích cho dữ liệu phân loại (màu yêu thích, loại trình duyệt) nơi trung bình và trung vị thậm chí không áp dụng được. Với dữ liệu số liên tục, yếu vị thường không tồn tại theo bất kỳ nghĩa có ý nghĩa nào — mỗi quan sát đều là duy nhất.

Dùng cái nào

Tình huốngThước đo tốt nhất
Số đối xứng, không có ngoại laiTrung bình
Số lệch (thu nhập, độ trễ)Trung vị
Phân loạiYếu vị
Báo cáo giá trị "điển hình" cho công chúngTrung vị
Nền tảng cho giải tích / thống kê tiếp theoTrung bình

Nếu bạn mới bắt đầu thống kê, hãy thấm nhuần điều này: trung bình cho toán, trung vị cho câu chuyện.

Tự thử

Dán bất kỳ tập dữ liệu nào vào Máy tính Trung bình Trung vị Yếu vị của chúng tôi và xem cả ba cùng lúc.

At a glance

FeatureTrung bìnhTrung vị (vs Yếu vị)
Bị ảnh hưởng bởi giá trị ngoại laiMạnhHầu như không
Hoạt động với dữ liệu phân loạiKhôngKhông (dùng yếu vị)
Là nền tảng của phương sai / hồi quyKhông
Tốt nhất cho phân phối lệchKhông
Verdict

Dùng trung bình cho dữ liệu số đối xứng, sạch; trung vị cho phân phối lệch hoặc khi báo cáo giá trị "điển hình"; yếu vị cho dữ liệu phân loại.