What does standard deviation measure?

Standard deviation measures the average amount each data point deviates from the mean. A small standard deviation indicates data clustered tightly around the mean; a large one indicates the data is spread out.

What is the difference between population and sample standard deviation?

Population standard deviation (σ) divides by N (the total count), while sample standard deviation (s) divides by N−1. The N−1 correction (Bessel's correction) gives an unbiased estimate when working with a sample drawn from a larger population.

How is standard deviation related to variance?

Variance is the square of standard deviation (σ² or s²). Standard deviation is the square root of variance and is expressed in the same units as the original data, making it more interpretable in context.

AI-Math - Hiểu độ lệch chuẩn không phải rơi nước mắt

Độ lệch chuẩn là khái niệm bị hiểu sai nhiều nhất trong thống kê nhập môn. Người ta biết nó "đo độ phân tán" nhưng đứng hình khi được hỏi con số đó thực sự nghĩa là gì. Hướng dẫn này giải thích nó theo ba cách — hình học, tính toán, và trực giác — để lần tới khi bạn thấy $\sigma$ trong một bài báo hay báo cáo, bạn thực sự hiểu nó là gì.

Định nghĩa bằng ngôn ngữ đơn giản

Độ lệch chuẩn trả lời: trung bình, mỗi điểm dữ liệu cách giá trị trung bình bao xa?

Bằng ký hiệu, với một tổng thể gồm $N$ giá trị $x_1, \ldots, x_N$ có trung bình $\mu$ :

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

Đọc to: "độ lệch bình phương trung bình, rồi lấy căn bậc hai."

Tại sao bình phương, rồi lấy căn bậc hai?

Một thử nghiệm đầu tiên hợp lý cho "khoảng cách trung bình tới giá trị trung bình" có thể là $\frac{1}{N}\sum |x_i - \mu|$ — độ lệch tuyệt đối trung bình. Nó hoạt động, và các nhà thống kê đôi khi vẫn dùng (nó bền vững hơn với điểm ngoại lai).

Nhưng giá trị tuyệt đối lại bất tiện về mặt toán học — nó không khả vi tại không, đạo hàm bùng nổ, và bạn không thể làm giải tích với nó một cách gọn gàng. Bình phương né tránh tất cả những điều đó, và căn bậc hai ở cuối đưa đơn vị về lại thang đo ban đầu (nên $\sigma$ tính bằng đô la nếu $x$ tính bằng đô la, không phải đô la²).

Đây cũng chính là lý do học máy dùng hàm mất mát bình phương (sai số bình phương trung bình) — bình phương khả vi, hợp với giải tích, và các ước lượng thu được thường tối ưu.

Tổng thể và mẫu — chuyện $n-1$ so với $n$

Tồn tại hai công thức, và sự khác biệt rất quan trọng:

Tổng thể (bạn có tất cả dữ liệu): chia cho $N$ . Ký hiệu $\sigma$ .
Mẫu (bạn có một mẫu, muốn ước lượng tổng thể): chia cho $n - 1$ . Ký hiệu $s$ .

Số $n - 1$ trong công thức mẫu là hiệu chỉnh Bessel. Tại sao? Dùng $n$ sẽ ước lượng thiếu độ lệch chuẩn của tổng thể một cách có hệ thống vì bạn đã dùng trung bình mẫu (vốn theo cấu trúc là phù hợp nhất với mẫu), ép các độ lệch nhỏ hơn so với khi dùng trung bình tổng thể thực. Chia cho $n - 1$ thay vì $n$ bù trừ chính xác điều đó.

Hầu hết máy tính và phần mềm mặc định dùng công thức mẫu. Hãy chú ý.

Ví dụ giải mẫu 1: tập dữ liệu nhỏ đối xứng

Dữ liệu: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ . (8 giá trị; ví dụ kinh điển trong giáo trình.)

Trung bình: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ .
Độ lệch so với trung bình: $-3, -1, -1, -1, 0, 0, 2, 4$ .
Độ lệch bình phương: $9, 1, 1, 1, 0, 0, 4, 16$ .
Tổng: $32$ .
Tổng thể ( $N = 8$ ): phương sai $= 32/8 = 4$ , $\sigma = 2$ .
Mẫu ( $n - 1 = 7$ ): phương sai $= 32/7 \approx 4{,}57$ , $s \approx 2{,}14$ .

Quy tắc 68-95-99,7 (chỉ cho phân phối chuẩn)

Nếu dữ liệu của bạn xấp xỉ chuẩn (hình chuông):

$\approx 68\%$ giá trị nằm trong $1\sigma$ quanh trung bình.
$\approx 95\%$ trong $2\sigma$ .
$\approx 99{,}7\%$ trong $3\sigma$ .

Đây là lý do " $\pm 2\sigma$ " hay "hai sigma" là định nghĩa thông thường mặc định của "bất thường về mặt thống kê".

⚠️ Cảnh báo: quy tắc này chỉ áp dụng cho phân phối chuẩn. Với dữ liệu lệch hoặc đuôi nặng (thu nhập, thời gian phản hồi), $1\sigma$ có thể bao phủ 80% dữ liệu — hoặc 50%. Luôn kiểm tra hình dạng phân phối (biểu đồ tần suất, biểu đồ QQ) trước khi trích các con số 68-95-99,7.

Độ lệch chuẩn và phương sai

Phương sai chỉ là $\sigma^2$ . Chúng chứa thông tin giống hệt nhau, vậy tại sao lại có cả hai?

Độ lệch chuẩn có cùng đơn vị với dữ liệu — diễn giải được.
Phương sai phân rã cộng tính cho các biến độc lập ( $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ khi độc lập), khiến nó là đại lượng thuận tiện về mặt đại số cho các chứng minh, kỳ vọng, và ANOVA.

Dùng $\sigma$ khi báo cáo; dùng $\sigma^2$ khi tính toán.

Những lỗi thường gặp

Trích $\sigma$ mà không có ngữ cảnh. " $\sigma = 5$ " chẳng nghĩa gì nếu bạn không biết trung bình. Luôn ghép cặp: "trung bình $= 100$ , $\sigma = 5$ ."
Lẫn lộn công thức tổng thể và mẫu. Với mẫu nhỏ nó tạo khác biệt thực sự. Với mẫu lớn ( $n > 100$ ) khác biệt không đáng kể.
Quên độ nhạy với điểm ngoại lai. Một giá trị cực trị có thể làm $\sigma$ phình to. Với dữ liệu đuôi nặng, hãy báo cáo thêm độ lệch tuyệt đối trung vị (MAD) để bền vững hơn.
Áp dụng 68-95-99,7 cho dữ liệu không chuẩn. Xem ở trên.

Tự thử

Nhập bất kỳ tập dữ liệu nào vào Máy tính Độ lệch chuẩn miễn phí của chúng tôi — chọn tổng thể hoặc mẫu, xem cách tính từng bước, và đối chiếu với hướng dẫn này.

Tài liệu liên quan:

Hiểu độ lệch chuẩn không phải rơi nước mắt

Độ lệch chuẩn bằng ngôn ngữ dễ hiểu: nó thực sự đo điều gì, sự khác biệt giữa tổng thể và mẫu, quy tắc 68-95-99,7, và ba ví dụ giải mẫu bạn có thể kiểm chứng.

Định nghĩa bằng ngôn ngữ đơn giản

Tại sao bình phương, rồi lấy căn bậc hai?

Tổng thể và mẫu — chuyện $n-1$ so với $n$

Ví dụ giải mẫu 1: tập dữ liệu nhỏ đối xứng

Quy tắc 68-95-99,7 (chỉ cho phân phối chuẩn)

Độ lệch chuẩn và phương sai

Những lỗi thường gặp

Tự thử

Frequently Asked Questions

What does standard deviation measure?

What is the difference between population and sample standard deviation?

How is standard deviation related to variance?

Hiểu độ lệch chuẩn không phải rơi nước mắt

Độ lệch chuẩn bằng ngôn ngữ dễ hiểu: nó thực sự đo điều gì, sự khác biệt giữa tổng thể và mẫu, quy tắc 68-95-99,7, và ba ví dụ giải mẫu bạn có thể kiểm chứng.

Định nghĩa bằng ngôn ngữ đơn giản

Tại sao bình phương, rồi lấy căn bậc hai?

Tổng thể và mẫu — chuyện n−1n-1n−1 so với nnn

Ví dụ giải mẫu 1: tập dữ liệu nhỏ đối xứng

Quy tắc 68-95-99,7 (chỉ cho phân phối chuẩn)

Độ lệch chuẩn và phương sai

Những lỗi thường gặp

Tự thử

Frequently Asked Questions

What does standard deviation measure?

What does standard deviation measure?

What is the difference between population and sample standard deviation?

What is the difference between population and sample standard deviation?

How is standard deviation related to variance?

How is standard deviation related to variance?

Tổng thể và mẫu — chuyện $n-1$ so với $n$