표준편차는 입문 통계학에서 가장 많이 오해받는 개념입니다. 사람들은 그것이 "퍼짐을 측정한다"는 것은 알지만, 그 숫자가 실제로 무엇을 의미하느냐고 물으면 얼어붙습니다. 이 가이드는 그것을 세 가지 방식——기하적, 계산적, 직관적——으로 설명하므로, 다음에 논문이나 보고서에서 $\sigma$ 를 볼 때 거기 있는 것을 실제로 이해하게 됩니다.

쉬운 말로 한 정의

표준편차는 이렇게 답합니다: 평균적으로, 각 데이터 점은 평균에서 얼마나 떨어져 있는가?

기호로, 평균 $\mu$ 를 갖는 $N$ 개의 값 $x_1, \ldots, x_N$ 의 모집단에 대해:

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

소리 내어 읽으면: "편차 제곱의 평균, 그다음 제곱근".

왜 제곱한 다음 제곱근을 취하는가?

"평균으로부터의 평균 거리"에 대한 합리적인 첫 시도는 $\frac{1}{N}\sum |x_i - \mu|$ —— 평균 절대 편차 —— 일 수 있습니다. 이것은 작동하고, 통계학자들도 때때로 사용합니다(이상치에 더 강건합니다).

하지만 절댓값은 수학적으로 다루기 까다롭습니다——0에서 미분 불가능하고, 도함수가 폭발하며, 그것으로 미적분을 깔끔하게 할 수 없습니다. 제곱하기는 그 모든 것을 우회하고, 끝에 제곱근을 취하기는 단위를 원래 척도로 되돌립니다(즉 $x$ 가 달러 단위이면 $\sigma$ 도 달러 단위이지, 달러² 가 아닙니다).

이것은 머신러닝이 제곱 손실(평균 제곱 오차)을 사용하는 것과 같은 이유입니다——제곱은 미분 가능하고, 미적분과 잘 어울리며, 그 결과로 나오는 추정량이 흔히 최적입니다.

모집단 vs 표본 —— $n-1$ 대 $n$ 문제

두 가지 공식이 존재하며, 그 차이는 중요합니다:

모집단 (모든 데이터를 가지고 있음): $N$ 으로 나눕니다. 기호 $\sigma$ .
표본 (표본을 가지고 있고, 모집단을 추정하고 싶음): $n - 1$ 로 나눕니다. 기호 $s$ .

표본 공식의 $n - 1$ 은 베셀 보정입니다. 왜일까요? $n$ 을 사용하면 모집단 표준편차를 체계적으로 과소평가하게 됩니다. 표본 평균(이는 구성상 표본에 대한 최적 적합입니다)을 사용했기 때문에, 참 모집단 평균에 대한 경우보다 편차가 더 작게 압축되기 때문입니다. $n$ 대신 $n - 1$ 로 나누면 이것을 정확히 보상합니다.

대부분의 계산기와 소프트웨어는 표본 공식을 기본값으로 합니다. 주의하세요.

풀이 예제 1: 작은 대칭 데이터셋

데이터: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ . (값 8개; 고전적인 교과서 예제.)

평균: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ .
평균으로부터의 편차: $-3, -1, -1, -1, 0, 0, 2, 4$ .
편차의 제곱: $9, 1, 1, 1, 0, 0, 4, 16$ .
합: $32$ .
모집단 ( $N = 8$ ): 분산 $= 32/8 = 4$ , $\sigma = 2$ .
표본 ( $n - 1 = 7$ ): 분산 $= 32/7 \approx 4.57$ , $s \approx 2.14$ .

68-95-99.7 법칙 (정규분포에만)

데이터가 대략 정규(종 모양)라면:

값의 $\approx 68\%$ 가 평균으로부터 $1\sigma$ 이내에 들어옵니다.
$\approx 95\%$ 가 $2\sigma$ 이내.
$\approx 99.7\%$ 가 $3\sigma$ 이내.

이것이 " $\pm 2\sigma$ " 또는 "2 시그마"가 "통계적으로 이례적임"의 기본 통속적 정의인 이유입니다.

⚠️ 경고: 이 법칙은 정규분포에만 적용됩니다. 치우쳤거나 꼬리가 두꺼운 데이터(소득, 응답 시간)에서는 $1\sigma$ 가 데이터의 80%——혹은 50%——를 덮을 수도 있습니다. 68-95-99.7 숫자를 인용하기 전에 항상 분포의 형태(히스토그램, QQ 플롯)를 확인하세요.

표준편차 vs 분산

분산은 그냥 $\sigma^2$ 입니다. 둘은 동일한 정보를 담는데, 왜 둘 다 있을까요?

표준편차는 데이터와 같은 단위를 갖습니다——해석 가능합니다.
분산은 독립 변수에 대해 가법적으로 분해됩니다(독립일 때 $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ ). 이것이 증명, 기댓값, 분산분석(ANOVA)에서 대수적으로 편리한 양으로 만듭니다.

보고할 때는 $\sigma$ 를, 계산할 때는 $\sigma^2$ 을 사용하세요.

흔한 실수

맥락 없이 $\sigma$ 를 인용. 평균을 모르면 " $\sigma = 5$ " 는 아무 의미가 없습니다. 항상 짝지으세요: "평균 $= 100$ , $\sigma = 5$ ".
모집단과 표본 공식을 섞음. 작은 표본에서는 실제로 차이가 납니다. 큰 표본( $n > 100$ )에서는 차이가 무시할 만합니다.
이상치 민감도를 잊음. 하나의 극단값이 $\sigma$ 를 부풀릴 수 있습니다. 꼬리가 두꺼운 데이터에서는 강건성을 위해 중앙값 절대 편차(MAD)도 함께 보고하세요.
정규가 아닌 데이터에 68-95-99.7을 적용. 위를 참조.

직접 해 보세요

아무 데이터셋이나 무료 표준편차 계산기에 입력하세요——모집단인지 표본인지 선택하고, 단계별 계산을 보고, 이 가이드와 대조해 검증하세요.

눈물 없이 이해하는 표준편차

쉬운 말로 풀어 쓴 표준편차: 실제로 무엇을 측정하는지, 모집단과 표본의 차이, 68-95-99.7 법칙, 그리고 직접 검증할 수 있는 세 가지 풀이 예제.

쉬운 말로 한 정의

왜 제곱한 다음 제곱근을 취하는가?

모집단 vs 표본 —— $n-1$ 대 $n$ 문제

풀이 예제 1: 작은 대칭 데이터셋

68-95-99.7 법칙 (정규분포에만)

표준편차 vs 분산

흔한 실수

직접 해 보세요

눈물 없이 이해하는 표준편차

쉬운 말로 풀어 쓴 표준편차: 실제로 무엇을 측정하는지, 모집단과 표본의 차이, 68-95-99.7 법칙, 그리고 직접 검증할 수 있는 세 가지 풀이 예제.

쉬운 말로 한 정의

왜 제곱한 다음 제곱근을 취하는가?

모집단 vs 표본 —— n−1n-1n−1 대 nnn 문제

풀이 예제 1: 작은 대칭 데이터셋

68-95-99.7 법칙 (정규분포에만)

표준편차 vs 분산

흔한 실수

직접 해 보세요

모집단 vs 표본 —— $n-1$ 대 $n$ 문제