statistics

눈물 없이 이해하는 표준편차

쉬운 말로 풀어 쓴 표준편차: 실제로 무엇을 측정하는지, 모집단과 표본의 차이, 68-95-99.7 법칙, 그리고 직접 검증할 수 있는 세 가지 풀이 예제.
AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

표준편차는 입문 통계학에서 가장 많이 오해받는 개념입니다. 사람들은 그것이 "퍼짐을 측정한다"는 것은 알지만, 그 숫자가 실제로 무엇을 의미하느냐고 물으면 얼어붙습니다. 이 가이드는 그것을 세 가지 방식——기하적, 계산적, 직관적——으로 설명하므로, 다음에 논문이나 보고서에서 σ\sigma 를 볼 때 거기 있는 것을 실제로 이해하게 됩니다.

쉬운 말로 한 정의

표준편차는 이렇게 답합니다: 평균적으로, 각 데이터 점은 평균에서 얼마나 떨어져 있는가?

기호로, 평균 μ\mu 를 갖는 NN 개의 값 x1,,xNx_1, \ldots, x_N 의 모집단에 대해:

σ=1Ni=1N(xiμ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}

소리 내어 읽으면: "편차 제곱의 평균, 그다음 제곱근".

왜 제곱한 다음 제곱근을 취하는가?

"평균으로부터의 평균 거리"에 대한 합리적인 첫 시도는 1Nxiμ\frac{1}{N}\sum |x_i - \mu| —— 평균 절대 편차 —— 일 수 있습니다. 이것은 작동하고, 통계학자들도 때때로 사용합니다(이상치에 더 강건합니다).

하지만 절댓값은 수학적으로 다루기 까다롭습니다——0에서 미분 불가능하고, 도함수가 폭발하며, 그것으로 미적분을 깔끔하게 할 수 없습니다. 제곱하기는 그 모든 것을 우회하고, 끝에 제곱근을 취하기는 단위를 원래 척도로 되돌립니다(즉 xx 가 달러 단위이면 σ\sigma 도 달러 단위이지, 달러² 가 아닙니다).

이것은 머신러닝이 제곱 손실(평균 제곱 오차)을 사용하는 것과 같은 이유입니다——제곱은 미분 가능하고, 미적분과 잘 어울리며, 그 결과로 나오는 추정량이 흔히 최적입니다.

모집단 vs 표본 —— n1n-1nn 문제

두 가지 공식이 존재하며, 그 차이는 중요합니다:

  • 모집단 (모든 데이터를 가지고 있음): NN 으로 나눕니다. 기호 σ\sigma.
  • 표본 (표본을 가지고 있고, 모집단을 추정하고 싶음): n1n - 1 로 나눕니다. 기호 ss.

표본 공식의 n1n - 1베셀 보정입니다. 왜일까요? nn 을 사용하면 모집단 표준편차를 체계적으로 과소평가하게 됩니다. 표본 평균(이는 구성상 표본에 대한 최적 적합입니다)을 사용했기 때문에, 참 모집단 평균에 대한 경우보다 편차가 더 작게 압축되기 때문입니다. nn 대신 n1n - 1 로 나누면 이것을 정확히 보상합니다.

대부분의 계산기와 소프트웨어는 표본 공식을 기본값으로 합니다. 주의하세요.

풀이 예제 1: 작은 대칭 데이터셋

데이터: {2,4,4,4,5,5,7,9}\{2, 4, 4, 4, 5, 5, 7, 9\}. (값 8개; 고전적인 교과서 예제.)

  1. 평균: xˉ=2+4+4+4+5+5+7+98=5\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5.
  2. 평균으로부터의 편차: 3,1,1,1,0,0,2,4-3, -1, -1, -1, 0, 0, 2, 4.
  3. 편차의 제곱: 9,1,1,1,0,0,4,169, 1, 1, 1, 0, 0, 4, 16.
  4. 합: 3232.
  5. 모집단 (N=8N = 8): 분산 =32/8=4= 32/8 = 4, σ=2\sigma = 2.
  6. 표본 (n1=7n - 1 = 7): 분산 =32/74.57= 32/7 \approx 4.57, s2.14s \approx 2.14.

68-95-99.7 법칙 (정규분포에만)

데이터가 대략 정규(종 모양)라면:

  • 값의 68%\approx 68\% 가 평균으로부터 1σ1\sigma 이내에 들어옵니다.
  • 95%\approx 95\%2σ2\sigma 이내.
  • 99.7%\approx 99.7\%3σ3\sigma 이내.

이것이 "±2σ\pm 2\sigma" 또는 "2 시그마"가 "통계적으로 이례적임"의 기본 통속적 정의인 이유입니다.

⚠️ 경고: 이 법칙은 정규분포에만 적용됩니다. 치우쳤거나 꼬리가 두꺼운 데이터(소득, 응답 시간)에서는 1σ1\sigma 가 데이터의 80%——혹은 50%——를 덮을 수도 있습니다. 68-95-99.7 숫자를 인용하기 전에 항상 분포의 형태(히스토그램, QQ 플롯)를 확인하세요.

표준편차 vs 분산

분산은 그냥 σ2\sigma^2 입니다. 둘은 동일한 정보를 담는데, 왜 둘 다 있을까요?

  • 표준편차는 데이터와 같은 단위를 갖습니다——해석 가능합니다.
  • 분산은 독립 변수에 대해 가법적으로 분해됩니다(독립일 때 Var(X+Y)=Var(X)+Var(Y)\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)). 이것이 증명, 기댓값, 분산분석(ANOVA)에서 대수적으로 편리한 양으로 만듭니다.

보고할 때는 σ\sigma 를, 계산할 때는 σ2\sigma^2 을 사용하세요.

흔한 실수

  1. 맥락 없이 σ\sigma 를 인용. 평균을 모르면 "σ=5\sigma = 5" 는 아무 의미가 없습니다. 항상 짝지으세요: "평균 =100= 100, σ=5\sigma = 5".
  2. 모집단과 표본 공식을 섞음. 작은 표본에서는 실제로 차이가 납니다. 큰 표본(n>100n > 100)에서는 차이가 무시할 만합니다.
  3. 이상치 민감도를 잊음. 하나의 극단값이 σ\sigma 를 부풀릴 수 있습니다. 꼬리가 두꺼운 데이터에서는 강건성을 위해 중앙값 절대 편차(MAD)도 함께 보고하세요.
  4. 정규가 아닌 데이터에 68-95-99.7을 적용. 위를 참조.

직접 해 보세요

아무 데이터셋이나 무료 표준편차 계산기에 입력하세요——모집단인지 표본인지 선택하고, 단계별 계산을 보고, 이 가이드와 대조해 검증하세요.

관련 자료:

AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

A small team of engineers, mathematicians, and educators behind AI-Math, focused on making step-by-step math help accessible to every student.