표준편차는 입문 통계학에서 가장 많이 오해받는 개념입니다. 사람들은 그것이 "퍼짐을 측정한다"는 것은 알지만, 그 숫자가 실제로 무엇을 의미하느냐고 물으면 얼어붙습니다. 이 가이드는 그것을 세 가지 방식——기하적, 계산적, 직관적——으로 설명하므로, 다음에 논문이나 보고서에서 를 볼 때 거기 있는 것을 실제로 이해하게 됩니다.
쉬운 말로 한 정의
표준편차는 이렇게 답합니다: 평균적으로, 각 데이터 점은 평균에서 얼마나 떨어져 있는가?
기호로, 평균 를 갖는 개의 값 의 모집단에 대해:
소리 내어 읽으면: "편차 제곱의 평균, 그다음 제곱근".
왜 제곱한 다음 제곱근을 취하는가?
"평균으로부터의 평균 거리"에 대한 합리적인 첫 시도는 —— 평균 절대 편차 —— 일 수 있습니다. 이것은 작동하고, 통계학자들도 때때로 사용합니다(이상치에 더 강건합니다).
하지만 절댓값은 수학적으로 다루기 까다롭습니다——0에서 미분 불가능하고, 도함수가 폭발하며, 그것으로 미적분을 깔끔하게 할 수 없습니다. 제곱하기는 그 모든 것을 우회하고, 끝에 제곱근을 취하기는 단위를 원래 척도로 되돌립니다(즉 가 달러 단위이면 도 달러 단위이지, 달러² 가 아닙니다).
이것은 머신러닝이 제곱 손실(평균 제곱 오차)을 사용하는 것과 같은 이유입니다——제곱은 미분 가능하고, 미적분과 잘 어울리며, 그 결과로 나오는 추정량이 흔히 최적입니다.
모집단 vs 표본 —— 대 문제
두 가지 공식이 존재하며, 그 차이는 중요합니다:
- 모집단 (모든 데이터를 가지고 있음): 으로 나눕니다. 기호 .
- 표본 (표본을 가지고 있고, 모집단을 추정하고 싶음): 로 나눕니다. 기호 .
표본 공식의 은 베셀 보정입니다. 왜일까요? 을 사용하면 모집단 표준편차를 체계적으로 과소평가하게 됩니다. 표본 평균(이는 구성상 표본에 대한 최적 적합입니다)을 사용했기 때문에, 참 모집단 평균에 대한 경우보다 편차가 더 작게 압축되기 때문입니다. 대신 로 나누면 이것을 정확히 보상합니다.
대부분의 계산기와 소프트웨어는 표본 공식을 기본값으로 합니다. 주의하세요.
풀이 예제 1: 작은 대칭 데이터셋
데이터: . (값 8개; 고전적인 교과서 예제.)
- 평균: .
- 평균으로부터의 편차: .
- 편차의 제곱: .
- 합: .
- 모집단 (): 분산 , .
- 표본 (): 분산 , .
68-95-99.7 법칙 (정규분포에만)
데이터가 대략 정규(종 모양)라면:
- 값의 가 평균으로부터 이내에 들어옵니다.
- 가 이내.
- 가 이내.
이것이 "" 또는 "2 시그마"가 "통계적으로 이례적임"의 기본 통속적 정의인 이유입니다.
⚠️ 경고: 이 법칙은 정규분포에만 적용됩니다. 치우쳤거나 꼬리가 두꺼운 데이터(소득, 응답 시간)에서는 가 데이터의 80%——혹은 50%——를 덮을 수도 있습니다. 68-95-99.7 숫자를 인용하기 전에 항상 분포의 형태(히스토그램, QQ 플롯)를 확인하세요.
표준편차 vs 분산
분산은 그냥 입니다. 둘은 동일한 정보를 담는데, 왜 둘 다 있을까요?
- 표준편차는 데이터와 같은 단위를 갖습니다——해석 가능합니다.
- 분산은 독립 변수에 대해 가법적으로 분해됩니다(독립일 때 ). 이것이 증명, 기댓값, 분산분석(ANOVA)에서 대수적으로 편리한 양으로 만듭니다.
보고할 때는 를, 계산할 때는 을 사용하세요.
흔한 실수
- 맥락 없이 를 인용. 평균을 모르면 "" 는 아무 의미가 없습니다. 항상 짝지으세요: "평균 , ".
- 모집단과 표본 공식을 섞음. 작은 표본에서는 실제로 차이가 납니다. 큰 표본()에서는 차이가 무시할 만합니다.
- 이상치 민감도를 잊음. 하나의 극단값이 를 부풀릴 수 있습니다. 꼬리가 두꺼운 데이터에서는 강건성을 위해 중앙값 절대 편차(MAD)도 함께 보고하세요.
- 정규가 아닌 데이터에 68-95-99.7을 적용. 위를 참조.
직접 해 보세요
아무 데이터셋이나 무료 표준편차 계산기에 입력하세요——모집단인지 표본인지 선택하고, 단계별 계산을 보고, 이 가이드와 대조해 검증하세요.
관련 자료: