O desvio padrão é o conceito mais mal compreendido da estatística introdutória. As pessoas sabem que ele "mede a dispersão", mas travam quando perguntam o que o número realmente significa. Este guia o explica de três maneiras — geométrica, computacional e intuitiva — para que, na próxima vez que você vir $\sigma$ em um artigo ou relatório, você de fato entenda o que está ali.

Definição em linguagem clara

O desvio padrão responde: em média, a que distância cada ponto de dados fica da média?

Simbolicamente, para uma população de $N$ valores $x_1, \ldots, x_N$ com média $\mu$ :

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

Lendo em voz alta: "desvio quadrático médio, depois a raiz quadrada".

Por que elevar ao quadrado e depois extrair a raiz?

Uma primeira tentativa razoável de "distância média até a média" seria $\frac{1}{N}\sum |x_i - \mu|$ — o desvio absoluto médio. Ele funciona, e os estatísticos às vezes o usam (é mais robusto a valores discrepantes).

Mas o valor absoluto é matematicamente inconveniente — não é derivável em zero, as derivadas explodem e você não consegue fazer cálculo com ele de forma limpa. Elevar ao quadrado contorna tudo isso, e a raiz quadrada no final traz as unidades de volta à escala original (assim $\sigma$ fica em dólares se $x$ está em dólares, e não em dólares²).

Essa é a mesma razão pela qual o aprendizado de máquina usa a perda quadrática (erro quadrático médio) — elevar ao quadrado é derivável, combina bem com o cálculo e os estimadores resultantes costumam ser ótimos.

População vs amostra — a questão do $n-1$ vs $n$

Existem duas fórmulas, e a diferença importa:

População (você tem todos os dados): divida por $N$ . Símbolo $\sigma$ .
Amostra (você tem uma amostra e quer estimar a população): divida por $n - 1$ . Símbolo $s$ .

O $n - 1$ da fórmula amostral é a correção de Bessel. Por quê? Usar $n$ subestimaria sistematicamente o desvio padrão populacional porque você usou a média amostral (que, por construção, é o melhor ajuste para a amostra), comprimindo os desvios para menos do que seriam em relação à verdadeira média populacional. Dividir por $n - 1$ em vez de $n$ compensa isso exatamente.

A maioria das calculadoras e softwares usa por padrão a fórmula amostral. Preste atenção.

Exemplo resolvido 1: conjunto de dados pequeno e simétrico

Dados: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ . (8 valores; exemplo clássico de livro-texto.)

Média: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ .
Desvios em relação à média: $-3, -1, -1, -1, 0, 0, 2, 4$ .
Desvios ao quadrado: $9, 1, 1, 1, 0, 0, 4, 16$ .
Soma: $32$ .
População ( $N = 8$ ): variância $= 32/8 = 4$ , $\sigma = 2$ .
Amostra ( $n - 1 = 7$ ): variância $= 32/7 \approx 4{,}57$ , $s \approx 2{,}14$ .

A regra 68-95-99,7 (apenas para distribuições normais)

Se seus dados forem aproximadamente normais (em forma de sino):

$\approx 68\%$ dos valores caem dentro de $1\sigma$ da média.
$\approx 95\%$ dentro de $2\sigma$ .
$\approx 99{,}7\%$ dentro de $3\sigma$ .

É por isso que " $\pm 2\sigma$ " ou "dois sigma" é a definição informal padrão de "estatisticamente incomum".

⚠️ Aviso: esta regra se aplica somente a distribuições normais. Para dados assimétricos ou de caudas pesadas (renda, tempo de resposta), $1\sigma$ pode cobrir 80% dos dados — ou 50%. Sempre verifique o formato da distribuição (histograma, gráfico QQ) antes de citar os números 68-95-99,7.

Desvio padrão vs variância

A variância é simplesmente $\sigma^2$ . Eles contêm informação idêntica, então por que ter os dois?

O desvio padrão tem as mesmas unidades dos dados — interpretável.
A variância se decompõe de forma aditiva para variáveis independentes ( $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ quando independentes), tornando-a a quantidade algebricamente conveniente para demonstrações, esperanças e ANOVA.

Use $\sigma$ ao reportar; use $\sigma^2$ ao fazer cálculos.

Erros comuns

Citar $\sigma$ sem contexto. " $\sigma = 5$ " não significa nada se você não souber a média. Sempre apresente em par: "média $= 100$ , $\sigma = 5$ ".
Misturar as fórmulas de população e amostra. Com amostras pequenas faz uma diferença real. Com amostras grandes ( $n > 100$ ) a diferença é desprezível.
Esquecer a sensibilidade a valores discrepantes. Um único valor extremo pode inflar $\sigma$ . Para dados de caudas pesadas, reporte também o desvio absoluto mediano (MAD) por robustez.
Aplicar 68-95-99,7 a dados não normais. Veja acima.

Tente você mesmo

Coloque qualquer conjunto de dados em nossa Calculadora de Desvio Padrão gratuita — escolha população ou amostra, veja o cálculo passo a passo e verifique em relação a este guia.

Material relacionado:

Entendendo o desvio padrão sem sofrimento

O desvio padrão em linguagem clara: o que ele realmente mede, a diferença entre população e amostra, a regra 68-95-99,7 e três exemplos resolvidos que você pode verificar.

Definição em linguagem clara

Por que elevar ao quadrado e depois extrair a raiz?

População vs amostra — a questão do $n-1$ vs $n$

Exemplo resolvido 1: conjunto de dados pequeno e simétrico

A regra 68-95-99,7 (apenas para distribuições normais)

Desvio padrão vs variância

Erros comuns

Tente você mesmo

Entendendo o desvio padrão sem sofrimento

O desvio padrão em linguagem clara: o que ele realmente mede, a diferença entre população e amostra, a regra 68-95-99,7 e três exemplos resolvidos que você pode verificar.

Definição em linguagem clara

Por que elevar ao quadrado e depois extrair a raiz?

População vs amostra — a questão do n−1n-1n−1 vs nnn

Exemplo resolvido 1: conjunto de dados pequeno e simétrico

A regra 68-95-99,7 (apenas para distribuições normais)

Desvio padrão vs variância

Erros comuns

Tente você mesmo

População vs amostra — a questão do $n-1$ vs $n$