statistics

Entendendo o desvio padrão sem sofrimento

O desvio padrão em linguagem clara: o que ele realmente mede, a diferença entre população e amostra, a regra 68-95-99,7 e três exemplos resolvidos que você pode verificar.
AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

O desvio padrão é o conceito mais mal compreendido da estatística introdutória. As pessoas sabem que ele "mede a dispersão", mas travam quando perguntam o que o número realmente significa. Este guia o explica de três maneiras — geométrica, computacional e intuitiva — para que, na próxima vez que você vir σ\sigma em um artigo ou relatório, você de fato entenda o que está ali.

Definição em linguagem clara

O desvio padrão responde: em média, a que distância cada ponto de dados fica da média?

Simbolicamente, para uma população de NN valores x1,,xNx_1, \ldots, x_N com média μ\mu:

σ=1Ni=1N(xiμ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}

Lendo em voz alta: "desvio quadrático médio, depois a raiz quadrada".

Por que elevar ao quadrado e depois extrair a raiz?

Uma primeira tentativa razoável de "distância média até a média" seria 1Nxiμ\frac{1}{N}\sum |x_i - \mu| — o desvio absoluto médio. Ele funciona, e os estatísticos às vezes o usam (é mais robusto a valores discrepantes).

Mas o valor absoluto é matematicamente inconveniente — não é derivável em zero, as derivadas explodem e você não consegue fazer cálculo com ele de forma limpa. Elevar ao quadrado contorna tudo isso, e a raiz quadrada no final traz as unidades de volta à escala original (assim σ\sigma fica em dólares se xx está em dólares, e não em dólares²).

Essa é a mesma razão pela qual o aprendizado de máquina usa a perda quadrática (erro quadrático médio) — elevar ao quadrado é derivável, combina bem com o cálculo e os estimadores resultantes costumam ser ótimos.

População vs amostra — a questão do n1n-1 vs nn

Existem duas fórmulas, e a diferença importa:

  • População (você tem todos os dados): divida por NN. Símbolo σ\sigma.
  • Amostra (você tem uma amostra e quer estimar a população): divida por n1n - 1. Símbolo ss.

O n1n - 1 da fórmula amostral é a correção de Bessel. Por quê? Usar nn subestimaria sistematicamente o desvio padrão populacional porque você usou a média amostral (que, por construção, é o melhor ajuste para a amostra), comprimindo os desvios para menos do que seriam em relação à verdadeira média populacional. Dividir por n1n - 1 em vez de nn compensa isso exatamente.

A maioria das calculadoras e softwares usa por padrão a fórmula amostral. Preste atenção.

Exemplo resolvido 1: conjunto de dados pequeno e simétrico

Dados: {2,4,4,4,5,5,7,9}\{2, 4, 4, 4, 5, 5, 7, 9\}. (8 valores; exemplo clássico de livro-texto.)

  1. Média: xˉ=2+4+4+4+5+5+7+98=5\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5.
  2. Desvios em relação à média: 3,1,1,1,0,0,2,4-3, -1, -1, -1, 0, 0, 2, 4.
  3. Desvios ao quadrado: 9,1,1,1,0,0,4,169, 1, 1, 1, 0, 0, 4, 16.
  4. Soma: 3232.
  5. População (N=8N = 8): variância =32/8=4= 32/8 = 4, σ=2\sigma = 2.
  6. Amostra (n1=7n - 1 = 7): variância =32/74,57= 32/7 \approx 4{,}57, s2,14s \approx 2{,}14.

A regra 68-95-99,7 (apenas para distribuições normais)

Se seus dados forem aproximadamente normais (em forma de sino):

  • 68%\approx 68\% dos valores caem dentro de 1σ1\sigma da média.
  • 95%\approx 95\% dentro de 2σ2\sigma.
  • 99,7%\approx 99{,}7\% dentro de 3σ3\sigma.

É por isso que "±2σ\pm 2\sigma" ou "dois sigma" é a definição informal padrão de "estatisticamente incomum".

⚠️ Aviso: esta regra se aplica somente a distribuições normais. Para dados assimétricos ou de caudas pesadas (renda, tempo de resposta), 1σ1\sigma pode cobrir 80% dos dados — ou 50%. Sempre verifique o formato da distribuição (histograma, gráfico QQ) antes de citar os números 68-95-99,7.

Desvio padrão vs variância

A variância é simplesmente σ2\sigma^2. Eles contêm informação idêntica, então por que ter os dois?

  • O desvio padrão tem as mesmas unidades dos dados — interpretável.
  • A variância se decompõe de forma aditiva para variáveis independentes (Var(X+Y)=Var(X)+Var(Y)\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) quando independentes), tornando-a a quantidade algebricamente conveniente para demonstrações, esperanças e ANOVA.

Use σ\sigma ao reportar; use σ2\sigma^2 ao fazer cálculos.

Erros comuns

  1. Citar σ\sigma sem contexto. "σ=5\sigma = 5" não significa nada se você não souber a média. Sempre apresente em par: "média =100= 100, σ=5\sigma = 5".
  2. Misturar as fórmulas de população e amostra. Com amostras pequenas faz uma diferença real. Com amostras grandes (n>100n > 100) a diferença é desprezível.
  3. Esquecer a sensibilidade a valores discrepantes. Um único valor extremo pode inflar σ\sigma. Para dados de caudas pesadas, reporte também o desvio absoluto mediano (MAD) por robustez.
  4. Aplicar 68-95-99,7 a dados não normais. Veja acima.

Tente você mesmo

Coloque qualquer conjunto de dados em nossa Calculadora de Desvio Padrão gratuita — escolha população ou amostra, veja o cálculo passo a passo e verifique em relação a este guia.

Material relacionado:

AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

A small team of engineers, mathematicians, and educators behind AI-Math, focused on making step-by-step math help accessible to every student.