statistics

Entender la desviación estándar sin lágrimas

La desviación estándar en lenguaje claro: qué mide realmente, la diferencia entre población y muestra, la regla 68-95-99.7 y tres ejemplos resueltos que puedes verificar.
AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

La desviación estándar es el concepto peor entendido de la estadística introductoria. La gente sabe que "mide la dispersión" pero se bloquea cuando le preguntan qué significa realmente el número. Esta guía lo explica de tres formas —geométrica, computacional e intuitiva— para que la próxima vez que veas σ\sigma en un artículo o informe entiendas de verdad qué hay ahí.

Definición en lenguaje claro

La desviación estándar responde: en promedio, ¿a qué distancia está cada dato de la media?

Simbólicamente, para una población de NN valores x1,,xNx_1, \ldots, x_N con media μ\mu:

σ=1Ni=1N(xiμ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}

En voz alta: "desviación cuadrática promedio, luego raíz cuadrada".

¿Por qué elevar al cuadrado y luego sacar raíz?

Un primer intento razonable de "distancia media a la media" sería 1Nxiμ\frac{1}{N}\sum |x_i - \mu|, la desviación absoluta media. Funciona, y los estadísticos a veces la usan (es más robusta frente a valores atípicos).

Pero el valor absoluto es matemáticamente incómodo: no es derivable en cero, las derivadas se disparan y no puedes hacer cálculo limpiamente con él. Elevar al cuadrado evita todo eso, y la raíz cuadrada al final devuelve las unidades a la escala original (así σ\sigma está en dólares si xx está en dólares, no en dólares²).

Esta es la misma razón por la que el aprendizaje automático usa la pérdida cuadrática (error cuadrático medio): elevar al cuadrado es derivable, se lleva bien con el cálculo y los estimadores resultantes suelen ser óptimos.

Población vs muestra: el asunto de n1n-1 vs nn

Existen dos fórmulas, y la diferencia importa:

  • Población (tienes todos los datos): divide entre NN. Símbolo σ\sigma.
  • Muestra (tienes una muestra y quieres estimar la población): divide entre n1n - 1. Símbolo ss.

El n1n - 1 de la fórmula muestral es la corrección de Bessel. ¿Por qué? Usar nn subestimaría sistemáticamente la desviación estándar poblacional porque usaste la media muestral (que por construcción es el mejor ajuste de la muestra), comprimiendo las desviaciones más de lo que serían frente a la media poblacional real. Dividir entre n1n - 1 en lugar de nn compensa exactamente eso.

La mayoría de calculadoras y software usan por defecto la fórmula muestral. Presta atención.

Ejemplo resuelto 1: conjunto pequeño y simétrico

Datos: {2,4,4,4,5,5,7,9}\{2, 4, 4, 4, 5, 5, 7, 9\}. (8 valores; ejemplo clásico de libro de texto.)

  1. Media: xˉ=2+4+4+4+5+5+7+98=5\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5.
  2. Desviaciones respecto a la media: 3,1,1,1,0,0,2,4-3, -1, -1, -1, 0, 0, 2, 4.
  3. Desviaciones al cuadrado: 9,1,1,1,0,0,4,169, 1, 1, 1, 0, 0, 4, 16.
  4. Suma: 3232.
  5. Población (N=8N = 8): varianza =32/8=4= 32/8 = 4, σ=2\sigma = 2.
  6. Muestra (n1=7n - 1 = 7): varianza =32/74.57= 32/7 \approx 4.57, s2.14s \approx 2.14.

La regla 68-95-99.7 (solo para distribuciones normales)

Si tus datos son aproximadamente normales (con forma de campana):

  • 68%\approx 68\% de los valores caen dentro de 1σ1\sigma de la media.
  • 95%\approx 95\% dentro de 2σ2\sigma.
  • 99.7%\approx 99.7\% dentro de 3σ3\sigma.

Por eso "±2σ\pm 2\sigma" o "dos sigma" es la definición informal por defecto de "estadísticamente inusual".

⚠️ Advertencia: esta regla solo se aplica a distribuciones normales. Para datos asimétricos o de colas pesadas (ingresos, tiempos de respuesta), 1σ1\sigma podría cubrir el 80% de los datos, o el 50%. Comprueba siempre la forma de la distribución (histograma, gráfico QQ) antes de citar los números 68-95-99.7.

Desviación estándar vs varianza

La varianza es simplemente σ2\sigma^2. Contienen información idéntica, entonces ¿por qué tener ambas?

  • La desviación estándar tiene las mismas unidades que los datos: es interpretable.
  • La varianza se descompone aditivamente para variables independientes (Var(X+Y)=Var(X)+Var(Y)\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) cuando son independientes), lo que la hace la cantidad algebraicamente conveniente para demostraciones, esperanzas y ANOVA.

Usa σ\sigma al reportar; usa σ2\sigma^2 al hacer cálculos.

Errores comunes

  1. Citar σ\sigma sin contexto. "σ=5\sigma = 5" no significa nada si no conoces la media. Empareja siempre: "media =100= 100, σ=5\sigma = 5".
  2. Mezclar las fórmulas de población y muestra. Con muestras pequeñas marca una diferencia real. Con muestras grandes (n>100n > 100) la diferencia es insignificante.
  3. Olvidar la sensibilidad a los atípicos. Un valor extremo puede inflar σ\sigma. Para datos de colas pesadas, reporta también la desviación absoluta mediana (MAD) por robustez.
  4. Aplicar 68-95-99.7 a datos no normales. Ver arriba.

Pruébalo tú mismo

Introduce cualquier conjunto de datos en nuestra Calculadora de desviación estándar gratuita: elige población o muestra, ve el cálculo paso a paso y verifícalo con esta guía.

Material relacionado:

AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

A small team of engineers, mathematicians, and educators behind AI-Math, focused on making step-by-step math help accessible to every student.