La desviación estándar es el concepto peor entendido de la estadística introductoria. La gente sabe que "mide la dispersión" pero se bloquea cuando le preguntan qué significa realmente el número. Esta guía lo explica de tres formas —geométrica, computacional e intuitiva— para que la próxima vez que veas en un artículo o informe entiendas de verdad qué hay ahí.
Definición en lenguaje claro
La desviación estándar responde: en promedio, ¿a qué distancia está cada dato de la media?
Simbólicamente, para una población de valores con media :
En voz alta: "desviación cuadrática promedio, luego raíz cuadrada".
¿Por qué elevar al cuadrado y luego sacar raíz?
Un primer intento razonable de "distancia media a la media" sería , la desviación absoluta media. Funciona, y los estadísticos a veces la usan (es más robusta frente a valores atípicos).
Pero el valor absoluto es matemáticamente incómodo: no es derivable en cero, las derivadas se disparan y no puedes hacer cálculo limpiamente con él. Elevar al cuadrado evita todo eso, y la raíz cuadrada al final devuelve las unidades a la escala original (así está en dólares si está en dólares, no en dólares²).
Esta es la misma razón por la que el aprendizaje automático usa la pérdida cuadrática (error cuadrático medio): elevar al cuadrado es derivable, se lleva bien con el cálculo y los estimadores resultantes suelen ser óptimos.
Población vs muestra: el asunto de vs
Existen dos fórmulas, y la diferencia importa:
- Población (tienes todos los datos): divide entre . Símbolo .
- Muestra (tienes una muestra y quieres estimar la población): divide entre . Símbolo .
El de la fórmula muestral es la corrección de Bessel. ¿Por qué? Usar subestimaría sistemáticamente la desviación estándar poblacional porque usaste la media muestral (que por construcción es el mejor ajuste de la muestra), comprimiendo las desviaciones más de lo que serían frente a la media poblacional real. Dividir entre en lugar de compensa exactamente eso.
La mayoría de calculadoras y software usan por defecto la fórmula muestral. Presta atención.
Ejemplo resuelto 1: conjunto pequeño y simétrico
Datos: . (8 valores; ejemplo clásico de libro de texto.)
- Media: .
- Desviaciones respecto a la media: .
- Desviaciones al cuadrado: .
- Suma: .
- Población (): varianza , .
- Muestra (): varianza , .
La regla 68-95-99.7 (solo para distribuciones normales)
Si tus datos son aproximadamente normales (con forma de campana):
- de los valores caen dentro de de la media.
- dentro de .
- dentro de .
Por eso "" o "dos sigma" es la definición informal por defecto de "estadísticamente inusual".
⚠️ Advertencia: esta regla solo se aplica a distribuciones normales. Para datos asimétricos o de colas pesadas (ingresos, tiempos de respuesta), podría cubrir el 80% de los datos, o el 50%. Comprueba siempre la forma de la distribución (histograma, gráfico QQ) antes de citar los números 68-95-99.7.
Desviación estándar vs varianza
La varianza es simplemente . Contienen información idéntica, entonces ¿por qué tener ambas?
- La desviación estándar tiene las mismas unidades que los datos: es interpretable.
- La varianza se descompone aditivamente para variables independientes ( cuando son independientes), lo que la hace la cantidad algebraicamente conveniente para demostraciones, esperanzas y ANOVA.
Usa al reportar; usa al hacer cálculos.
Errores comunes
- Citar sin contexto. "" no significa nada si no conoces la media. Empareja siempre: "media , ".
- Mezclar las fórmulas de población y muestra. Con muestras pequeñas marca una diferencia real. Con muestras grandes () la diferencia es insignificante.
- Olvidar la sensibilidad a los atípicos. Un valor extremo puede inflar . Para datos de colas pesadas, reporta también la desviación absoluta mediana (MAD) por robustez.
- Aplicar 68-95-99.7 a datos no normales. Ver arriba.
Pruébalo tú mismo
Introduce cualquier conjunto de datos en nuestra Calculadora de desviación estándar gratuita: elige población o muestra, ve el cálculo paso a paso y verifícalo con esta guía.
Material relacionado: