La desviación estándar es el concepto peor entendido de la estadística introductoria. La gente sabe que "mide la dispersión" pero se bloquea cuando le preguntan qué significa realmente el número. Esta guía lo explica de tres formas —geométrica, computacional e intuitiva— para que la próxima vez que veas $\sigma$ en un artículo o informe entiendas de verdad qué hay ahí.

Definición en lenguaje claro

La desviación estándar responde: en promedio, ¿a qué distancia está cada dato de la media?

Simbólicamente, para una población de $N$ valores $x_1, \ldots, x_N$ con media $\mu$ :

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

En voz alta: "desviación cuadrática promedio, luego raíz cuadrada".

¿Por qué elevar al cuadrado y luego sacar raíz?

Un primer intento razonable de "distancia media a la media" sería $\frac{1}{N}\sum |x_i - \mu|$ , la desviación absoluta media. Funciona, y los estadísticos a veces la usan (es más robusta frente a valores atípicos).

Pero el valor absoluto es matemáticamente incómodo: no es derivable en cero, las derivadas se disparan y no puedes hacer cálculo limpiamente con él. Elevar al cuadrado evita todo eso, y la raíz cuadrada al final devuelve las unidades a la escala original (así $\sigma$ está en dólares si $x$ está en dólares, no en dólares²).

Esta es la misma razón por la que el aprendizaje automático usa la pérdida cuadrática (error cuadrático medio): elevar al cuadrado es derivable, se lleva bien con el cálculo y los estimadores resultantes suelen ser óptimos.

Población vs muestra: el asunto de $n-1$ vs $n$

Existen dos fórmulas, y la diferencia importa:

Población (tienes todos los datos): divide entre $N$ . Símbolo $\sigma$ .
Muestra (tienes una muestra y quieres estimar la población): divide entre $n - 1$ . Símbolo $s$ .

El $n - 1$ de la fórmula muestral es la corrección de Bessel. ¿Por qué? Usar $n$ subestimaría sistemáticamente la desviación estándar poblacional porque usaste la media muestral (que por construcción es el mejor ajuste de la muestra), comprimiendo las desviaciones más de lo que serían frente a la media poblacional real. Dividir entre $n - 1$ en lugar de $n$ compensa exactamente eso.

La mayoría de calculadoras y software usan por defecto la fórmula muestral. Presta atención.

Ejemplo resuelto 1: conjunto pequeño y simétrico

Datos: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ . (8 valores; ejemplo clásico de libro de texto.)

Media: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ .
Desviaciones respecto a la media: $-3, -1, -1, -1, 0, 0, 2, 4$ .
Desviaciones al cuadrado: $9, 1, 1, 1, 0, 0, 4, 16$ .
Suma: $32$ .
Población ( $N = 8$ ): varianza $= 32/8 = 4$ , $\sigma = 2$ .
Muestra ( $n - 1 = 7$ ): varianza $= 32/7 \approx 4.57$ , $s \approx 2.14$ .

La regla 68-95-99.7 (solo para distribuciones normales)

Si tus datos son aproximadamente normales (con forma de campana):

$\approx 68\%$ de los valores caen dentro de $1\sigma$ de la media.
$\approx 95\%$ dentro de $2\sigma$ .
$\approx 99.7\%$ dentro de $3\sigma$ .

Por eso " $\pm 2\sigma$ " o "dos sigma" es la definición informal por defecto de "estadísticamente inusual".

⚠️ Advertencia: esta regla solo se aplica a distribuciones normales. Para datos asimétricos o de colas pesadas (ingresos, tiempos de respuesta), $1\sigma$ podría cubrir el 80% de los datos, o el 50%. Comprueba siempre la forma de la distribución (histograma, gráfico QQ) antes de citar los números 68-95-99.7.

Desviación estándar vs varianza

La varianza es simplemente $\sigma^2$ . Contienen información idéntica, entonces ¿por qué tener ambas?

La desviación estándar tiene las mismas unidades que los datos: es interpretable.
La varianza se descompone aditivamente para variables independientes ( $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ cuando son independientes), lo que la hace la cantidad algebraicamente conveniente para demostraciones, esperanzas y ANOVA.

Usa $\sigma$ al reportar; usa $\sigma^2$ al hacer cálculos.

Errores comunes

Citar $\sigma$ sin contexto. " $\sigma = 5$ " no significa nada si no conoces la media. Empareja siempre: "media $= 100$ , $\sigma = 5$ ".
Mezclar las fórmulas de población y muestra. Con muestras pequeñas marca una diferencia real. Con muestras grandes ( $n > 100$ ) la diferencia es insignificante.
Olvidar la sensibilidad a los atípicos. Un valor extremo puede inflar $\sigma$ . Para datos de colas pesadas, reporta también la desviación absoluta mediana (MAD) por robustez.
Aplicar 68-95-99.7 a datos no normales. Ver arriba.

Pruébalo tú mismo

Introduce cualquier conjunto de datos en nuestra Calculadora de desviación estándar gratuita: elige población o muestra, ve el cálculo paso a paso y verifícalo con esta guía.

Material relacionado:

Entender la desviación estándar sin lágrimas

La desviación estándar en lenguaje claro: qué mide realmente, la diferencia entre población y muestra, la regla 68-95-99.7 y tres ejemplos resueltos que puedes verificar.

Definición en lenguaje claro

¿Por qué elevar al cuadrado y luego sacar raíz?

Población vs muestra: el asunto de $n-1$ vs $n$

Ejemplo resuelto 1: conjunto pequeño y simétrico

La regla 68-95-99.7 (solo para distribuciones normales)

Desviación estándar vs varianza

Errores comunes

Pruébalo tú mismo

Entender la desviación estándar sin lágrimas

La desviación estándar en lenguaje claro: qué mide realmente, la diferencia entre población y muestra, la regla 68-95-99.7 y tres ejemplos resueltos que puedes verificar.

Definición en lenguaje claro

¿Por qué elevar al cuadrado y luego sacar raíz?

Población vs muestra: el asunto de n−1n-1n−1 vs nnn

Ejemplo resuelto 1: conjunto pequeño y simétrico

La regla 68-95-99.7 (solo para distribuciones normales)

Desviación estándar vs varianza

Errores comunes

Pruébalo tú mismo

Población vs muestra: el asunto de $n-1$ vs $n$