statistics

Varianza

La varianza mide la dispersión de un conjunto de datos en torno a su media. Es el promedio de las desviaciones al cuadrado. La desviación estándar es la raíz cuadrada de la varianza.

La varianza mide cuánto se dispersan los valores de un conjunto de datos respecto a la media. Para una población de NN valores x1,,xNx_1, \ldots, x_N con media μ\mu:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

Para una muestra de nn valores con media muestral xˉ\bar{x}, se divide entre n1n - 1 en lugar de nn (corrección de Bessel, un estimador insesgado).

Una varianza pequeña significa que los valores se agrupan cerca de la media; una varianza grande significa que están dispersos. La varianza está en unidades al cuadrado de los datos originales (kg² si los datos están en kg); por eso normalmente reportamos la desviación estándar σ=σ2\sigma = \sqrt{\sigma^2}, que tiene las mismas unidades que los datos.

La varianza sustenta toda la estadística inferencial: los intervalos de confianza, las pruebas de hipótesis y la regresión dependen de estimar la varianza. El compromiso sesgo-varianza en el aprendizaje automático recibe su nombre de ella.