statistics

Variância

A variância mede a dispersão de um conjunto de dados em torno de sua média. É a média dos desvios ao quadrado. O desvio padrão é a raiz quadrada da variância.

A variância mede o quanto os valores de um conjunto de dados se afastam da média. Para uma população de NN valores x1,,xNx_1, \ldots, x_N com média μ\mu:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

Para uma amostra de nn valores com média amostral xˉ\bar{x}, divide-se por n1n - 1 em vez de nn (correção de Bessel, um estimador não enviesado).

Uma variância pequena significa que os valores se agrupam perto da média; uma variância grande significa que estão dispersos. A variância está em unidades ao quadrado dos dados originais (kg² se os dados estão em kg) — é por isso que normalmente reportamos o desvio padrão σ=σ2\sigma = \sqrt{\sigma^2}, que tem as mesmas unidades dos dados.

A variância sustenta toda a estatística inferencial: intervalos de confiança, testes de hipóteses e regressão dependem todos da estimativa da variância. O compromisso viés-variância no aprendizado de máquina recebe o nome dela.