statistics

Variance

La variance mesure la dispersion d'un jeu de données autour de sa moyenne. Elle est la moyenne des écarts au carré. L'écart-type est la racine carrée de la variance.

La variance mesure à quel point les valeurs d'un jeu de données s'écartent de la moyenne. Pour une population de NN valeurs x1,,xNx_1, \ldots, x_N de moyenne μ\mu :

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

Pour un échantillon de nn valeurs de moyenne empirique xˉ\bar{x}, on divise par n1n - 1 au lieu de nn (correction de Bessel, un estimateur sans biais).

Une variance faible signifie que les valeurs sont regroupées près de la moyenne ; une variance élevée signifie qu'elles sont dispersées. La variance s'exprime dans les unités au carré des données d'origine (kg² si les données sont en kg) — c'est pourquoi on rapporte habituellement l'écart-type σ=σ2\sigma = \sqrt{\sigma^2}, qui a les mêmes unités que les données.

La variance est à la base de toute la statistique inférentielle : les intervalles de confiance, les tests d'hypothèses et la régression dépendent tous de l'estimation de la variance. Le compromis biais-variance en apprentissage automatique tient son nom d'elle.