statistics

Varianza

La varianza misura la dispersione di un insieme di dati attorno alla sua media. È la media degli scarti al quadrato. La deviazione standard è la radice quadrata della varianza.

La varianza misura quanto i valori di un insieme di dati si disperdono rispetto alla media. Per una popolazione di NN valori x1,,xNx_1, \ldots, x_N con media μ\mu:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

Per un campione di nn valori con media campionaria xˉ\bar{x}, si divide per n1n - 1 invece che per nn (correzione di Bessel, uno stimatore non distorto).

Una varianza piccola significa che i valori si raggruppano vicino alla media; una varianza grande significa che sono dispersi. La varianza è espressa nelle unità al quadrato dei dati originali (kg² se i dati sono in kg) — ecco perché di solito si riporta la deviazione standard σ=σ2\sigma = \sqrt{\sigma^2}, che ha le stesse unità dei dati.

La varianza è alla base di tutta la statistica inferenziale: intervalli di confidenza, test di ipotesi e regressione dipendono tutti dalla stima della varianza. Il compromesso distorsione-varianza nel machine learning prende il nome da essa.