La deviazione standard è il concetto più frainteso della statistica introduttiva. Le persone sanno che "misura la dispersione" ma si bloccano quando viene chiesto cosa significhi davvero quel numero. Questa guida lo spiega in tre modi — geometrico, computazionale e intuitivo — così che la prossima volta che vedi $\sigma$ in un articolo o in un report, tu capisca davvero cosa c'è.

Definizione in parole semplici

La deviazione standard risponde a: in media, quanto dista ogni dato dalla media?

In simboli, per una popolazione di $N$ valori $x_1, \ldots, x_N$ con media $\mu$ :

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

Letta ad alta voce: "deviazione quadratica media, poi radice quadrata."

Perché elevare al quadrato e poi estrarre la radice?

Un primo tentativo ragionevole di "distanza media dalla media" potrebbe essere $\frac{1}{N}\sum |x_i - \mu|$ — la deviazione media assoluta. Funziona, e i statistici a volte la usano (è più robusta rispetto agli outlier).

Ma il valore assoluto è matematicamente scomodo — non è derivabile in zero, le derivate esplodono e non puoi farci calcolo differenziale in modo pulito. Elevare al quadrato aggira tutto questo, e la radice quadrata finale riporta le unità alla scala originale (così $\sigma$ è in euro se $x$ è in euro, non in euro²).

È lo stesso motivo per cui il machine learning usa la perdita quadratica (errore quadratico medio) — elevare al quadrato è derivabile, si comporta bene con il calcolo differenziale e gli stimatori risultanti sono spesso ottimali.

Popolazione vs campione — la questione $n-1$ contro $n$

Esistono due formule, e la differenza conta:

Popolazione (hai tutti i dati): dividi per $N$ . Simbolo $\sigma$ .
Campione (hai un campione, vuoi stimare la popolazione): dividi per $n - 1$ . Simbolo $s$ .

L' $n - 1$ della formula campionaria è la correzione di Bessel. Perché? Usare $n$ porterebbe a sottostimare sistematicamente la deviazione standard della popolazione, perché hai usato la media campionaria (che per costruzione è il miglior adattamento al campione), comprimendo le deviazioni più di quanto sarebbero rispetto alla vera media della popolazione. Dividere per $n - 1$ invece che per $n$ compensa esattamente.

La maggior parte delle calcolatrici e dei software usa per impostazione predefinita la formula campionaria. Fai attenzione.

Esempio svolto 1: piccolo dataset simmetrico

Dati: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ . (8 valori; classico esempio da manuale.)

Media: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ .
Deviazioni dalla media: $-3, -1, -1, -1, 0, 0, 2, 4$ .
Deviazioni al quadrato: $9, 1, 1, 1, 0, 0, 4, 16$ .
Somma: $32$ .
Popolazione ( $N = 8$ ): varianza $= 32/8 = 4$ , $\sigma = 2$ .
Campione ( $n - 1 = 7$ ): varianza $= 32/7 \approx 4{,}57$ , $s \approx 2{,}14$ .

La regola 68-95-99,7 (solo per distribuzioni normali)

Se i tuoi dati sono approssimativamente normali (a forma di campana):

$\approx 68\%$ dei valori cade entro $1\sigma$ dalla media.
$\approx 95\%$ entro $2\sigma$ .
$\approx 99{,}7\%$ entro $3\sigma$ .

È per questo che " $\pm 2\sigma$ " o "due sigma" è la definizione informale predefinita di "statisticamente insolito."

⚠️ Attenzione: questa regola si applica solo alle distribuzioni normali. Per dati asimmetrici o a code pesanti (reddito, tempo di risposta), $1\sigma$ potrebbe coprire l'80% dei dati — oppure il 50%. Verifica sempre la forma della distribuzione (istogramma, QQ plot) prima di citare i numeri 68-95-99,7.

Deviazione standard vs varianza

La varianza è semplicemente $\sigma^2$ . Contengono informazioni identiche, quindi perché averle entrambe?

La deviazione standard ha le stesse unità dei dati — interpretabile.
La varianza si decompone in modo additivo per variabili indipendenti ( $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ quando indipendenti), il che la rende la quantità algebricamente conveniente per dimostrazioni, valori attesi e ANOVA.

Usa $\sigma$ quando comunichi i risultati; usa $\sigma^2$ quando fai i calcoli.

Errori comuni

Citare $\sigma$ senza contesto. " $\sigma = 5$ " non significa nulla se non conosci la media. Abbina sempre: "media $= 100$ , $\sigma = 5$ ."
Mescolare le formule di popolazione e campione. Con campioni piccoli fa una differenza reale. Con campioni grandi ( $n > 100$ ) la differenza è trascurabile.
Dimenticare la sensibilità agli outlier. Un singolo valore estremo può gonfiare $\sigma$ . Per dati a code pesanti, riporta anche la deviazione assoluta mediana (MAD) per maggiore robustezza.
Applicare 68-95-99,7 a dati non normali. Vedi sopra.

Provalo tu stesso

Inserisci qualsiasi dataset nella nostra Calcolatrice della deviazione standard gratuita — scegli popolazione o campione, vedi il calcolo passo dopo passo e verifica rispetto a questa guida.

Materiale correlato:

Capire la deviazione standard senza lacrime

La deviazione standard in parole semplici: cosa misura davvero, la differenza tra popolazione e campione, la regola 68-95-99,7 e tre esempi svolti che puoi verificare.

Definizione in parole semplici

Perché elevare al quadrato e poi estrarre la radice?

Popolazione vs campione — la questione $n-1$ contro $n$

Esempio svolto 1: piccolo dataset simmetrico

La regola 68-95-99,7 (solo per distribuzioni normali)

Deviazione standard vs varianza

Errori comuni

Provalo tu stesso

Capire la deviazione standard senza lacrime

La deviazione standard in parole semplici: cosa misura davvero, la differenza tra popolazione e campione, la regola 68-95-99,7 e tre esempi svolti che puoi verificare.

Definizione in parole semplici

Perché elevare al quadrato e poi estrarre la radice?

Popolazione vs campione — la questione n−1n-1n−1 contro nnn

Esempio svolto 1: piccolo dataset simmetrico

La regola 68-95-99,7 (solo per distribuzioni normali)

Deviazione standard vs varianza

Errori comuni

Provalo tu stesso

Popolazione vs campione — la questione $n-1$ contro $n$