Simpangan baku adalah konsep yang paling sering disalahpahami dalam statistika pengantar. Orang tahu bahwa ia "mengukur sebaran" tetapi membeku ketika ditanya apa sebenarnya arti angka tersebut. Panduan ini menjelaskannya dengan tiga cara — geometris, komputasional, dan intuitif — sehingga lain kali Anda melihat $\sigma$ pada sebuah makalah atau laporan, Anda benar-benar memahami apa yang ada di sana.

Definisi dalam bahasa sederhana

Simpangan baku menjawab: secara rata-rata, seberapa jauh setiap titik data berada dari rata-rata?

Secara simbolik, untuk populasi berisi $N$ nilai $x_1, \ldots, x_N$ dengan rata-rata $\mu$ :

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

Dibaca: "rata-rata penyimpangan kuadrat, lalu akar kuadrat."

Mengapa dikuadratkan, lalu diakarkuadratkan?

Percobaan pertama yang masuk akal untuk "jarak rata-rata dari rata-rata" mungkin adalah $\frac{1}{N}\sum |x_i - \mu|$ — yaitu deviasi absolut rata-rata. Itu berfungsi, dan para statistikawan memang kadang menggunakannya (lebih tahan terhadap pencilan).

Tetapi nilai absolut secara matematis canggung — ia tidak terdiferensiasi di nol, turunannya meledak, dan Anda tidak bisa melakukan kalkulus dengannya secara rapi. Mengkuadratkan menghindari semua itu, dan akar kuadrat di akhir mengembalikan satuan ke skala semula (sehingga $\sigma$ dalam dolar jika $x$ dalam dolar, bukan dolar²).

Inilah alasan yang sama mengapa pembelajaran mesin menggunakan galat kuadrat (galat kuadrat rata-rata) — pengkuadratan terdiferensiasi, cocok dengan kalkulus, dan estimator yang dihasilkan sering kali optimal.

Populasi vs sampel — soal $n-1$ vs $n$

Ada dua rumus, dan perbedaannya penting:

Populasi (Anda memiliki semua data): bagi dengan $N$ . Simbol $\sigma$ .
Sampel (Anda memiliki sampel, ingin menaksir populasi): bagi dengan $n - 1$ . Simbol $s$ .

Bagian $n - 1$ pada rumus sampel adalah koreksi Bessel. Mengapa? Menggunakan $n$ akan secara sistematis meremehkan simpangan baku populasi karena Anda memakai rata-rata sampel (yang menurut konstruksinya adalah penyesuaian terbaik untuk sampel), sehingga menekan penyimpangan menjadi lebih kecil daripada terhadap rata-rata populasi yang sebenarnya. Membagi dengan $n - 1$ alih-alih $n$ tepat mengompensasinya.

Kebanyakan kalkulator dan perangkat lunak secara bawaan memakai rumus sampel. Perhatikanlah.

Contoh terkerjakan 1: kumpulan data simetris kecil

Data: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ . (8 nilai; contoh buku teks klasik.)

Rata-rata: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ .
Penyimpangan dari rata-rata: $-3, -1, -1, -1, 0, 0, 2, 4$ .
Penyimpangan kuadrat: $9, 1, 1, 1, 0, 0, 4, 16$ .
Jumlah: $32$ .
Populasi ( $N = 8$ ): variansi $= 32/8 = 4$ , $\sigma = 2$ .
Sampel ( $n - 1 = 7$ ): variansi $= 32/7 \approx 4{,}57$ , $s \approx 2{,}14$ .

Aturan 68-95-99,7 (hanya untuk distribusi normal)

Jika data Anda kira-kira normal (berbentuk lonceng):

$\approx 68\%$ nilai berada dalam $1\sigma$ dari rata-rata.
$\approx 95\%$ dalam $2\sigma$ .
$\approx 99{,}7\%$ dalam $3\sigma$ .

Inilah sebabnya " $\pm 2\sigma$ " atau "dua sigma" adalah definisi santai bawaan untuk "tidak lazim secara statistik."

⚠️ Peringatan: aturan ini hanya berlaku untuk distribusi normal. Untuk data yang miring atau berekor berat (pendapatan, waktu respons), $1\sigma$ mungkin mencakup 80% data — atau 50%. Selalu periksa bentuk distribusi (histogram, plot QQ) sebelum mengutip angka 68-95-99,7.

Simpangan baku vs variansi

Variansi hanyalah $\sigma^2$ . Keduanya memuat informasi yang sama persis, jadi mengapa harus ada keduanya?

Simpangan baku memiliki satuan yang sama dengan data — dapat ditafsirkan.
Variansi terurai secara aditif untuk variabel-variabel bebas ( $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ saat bebas), sehingga menjadi besaran yang nyaman secara aljabar untuk pembuktian, ekspektasi, dan ANOVA.

Gunakan $\sigma$ saat melaporkan; gunakan $\sigma^2$ saat melakukan perhitungan.

Kesalahan umum

Mengutip $\sigma$ tanpa konteks. " $\sigma = 5$ " tidak berarti apa-apa jika Anda tidak tahu rata-ratanya. Selalu pasangkan: "rata-rata $= 100$ , $\sigma = 5$ ."
Mencampur rumus populasi dan sampel. Dengan sampel kecil hal ini membuat perbedaan nyata. Dengan sampel besar ( $n > 100$ ) perbedaannya dapat diabaikan.
Melupakan sensitivitas terhadap pencilan. Satu nilai ekstrem dapat membengkakkan $\sigma$ . Untuk data berekor berat, laporkan juga deviasi absolut median (MAD) demi ketahanan.
Menerapkan 68-95-99,7 pada data tidak normal. Lihat di atas.

Coba sendiri

Masukkan kumpulan data apa pun ke Kalkulator Simpangan Baku gratis — pilih populasi atau sampel, lihat perhitungan langkah demi langkah, dan verifikasikan terhadap panduan ini.

Materi terkait:

Memahami simpangan baku tanpa air mata

Simpangan baku dalam bahasa sederhana: apa yang sebenarnya diukur, perbedaan antara populasi dan sampel, aturan 68-95-99,7, dan tiga contoh terkerjakan yang dapat Anda verifikasi.

Definisi dalam bahasa sederhana

Mengapa dikuadratkan, lalu diakarkuadratkan?

Populasi vs sampel — soal $n-1$ vs $n$

Contoh terkerjakan 1: kumpulan data simetris kecil

Aturan 68-95-99,7 (hanya untuk distribusi normal)

Simpangan baku vs variansi

Kesalahan umum

Coba sendiri

Memahami simpangan baku tanpa air mata

Simpangan baku dalam bahasa sederhana: apa yang sebenarnya diukur, perbedaan antara populasi dan sampel, aturan 68-95-99,7, dan tiga contoh terkerjakan yang dapat Anda verifikasi.

Definisi dalam bahasa sederhana

Mengapa dikuadratkan, lalu diakarkuadratkan?

Populasi vs sampel — soal n−1n-1n−1 vs nnn

Contoh terkerjakan 1: kumpulan data simetris kecil

Aturan 68-95-99,7 (hanya untuk distribusi normal)

Simpangan baku vs variansi

Kesalahan umum

Coba sendiri

Populasi vs sampel — soal $n-1$ vs $n$