Simpangan baku adalah konsep yang paling sering disalahpahami dalam statistika pengantar. Orang tahu bahwa ia "mengukur sebaran" tetapi membeku ketika ditanya apa sebenarnya arti angka tersebut. Panduan ini menjelaskannya dengan tiga cara — geometris, komputasional, dan intuitif — sehingga lain kali Anda melihat pada sebuah makalah atau laporan, Anda benar-benar memahami apa yang ada di sana.
Definisi dalam bahasa sederhana
Simpangan baku menjawab: secara rata-rata, seberapa jauh setiap titik data berada dari rata-rata?
Secara simbolik, untuk populasi berisi nilai dengan rata-rata :
Dibaca: "rata-rata penyimpangan kuadrat, lalu akar kuadrat."
Mengapa dikuadratkan, lalu diakarkuadratkan?
Percobaan pertama yang masuk akal untuk "jarak rata-rata dari rata-rata" mungkin adalah — yaitu deviasi absolut rata-rata. Itu berfungsi, dan para statistikawan memang kadang menggunakannya (lebih tahan terhadap pencilan).
Tetapi nilai absolut secara matematis canggung — ia tidak terdiferensiasi di nol, turunannya meledak, dan Anda tidak bisa melakukan kalkulus dengannya secara rapi. Mengkuadratkan menghindari semua itu, dan akar kuadrat di akhir mengembalikan satuan ke skala semula (sehingga dalam dolar jika dalam dolar, bukan dolar²).
Inilah alasan yang sama mengapa pembelajaran mesin menggunakan galat kuadrat (galat kuadrat rata-rata) — pengkuadratan terdiferensiasi, cocok dengan kalkulus, dan estimator yang dihasilkan sering kali optimal.
Populasi vs sampel — soal vs
Ada dua rumus, dan perbedaannya penting:
- Populasi (Anda memiliki semua data): bagi dengan . Simbol .
- Sampel (Anda memiliki sampel, ingin menaksir populasi): bagi dengan . Simbol .
Bagian pada rumus sampel adalah koreksi Bessel. Mengapa? Menggunakan akan secara sistematis meremehkan simpangan baku populasi karena Anda memakai rata-rata sampel (yang menurut konstruksinya adalah penyesuaian terbaik untuk sampel), sehingga menekan penyimpangan menjadi lebih kecil daripada terhadap rata-rata populasi yang sebenarnya. Membagi dengan alih-alih tepat mengompensasinya.
Kebanyakan kalkulator dan perangkat lunak secara bawaan memakai rumus sampel. Perhatikanlah.
Contoh terkerjakan 1: kumpulan data simetris kecil
Data: . (8 nilai; contoh buku teks klasik.)
- Rata-rata: .
- Penyimpangan dari rata-rata: .
- Penyimpangan kuadrat: .
- Jumlah: .
- Populasi (): variansi , .
- Sampel (): variansi , .
Aturan 68-95-99,7 (hanya untuk distribusi normal)
Jika data Anda kira-kira normal (berbentuk lonceng):
- nilai berada dalam dari rata-rata.
- dalam .
- dalam .
Inilah sebabnya "" atau "dua sigma" adalah definisi santai bawaan untuk "tidak lazim secara statistik."
⚠️ Peringatan: aturan ini hanya berlaku untuk distribusi normal. Untuk data yang miring atau berekor berat (pendapatan, waktu respons), mungkin mencakup 80% data — atau 50%. Selalu periksa bentuk distribusi (histogram, plot QQ) sebelum mengutip angka 68-95-99,7.
Simpangan baku vs variansi
Variansi hanyalah . Keduanya memuat informasi yang sama persis, jadi mengapa harus ada keduanya?
- Simpangan baku memiliki satuan yang sama dengan data — dapat ditafsirkan.
- Variansi terurai secara aditif untuk variabel-variabel bebas ( saat bebas), sehingga menjadi besaran yang nyaman secara aljabar untuk pembuktian, ekspektasi, dan ANOVA.
Gunakan saat melaporkan; gunakan saat melakukan perhitungan.
Kesalahan umum
- Mengutip tanpa konteks. "" tidak berarti apa-apa jika Anda tidak tahu rata-ratanya. Selalu pasangkan: "rata-rata , ."
- Mencampur rumus populasi dan sampel. Dengan sampel kecil hal ini membuat perbedaan nyata. Dengan sampel besar () perbedaannya dapat diabaikan.
- Melupakan sensitivitas terhadap pencilan. Satu nilai ekstrem dapat membengkakkan . Untuk data berekor berat, laporkan juga deviasi absolut median (MAD) demi ketahanan.
- Menerapkan 68-95-99,7 pada data tidak normal. Lihat di atas.
Coba sendiri
Masukkan kumpulan data apa pun ke Kalkulator Simpangan Baku gratis — pilih populasi atau sampel, lihat perhitungan langkah demi langkah, dan verifikasikan terhadap panduan ini.
Materi terkait: