statistics

Memahami simpangan baku tanpa air mata

Simpangan baku dalam bahasa sederhana: apa yang sebenarnya diukur, perbedaan antara populasi dan sampel, aturan 68-95-99,7, dan tiga contoh terkerjakan yang dapat Anda verifikasi.
AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

Simpangan baku adalah konsep yang paling sering disalahpahami dalam statistika pengantar. Orang tahu bahwa ia "mengukur sebaran" tetapi membeku ketika ditanya apa sebenarnya arti angka tersebut. Panduan ini menjelaskannya dengan tiga cara — geometris, komputasional, dan intuitif — sehingga lain kali Anda melihat σ\sigma pada sebuah makalah atau laporan, Anda benar-benar memahami apa yang ada di sana.

Definisi dalam bahasa sederhana

Simpangan baku menjawab: secara rata-rata, seberapa jauh setiap titik data berada dari rata-rata?

Secara simbolik, untuk populasi berisi NN nilai x1,,xNx_1, \ldots, x_N dengan rata-rata μ\mu:

σ=1Ni=1N(xiμ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}

Dibaca: "rata-rata penyimpangan kuadrat, lalu akar kuadrat."

Mengapa dikuadratkan, lalu diakarkuadratkan?

Percobaan pertama yang masuk akal untuk "jarak rata-rata dari rata-rata" mungkin adalah 1Nxiμ\frac{1}{N}\sum |x_i - \mu| — yaitu deviasi absolut rata-rata. Itu berfungsi, dan para statistikawan memang kadang menggunakannya (lebih tahan terhadap pencilan).

Tetapi nilai absolut secara matematis canggung — ia tidak terdiferensiasi di nol, turunannya meledak, dan Anda tidak bisa melakukan kalkulus dengannya secara rapi. Mengkuadratkan menghindari semua itu, dan akar kuadrat di akhir mengembalikan satuan ke skala semula (sehingga σ\sigma dalam dolar jika xx dalam dolar, bukan dolar²).

Inilah alasan yang sama mengapa pembelajaran mesin menggunakan galat kuadrat (galat kuadrat rata-rata) — pengkuadratan terdiferensiasi, cocok dengan kalkulus, dan estimator yang dihasilkan sering kali optimal.

Populasi vs sampel — soal n1n-1 vs nn

Ada dua rumus, dan perbedaannya penting:

  • Populasi (Anda memiliki semua data): bagi dengan NN. Simbol σ\sigma.
  • Sampel (Anda memiliki sampel, ingin menaksir populasi): bagi dengan n1n - 1. Simbol ss.

Bagian n1n - 1 pada rumus sampel adalah koreksi Bessel. Mengapa? Menggunakan nn akan secara sistematis meremehkan simpangan baku populasi karena Anda memakai rata-rata sampel (yang menurut konstruksinya adalah penyesuaian terbaik untuk sampel), sehingga menekan penyimpangan menjadi lebih kecil daripada terhadap rata-rata populasi yang sebenarnya. Membagi dengan n1n - 1 alih-alih nn tepat mengompensasinya.

Kebanyakan kalkulator dan perangkat lunak secara bawaan memakai rumus sampel. Perhatikanlah.

Contoh terkerjakan 1: kumpulan data simetris kecil

Data: {2,4,4,4,5,5,7,9}\{2, 4, 4, 4, 5, 5, 7, 9\}. (8 nilai; contoh buku teks klasik.)

  1. Rata-rata: xˉ=2+4+4+4+5+5+7+98=5\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5.
  2. Penyimpangan dari rata-rata: 3,1,1,1,0,0,2,4-3, -1, -1, -1, 0, 0, 2, 4.
  3. Penyimpangan kuadrat: 9,1,1,1,0,0,4,169, 1, 1, 1, 0, 0, 4, 16.
  4. Jumlah: 3232.
  5. Populasi (N=8N = 8): variansi =32/8=4= 32/8 = 4, σ=2\sigma = 2.
  6. Sampel (n1=7n - 1 = 7): variansi =32/74,57= 32/7 \approx 4{,}57, s2,14s \approx 2{,}14.

Aturan 68-95-99,7 (hanya untuk distribusi normal)

Jika data Anda kira-kira normal (berbentuk lonceng):

  • 68%\approx 68\% nilai berada dalam 1σ1\sigma dari rata-rata.
  • 95%\approx 95\% dalam 2σ2\sigma.
  • 99,7%\approx 99{,}7\% dalam 3σ3\sigma.

Inilah sebabnya "±2σ\pm 2\sigma" atau "dua sigma" adalah definisi santai bawaan untuk "tidak lazim secara statistik."

⚠️ Peringatan: aturan ini hanya berlaku untuk distribusi normal. Untuk data yang miring atau berekor berat (pendapatan, waktu respons), 1σ1\sigma mungkin mencakup 80% data — atau 50%. Selalu periksa bentuk distribusi (histogram, plot QQ) sebelum mengutip angka 68-95-99,7.

Simpangan baku vs variansi

Variansi hanyalah σ2\sigma^2. Keduanya memuat informasi yang sama persis, jadi mengapa harus ada keduanya?

  • Simpangan baku memiliki satuan yang sama dengan data — dapat ditafsirkan.
  • Variansi terurai secara aditif untuk variabel-variabel bebas (Var(X+Y)=Var(X)+Var(Y)\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) saat bebas), sehingga menjadi besaran yang nyaman secara aljabar untuk pembuktian, ekspektasi, dan ANOVA.

Gunakan σ\sigma saat melaporkan; gunakan σ2\sigma^2 saat melakukan perhitungan.

Kesalahan umum

  1. Mengutip σ\sigma tanpa konteks. "σ=5\sigma = 5" tidak berarti apa-apa jika Anda tidak tahu rata-ratanya. Selalu pasangkan: "rata-rata =100= 100, σ=5\sigma = 5."
  2. Mencampur rumus populasi dan sampel. Dengan sampel kecil hal ini membuat perbedaan nyata. Dengan sampel besar (n>100n > 100) perbedaannya dapat diabaikan.
  3. Melupakan sensitivitas terhadap pencilan. Satu nilai ekstrem dapat membengkakkan σ\sigma. Untuk data berekor berat, laporkan juga deviasi absolut median (MAD) demi ketahanan.
  4. Menerapkan 68-95-99,7 pada data tidak normal. Lihat di atas.

Coba sendiri

Masukkan kumpulan data apa pun ke Kalkulator Simpangan Baku gratis — pilih populasi atau sampel, lihat perhitungan langkah demi langkah, dan verifikasikan terhadap panduan ini.

Materi terkait:

AI-Math Editorial Team

By AI-Math Editorial Team

Published 2026-05-02

A small team of engineers, mathematicians, and educators behind AI-Math, focused on making step-by-step math help accessible to every student.