ส่วนเบี่ยงเบนมาตรฐาน เป็นแนวคิดที่ถูกเข้าใจผิดมากที่สุดในสถิติเบื้องต้น คนรู้ว่ามัน "วัดการกระจาย" แต่นิ่งงันเมื่อถูกถามว่าตัวเลขนั้นหมายความว่าอะไรกันแน่ คู่มือนี้อธิบายมันสามแบบ — เชิงเรขาคณิต เชิงการคำนวณ และเชิงสัญชาตญาณ — เพื่อว่าครั้งต่อไปที่คุณเห็น ในบทความหรือรายงาน คุณจะเข้าใจจริงๆ ว่ามันคืออะไร
นิยามแบบภาษาที่เข้าใจง่าย
ส่วนเบี่ยงเบนมาตรฐานตอบว่า: โดยเฉลี่ยแล้ว ข้อมูลแต่ละจุดอยู่ห่างจากค่าเฉลี่ยเท่าใด?
ในเชิงสัญลักษณ์ สำหรับประชากร ค่า ที่มีค่าเฉลี่ย :
อ่านออกเสียง: "ค่าเฉลี่ยของส่วนเบี่ยงเบนยกกำลังสอง แล้วถอดรากที่สอง"
ทำไมต้องยกกำลังสอง แล้วถอดรากที่สอง?
ความพยายามแรกที่สมเหตุสมผลของ "ระยะห่างเฉลี่ยจากค่าเฉลี่ย" อาจเป็น — ส่วนเบี่ยงเบนสัมบูรณ์เฉลี่ย มันใช้ได้ และนักสถิติก็ใช้บ้างเป็นครั้งคราว (มันทนทานต่อค่าผิดปกติมากกว่า)
แต่ค่าสัมบูรณ์นั้นยุ่งยากในเชิงคณิตศาสตร์ — มันหาอนุพันธ์ที่ศูนย์ไม่ได้ อนุพันธ์ระเบิด และคุณทำแคลคูลัสกับมันอย่างสะอาดไม่ได้ การยกกำลังสอง เลี่ยงทั้งหมดนั้น และรากที่สองตอนท้ายนำหน่วยกลับมาสู่สเกลเดิม (ดังนั้น อยู่ในหน่วยดอลลาร์ถ้า อยู่ในหน่วยดอลลาร์ ไม่ใช่ดอลลาร์²)
นี่คือเหตุผลเดียวกับที่การเรียนรู้ของเครื่องใช้ กำลังสองของการสูญเสีย (ค่าคลาดเคลื่อนกำลังสองเฉลี่ย) — การยกกำลังสองหาอนุพันธ์ได้ เข้ากันได้ดีกับแคลคูลัส และตัวประมาณค่าที่ได้มักเหมาะสมที่สุด
ประชากร vs ตัวอย่าง — เรื่อง vs
มีสองสูตร และความแตกต่างนั้นสำคัญ:
- ประชากร (คุณมีข้อมูลทั้งหมด): หารด้วย สัญลักษณ์
- ตัวอย่าง (คุณมีตัวอย่าง ต้องการประมาณค่าประชากร): หารด้วย สัญลักษณ์
ในสูตรตัวอย่างคือการแก้ไขของเบสเซล (Bessel's correction) ทำไม? การใช้ จะประเมินต่ำส่วนเบี่ยงเบนมาตรฐานของประชากรอย่างเป็นระบบ เพราะคุณใช้ค่าเฉลี่ยตัวอย่าง (ซึ่งโดยโครงสร้างเป็นค่าที่พอดีที่สุดสำหรับตัวอย่าง) ทำให้ส่วนเบี่ยงเบนเล็กกว่าที่ควรจะเป็นเมื่อเทียบกับค่าเฉลี่ยประชากรจริง การหารด้วย แทน ชดเชยสิ่งนั้นได้พอดี
เครื่องคิดเลขและซอฟต์แวร์ส่วนใหญ่ตั้งค่าเริ่มต้นเป็นสูตรตัวอย่าง ใส่ใจให้ดี
ตัวอย่างที่แก้แล้ว 1: ชุดข้อมูลสมมาตรขนาดเล็ก
ข้อมูล: (8 ค่า; ตัวอย่างคลาสสิกในตำราเรียน)
- ค่าเฉลี่ย:
- ส่วนเบี่ยงเบนจากค่าเฉลี่ย:
- ส่วนเบี่ยงเบนยกกำลังสอง:
- ผลรวม:
- ประชากร (): ความแปรปรวน ,
- ตัวอย่าง (): ความแปรปรวน ,
กฎ 68-95-99.7 (เฉพาะการแจกแจงปกติเท่านั้น)
ถ้าข้อมูลของคุณเป็นปกติโดยประมาณ (รูประฆัง):
- ของค่าตกอยู่ภายใน จากค่าเฉลี่ย
- ภายใน
- ภายใน
นี่คือเหตุผลที่ "" หรือ "สองซิกมา" เป็นนิยามแบบลำลองเริ่มต้นของ "ผิดปกติในเชิงสถิติ"
⚠️ คำเตือน: กฎนี้ใช้ได้กับการแจกแจงปกติเท่านั้น สำหรับข้อมูลที่เบ้หรือมีหางหนา (รายได้ เวลาตอบสนอง) อาจครอบคลุม 80% ของข้อมูล — หรือ 50% ตรวจสอบรูปร่างการแจกแจงเสมอ (ฮิสโตแกรม กราฟ QQ) ก่อนอ้างตัวเลข 68-95-99.7
ส่วนเบี่ยงเบนมาตรฐาน vs ความแปรปรวน
ความแปรปรวนก็คือ ทั้งคู่มีข้อมูลเหมือนกัน แล้วทำไมต้องมีทั้งสอง?
- ส่วนเบี่ยงเบนมาตรฐาน มีหน่วยเดียวกับข้อมูล — ตีความได้
- ความแปรปรวน แยกส่วนแบบบวกได้สำหรับตัวแปรอิสระ ( เมื่ออิสระ) ทำให้มันเป็นปริมาณที่สะดวกในเชิงพีชคณิตสำหรับการพิสูจน์ ค่าคาดหมาย และ ANOVA
ใช้ เมื่อรายงาน; ใช้ เมื่อทำการคำนวณ
ข้อผิดพลาดที่พบบ่อย
- อ้าง โดยไม่มีบริบท "" ไม่มีความหมายถ้าคุณไม่รู้ค่าเฉลี่ย จับคู่เสมอ: "ค่าเฉลี่ย , "
- ปนสูตรประชากรและตัวอย่าง กับตัวอย่างขนาดเล็กมันสร้างความแตกต่างจริง กับตัวอย่างขนาดใหญ่ () ความแตกต่างเล็กน้อยจนละเลยได้
- ลืมความไวต่อค่าผิดปกติ ค่าสุดขั้วเพียงค่าเดียวอาจทำให้ พองโต สำหรับข้อมูลหางหนา ให้รายงานส่วนเบี่ยงเบนสัมบูรณ์มัธยฐาน (MAD) ด้วยเพื่อความทนทาน
- ใช้ 68-95-99.7 กับข้อมูลที่ไม่ปกติ ดูด้านบน
ลองด้วยตัวคุณเอง
ใส่ชุดข้อมูลใดๆ ลงในเครื่องคำนวณส่วนเบี่ยงเบนมาตรฐานฟรี ของเรา — เลือกประชากรหรือตัวอย่าง ดูการคำนวณทีละขั้นตอน และตรวจสอบกับคู่มือนี้
เนื้อหาที่เกี่ยวข้อง: