معیاری انحراف تعارفی شماریات کا سب سے زیادہ غلط سمجھا جانے والا تصور ہے۔ لوگ جانتے ہیں کہ یہ "پھیلاؤ ناپتا ہے" مگر جب پوچھا جائے کہ یہ عدد دراصل کیا معنی رکھتا ہے تو جم جاتے ہیں۔ یہ رہنما اسے تین طریقوں سے سمجھاتا ہے — ہندسی، حسابی اور بدیہی — تاکہ اگلی بار جب آپ کسی مقالے یا رپورٹ میں دیکھیں تو واقعی سمجھ پائیں کہ وہاں کیا ہے۔
سادہ زبان میں تعریف
معیاری انحراف اس سوال کا جواب دیتا ہے: اوسطاً، ہر ڈیٹا نقطہ اوسط سے کتنا دور بیٹھتا ہے؟
علامتی طور پر، قدروں کی ایک آبادی کے لیے جس کا اوسط ہے:
sigma = sqrt{rac{1}{N}sum_{i=1}^N (x_i - mu)^2}
بآوازِ بلند پڑھیں: "اوسط مربع انحراف، پھر مربع جذر۔"
مربع کیوں، پھر مربع جذر کیوں؟
"اوسط سے فاصلے کی اوسط" کے لیے ایک معقول پہلی کوشش rac{1}{N}sum |x_i - mu| ہو سکتی ہے — یعنی اوسط مطلق انحراف۔ یہ کام کرتا ہے، اور شماریات دان کبھی کبھار اسے استعمال کرتے ہیں (یہ بیرونی قدروں کے خلاف زیادہ مضبوط ہے)۔
مگر مطلق قدر ریاضیاتی طور پر بے ڈھنگی ہے — یہ صفر پر قابلِ تفاضل نہیں، تفاضل پھٹ جاتے ہیں، اور آپ اس کے ساتھ صفائی سے کیلکولس نہیں کر سکتے۔ مربع کرنا یہ سب مسئلے ٹال دیتا ہے، اور آخر میں مربع جذر اکائیوں کو اصل پیمانے پر واپس لے آتا ہے (تو اگر ڈالر میں ہو تو ڈالر میں ہوتا ہے، ڈالر² میں نہیں)۔
یہی وجہ ہے کہ مشین لرننگ مربع نقصان (mean squared error) استعمال کرتی ہے — مربع کرنا قابلِ تفاضل ہے، کیلکولس کے ساتھ اچھی طرح چلتا ہے، اور نتیجے میں ملنے والے تخمین اکثر بہترین ہوتے ہیں۔
آبادی بمقابلہ نمونہ — بمقابلہ والا معاملہ
دو فارمولے موجود ہیں، اور فرق اہم ہے:
- آبادی (آپ کے پاس تمام ڈیٹا ہے): سے تقسیم کریں۔ علامت ۔
- نمونہ (آپ کے پاس ایک نمونہ ہے، آبادی کا تخمین لگانا چاہتے ہیں): سے تقسیم کریں۔ علامت ۔
نمونے کے فارمولے کا بیسل کی اصلاح ہے۔ کیوں؟ استعمال کرنے سے آبادی کا معیاری انحراف منظم طور پر کم تخمین ہوتا کیونکہ آپ نے نمونے کا اوسط استعمال کیا (جو ساخت کے لحاظ سے نمونے کے لیے بہترین فٹ ہے)، جس سے انحرافات اس سے چھوٹے دب جاتے ہیں جتنے وہ حقیقی آبادی کے اوسط کے مقابلے میں ہوتے۔ کے بجائے سے تقسیم کرنا بالکل اسی کا تدارک کرتا ہے۔
زیادہ تر کیلکولیٹر اور سافٹ ویئر بطورِ پہلے سے طے شدہ نمونے کا فارمولا استعمال کرتے ہیں۔ دھیان رکھیں۔
حل شدہ مثال ۱: چھوٹا متناظر ڈیٹا سیٹ
ڈیٹا: ۔ (۸ قدریں؛ کلاسک نصابی مثال۔)
- اوسط: ar{x} = rac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5۔
- اوسط سے انحرافات: ۔
- مربع انحرافات: ۔
- مجموعہ: ۔
- آبادی (): تغیر ، ۔
- نمونہ (): تغیر ، ۔
68-95-99.7 کا اصول (صرف معمول تقسیموں کے لیے)
اگر آپ کا ڈیٹا تقریباً معمول (گھنٹی نما) ہے:
- اوسط کے کے اندر تقریباً قدریں آتی ہیں۔
- کے اندر ۔
- کے اندر ۔
یہی وجہ ہے کہ "" یا "دو سگما" "شماریاتی طور پر غیر معمولی" کی پہلے سے طے شدہ غیر رسمی تعریف ہے۔
معیاری انحراف بمقابلہ تغیر
تغیر محض ہے۔ ان میں یکساں معلومات ہوتی ہیں، تو دونوں کیوں رکھیں؟
- معیاری انحراف کی اکائیاں ڈیٹا جیسی ہی ہوتی ہیں — قابلِ تعبیر۔
- تغیر آزاد متغیرات کے لیے جمعی طور پر تجزیہ ہوتا ہے ( جب آزاد ہوں)، جو اسے ثبوتوں، توقعات اور ANOVA کے لیے الجبری طور پر سہل مقدار بناتا ہے۔
رپورٹ کرتے وقت استعمال کریں؛ حساب کرتے وقت استعمال کریں۔
عام غلطیاں
- سیاق کے بغیر بتانا۔ "" کا کوئی مطلب نہیں اگر آپ کو اوسط نہ معلوم ہو۔ ہمیشہ جوڑیں: "اوسط ، "۔
- آبادی اور نمونے کے فارمولوں کو ملا دینا۔ چھوٹے نمونوں کے ساتھ یہ حقیقی فرق ڈالتا ہے۔ بڑے نمونوں () کے ساتھ فرق نہ ہونے کے برابر ہے۔
- بیرونی قدر کی حساسیت بھول جانا۔ ایک انتہائی قدر کو پھلا سکتی ہے۔ بھاری دُم والے ڈیٹا کے لیے مضبوطی کے لیے میڈین مطلق انحراف (MAD) بھی رپورٹ کریں۔
- غیر معمول ڈیٹا پر 68-95-99.7 لاگو کرنا۔ اوپر دیکھیں۔
خود آزمائیں
کوئی بھی ڈیٹا سیٹ ہمارے مفت معیاری انحراف کیلکولیٹر میں ڈالیں — آبادی یا نمونہ منتخب کریں، قدم بہ قدم حساب دیکھیں، اور اس رہنما کے خلاف جانچیں۔
متعلقہ مواد: