मानक विचलन प्रारंभिक सांख्यिकी में सबसे अधिक गलत समझा जाने वाला संप्रत्यय है। लोग जानते हैं कि यह "फैलाव मापता है" पर जब पूछा जाए कि यह संख्या वास्तव में क्या अर्थ रखती है तो वे अटक जाते हैं। यह मार्गदर्शिका इसे तीन तरीकों से समझाती है — ज्यामितीय, अभिकलनात्मक और सहज — ताकि अगली बार जब आप किसी शोधपत्र या रिपोर्ट में $\sigma$ देखें, तो आप वास्तव में समझें कि वहाँ क्या है।

सरल भाषा में परिभाषा

मानक विचलन इसका उत्तर देता है: औसतन, प्रत्येक आँकड़ा बिंदु माध्य से कितनी दूर बैठता है?

प्रतीकात्मक रूप से, माध्य $\mu$ वाले $N$ मानों $x_1, \ldots, x_N$ की एक समष्टि के लिए:

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$

ज़ोर से पढ़ें: "औसत वर्गित विचलन, फिर वर्गमूल।"

वर्गित क्यों, फिर वर्गमूल क्यों?

"माध्य से औसत दूरी" का एक उचित पहला प्रयास $\frac{1}{N}\sum |x_i - \mu|$ हो सकता है — माध्य निरपेक्ष विचलन। यह काम करता है, और सांख्यिकीविद् कभी-कभी इसका उपयोग करते भी हैं (यह बाह्यकों के प्रति अधिक प्रबल है)।

लेकिन निरपेक्ष मान गणितीय रूप से असुविधाजनक है — यह शून्य पर अवकलनीय नहीं है, अवकलज विस्फोटित हो जाते हैं, और आप इसके साथ साफ़-सुथरे ढंग से कलन नहीं कर सकते। वर्ग करना इस सबको दरकिनार कर देता है, और अंत में वर्गमूल इकाइयों को मूल पैमाने पर वापस ले आता है (अतः यदि $x$ डॉलर में है तो $\sigma$ डॉलर में होता है, डॉलर² में नहीं)।

यही कारण है कि मशीन लर्निंग वर्गित हानि (माध्य वर्गित त्रुटि) का उपयोग करती है — वर्ग करना अवकलनीय है, कलन के साथ अच्छी तरह चलता है, और परिणामी आकलक प्रायः इष्टतम होते हैं।

समष्टि बनाम प्रतिदर्श — वह $n-1$ बनाम $n$ वाली बात

दो सूत्र मौजूद हैं, और अंतर मायने रखता है:

समष्टि (आपके पास सारा डेटा है): $N$ से भाग दें। प्रतीक $\sigma$ ।
प्रतिदर्श (आपके पास एक प्रतिदर्श है, आप समष्टि का आकलन करना चाहते हैं): $n - 1$ से भाग दें। प्रतीक $s$ ।

प्रतिदर्श सूत्र का $n - 1$ बेसल का संशोधन है। क्यों? $n$ का उपयोग करने से समष्टि मानक विचलन का व्यवस्थित रूप से कम आकलन होगा क्योंकि आपने प्रतिदर्श माध्य का उपयोग किया (जो रचना के अनुसार प्रतिदर्श के लिए सबसे अच्छा फिट है), जिससे विचलन वास्तविक समष्टि माध्य के मुकाबले होने से छोटे दब जाते हैं। $n$ के बजाय $n - 1$ से भाग देना इसकी ठीक-ठीक भरपाई कर देता है।

अधिकांश कैलकुलेटर और सॉफ़्टवेयर मूलतः प्रतिदर्श सूत्र पर सेट होते हैं। ध्यान दें।

हल किया गया उदाहरण 1: छोटा सममित डेटासेट

डेटा: $\{2, 4, 4, 4, 5, 5, 7, 9\}$ । (8 मान; क्लासिक पाठ्यपुस्तक उदाहरण।)

माध्य: $\bar{x} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5$ ।
माध्य से विचलन: $-3, -1, -1, -1, 0, 0, 2, 4$ ।
वर्गित विचलन: $9, 1, 1, 1, 0, 0, 4, 16$ ।
योग: $32$ ।
समष्टि ( $N = 8$ ): प्रसरण $= 32/8 = 4$ , $\sigma = 2$ ।
प्रतिदर्श ( $n - 1 = 7$ ): प्रसरण $= 32/7 \approx 4.57$ , $s \approx 2.14$ ।

68-95-99.7 नियम (केवल प्रसामान्य बंटनों के लिए)

यदि आपका डेटा लगभग प्रसामान्य (घंटी के आकार का) है:

मानों का $\approx 68\%$ माध्य के $1\sigma$ के भीतर आता है।
$\approx 95\%$ $2\sigma$ के भीतर।
$\approx 99.7\%$ $3\sigma$ के भीतर।

यही कारण है कि " $\pm 2\sigma$ " या "टू सिग्मा" "सांख्यिकीय रूप से असामान्य" की मूल अनौपचारिक परिभाषा है।

⚠️ चेतावनी: यह नियम केवल प्रसामान्य बंटनों पर लागू होता है। विषम या भारी-पुच्छ वाले डेटा (आय, प्रतिक्रिया समय) के लिए, $1\sigma$ डेटा का 80% कवर कर सकता है — या 50%। 68-95-99.7 की संख्याएँ उद्धृत करने से पहले हमेशा बंटन का आकार जाँचें (हिस्टोग्राम, QQ प्लॉट)।

मानक विचलन बनाम प्रसरण

प्रसरण बस $\sigma^2$ है। इनमें समान सूचना होती है, तो फिर दोनों क्यों रखें?

मानक विचलन की इकाइयाँ डेटा के समान होती हैं — व्याख्या योग्य।
प्रसरण स्वतंत्र चरों के लिए योगात्मक रूप से वियोजित होता है (स्वतंत्र होने पर $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ ), जो इसे उपपत्तियों, प्रत्याशाओं और ANOVA के लिए बीजगणितीय रूप से सुविधाजनक राशि बनाता है।

रिपोर्ट करते समय $\sigma$ का उपयोग करें; गणनाएँ करते समय $\sigma^2$ का उपयोग करें।

सामान्य गलतियाँ

संदर्भ के बिना $\sigma$ उद्धृत करना। यदि आप माध्य नहीं जानते तो " $\sigma = 5$ " का कोई अर्थ नहीं है। हमेशा युग्म बनाएँ: "माध्य $= 100$ , $\sigma = 5$ ।"
समष्टि और प्रतिदर्श सूत्रों को मिला देना। छोटे प्रतिदर्शों के साथ इससे वास्तविक अंतर पड़ता है। बड़े प्रतिदर्शों ( $n > 100$ ) के साथ अंतर नगण्य होता है।
बाह्यक संवेदनशीलता भूल जाना। एक चरम मान $\sigma$ को फुला सकता है। भारी-पुच्छ वाले डेटा के लिए, प्रबलता हेतु माध्यिका निरपेक्ष विचलन (MAD) भी रिपोर्ट करें।
गैर-प्रसामान्य डेटा पर 68-95-99.7 लागू करना। ऊपर देखें।

स्वयं आज़माएँ

किसी भी डेटासेट को हमारे मुफ़्त मानक विचलन कैलकुलेटर में डालें — समष्टि या प्रतिदर्श चुनें, चरण-दर-चरण गणना देखें, और इस मार्गदर्शिका के विरुद्ध सत्यापित करें।

संबंधित सामग्री:

मानक विचलन को बिना आँसुओं के समझें