![]()
一、正態(tài)分布假設(shè)的意義
在統(tǒng)計(jì)學(xué)與質(zhì)量管理中,正態(tài)分布幾乎無(wú)處不在。控制圖、制程能力分析、t檢驗(yàn)以及變異數(shù)分析等方法,都假設(shè)數(shù)據(jù)服從正態(tài)分布。這是因?yàn)檎龖B(tài)分布具有對(duì)稱性、可預(yù)測(cè)性,并且在大數(shù)定律和中心極限定理的支撐下具有普遍性。然而,現(xiàn)實(shí)世界的數(shù)據(jù)往往并不遵循正態(tài)分布。不少制程數(shù)據(jù)和可靠度數(shù)據(jù)常常偏離正態(tài),而大部分六西格瑪與制程能力分析工具卻建立在正態(tài)分布的假設(shè)上。如果我們忽視了這一點(diǎn),統(tǒng)計(jì)結(jié)果可能偏差很大,甚至導(dǎo)致錯(cuò)誤決策。
二、什么是非正態(tài)分布?
非正態(tài)分布的概念指的是那些不符合正態(tài)分布特征的數(shù)據(jù)。正態(tài)分布具有幾個(gè)重要特征:均值、中位數(shù)與眾數(shù)相等,分布曲線呈鐘形,大多數(shù)數(shù)據(jù)集中在均值附近,并符合“68-95-99.7法則”。
![]()
如果一個(gè)數(shù)據(jù)集表現(xiàn)出嚴(yán)重偏態(tài)、厚尾或多峰現(xiàn)象,它就很可能不是正態(tài)分布。例如,產(chǎn)品壽命數(shù)據(jù)往往右偏,考試成績(jī)可能左偏,而來(lái)自不同制程的數(shù)據(jù)則可能呈現(xiàn)多峰。如果直接將這些數(shù)據(jù)用于Cp/Cpk計(jì)算或t檢驗(yàn),結(jié)果會(huì)失真。
三、如何判斷數(shù)據(jù)是否正態(tài)?
判斷數(shù)據(jù)是否為正態(tài)分布的方法有多種。最直觀的是直方圖,它能快速讓人觀察數(shù)據(jù)的大致形態(tài);其次是正態(tài)概率圖,如果數(shù)據(jù)點(diǎn)大致落在一條直線上,則可以認(rèn)為數(shù)據(jù)接近正態(tài);更嚴(yán)謹(jǐn)?shù)氖墙y(tǒng)計(jì)檢驗(yàn)方法,包括Shapiro-Wilk檢驗(yàn)、Kolmogorov-Smirnov檢驗(yàn)和Anderson-Darling檢驗(yàn)。這些方法往往借助p值進(jìn)行判斷,如果p值大于0.05,可以接受原假設(shè),認(rèn)為數(shù)據(jù)近似正態(tài);如果p值小于0.05,則拒絕原假設(shè),說(shuō)明數(shù)據(jù)顯著偏離正態(tài)。
四、非正態(tài)分布的應(yīng)對(duì)策略
當(dāng)發(fā)現(xiàn)數(shù)據(jù)非正態(tài)時(shí),處理方法主要有幾類。首先是調(diào)查原因,例如數(shù)據(jù)采集是否存在問題,數(shù)據(jù)是否來(lái)自不同來(lái)源,或者是否混合了不同制程的數(shù)據(jù)。其次是進(jìn)行數(shù)據(jù)轉(zhuǎn)換,這是在六西格瑪中最常見的做法。還有一種方式是采用非參數(shù)統(tǒng)計(jì)方法,它們不依賴正態(tài)分布的假設(shè)。最后,如果數(shù)據(jù)確實(shí)符合某些特定分布,可以直接采用這些分布模型,比如壽命數(shù)據(jù)常用的韋布爾分布,等待時(shí)間數(shù)據(jù)常見的指數(shù)分布。在這些方法中,Box-Cox轉(zhuǎn)換因其科學(xué)性和實(shí)用性,成為最常見的解決方案之一。
五、Box-Cox 轉(zhuǎn)換方法
Box-Cox轉(zhuǎn)換由George Box和David Cox提出,其核心思想是通過(guò)尋找一個(gè)最佳的冪次參數(shù)λ,使數(shù)據(jù)的分布盡可能接近正態(tài)。Box-Cox的公式分兩種情況,當(dāng)λ不等于零時(shí),Y(λ) = (Y^λ - 1)/λ;當(dāng)λ等于零時(shí),采用對(duì)數(shù)變換ln(Y)。這里的Y必須大于零,否則無(wú)法計(jì)算。通過(guò)最大似然估計(jì)的方法,可以在λ = -5到+5的范圍內(nèi)尋找最優(yōu)值。這個(gè)λ值的選擇決定了轉(zhuǎn)換的效果,例如λ=1時(shí)數(shù)據(jù)不變,λ=0時(shí)等于對(duì)數(shù)變換,λ=0.5時(shí)相當(dāng)于平方根變換,λ=-1時(shí)則等同于倒數(shù)變換。Box-Cox的強(qiáng)大之處在于它能系統(tǒng)地尋找最優(yōu)λ,而不是憑經(jīng)驗(yàn)隨意選擇一種轉(zhuǎn)換方法。
六、Box-Cox 轉(zhuǎn)換案例
非正態(tài)的數(shù)據(jù)可以利用Box Cox Transformation 轉(zhuǎn)化為正態(tài)的數(shù)據(jù),這一個(gè)頗常用的方法。
例子:原始數(shù)據(jù):
![]()
第一步:進(jìn)行正態(tài)性檢驗(yàn),看數(shù)據(jù)是否遵循正態(tài)分布
![]()
從上圖中,P<0.005,因此數(shù)據(jù)不遵循正態(tài)分布,從直方圖中可以明顯看出數(shù)據(jù)偏向一邊。
第2步:使用Box Cox變換對(duì)數(shù)據(jù)進(jìn)行變換
![]()
![]()
變換后的數(shù)據(jù):
![]()
第3步:再次測(cè)試正態(tài)性
![]()
從上圖中,P值>0.05,因此很明顯,數(shù)據(jù)遵循正態(tài)分布,從直方圖中我們也可以看到數(shù)據(jù)也是均勻分布的。由此可見,Box-Cox成功地修正了數(shù)據(jù)的偏態(tài)性。
七、Box-Cox 的局限性
Box-Cox轉(zhuǎn)換并非萬(wàn)能。首先,它要求數(shù)據(jù)必須大于零,如果存在零值或負(fù)數(shù),需要先進(jìn)行平移處理。其次,如果數(shù)據(jù)本質(zhì)上是多峰分布,例如不同生產(chǎn)線的數(shù)據(jù)混合在一起,Box-Cox無(wú)法解決。最后,對(duì)于極端厚尾的數(shù)據(jù),Box-Cox的修正能力有限。因此,分析者在使用時(shí)要保持理性,不能將其當(dāng)作“萬(wàn)能鑰匙”。
八、其他常見轉(zhuǎn)換方法
除了Box-Cox,還有一些常見的數(shù)據(jù)轉(zhuǎn)換方法。對(duì)數(shù)變換適合右偏分布,平方根變換適合處理計(jì)數(shù)型數(shù)據(jù),倒數(shù)變換用于右偏特別嚴(yán)重的情況,而Johnson轉(zhuǎn)換則比Box-Cox更靈活,甚至可以處理包含零或負(fù)數(shù)的數(shù)據(jù)。不同方法各有適用范圍,需要根據(jù)實(shí)際情況選擇。
九、為什么六西格瑪項(xiàng)目特別強(qiáng)調(diào)正態(tài)性
六西格瑪之所以特別強(qiáng)調(diào)正態(tài)性,是因?yàn)楹芏嗪诵闹笜?biāo)建立在正態(tài)分布的基礎(chǔ)上。Cp和Cpk是基于過(guò)程數(shù)據(jù)正態(tài)分布假設(shè)計(jì)算的,DPMO的推算依賴于正態(tài)分布尾部概率,Z值的定義本質(zhì)上也是標(biāo)準(zhǔn)正態(tài)分布下的概率。如果數(shù)據(jù)嚴(yán)重偏態(tài),Cp/Cpk的結(jié)果就會(huì)完全失真。舉例來(lái)說(shuō),本來(lái)客戶的缺陷率是千分之一,但因?yàn)閿?shù)據(jù)偏態(tài),被錯(cuò)誤估計(jì)為百萬(wàn)分之一,最終導(dǎo)致管理層誤判。因此,六西格瑪黑帶必須掌握如何判斷正態(tài)性以及如何使用Box-Cox等方法進(jìn)行修正。
十、結(jié)語(yǔ):從“非正態(tài)”到“正態(tài)”,是數(shù)據(jù)分析的必修課
現(xiàn)實(shí)世界的數(shù)據(jù)往往不完美。作為數(shù)據(jù)分析者,不能盲目依賴統(tǒng)計(jì)軟件的默認(rèn)假設(shè),而要主動(dòng)檢查數(shù)據(jù)分布,選擇合適的方法。當(dāng)遇到非正態(tài)數(shù)據(jù)時(shí),首先要排除采集錯(cuò)誤,其次可以使用Box-Cox等方法進(jìn)行轉(zhuǎn)換,如果轉(zhuǎn)換仍不理想,則考慮采用非參數(shù)方法或者其他分布模型。只有這樣,才能真正做到“用數(shù)據(jù)說(shuō)話”,而不是被數(shù)據(jù)誤導(dǎo)。
如果你想進(jìn)一步深入學(xué)習(xí)六西格瑪中的統(tǒng)計(jì)工具,理解正態(tài)分布在質(zhì)量管理中的應(yīng)用,建議參加優(yōu)思學(xué)院的六西格瑪黑帶課程,在系統(tǒng)的訓(xùn)練中掌握這些知識(shí),成為能夠駕馭數(shù)據(jù)的專業(yè)人士。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.