![]()
面對統計檢驗時,很多人第一時間都會問一句:「p 值到底是什么意思?」這個數字經常出現在報告、論文、t 檢驗、ANOVA、回歸分析里,卻也常被誤解得最離譜。為了讓概念更直觀,我們不談公式、不談復雜符號,只從一個簡單的場景開始想。
想像你統計了一組數據,例如比較兩所學校學生的身高。你在 A 學校量了10個人,在 B 學校也量了10個人。結果發現兩組的平均身高有些差異。
接下來,你可能希望用這些樣本來推斷整體情況:也就是說,或許 A 學校的學生平均來說比 B 學校的學生更高。
![]()
然而:有人走過來說,不,我對你的結果有不同的解釋:你只是在你的樣本中發現了差異,但整個學校都是一樣的。你只是碰巧從A學校挑了高個子學生,從B學校挑了矮個子學生。
當批評者說“你的結果只是隨機誤差造成的”時,他們實際上是在主張零假設。因此,在繼續任何分析之前,你必須先回應這種質疑:你得證明如果差異真的只是隨機造成的,你的數據不會大概率呈現成現在這樣。這總是有可能的,但你可以證明它不太可能,這就是你唯一能合理做的事情。
在零假設下找到你的數據的機率是p值。如果p值非常低,這意味著僅僅由于毒素的隨機變化而找到你的影響的可能性非常小。
![]()
p 值(綠色陰影區域, 上圖)是在原假設為真的前提下,出現某個觀測結果(或更極端結果)的概率。
相反,如果p值不是那么低,你的數據與你所期望的只是由于噪音而產生的影響非常吻合。
每隔一段是說p值必須低于0.05才能夠駁回零假設批評。由于你的p值更大,你不能說你的數據只是由于偶然性而足夠出乎意料。相反,這種影響在統計學上并不顯著。
請注意,p值始終是在給定假設下影響的機率。它不是零假設本身的機率,你不知道。你所說的只是數據與零假設不太一致。如果你想嘗試假設分配一個機率,你必須使用貝葉斯方法并涉及先驗。不過,在大多數情況下,我認為恰當地使用 p 值,已經足以支持這樣一種主張:現有數據難以由零假設合理解釋。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.