其中一個原因是“數據泄露”。也就是最后測試模型的時候,測試集中的樣例是模型在訓練時候見過的。就好比考試的卷子中,出現了你在練習過程中見過的完全一樣的題目。你在這張卷子上的成績很高,但是這個分數不能反映你真正理解內容的水平。還有另外一個導致模型在實際部署中性能變差的原因在于:預測式AI經常容易把相關性(Correlation)當作因果性(Causation)。
AI模型在訓練的過程中,會從輸入中尋找一切能夠幫助其更好地預測輸出的特征,但是到底這些特征和輸出是否為因果關系,AI模型是無法分辨的。這導致的結果,就讓AI模型在訓練過程中表現出一種被稱為“走捷徑”的行為。這些“捷徑”往往是基于非因果的虛假關聯,而非我們所期望的、具有泛化能力的真實因果邏輯。一個典型的例子,和新冠肺炎(COVID-19)的影像學診斷有關。之前有大量研究聲稱能通過胸部X光片高精度區分新冠患者和普通肺炎患者。然而,一項針對400多篇相關論文的系統審查發現,這些研究因嚴重方法論缺陷幾乎不具備臨床應用價值。
![]()
其中一個致命缺陷和數據集有關。在多個研究的訓練數據中,幾乎所有新冠肺炎影像來自成人,而所有未患病影像來自兒童。AI精準捕捉到了這個統計規律:“成人→可能患新冠;兒童→可能只是普通感冒”。這個模式讓AI在原數據集上取得極高準確率,但邏輯是錯誤的。模型并非識別磨玻璃影、白肺等真正的新冠影像特征,而是在判斷圖像是否來自成人。
但是值得我們注意的是,AI模型的設計者在部署之前,并不容易發現這個問題。我們來回顧一下AI模型的設計者在部署之前是如何測試自己的模型的:他們總是把采集到的數據集分成“訓練集”和“測試集”,然后用測試集來測試模型的性能。由于“訓練集”和“測試集”來自同一批數據,只是人為把這批數據分成了兩個集,因此“測試集”中,上面的統計規律“如果病人是成人,那么他很可能患有新冠;如果病人是兒童,則他很可能只是普通感冒”仍然成立。所以模型在這個測試集上的表現仍然很好,但是到現實中就不行了。這就是因為把相關性當作因果性導致的預測錯誤。
值得注意的是,當前的許多AI模型本質上是“黑箱”,其決策依據并非以顯式的邏輯規則呈現,而是隱含在數以萬計的復雜參數中。這種固有的不透明性,導致我們通常無法直接審視模型做出具體判斷的內在機理。因此,當模型依賴虛假關聯而非真實的因果特征做出判斷時,這類錯誤將變得極為隱蔽,難以在標準測試中被發現。如何打開AI的“黑箱”,實現模型的可解釋性,已成為人工智能領域至關重要的前沿方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.