網易首頁 > 網易號 > 正文申請入駐

大語言模型排名并不可靠，三萬分之一的數據變動即可左右結果

2026-02-11 11:14:06　來源: DeepTech深科技

河南舉報

分享至

（來源：麻省理工科技評論）

企業若想使用大語言模型整理銷售報告或分類處理客戶咨詢，可從數百款獨立大語言模型中進行選擇，每款模型的性能都存在細微差異。

為縮小選擇范圍，企業通常會參考大語言模型排名平臺。這類平臺會收集用戶與模型交互的反饋，依據模型在特定任務中的表現，對最新的大語言模型進行排名。

但麻省理工學院的研究人員發現，少量用戶交互數據就會導致結果出現偏差，讓人們誤判某款大語言模型是特定應用場景的理想選擇。該研究表明，剔除極少一部分眾包數據，就會改變模型的排名位次。

研究人員研發出一種快速檢測方法，可測試排名平臺是否容易受到這類問題影響。該評估方法能定位到對結果偏差影響最大的單條投票，方便用戶核查這些高影響力投票。

研究人員表示，這項研究凸顯了制定更嚴謹策略評估模型排名的必要性。他們在本次研究中并未重點研究解決方案，但提出了可提升平臺穩定性的建議，例如收集更詳細的反饋數據來生成排名。

該研究同時向依賴排名選擇大語言模型的用戶發出警示。這類決策可能會對企業或機構產生深遠且高昂的代價。

麻省理工學院電氣工程與計算機科學系副教授、信息與決策系統實驗室及數據系統與社會研究所成員、計算機科學與人工智能實驗室附屬研究員、該研究資深作者塔瑪拉?布羅德里克（Tamara Broderick）表示：“我們驚訝地發現，這類排名平臺對該問題的敏感度極高。如果數萬條用戶反饋中，僅兩三條就決定了排名第一的大語言模型，那么人們就不能認定，這款模型投入使用后會持續優于其他所有模型。”

該論文的第一作者為電氣工程與計算機科學系研究生黃珍妮（Jenny Huang）、申云逸（Yunyi Shen），還有 IBM 研究院高級研究科學家丹尼斯?魏（Dennis Wei），他們與布羅德里克共同完成了這項研究。該研究成果將在國際學習表征大會上發布。

大語言模型排名平臺的類型眾多，最主流的模式是讓用戶向兩款模型提交同一查詢，再選擇輸出效果更好的模型。

平臺會匯總這類對比結果生成排名，展示各款大語言模型在編程、視覺理解等特定任務中的最優表現。

用戶選擇排名靠前的大語言模型時，通常會認為該模型的優異排名具備泛化性。這意味著在全新數據集、相似但不完全相同的應用場景中，這款模型依舊能優于其他模型。

麻省理工學院的研究人員此前曾研究統計學、經濟學等領域的泛化性問題。相關研究發現，部分場景中剔除小部分數據就會改變模型結果，這說明這類研究的結論可能無法適用于更廣泛的場景。

研究人員希望驗證，這類分析方法能否應用于大語言模型排名平臺。

布羅德里克表示：“用戶最終想知道的，是自己是否選到了最優的大語言模型。如果僅有少量提示詞決定了排名，就說明這份排名并非絕對權威。”

但人工測試剔除數據的影響并不現實。例如，他們評估的一個排名平臺擁有超 5.7 萬條投票。測試剔除 0.1% 數據，需要從 5.7 萬條投票中逐一剔除 57 條投票的子集，子集數量超 10 的 194 次方，再重新計算排名。

研究人員基于此前的研究成果，研發出一種高效的近似計算方法，并將其適配應用于大語言模型排名系統。

布羅德里克表示：“我們雖有理論證明該近似方法在特定假設下有效，但用戶無需僅憑理論判斷。我們的方法最終會為用戶標注出問題數據點，用戶只需剔除這些數據，重新運行分析，就能查看排名是否發生變化。”

研究人員將該方法應用于主流排名平臺后，驚訝地發現，僅需剔除極少數據點，就會讓頭部大語言模型的排名發生顯著變化。有案例顯示，從 5.7 萬余條投票中僅剔除 2 條，占比 0.0035%，就改變了排名第一的模型。

另一家使用專業標注人員、高質量提示詞的排名平臺，穩定性則更強。該平臺需剔除 2575 條評估中的 83 條，占比約 3%，才會改變頭部模型的排名。

布羅德里克表示，核查結果顯示，許多高影響力投票可能源于用戶操作失誤。部分案例中，明明有明確的最優模型答案，用戶卻選擇了另一款模型。

她補充道：“我們無法知曉用戶當時的想法，可能是誤點、注意力不集中，也可能是確實無法判斷優劣。核心結論是，排名第一的大語言模型，不應由噪聲數據、用戶失誤或異常值決定。”

研究人員建議，平臺可收集用戶的額外反饋，例如每條投票的信心程度，以此獲取更豐富的信息，緩解該問題。排名平臺也可安排人工審核人員，評估眾包反饋的有效性。

研究人員計劃繼續探索其他場景下的泛化性問題，同時研發更優質的近似計算方法，捕捉更多不穩定性案例。

未參與此項研究的西北大學計算機科學系講席教授杰西卡?赫爾曼（Jessica Hullman）表示：“布羅德里克及其學生的研究，解決了現代機器學習模型與數據集規模過大、無法窮盡計算的難題，展示了如何有效估算特定數據對下游流程的影響。”

赫爾曼補充道：“這項最新研究讓我們看到，日常使用的人類偏好匯總與模型更新方法雖普遍應用，卻十分脆弱，且高度依賴數據。極少的偏好數據就能改變微調模型的表現，這一發現有望推動更嚴謹的數據收集方法誕生。”

https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.