<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大語言模型排名并不可靠,三萬分之一的數據變動即可左右結果

      0
      分享至


      (來源:麻省理工科技評論)

      企業若想使用大語言模型整理銷售報告或分類處理客戶咨詢,可從數百款獨立大語言模型中進行選擇,每款模型的性能都存在細微差異。

      為縮小選擇范圍,企業通常會參考大語言模型排名平臺。這類平臺會收集用戶與模型交互的反饋,依據模型在特定任務中的表現,對最新的大語言模型進行排名。

      但麻省理工學院的研究人員發現,少量用戶交互數據就會導致結果出現偏差,讓人們誤判某款大語言模型是特定應用場景的理想選擇。該研究表明,剔除極少一部分眾包數據,就會改變模型的排名位次。

      研究人員研發出一種快速檢測方法,可測試排名平臺是否容易受到這類問題影響。該評估方法能定位到對結果偏差影響最大的單條投票,方便用戶核查這些高影響力投票。

      研究人員表示,這項研究凸顯了制定更嚴謹策略評估模型排名的必要性。他們在本次研究中并未重點研究解決方案,但提出了可提升平臺穩定性的建議,例如收集更詳細的反饋數據來生成排名。

      該研究同時向依賴排名選擇大語言模型的用戶發出警示。這類決策可能會對企業或機構產生深遠且高昂的代價。

      麻省理工學院電氣工程與計算機科學系副教授、信息與決策系統實驗室及數據系統與社會研究所成員、計算機科學與人工智能實驗室附屬研究員、該研究資深作者塔瑪拉?布羅德里克(Tamara Broderick)表示:“我們驚訝地發現,這類排名平臺對該問題的敏感度極高。如果數萬條用戶反饋中,僅兩三條就決定了排名第一的大語言模型,那么人們就不能認定,這款模型投入使用后會持續優于其他所有模型。”

      該論文的第一作者為電氣工程與計算機科學系研究生黃珍妮(Jenny Huang)、申云逸(Yunyi Shen),還有 IBM 研究院高級研究科學家丹尼斯?魏(Dennis Wei),他們與布羅德里克共同完成了這項研究。該研究成果將在國際學習表征大會上發布。

      大語言模型排名平臺的類型眾多,最主流的模式是讓用戶向兩款模型提交同一查詢,再選擇輸出效果更好的模型。

      平臺會匯總這類對比結果生成排名,展示各款大語言模型在編程、視覺理解等特定任務中的最優表現。

      用戶選擇排名靠前的大語言模型時,通常會認為該模型的優異排名具備泛化性。這意味著在全新數據集、相似但不完全相同的應用場景中,這款模型依舊能優于其他模型。

      麻省理工學院的研究人員此前曾研究統計學、經濟學等領域的泛化性問題。相關研究發現,部分場景中剔除小部分數據就會改變模型結果,這說明這類研究的結論可能無法適用于更廣泛的場景。

      研究人員希望驗證,這類分析方法能否應用于大語言模型排名平臺。

      布羅德里克表示:“用戶最終想知道的,是自己是否選到了最優的大語言模型。如果僅有少量提示詞決定了排名,就說明這份排名并非絕對權威。”

      但人工測試剔除數據的影響并不現實。例如,他們評估的一個排名平臺擁有超 5.7 萬條投票。測試剔除 0.1% 數據,需要從 5.7 萬條投票中逐一剔除 57 條投票的子集,子集數量超 10 的 194 次方,再重新計算排名。

      研究人員基于此前的研究成果,研發出一種高效的近似計算方法,并將其適配應用于大語言模型排名系統。

      布羅德里克表示:“我們雖有理論證明該近似方法在特定假設下有效,但用戶無需僅憑理論判斷。我們的方法最終會為用戶標注出問題數據點,用戶只需剔除這些數據,重新運行分析,就能查看排名是否發生變化。”

      研究人員將該方法應用于主流排名平臺后,驚訝地發現,僅需剔除極少數據點,就會讓頭部大語言模型的排名發生顯著變化。有案例顯示,從 5.7 萬余條投票中僅剔除 2 條,占比 0.0035%,就改變了排名第一的模型。

      另一家使用專業標注人員、高質量提示詞的排名平臺,穩定性則更強。該平臺需剔除 2575 條評估中的 83 條,占比約 3%,才會改變頭部模型的排名。

      布羅德里克表示,核查結果顯示,許多高影響力投票可能源于用戶操作失誤。部分案例中,明明有明確的最優模型答案,用戶卻選擇了另一款模型。

      她補充道:“我們無法知曉用戶當時的想法,可能是誤點、注意力不集中,也可能是確實無法判斷優劣。核心結論是,排名第一的大語言模型,不應由噪聲數據、用戶失誤或異常值決定。”

      研究人員建議,平臺可收集用戶的額外反饋,例如每條投票的信心程度,以此獲取更豐富的信息,緩解該問題。排名平臺也可安排人工審核人員,評估眾包反饋的有效性。

      研究人員計劃繼續探索其他場景下的泛化性問題,同時研發更優質的近似計算方法,捕捉更多不穩定性案例。

      未參與此項研究的西北大學計算機科學系講席教授杰西卡?赫爾曼(Jessica Hullman)表示:“布羅德里克及其學生的研究,解決了現代機器學習模型與數據集規模過大、無法窮盡計算的難題,展示了如何有效估算特定數據對下游流程的影響。”

      赫爾曼補充道:“這項最新研究讓我們看到,日常使用的人類偏好匯總與模型更新方法雖普遍應用,卻十分脆弱,且高度依賴數據。極少的偏好數據就能改變微調模型的表現,這一發現有望推動更嚴謹的數據收集方法誕生。”

      https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比亞迪起訴美國政府,要求退還2025年4月來已繳稅款

      比亞迪起訴美國政府,要求退還2025年4月來已繳稅款

      IT之家
      2026-02-10 16:08:12
      73萬元貨款因涉詐被凍結,藥材商:交了2.5噸酸棗仁,面臨錢貨兩空;成都警方:正確認資金權屬

      73萬元貨款因涉詐被凍結,藥材商:交了2.5噸酸棗仁,面臨錢貨兩空;成都警方:正確認資金權屬

      大風新聞
      2026-02-10 21:04:23
      如果想知道法西斯當年怎么上臺的,看看現在的日本

      如果想知道法西斯當年怎么上臺的,看看現在的日本

      觀察者網
      2026-02-10 14:24:20
      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      混沌錄
      2026-02-10 21:10:11
      領導嫌工資高裁掉我,我平靜辭職,公司系統升級那天,我直接關機

      領導嫌工資高裁掉我,我平靜辭職,公司系統升級那天,我直接關機

      奶茶麥子
      2026-02-10 23:49:07
      我國載人登月新突破!

      我國載人登月新突破!

      每日經濟新聞
      2026-02-11 12:03:05
      大反轉?孫穎莎奪冠僅2天,最新擦邊球視頻曝光,王曼昱做出回應

      大反轉?孫穎莎奪冠僅2天,最新擦邊球視頻曝光,王曼昱做出回應

      體育就你秀
      2026-02-11 05:30:08
      陳沖棄養的中國雙胞胎,25年無下落?蘿莉島300萬頁文件讓人不安

      陳沖棄養的中國雙胞胎,25年無下落?蘿莉島300萬頁文件讓人不安

      壹月情感
      2026-02-10 23:43:27
      研究發現高功率超快充電樁會讓電動車動力電池的老化速度幾乎翻倍

      研究發現高功率超快充電樁會讓電動車動力電池的老化速度幾乎翻倍

      cnBeta.COM
      2026-02-10 01:06:23
      AI視頻大量傳播!周星馳經紀人質疑:平臺不管嗎?影視颶風連呼6次“恐怖”,字節跳動Seedance 2.0緊急暫停真人人臉上傳

      AI視頻大量傳播!周星馳經紀人質疑:平臺不管嗎?影視颶風連呼6次“恐怖”,字節跳動Seedance 2.0緊急暫停真人人臉上傳

      每日經濟新聞
      2026-02-10 19:28:11
      《飛馳人生3》海報引爭議,被指“抄襲”好萊塢

      《飛馳人生3》海報引爭議,被指“抄襲”好萊塢

      影視高原說
      2026-02-09 16:55:08
      U23國門婉拒再留洋:出去沒球踢!我實力比別人強,但教練不喜歡

      U23國門婉拒再留洋:出去沒球踢!我實力比別人強,但教練不喜歡

      我愛英超
      2026-02-11 10:25:58
      外交部:中菲同意妥善處理涉海分歧 管控好海上局勢

      外交部:中菲同意妥善處理涉海分歧 管控好海上局勢

      財聯社
      2026-02-10 15:42:34
      火箭3將終回暖!申京打爆內線,謝潑德找回準心,阿門攻守兼備

      火箭3將終回暖!申京打爆內線,謝潑德找回準心,阿門攻守兼備

      籃球資訊達人
      2026-02-11 12:47:28
      襄陽警方回應“女子舉報被老師強奸拐走孩子”:發生過關系,強奸產子和拐賣證據不足

      襄陽警方回應“女子舉報被老師強奸拐走孩子”:發生過關系,強奸產子和拐賣證據不足

      大風新聞
      2026-02-10 20:24:15
      高市早苗高興了不到1天,一連迎來3大噩耗,美俄都沒有對她客氣

      高市早苗高興了不到1天,一連迎來3大噩耗,美俄都沒有對她客氣

      東極妙嚴
      2026-02-10 09:52:57
      卡佩羅:C羅沒有梅西、馬拉多納和大羅的天賦;老佛爺獨斷專行

      卡佩羅:C羅沒有梅西、馬拉多納和大羅的天賦;老佛爺獨斷專行

      懂球帝
      2026-02-11 10:11:30
      中年失業學什么手藝比較吃香?網友:越是冷門的行業,越是吃香

      中年失業學什么手藝比較吃香?網友:越是冷門的行業,越是吃香

      另子維愛讀史
      2026-02-10 18:03:33
      花十六萬“做手術治療抑郁癥”后上海女大學生還是自殺了 事后家屬才知這手術未獲許可

      花十六萬“做手術治療抑郁癥”后上海女大學生還是自殺了 事后家屬才知這手術未獲許可

      信網
      2026-02-10 19:45:12
      索菲亞,經銷商跑了

      索菲亞,經銷商跑了

      拾遺地
      2026-02-10 14:14:44
      2026-02-11 13:08:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16250文章數 514602關注度
      往期回顧 全部

      科技要聞

      中芯國際去年營收673億元 凈利50億增長36%

      頭條要聞

      媒體:俄外長突然放下狠話 令人感覺到一陣陣寒意

      頭條要聞

      媒體:俄外長突然放下狠話 令人感覺到一陣陣寒意

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      汪峰吃驚!章子怡年前6天高調官宣喜訊

      財經要聞

      習酒節前價格雪崩控量穩價變空談

      汽車要聞

      新款阿維塔12內飾官圖:全面升級 兼顧智能與豪華

      態度原創

      旅游
      藝術
      親子
      教育
      數碼

      旅游要聞

      “馬上轉好運”?西安景區"旋轉真馬"引爭議

      藝術要聞

      楷書進步緩慢的原因是什么?

      親子要聞

      產檢十次漏掉第三個娃? 龍鳳胎后竟還有“老三”?到底怎么回事

      教育要聞

      學習效率,往往毀在細節里

      數碼要聞

      截胡Zen 6:開源固件openSIL提前登陸Zen 5主板

      無障礙瀏覽 進入關懷版