<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      UCL與華為聯合突破:讓AI同時掌握多種推理技能的"均衡訓練師"

      0
      分享至


      這項由倫敦大學學院(UCL)、華為諾亞方舟實驗室、巴塞爾大學等多家機構聯合完成的突破性研究,發表于2026年2月的arXiv預印本平臺(論文編號:arXiv:2602.05547v1),為解決大型語言模型在多任務推理訓練中的關鍵難題提供了創新解決方案。

      當前的AI語言模型就像專業運動員一樣,往往在某一項技能上表現卓越,比如數學計算或邏輯推理,但要讓它們同時精通多種不同類型的推理任務,就像培養一個全能型運動員一樣困難。傳統的訓練方法就像一個偏心的教練,總是讓擅長的學生練得更多,而忽視了那些需要更多幫助的"差生"。結果就是,模型在某些任務上表現優秀,但在其他任務上卻表現平平,這種不均衡的發展嚴重影響了AI系統在現實世界中的可靠性。

      研究團隊發現,現有的訓練方法存在兩個根本性問題。第一個問題可以比作分蛋糕時的不公平現象:簡單任務就像食量小的孩子,很快就能吃飽,而復雜任務就像食量大的孩子,需要更多的"營養"才能成長,但傳統方法卻給所有孩子分配同樣大小的蛋糕。第二個問題則更加隱蔽,就像有些學生即使分配到了學習時間,但實際上卻在走神發呆,沒有產生真正的學習效果,這在技術上被稱為"零梯度"現象。

      為了解決這些問題,研究團隊開發了一套名為MT-GRPO(多任務群體相對策略優化)的全新訓練方法,這就像是一個智慧的教練系統。這個系統能夠動態觀察每個"學生"(不同的推理任務)的學習進度,然后相應地調整訓練強度和注意力分配。當某個任務表現不佳或學習速度緩慢時,系統會自動增加對該任務的關注度,確保沒有任何一個重要技能被落下。

      這套方法的核心創新在于它的"改進感知權重調整"機制。傳統方法只看任務的絕對表現好壞,就像只看考試分數,而忽略了學習進步的速度。而新方法不僅考慮任務的當前表現,還會追蹤每個任務的改進幅度。如果某個任務雖然分數不高,但最近有明顯進步,系統會認為這個任務正在良性發展,不需要過度干預。相反,如果某個任務不僅分數低,而且長時間沒有改進,系統就會加大對它的訓練投入。

      另一個重要創新是"比例保持采樣器",這個機制解決了訓練過程中的"虛假繁忙"問題。在傳統訓練中,有些任務看起來分配到了足夠的訓練時間,但實際上這些時間大部分都被浪費了,就像學生在課堂上身體在場但思想開小差。新的采樣器能夠識別并過濾掉這些無效的訓練樣本,確保分配給每個任務的訓練時間都能產生實際的學習效果。

      研究團隊在三個截然不同的推理任務上測試了這套新方法:數字推理游戲Countdown(需要用給定數字通過運算達到目標值)、邏輯謎題Zebra(需要根據線索推斷不同實體的屬性關系)、以及抽象推理任務ARC(需要從示例中學會轉換規律并應用到新情況)。這三個任務就像考驗不同類型智能的三門考試:數學計算能力、邏輯推理能力和模式識別能力。

      實驗結果令人印象深刻。在三任務設置中,新方法將最差任務的準確率比標準方法提高了16-28%,比另一個先進方法DAPO提高了6%,同時還保持了整體平均性能的競爭力。更重要的是,新方法達到目標性能所需的訓練步數減少了50%,這意味著不僅效果更好,而且效率更高。

      當實驗擴展到九個不同難度的任務時,優勢變得更加明顯。研究團隊發現,通過調節系統中的一個關鍵參數(稱為λ),可以在追求最差任務性能提升和維持整體平均性能之間找到理想的平衡點。這就像調節音響的均衡器,可以根據需要強化低音或高音,找到最適合當前場景的音效設置。

      這項研究的技術細節也展現了深厚的理論功底。研究團隊將多任務訓練問題形式化為一個約束優化問題,目標是在保證高平均性能的同時,限制不同任務之間的性能差距。通過數學推導,他們將這個復雜問題轉化為一個更易處理的最大最小優化問題,并設計了相應的算法來求解。

      在實際實現中,系統采用了一種巧妙的設計:用softmax函數來確保任務權重始終保持有效的概率分布,同時使用梯度下降來動態更新這些權重。這種設計既保證了數學上的嚴謹性,又確保了實際運行時的穩定性。

      比例保持采樣器的工作原理也值得詳細說明。在傳統方法中,如果某個任務被分配了30%的訓練時間,但其中70%的樣本由于"零梯度"問題而無法產生學習效果,那么該任務實際只獲得了9%的有效訓練。新的采樣器會預先估計每個任務的"有效學習率",然后相應地調整采樣策略,確保每個任務都能獲得其應得份額的有效訓練。

      研究團隊還進行了詳細的消融實驗,分別測試了系統各個組件的貢獻。結果顯示,改進感知權重調整和比例保持采樣器都是系統成功的關鍵因素,缺少任何一個都會導致性能顯著下降。這證實了研究團隊的理論分析,并為未來的改進指明了方向。

      從更廣闊的視角來看,這項研究解決了當前AI發展中的一個重要挑戰:如何讓AI系統在多個領域都保持可靠的性能。隨著AI系統被部署到越來越多的實際應用中,用戶期望它們能夠在各種不同的任務上都表現出色,而不是只在某個特定領域表現優秀。這就像我們希望一個助手既能幫助處理數學計算,又能協助邏輯推理,還能識別模式和規律。

      研究的局限性也值得關注。目前的實驗主要集中在推理任務上,雖然這些任務已經相當多樣化,但AI系統在現實世界中需要處理的任務類型更加豐富。此外,研究使用的是相對較小規模的模型(30億參數),在更大規模的模型上的表現還需要進一步驗證。

      這項研究的意義不僅在于提供了一個有效的技術解決方案,更在于它為多任務AI訓練領域開辟了新的研究方向。通過將任務改進速度納入優化目標,研究團隊展示了一種更加細致和智能的訓練策略。這種思路可能會啟發更多創新方法的出現,推動整個領域的發展。

      對于普通用戶而言,這項研究預示著未來的AI助手將變得更加可靠和全面。用戶不再需要擔心AI系統在某些類型的問題上表現不佳,而可以期待一個在各個方面都表現均衡的智能助手。這將大大提升AI系統的實用性和用戶體驗。

      從產業角度看,這項研究為AI公司提供了一個重要的技術工具。在競爭激烈的AI市場中,能夠開發出在多個維度都表現優秀的模型,將成為重要的競爭優勢。這種均衡的性能表現對于構建用戶信任和擴大市場應用都具有重要意義。

      說到底,這項研究就像為AI訓練領域帶來了一位經驗豐富的教練,這位教練不僅關注每個學生的絕對成績,更注重他們的成長軌跡和潛力發揮。通過這種更加智慧和平衡的訓練方式,我們正在向著真正智能、可靠的AI系統邁出重要一步。雖然這只是眾多技術突破中的一個,但它代表了AI發展的一個重要方向:從追求單一指標的優秀轉向追求全面均衡的卓越。對于那些希望深入了解技術細節的讀者,可以通過論文編號arXiv:2602.05547v1查閱完整的研究報告。

      Q&A

      Q1:MT-GRPO訓練方法相比傳統方法有什么優勢?

      A:MT-GRPO就像一個智慧的教練,能夠動態調整對不同任務的關注度。傳統方法往往讓強項任務越來越強,弱項任務被忽視,而MT-GRPO會特別關注那些表現差或進步慢的任務,確保AI在所有技能上都能均衡發展。實驗顯示,它能將最差任務性能提升16-28%,同時訓練效率提高50%。

      Q2:比例保持采樣器是什么,為什么重要?

      A:比例保持采樣器解決了訓練過程中的"虛假繁忙"問題。就像學生在課堂上身體在場但思想開小差一樣,有些訓練時間雖然分配給了某個任務,但實際沒產生學習效果。這個采樣器能識別并過濾掉無效的訓練樣本,確保每個任務都能獲得真正有效的學習時間。

      Q3:這項研究對普通人使用AI有什么實際意義?

      A:這意味著未來的AI助手會變得更加全面可靠。現在的AI可能在數學很強但邏輯推理較弱,就像偏科的學生。而采用這種新訓練方法的AI將在各種不同類型的問題上都表現均衡,用戶不用擔心AI在某些方面"掉鏈子",可以更放心地在各種場景下使用AI助手。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本官員同王毅外長握手,日媒見狀大肆報道:對華關系取得進展!

      日本官員同王毅外長握手,日媒見狀大肆報道:對華關系取得進展!

      阿龍聊軍事
      2026-02-12 17:17:49
      驟降13℃!10級大風!除夕前,河南還有一波雨雪

      驟降13℃!10級大風!除夕前,河南還有一波雨雪

      大象新聞
      2026-02-12 08:21:04
      廣州地塊這條新線,明天正式開通!

      廣州地塊這條新線,明天正式開通!

      房地產導刊
      2026-02-12 16:32:37
      愛潑斯坦別墅內景曝光,老虎標本栩栩如生,男子跪地笑容陰森

      愛潑斯坦別墅內景曝光,老虎標本栩栩如生,男子跪地笑容陰森

      大魚簡科
      2026-02-11 17:08:09
      全都“叛變”了,臺積電、三星接連宣布,外媒:中國不買了?

      全都“叛變”了,臺積電、三星接連宣布,外媒:中國不買了?

      無處遁形
      2026-02-12 14:13:50
      怒江州1名干部接受審查調查

      怒江州1名干部接受審查調查

      黃河新聞網呂梁頻道
      2026-02-12 11:39:03
      王艷攜兒子球球登上雜志封面 19歲王泓欽身高1.8米 高顏值好帥氣

      王艷攜兒子球球登上雜志封面 19歲王泓欽身高1.8米 高顏值好帥氣

      生性灑脫
      2026-02-12 09:37:45
      怎么又是你?阿森納再遇新帥,而且還要多賽3場,利物浦則有優勢

      怎么又是你?阿森納再遇新帥,而且還要多賽3場,利物浦則有優勢

      嗨皮看球
      2026-02-12 18:48:33
      身家過億的財經女俠葉檀,抗癌3年悔悟:丁克是這輩子最錯的決定

      身家過億的財經女俠葉檀,抗癌3年悔悟:丁克是這輩子最錯的決定

      青眼財經
      2026-02-11 19:36:31
      報告:近六成日企計劃今年擴大或維持對華投資

      報告:近六成日企計劃今年擴大或維持對華投資

      第一財經資訊
      2026-02-12 11:01:30
      一個家庭被人借運的跡象:如果發現,一定要拒絕

      一個家庭被人借運的跡象:如果發現,一定要拒絕

      木言觀
      2026-01-23 06:31:42
      羊肉被關注!研究發現:腦梗患者吃羊肉,用不了多久,或有3益處

      羊肉被關注!研究發現:腦梗患者吃羊肉,用不了多久,或有3益處

      阿兵科普
      2026-02-07 21:11:54
      1974年伍修權探望葉劍英,葉帥得知他八年賦閑在家,當即說道:你給毛主席寫封書信

      1974年伍修權探望葉劍英,葉帥得知他八年賦閑在家,當即說道:你給毛主席寫封書信

      史海孤雁
      2026-02-12 14:34:06
      卡拉澤丨因扎吉連10個顛球都做不到,但……

      卡拉澤丨因扎吉連10個顛球都做不到,但……

      米蘭圈
      2026-02-12 08:28:33
      三分之一賽程已過金牌掛零?別急!中國大招在后面

      三分之一賽程已過金牌掛零?別急!中國大招在后面

      林子說事
      2026-02-12 17:24:54
      全球公認的真人版春麗:木村萌那,使用百裂腳KO全場

      全球公認的真人版春麗:木村萌那,使用百裂腳KO全場

      街機時代
      2026-02-11 19:26:15
      平心而論,鄭欽文想要擊敗萊巴金娜,必須要達成以下幾個條件!

      平心而論,鄭欽文想要擊敗萊巴金娜,必須要達成以下幾個條件!

      田先生籃球
      2026-02-11 21:32:07
      姚晨沒想到,離春節不到7天,前夫凌瀟肅靠著佟大為,又火了一把

      姚晨沒想到,離春節不到7天,前夫凌瀟肅靠著佟大為,又火了一把

      天天熱點見聞
      2026-02-12 10:42:06
      青海一家35口人開旅游大巴赴云南自駕游,采購100斤米面等物資沿途自己做飯,當事人:往返14天,彌補缺失的陪伴

      青海一家35口人開旅游大巴赴云南自駕游,采購100斤米面等物資沿途自己做飯,當事人:往返14天,彌補缺失的陪伴

      極目新聞
      2026-02-11 16:46:33
      死亡率近100%,千萬別喝!國內暫無解藥,50毫升就可致死

      死亡率近100%,千萬別喝!國內暫無解藥,50毫升就可致死

      小鹿姐姐情感說
      2026-02-11 21:02:45
      2026-02-12 20:32:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      7245文章數 550關注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節前的暗戰

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      體育要聞

      31歲首次參加冬奧,10年前她是個水管工

      娛樂要聞

      體操運動員墜樓涉事教練被立案調查

      財經要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態度原創

      親子
      家居
      健康
      數碼
      公開課

      親子要聞

      2026年水解奶粉選購指南:平衡防敏需求與寶寶成長的科學之選

      家居要聞

      本真棲居 愛暖伴流年

      轉頭就暈的耳石癥,能開車上班嗎?

      數碼要聞

      AMD發布26.2.1可選顯卡驅動:新增支持《仁王3》等、修復游戲崩潰問題

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版