網易首頁 > 網易號 > 正文申請入駐

UCL與華為聯合突破：讓AI同時掌握多種推理技能的"均衡訓練師"

2026-02-07 20:05:28　來源: 科技行者

北京舉報

分享至

這項由倫敦大學學院(UCL)、華為諾亞方舟實驗室、巴塞爾大學等多家機構聯合完成的突破性研究，發表于2026年2月的arXiv預印本平臺(論文編號：arXiv:2602.05547v1)，為解決大型語言模型在多任務推理訓練中的關鍵難題提供了創新解決方案。

當前的AI語言模型就像專業運動員一樣，往往在某一項技能上表現卓越，比如數學計算或邏輯推理，但要讓它們同時精通多種不同類型的推理任務，就像培養一個全能型運動員一樣困難。傳統的訓練方法就像一個偏心的教練，總是讓擅長的學生練得更多，而忽視了那些需要更多幫助的"差生"。結果就是，模型在某些任務上表現優秀，但在其他任務上卻表現平平，這種不均衡的發展嚴重影響了AI系統在現實世界中的可靠性。

研究團隊發現，現有的訓練方法存在兩個根本性問題。第一個問題可以比作分蛋糕時的不公平現象：簡單任務就像食量小的孩子，很快就能吃飽，而復雜任務就像食量大的孩子，需要更多的"營養"才能成長，但傳統方法卻給所有孩子分配同樣大小的蛋糕。第二個問題則更加隱蔽，就像有些學生即使分配到了學習時間，但實際上卻在走神發呆，沒有產生真正的學習效果，這在技術上被稱為"零梯度"現象。

為了解決這些問題，研究團隊開發了一套名為MT-GRPO（多任務群體相對策略優化）的全新訓練方法，這就像是一個智慧的教練系統。這個系統能夠動態觀察每個"學生"（不同的推理任務）的學習進度，然后相應地調整訓練強度和注意力分配。當某個任務表現不佳或學習速度緩慢時，系統會自動增加對該任務的關注度，確保沒有任何一個重要技能被落下。

這套方法的核心創新在于它的"改進感知權重調整"機制。傳統方法只看任務的絕對表現好壞，就像只看考試分數，而忽略了學習進步的速度。而新方法不僅考慮任務的當前表現，還會追蹤每個任務的改進幅度。如果某個任務雖然分數不高，但最近有明顯進步，系統會認為這個任務正在良性發展，不需要過度干預。相反，如果某個任務不僅分數低，而且長時間沒有改進，系統就會加大對它的訓練投入。

另一個重要創新是"比例保持采樣器"，這個機制解決了訓練過程中的"虛假繁忙"問題。在傳統訓練中，有些任務看起來分配到了足夠的訓練時間，但實際上這些時間大部分都被浪費了，就像學生在課堂上身體在場但思想開小差。新的采樣器能夠識別并過濾掉這些無效的訓練樣本，確保分配給每個任務的訓練時間都能產生實際的學習效果。

研究團隊在三個截然不同的推理任務上測試了這套新方法：數字推理游戲Countdown（需要用給定數字通過運算達到目標值）、邏輯謎題Zebra（需要根據線索推斷不同實體的屬性關系）、以及抽象推理任務ARC（需要從示例中學會轉換規律并應用到新情況）。這三個任務就像考驗不同類型智能的三門考試：數學計算能力、邏輯推理能力和模式識別能力。

實驗結果令人印象深刻。在三任務設置中，新方法將最差任務的準確率比標準方法提高了16-28%，比另一個先進方法DAPO提高了6%，同時還保持了整體平均性能的競爭力。更重要的是，新方法達到目標性能所需的訓練步數減少了50%，這意味著不僅效果更好，而且效率更高。

當實驗擴展到九個不同難度的任務時，優勢變得更加明顯。研究團隊發現，通過調節系統中的一個關鍵參數（稱為λ），可以在追求最差任務性能提升和維持整體平均性能之間找到理想的平衡點。這就像調節音響的均衡器，可以根據需要強化低音或高音，找到最適合當前場景的音效設置。

這項研究的技術細節也展現了深厚的理論功底。研究團隊將多任務訓練問題形式化為一個約束優化問題，目標是在保證高平均性能的同時，限制不同任務之間的性能差距。通過數學推導，他們將這個復雜問題轉化為一個更易處理的最大最小優化問題，并設計了相應的算法來求解。

在實際實現中，系統采用了一種巧妙的設計：用softmax函數來確保任務權重始終保持有效的概率分布，同時使用梯度下降來動態更新這些權重。這種設計既保證了數學上的嚴謹性，又確保了實際運行時的穩定性。

比例保持采樣器的工作原理也值得詳細說明。在傳統方法中，如果某個任務被分配了30%的訓練時間，但其中70%的樣本由于"零梯度"問題而無法產生學習效果，那么該任務實際只獲得了9%的有效訓練。新的采樣器會預先估計每個任務的"有效學習率"，然后相應地調整采樣策略，確保每個任務都能獲得其應得份額的有效訓練。

研究團隊還進行了詳細的消融實驗，分別測試了系統各個組件的貢獻。結果顯示，改進感知權重調整和比例保持采樣器都是系統成功的關鍵因素，缺少任何一個都會導致性能顯著下降。這證實了研究團隊的理論分析，并為未來的改進指明了方向。

從更廣闊的視角來看，這項研究解決了當前AI發展中的一個重要挑戰：如何讓AI系統在多個領域都保持可靠的性能。隨著AI系統被部署到越來越多的實際應用中，用戶期望它們能夠在各種不同的任務上都表現出色，而不是只在某個特定領域表現優秀。這就像我們希望一個助手既能幫助處理數學計算，又能協助邏輯推理，還能識別模式和規律。

研究的局限性也值得關注。目前的實驗主要集中在推理任務上，雖然這些任務已經相當多樣化，但AI系統在現實世界中需要處理的任務類型更加豐富。此外，研究使用的是相對較小規模的模型（30億參數），在更大規模的模型上的表現還需要進一步驗證。

這項研究的意義不僅在于提供了一個有效的技術解決方案，更在于它為多任務AI訓練領域開辟了新的研究方向。通過將任務改進速度納入優化目標，研究團隊展示了一種更加細致和智能的訓練策略。這種思路可能會啟發更多創新方法的出現，推動整個領域的發展。

對于普通用戶而言，這項研究預示著未來的AI助手將變得更加可靠和全面。用戶不再需要擔心AI系統在某些類型的問題上表現不佳，而可以期待一個在各個方面都表現均衡的智能助手。這將大大提升AI系統的實用性和用戶體驗。

從產業角度看，這項研究為AI公司提供了一個重要的技術工具。在競爭激烈的AI市場中，能夠開發出在多個維度都表現優秀的模型，將成為重要的競爭優勢。這種均衡的性能表現對于構建用戶信任和擴大市場應用都具有重要意義。

說到底，這項研究就像為AI訓練領域帶來了一位經驗豐富的教練，這位教練不僅關注每個學生的絕對成績，更注重他們的成長軌跡和潛力發揮。通過這種更加智慧和平衡的訓練方式，我們正在向著真正智能、可靠的AI系統邁出重要一步。雖然這只是眾多技術突破中的一個，但它代表了AI發展的一個重要方向：從追求單一指標的優秀轉向追求全面均衡的卓越。對于那些希望深入了解技術細節的讀者，可以通過論文編號arXiv:2602.05547v1查閱完整的研究報告。

Q&A

Q1：MT-GRPO訓練方法相比傳統方法有什么優勢？

A：MT-GRPO就像一個智慧的教練，能夠動態調整對不同任務的關注度。傳統方法往往讓強項任務越來越強，弱項任務被忽視，而MT-GRPO會特別關注那些表現差或進步慢的任務，確保AI在所有技能上都能均衡發展。實驗顯示，它能將最差任務性能提升16-28%，同時訓練效率提高50%。

Q2：比例保持采樣器是什么，為什么重要？

A：比例保持采樣器解決了訓練過程中的"虛假繁忙"問題。就像學生在課堂上身體在場但思想開小差一樣，有些訓練時間雖然分配給了某個任務，但實際沒產生學習效果。這個采樣器能識別并過濾掉無效的訓練樣本，確保每個任務都能獲得真正有效的學習時間。

Q3：這項研究對普通人使用AI有什么實際意義？

A：這意味著未來的AI助手會變得更加全面可靠。現在的AI可能在數學很強但邏輯推理較弱，就像偏科的學生。而采用這種新訓練方法的AI將在各種不同類型的問題上都表現均衡，用戶不用擔心AI在某些方面"掉鏈子"，可以更放心地在各種場景下使用AI助手。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.