![]()
這項由中國人民大學和快手科技聯合開展的研究發表于2026年4月舉辦的WWW國際萬維網大會,論文標題為"Agentic Entropy-Balanced Policy Optimization"。感興趣的讀者可以通過論文編號arXiv:2510.14545查詢完整研究內容。
當我們看到ChatGPT能夠搜索網頁、寫代碼、分析數據時,可能會覺得這些AI已經非常智能了。但你可能不知道的是,訓練這樣的AI智能體其實面臨著一個非常棘手的問題,就像教一個學生既要有創造性思維,又要保持學習的穩定性一樣困難。
現代AI智能體就像一個需要使用各種工具的"數字助手"。當它遇到問題時,需要決定是搜索網頁、運行代碼還是調用其他工具。這個決策過程充滿了不確定性,用科學術語叫做"高熵"狀態。就好比一個廚師面對滿桌子的食材和調料,每次都不確定該選擇哪種搭配一樣。
這種不確定性本來是件好事,因為它讓AI能夠探索不同的解決方案。但問題是,在訓練過程中,這種不確定性可能會失控,導致AI要么過度糾結于某種思路而忽略其他可能性,要么學習過程變得極不穩定,就像一個學生反復練習同一道題卻忽略了其他重要知識點。
中國人民大學的董冠廷等研究人員深入分析了這個問題,發現了訓練智能體時會遇到的兩個核心困難。第一個問題可以比作"思維定勢陷阱":當AI在某個思路上遇到很多不確定性時,它會過度專注于這條路徑,不斷嘗試各種變化,卻忽略了其他可能更有效的解決方案。就像一個人迷路后,不斷在同一個街區轉圈,而沒有想到換條大路可能更快。
第二個問題則像"學習能力退化":在訓練過程中,當AI遇到這些充滿不確定性的情況時,傳統的訓練方法會"削弱"它從這些經歷中學習的能力。這就好比一個學生在做難題時,老師不但不鼓勵他的探索精神,反而削減了他從錯誤中學習的機會。
為了解決這些問題,研究團隊設計了一套名為"智能體熵平衡策略優化"的新方法,簡稱AEPO。這個方法的核心思想是既要保持AI的探索能力,又要防止探索過程失控。
這套方法包含兩個巧妙的設計。第一個設計叫做"動態熵平衡展開機制",就像給AI配備了一個智能的"注意力分配器"。當AI面臨復雜問題時,這個機制會先評估問題本身的復雜程度和使用工具可能帶來的幫助程度,然后智能地決定該把多少"腦力"用于思考基礎問題,多少用于嘗試不同工具。
更重要的是,這個機制還會監控AI是否在某條思路上"鉆牛角尖"。一旦發現AI連續多次在同一個方向上遇到高不確定性,就會適當"勸阻"它繼續在這個方向上投入過多精力,引導它嘗試其他可能的解決路徑。這就像一個好的學習顧問,既鼓勵學生深入思考,又防止他們在某個難點上浪費過多時間。
第二個設計叫做"熵平衡策略優化",專門解決學習過程中的問題。傳統訓練方法在遇到高不確定性情況時,往往會"切斷"AI從這些經歷中學習的機會。而新方法采用了一種巧妙的技術,讓AI在保持原有推理過程的同時,依然能夠從那些充滿不確定性的經歷中有效學習。
這就像給學生設計了一種特殊的學習方法:當他們遇到特別有挑戰性的題目時,不會因為題目太難就放棄從中學習,而是保持學習的積極性,同時調整學習的強度和方式。研究團隊還設計了一種"熵感知優勢估計"方法,讓AI能夠更加重視那些充滿不確定性但最終獲得正確答案的經歷,這些經歷往往包含最有價值的學習信息。
為了驗證這套方法的效果,研究團隊在14個不同的測試任務上進行了大量實驗。這些任務涵蓋了深度信息搜索、知識密集型推理和計算推理等多個方面,就像給AI設計了不同類型的"考試"來全面檢驗它的能力。
實驗結果令人印象深刻。使用新方法訓練的Qwen3-14B模型在多個困難任務上表現出色。在GAIA任務上達到了47.6%的準確率,在人類最后考試任務上達到11.2%,在WebWalkerQA任務上達到43.0%。當允許模型進行多次嘗試時,效果更加突出:GAIA任務達到65.0%,人類最后考試達到26.0%,WebWalkerQA達到70.0%。
更重要的是,這些結果是僅使用1000個訓練樣本就達到的,這意味著新方法不僅效果好,而且訓練效率很高。相比之下,其他7種主流的強化學習算法在相同條件下的表現都明顯遜色。
深入分析發現,AEPO方法的成功主要體現在兩個方面。首先,它顯著提高了訓練過程中的探索多樣性。傳統方法在處理高不確定性情況時,往往會讓AI過度集中在少數幾個思路上,而新方法能讓AI更均勻地探索各種可能性。研究人員通過可視化分析發現,使用AEPO訓練的模型產生的探索軌跡形成了更多不同的聚類中心,說明探索范圍更廣泛、更均衡。
其次,AEPO方法在訓練過程中保持了更穩定的學習動態。傳統的優化方法在處理高不確定性時經常出現訓練不穩定的問題,表現為學習曲線的劇烈波動。而AEPO方法展現出更平滑、更穩定的訓練過程,這對于開發實用的AI系統非常重要。
研究團隊還發現,AEPO方法在工具使用效率方面也有顯著優勢。在深度信息搜索任務中,AEPO只需要約一半的工具調用次數就能達到比其他算法更好的效果。這意味著使用AEPO訓練的AI不僅更聰明,而且更節約計算資源,這對于實際應用來說具有重要的經濟價值。
這項研究的意義遠不止技術創新本身。隨著AI智能體在各行各業的應用越來越廣泛,如何有效訓練這些智能體成為了一個關鍵挑戰。傳統方法往往難以平衡探索與穩定性,而AEPO提供了一個系統性的解決方案。
從更廣的角度來看,這項研究揭示了一個重要原理:在訓練復雜AI系統時,不確定性既是挑戰也是機遇。關鍵在于如何智能地管理和利用這種不確定性,而不是簡單地壓制或忽視它。這種思路對于未來開發更強大、更可靠的AI系統具有重要指導意義。
特別值得注意的是,這項研究是在相對有限的計算資源下完成的,使用的是相對較小的訓練數據集。這表明AEPO方法具有很好的實用性和推廣潛力,不需要巨大的計算投入就能獲得顯著的性能提升。
當然,這項研究也為未來留下了一些有趣的探索方向。比如,如何將AEPO方法擴展到更復雜的多智能體環境,如何進一步優化熵平衡的策略,以及如何將這些技術應用到更廣泛的AI應用場景中。
說到底,這項研究告訴我們一個簡單而深刻的道理:教會AI既要有探索精神,又要保持學習的穩定性,就像培養一個既有創造力又有專注力的學生一樣,需要精心設計的方法和耐心的調教。董冠廷等研究人員的工作為我們提供了一個很好的起點,相信這種平衡探索與穩定的思路會在未來的AI發展中發揮越來越重要的作用。隨著這類技術的不斷完善,我們有望看到更多既聰明又可靠的AI助手出現在我們的日常生活中,真正實現人工智能的普及應用。
Q&A
Q1:AEPO算法是什么?
A:AEPO是"智能體熵平衡策略優化"算法,由中國人民大學和快手科技聯合開發。它專門解決AI智能體訓練中的兩個關鍵問題:防止AI在某個思路上過度糾結而忽略其他可能性,以及確保AI能夠從充滿不確定性的經歷中有效學習。
Q2:為什么AI智能體訓練會遇到熵增問題?
A:AI智能體在使用工具解決問題時會面臨很多不確定性,這種不確定性被稱為"高熵"狀態。雖然適度的不確定性有助于探索,但過度的不確定性會導致AI要么在某條思路上鉆牛角尖,要么學習過程變得不穩定,影響最終的智能化水平。
Q3:AEPO算法的訓練效果有多好?
A:在14個測試任務上,AEPO表現優異。僅用1000個訓練樣本,Qwen3-14B模型在GAIA任務上達到47.6%準確率,在多次嘗試情況下更是達到65.0%。相比其他7種主流強化學習算法,AEPO不僅效果更好,而且工具使用效率更高,只需約一半的工具調用次數。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.