當AI開始“自我出題”:Agent0揭示智能體進化新范式
現在的大語言模型想變成能自己進化的智能體,卡在一個大難題上數據。
以前AI學東西,要么靠人標注數據,成本高得嚇人;要么用機器合成數據,質量又不行。
Agent0框架就是來解決這個問題的,它讓AI能自己生成任務、自己訓練,不用再等人類喂數據。
![]()
Agent0最核心的點子是搞了兩個智能體互相配合,一個當“老師”,一個當“學生”,這個“老師”叫課程智能體,專門琢磨怎么出難題,它不是瞎出題,而是通過強化學習,專挑那些剛好在“學生”能力邊界上的題。
說白了,就是學生做起來有點費勁,但又不是完全不會的那種,課程智能體判斷題好不好,有個特別的標準。
要是學生做這道題的答案,一半對一半錯,它就覺得這題出得好,給的獎勵最高。
你想啊,太簡單的題學生全對,學不到東西;太難的題全錯,也沒用,這種“剛好夠得著”的題,才能逼著學生進步。
![]()
“學生”叫執行智能體,負責解題,它解題可不是拍腦袋,要走四步:先用自然語言想思路,再寫代碼驗證,然后整合結果,不對就反復改。
遇到復雜計算,它還會喊“工具人”Python解釋器來幫忙,比如算正方形里點的距離,或者遞推數列的余數,這些需要精確計算的題,代碼一跑就出結果。
這倆智能體一起練了幾輪后,變化挺明顯,一開始學生解題時,平均調用1.65次工具;練到后來,要調用2.6次。
工具用得越多,說明題越難,學生的能力也確實跟著上來了,這種“老師出題-學生解題-老師再調整”的循環,有點像人類教學里的“因材施教”,只不過這里是AI自己教自己。
![]()
光有老師和學生還不夠,怎么保證訓練效果?Agent0搞了個叫ADPO的動態算法。
以前訓練AI,常用多數投票定答案,但遇到模糊的題,多數投票很容易錯。
ADPO不這么干,它會根據題目的模糊程度,動態調整訓練的權重。
說白了,就是對那些答案不明確的題,ADPO不硬給結論,而是放寬更新約束,把那些看起來概率低但可能正確的思路也保留下來。
![]()
你想啊,創新的解法一開始往往不被看好,要是直接按多數票砍掉,可能就錯過突破了。
這種“留有余地”的訓練方式,讓AI能在模糊中慢慢找到對的方向,訓練的時候,Agent0還會篩選任務。
太簡單的,學生一看就會,pass;太難的,怎么都做不對,也pass,只留下那些學生做對的概率在30%到80%之間的題。
用這種“跳一跳夠得著”的題訓練,效率特別高,有數據顯示,用這個方法練Qwen3-8B模型,數學推理能力從原來的不到五成提升到了近六成。
![]()
對比傳統的PPO算法,ADPO更靈活,PPO為了穩定,對訓練過程約束很嚴,遇到難題容易“保守治療”,不敢嘗試新方法。
ADPO就敢放手讓AI試錯,在錯誤中學習,這種“動態調整+容錯”的思路,可能就是Agent0能在無監督情況下進步的關鍵。
現在Agent0已經開源了,代碼放在GitHub上,誰都能去看,它目前在數學推理上表現不錯,從小學應用題到美國數學邀請賽的題都能應付。
但也有局限,比如離了工具就玩不轉,純語言類的任務,像寫小說、編故事,效果一般;而且雙智能體訓練,計算成本也不低。
![]()
未來要是能把圖像、語音這些工具也整合進來,Agent0的能力可能會再上一個臺階。
說不定以后自動駕駛的決策系統,或者幫科學家發現新物質的AI,都會用上這種“自己教自己”的模式。
不過話說回來,AI自己進化,價值觀怎么對齊也是個問題,這事兒還得慢慢琢磨。
Agent0最讓人覺得有意思的,是它跳出了“人工喂數據”的老路子,讓AI通過自我博弈實現進化。
![]()
這種“自己出題、自己解題、自己優化”的模式,可能真的是智能體進化的新范式。
以后AI會不會越來越“聰明”,就看這種新范式能不能走通了。
這種新范式若能持續優化,AI或許能在沒有明確規則和大量標注數據的環境下,憑借自我探索和博弈不斷積累經驗,進而提升自身的智能水平。
就像人類在面對未知領域時,通過不斷嘗試和總結來獲取知識一樣,AI也有望在這種模式下實現質的飛躍,在更多復雜且多變的場景中展現出強大的適應能力和解決問題的能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.