<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      華人團(tuán)隊(duì)提出智能體自我進(jìn)化框架,大幅提升通用推理能力

      0
      分享至

      大語(yǔ)言模型可以從互聯(lián)網(wǎng)上海量的文本中學(xué)習(xí),但當(dāng)這些模型需要進(jìn)化成能夠自主行動(dòng)的智能體(Agent)時(shí),數(shù)據(jù)問(wèn)題變得完全不同。Agent 需要的不是簡(jiǎn)單的文本序列,而是包含“觀察-行動(dòng)-反饋”完整循環(huán)的交互軌跡(trajectory)數(shù)據(jù)。

      相關(guān)研究顯示,這類(lèi)數(shù)據(jù)的收集正成為 Agent 開(kāi)發(fā)的最大瓶頸:人工標(biāo)注成本高昂,合成數(shù)據(jù)質(zhì)量難以保證,而記錄現(xiàn)有 Agent 的軌跡又受限于其能力上限。

      雖然已有一些自我進(jìn)化(self-evolution)方法試圖讓模型自己生成訓(xùn)練數(shù)據(jù),但這些方法普遍面臨兩個(gè)困境:模型只能生成不超出自身知識(shí)范圍的任務(wù),以及僅支持單輪交互而無(wú)法處理復(fù)雜的多步推理。

      面對(duì)這個(gè)困境,近期,由北卡羅來(lái)納大學(xué)教堂山分校(UNC)助理教授姚驊修領(lǐng)導(dǎo)的聯(lián)合團(tuán)隊(duì)提出了 Agent0 框架,試圖通過(guò)引入外部工具和多輪交互來(lái)打破這些局限。


      圖丨相關(guān)論文(來(lái)源:arXiv)

      Agent0 的核心是一個(gè)雙智能體協(xié)同進(jìn)化系統(tǒng)。系統(tǒng)包含兩個(gè)從同一基礎(chǔ)模型初始化的 Agent:課程智能體(Curriculum Agent)負(fù)責(zé)生成問(wèn)題,執(zhí)行智能體(Executor Agent)則嘗試解決這些問(wèn)題。

      但課程智能體不是隨意出題,而是通過(guò)強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)優(yōu)化,專(zhuān)門(mén)生成那些恰好處于執(zhí)行智能體能力邊界的任務(wù)。

      這個(gè)邊界如何界定?研究團(tuán)隊(duì)用了一個(gè)巧妙的方法:讓執(zhí)行智能體對(duì)同一問(wèn)題生成多個(gè)答案,如果答案不一致,說(shuō)明這個(gè)問(wèn)題正好在它能力的邊緣。

      他們將這種不確定性量化為一個(gè)獎(jiǎng)勵(lì)函數(shù),當(dāng)執(zhí)行智能體的答案分布接近 50% 一致時(shí),也就是最糾結(jié)的時(shí)候,獎(jiǎng)勵(lì)最高。這種設(shè)計(jì)確保了生成的任務(wù)既不會(huì)太簡(jiǎn)單讓模型學(xué)不到東西,也不會(huì)難到完全無(wú)法入手。


      圖丨Agent0 自主共演化框架。(來(lái)源:arXiv)

      但這樣還不夠。如果只靠模型自己的知識(shí)生成和解決問(wèn)題,很快就會(huì)陷入停滯,模型不可能憑空創(chuàng)造出超出自己理解范圍的任務(wù)。研究團(tuán)隊(duì)的方法是引入外部工具,具體來(lái)說(shuō)是一個(gè) Python 代碼解釋器。

      這個(gè)工具可以執(zhí)行代碼、進(jìn)行復(fù)雜計(jì)算、驗(yàn)證數(shù)學(xué)結(jié)果。不僅執(zhí)行智能體可以使用這個(gè)工具,課程智能體也配備了同樣的能力。

      這就形成了一個(gè)獨(dú)特的協(xié)同進(jìn)化機(jī)制。執(zhí)行智能體有了代碼解釋器后,可以解決需要復(fù)雜計(jì)算的問(wèn)題,能力邊界向外擴(kuò)展。這時(shí)課程智能體發(fā)現(xiàn),原來(lái)能難倒執(zhí)行智能體的問(wèn)題現(xiàn)在變簡(jiǎn)單了,不確定性獎(jiǎng)勵(lì)下降。

      為了維持獎(jiǎng)勵(lì)水平,課程智能體被迫生成更復(fù)雜的、需要更多工具調(diào)用的問(wèn)題。研究團(tuán)隊(duì)在獎(jiǎng)勵(lì)函數(shù)中特意加入了工具使用頻率的獎(jiǎng)勵(lì)項(xiàng),進(jìn)一步推動(dòng)這個(gè)螺旋上升的過(guò)程。


      圖丨Agent0 的協(xié)同進(jìn)化循環(huán)(來(lái)源:arXiv)

      實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了這個(gè)機(jī)制的有效性。在三輪迭代中,課程智能體生成的任務(wù)里平均工具調(diào)用次數(shù)從 1.65 次增加到 2.60 次,任務(wù)難度也確實(shí)在上升,用第一輪的執(zhí)行智能體去測(cè)試后續(xù)生成的任務(wù),通過(guò)率從 64% 持續(xù)下降到 51%。

      研究團(tuán)隊(duì)手工檢查了生成的問(wèn)題樣本:第一輪的問(wèn)題相對(duì)直接,比如“正方形內(nèi)至少需要多少個(gè)點(diǎn)才能保證有兩個(gè)點(diǎn)距離不超過(guò) 0.25 單位”;到了第三輪,問(wèn)題演化為“一個(gè)滿足特定遞推關(guān)系的正整數(shù)序列,求第 2024 項(xiàng)除以 1,000 的余數(shù)”,這需要設(shè)計(jì)算法、編寫(xiě)代碼、處理大數(shù)運(yùn)算。

      執(zhí)行智能體的訓(xùn)練面臨另一個(gè)挑戰(zhàn):沒(méi)有人工標(biāo)注,怎么知道答案對(duì)不對(duì)?系統(tǒng)采用的是多數(shù)投票機(jī)制,讓執(zhí)行智能體對(duì)每個(gè)問(wèn)題生成 10 個(gè)答案,把得票最多的答案當(dāng)作“正確答案”。

      但研究團(tuán)隊(duì)意識(shí)到這種偽標(biāo)簽(pseudo-label)的可靠性參差不齊。對(duì)于執(zhí)行智能體回答高度一致的簡(jiǎn)單任務(wù),多數(shù)投票結(jié)果可信;對(duì)于回答分散的困難任務(wù),偽標(biāo)簽可能就是錯(cuò)的。

      他們?yōu)榇碎_(kāi)發(fā)了 ADPO(Ambiguity-Dynamic Policy Optimization,歧義動(dòng)態(tài)策略優(yōu)化)算法。這個(gè)算法的核心思路是“看菜下碟”,根據(jù)任務(wù)的歧義程度動(dòng)態(tài)調(diào)整訓(xùn)練策略。對(duì)于高歧義任務(wù),降低訓(xùn)練信號(hào)的權(quán)重,避免模型在可能錯(cuò)誤的標(biāo)簽上過(guò)度學(xué)習(xí)。

      同時(shí)還放寬策略更新的約束,給模型更大的探索空間。標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法為了穩(wěn)定性會(huì)嚴(yán)格限制每步更新的幅度,但分析顯示這種限制主要壓制的是那些概率低但可能正確的答案路徑,對(duì)困難任務(wù)反而不利。

      執(zhí)行智能體的訓(xùn)練還包含一個(gè)關(guān)鍵設(shè)計(jì):多輪交互。不同于傳統(tǒng)的單次輸入-輸出,執(zhí)行代理會(huì)進(jìn)行多步推理:先生成自然語(yǔ)言推理,識(shí)別需要計(jì)算的部分,生成 Python 代碼,執(zhí)行代碼獲得結(jié)果,將結(jié)果融入推理過(guò)程,必要時(shí)進(jìn)行多輪代碼調(diào)用,最終給出答案。這模擬了人類(lèi)解決復(fù)雜問(wèn)題時(shí)“嘗試-反饋-修正”的過(guò)程。

      當(dāng)然,不是課程智能體生成的所有任務(wù)都適合拿來(lái)訓(xùn)練。系統(tǒng)會(huì)根據(jù)自洽性分?jǐn)?shù)篩選,只保留那些執(zhí)行智能體自洽性在 0.3 到 0.8 之間的任務(wù)——太簡(jiǎn)單(接近 1)學(xué)不到東西,太難(接近 0)偽標(biāo)簽不可靠。

      在 Qwen3-8B 基礎(chǔ)模型上的測(cè)試結(jié)果相當(dāng)可觀。經(jīng)過(guò)三輪迭代,數(shù)學(xué)推理能力從 49.2% 提升到 58.2%,漲幅約為 18%。在 MATH(高中競(jìng)賽數(shù)學(xué))、GSM8K(小學(xué)應(yīng)用題)、2024 和 2025 年美國(guó)數(shù)學(xué)邀請(qǐng)賽等多個(gè)基準(zhǔn)上,模型表現(xiàn)也都有穩(wěn)定提升。


      圖丨數(shù)學(xué)推理基準(zhǔn)的綜合結(jié)果(來(lái)源:arXiv)

      更重要的是這種方法所表現(xiàn)出的泛化能力。雖然訓(xùn)練聚焦在數(shù)學(xué)問(wèn)題上,但模型在通用推理任務(wù)上的表現(xiàn)也提升了約 24%。SuperGPQA(研究生水平的跨學(xué)科問(wèn)題)從 28.3% 提升到 33.0%,MMLU-Pro(多任務(wù)語(yǔ)言理解)從 51.8% 提升到 63.4%,BBEH(Big-Bench 困難子集)從 8.6% 提升到 13.7%。這說(shuō)明通過(guò)工具輔助培養(yǎng)的多步推理能力確實(shí)可以遷移到其他領(lǐng)域。

      對(duì)比其他無(wú)需外部數(shù)據(jù)的方法,Agent0 比 R-Zero 方法提升了 6.4%,相比同樣使用代碼執(zhí)行器的 Absolute Zero 提升了 10.6%,甚至比依賴 OpenAI API 的 Socratic-Zero 還高出 3.7%。

      消融實(shí)驗(yàn)進(jìn)一步證明去掉任何一個(gè)核心組件都會(huì)導(dǎo)致性能下降:如果移除課程智能體的訓(xùn)練,性能將大幅下跌 9.3%;若不給予工具使用獎(jiǎng)勵(lì),則下降 7.2%。

      不過(guò),團(tuán)隊(duì)表示這一方法更適合有明確驗(yàn)證標(biāo)準(zhǔn)的任務(wù),比如數(shù)學(xué)、編程、邏輯推理。對(duì)于創(chuàng)意寫(xiě)作、風(fēng)格設(shè)計(jì)這類(lèi)主觀性強(qiáng)的任務(wù),多數(shù)投票機(jī)制就不太管用了。

      而且雖然省去了人工標(biāo)注,但同時(shí)訓(xùn)練兩個(gè) Agent、每個(gè)任務(wù)生成 10 個(gè)候選答案,計(jì)算開(kāi)銷(xiāo)也不小。框架目前依賴能提供客觀反饋的工具,對(duì)純語(yǔ)言推理或需要人類(lèi)主觀判斷的任務(wù)適用性有限。

      但 Agent0 展示的方向值得關(guān)注。隨著 Agent 應(yīng)用越來(lái)越廣,軌跡數(shù)據(jù)需求會(huì)持續(xù)增長(zhǎng),完全依賴人工標(biāo)注顯然不可持續(xù)。Agent0 證明了 AI 系統(tǒng)可以在沒(méi)有人類(lèi)直接監(jiān)督的情況下,通過(guò)精心設(shè)計(jì)的自我博弈和工具輔助實(shí)現(xiàn)能力的螺旋式上升。

      目前,研究團(tuán)隊(duì)已經(jīng)將相關(guān)代碼開(kāi)源。

      參考資料:

      相關(guān)論文:https://arxiv.org/pdf/2511.16043

      項(xiàng)目地址:https://github.com/aiming-lab/Agent0

      運(yùn)營(yíng)/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      家長(zhǎng)群瘋傳!北京四中家長(zhǎng)會(huì)流出這6頁(yè)P(yáng)PT內(nèi)容,一般學(xué)校真不敢說(shuō)…

      家長(zhǎng)群瘋傳!北京四中家長(zhǎng)會(huì)流出這6頁(yè)P(yáng)PT內(nèi)容,一般學(xué)校真不敢說(shuō)…

      愛(ài)下廚的阿椅
      2025-12-08 10:39:05
      火箭忍痛割?lèi)?ài)送首輪?23歲控衛(wèi)真能解燃眉之急嗎

      火箭忍痛割?lèi)?ài)送首輪?23歲控衛(wèi)真能解燃眉之急嗎

      大漢體育解說(shuō)
      2025-12-07 23:54:57
      央視怒批!人民日?qǐng)?bào)點(diǎn)名封殺,這四位目無(wú)法紀(jì)的大網(wǎng)紅,徹底涼涼

      央視怒批!人民日?qǐng)?bào)點(diǎn)名封殺,這四位目無(wú)法紀(jì)的大網(wǎng)紅,徹底涼涼

      劉森森
      2025-12-05 21:36:34
      結(jié)束了!澤連斯基發(fā)表全國(guó)講話,烏克蘭人狂歡:終于不用提心吊膽

      結(jié)束了!澤連斯基發(fā)表全國(guó)講話,烏克蘭人狂歡:終于不用提心吊膽

      愛(ài)下廚的阿釃
      2025-12-08 09:54:44
      古代上京的考生盤(pán)纏豐厚,為何土匪不搶?zhuān)客练耍耗悴豢囱辖壍纳?>
    </a>
        <h3>
      <a href=小豫講故事
      2025-12-08 06:00:07
      董璇女兒小酒窩曬17張合影,多位明星爭(zhēng)相貼臉合照引羨慕

      董璇女兒小酒窩曬17張合影,多位明星爭(zhēng)相貼臉合照引羨慕

      掛肚逍遙心
      2025-12-07 18:19:02
      “美國(guó)造個(gè)數(shù)據(jù)中心要三年,中國(guó)……”

      “美國(guó)造個(gè)數(shù)據(jù)中心要三年,中國(guó)……”

      觀察者網(wǎng)
      2025-12-07 20:55:05
      1949年,林彪接父親林明卿到北京居住,釋?xiě)训溃阂院缶蛣e操心我了

      1949年,林彪接父親林明卿到北京居住,釋?xiě)训溃阂院缶蛣e操心我了

      南書(shū)房
      2025-12-01 14:00:06
      【歐洲】最大妓院,竟然成了中國(guó)富豪移民德國(guó)的核心基地?瓜有點(diǎn)大...

      【歐洲】最大妓院,竟然成了中國(guó)富豪移民德國(guó)的核心基地?瓜有點(diǎn)大...

      魯曉芙看歐洲
      2025-11-24 03:57:20
      張獻(xiàn)忠沉銀,出水7萬(wàn)多件金銀財(cái)寶,古人早知道位置為何不打撈?

      張獻(xiàn)忠沉銀,出水7萬(wàn)多件金銀財(cái)寶,古人早知道位置為何不打撈?

      收藏大視界
      2025-12-07 20:48:50
      1-4慘敗+2-3被翻!五星巴西跌下神壇?世界杯簽運(yùn)難救二流困境

      1-4慘敗+2-3被翻!五星巴西跌下神壇?世界杯簽運(yùn)難救二流困境

      阿晞體育
      2025-12-08 10:21:10
      被嗆“有本事簽生死狀”,游智彬來(lái)真的:公開(kāi)邀王世堅(jiān)27日擂臺(tái)見(jiàn)

      被嗆“有本事簽生死狀”,游智彬來(lái)真的:公開(kāi)邀王世堅(jiān)27日擂臺(tái)見(jiàn)

      海峽導(dǎo)報(bào)社
      2025-12-07 10:20:03
      中北大學(xué)學(xué)生吐槽吹頭發(fā)還要付費(fèi):3分鐘0.5元!校方回應(yīng)

      中北大學(xué)學(xué)生吐槽吹頭發(fā)還要付費(fèi):3分鐘0.5元!校方回應(yīng)

      極目新聞
      2025-12-07 14:02:10
      兩岸喜訊!大陸萬(wàn)萬(wàn)沒(méi)想到,沒(méi)等我軍正式收臺(tái),臺(tái)當(dāng)局送“大禮”

      兩岸喜訊!大陸萬(wàn)萬(wàn)沒(méi)想到,沒(méi)等我軍正式收臺(tái),臺(tái)當(dāng)局送“大禮”

      瞳哥視界
      2025-12-03 21:44:15
      隨著皇馬爆大冷門(mén)0-2,西甲最新積分榜出爐:皇馬正式落后榜首4分

      隨著皇馬爆大冷門(mén)0-2,西甲最新積分榜出爐:皇馬正式落后榜首4分

      側(cè)身凌空斬
      2025-12-08 06:37:56
      給2025年最好的懸疑劇排名,重影第7,命懸一生第4,第一名沒(méi)爭(zhēng)議

      給2025年最好的懸疑劇排名,重影第7,命懸一生第4,第一名沒(méi)爭(zhēng)議

      追星頂流大姑娘
      2025-12-08 11:46:43
      12月6日俄烏:美國(guó)徹底轉(zhuǎn)向,德國(guó)戰(zhàn)車(chē)加速啟動(dòng)

      12月6日俄烏:美國(guó)徹底轉(zhuǎn)向,德國(guó)戰(zhàn)車(chē)加速啟動(dòng)

      山河路口
      2025-12-06 19:12:10
      司馬遷果然沒(méi)瞎說(shuō),考古隊(duì)再次勘測(cè)秦始皇陵時(shí),真的挖出兩只銅鶴

      司馬遷果然沒(méi)瞎說(shuō),考古隊(duì)再次勘測(cè)秦始皇陵時(shí),真的挖出兩只銅鶴

      銘記歷史呀
      2025-12-07 19:05:01
      全網(wǎng)嚇瘋!王一博徒手攀巖手滑墜海,30秒后被撈起

      全網(wǎng)嚇瘋!王一博徒手攀巖手滑墜海,30秒后被撈起

      喜歡歷史的阿繁
      2025-12-08 08:40:35
      崩了!安徽某光伏企業(yè)大放假,并鼓勵(lì)員工自愿離職!

      崩了!安徽某光伏企業(yè)大放假,并鼓勵(lì)員工自愿離職!

      黯泉
      2025-12-07 14:15:28
      2025-12-08 13:15:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      15954文章數(shù) 514350關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋(píng)果亂成了一鍋粥

      頭條要聞

      媒體:臺(tái)日竟然還想夾擊解放軍 笑話

      頭條要聞

      媒體:臺(tái)日竟然還想夾擊解放軍 笑話

      體育要聞

      厲害的后衛(wèi)何其多 想想還少了哪一個(gè)

      娛樂(lè)要聞

      郭麒麟也救不了的德云社了?

      財(cái)經(jīng)要聞

      養(yǎng)牛場(chǎng)未見(jiàn)一頭牛 每天開(kāi)采礦石倒賣(mài)

      汽車(chē)要聞

      挑戰(zhàn)深圳地獄級(jí)路況 魏牌藍(lán)山VLA上車(chē)會(huì)思考聽(tīng)得懂人話

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      房產(chǎn)
      公開(kāi)課
      軍事航空

      本地新聞

      云游安徽|七千年敘事,第一章寫(xiě)在蚌埠

      數(shù)碼要聞

      英特爾將為蘋(píng)果代工芯片 初期僅用于標(biāo)準(zhǔn)版

      房產(chǎn)要聞

      碧桂園,開(kāi)始甩賣(mài)海口家底!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱(chēng)中方雷達(dá)照射日戰(zhàn)機(jī) 國(guó)防部回應(yīng)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产19p| 不卡av电影在线| 十八禁黄网站| 人妻少妇被猛烈进入中文字幕| 国产熟女高潮视频| 国产又爽又黄又刺激的视频| 亚洲成人综合网站| 国产精品99久久免费| 日本熟女视频| 肉大捧一进一出免费视频| 中文字幕熟女人妻丝袜| 精东A片成人影视| 国产熟妇??码视频| 中文字幕乱码中文乱码毛片| 色就色中文字幕在线视频| 国产麻豆成人传媒免费观看| 亚洲 欧美 综合 在线 精品| 松江区| 三成人免费看| 口爆少妇在线视频免费观看| 日本一卡精品视频免费| 亚洲欧美日韩愉拍自拍| 天天色欲综合| 国内a片| 亚洲最大的成人网| 黄www| 中文字幕亚洲有码| 亚洲AV日韩AV激情亚洲| 久久天天躁狠狠躁夜夜躁2012| 国产精品久久久久久爽爽爽床戏| 天堂色综合| 铜梁县| 婷婷有码| 小黄片入口| A片A级毛片| 欧美大黑屄| 国产在线线精品宅男网址| 亚洲老妈激情一区二区三区| 精品国产一区二区三区麻豆| 奇米影视7777狠狠狠狠色| 正在播放东北夫妻内射|