<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      告別昂貴賬單,Token直降68%,多智能體動態(tài)協(xié)作編程來了

      0
      分享至



      本文的主要作者來自上海交通大學(xué)自動化與感知學(xué)院 i-WiN 中心團(tuán)隊(duì),團(tuán)隊(duì)負(fù)責(zé)人是上海交通大學(xué)講席教授關(guān)新平。本文的通訊作者為 i-WiN 中心陳彩蓮教授和關(guān)新平教授,指導(dǎo)老師還包括中心的許齊敏副研究員、徐磊和張延洲助理研究員。本文的第一作者為上海交通大學(xué)博士生王思宇,研究方向涉及多模態(tài)大模型、CAD 生成、多智能體、Agentic RL 等。

      在當(dāng)下 Vibe Coding 火熱的背景下,軟件開發(fā)正迅速從 “人寫代碼” 轉(zhuǎn)向 “人指揮智能體寫代碼”。以 Claude Code、OpenClaw 為代表的系統(tǒng),讓智能體能夠自主完成編碼、調(diào)試乃至完整任務(wù)流程。然而,面對系統(tǒng)級開發(fā)或競賽級算法等復(fù)雜問題,單一模型的能力邊界依然明顯,多智能體協(xié)作逐漸成為主流范式

      但現(xiàn)有方法大多仍停留在兩種典型路徑。一類如 Claude Code 的Agent Teams,通過并行調(diào)用多個模型來提升能力上限,但也帶來了極高的 Token 成本;另一類則以當(dāng)下熱門的 OpenClaw 為代表,通過技能組合與流程編排實(shí)現(xiàn)多智能體管理,在工程上更可控。

      然而,這類方法的協(xié)作結(jié)構(gòu)大多仍依賴預(yù)定義規(guī)則或靜態(tài)流程,本質(zhì)上解決的是 “如何組織調(diào)用”,而非 “如何根據(jù)任務(wù)動態(tài)調(diào)整協(xié)作方式”。這就像不論修自行車還是造火箭,都派同一個十人專家組開三天會,導(dǎo)致智能體冗余通訊與大量的 Token 消耗,最終給用戶帶來了極高的自主編程成本

      上海交通大學(xué) i-WiN 團(tuán)隊(duì)最新提出多智能體框架AgentConductor,通過引入一個經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后的3B 參數(shù)指揮智能體,從根本上解決了這個問題。它會先評估任務(wù)難度,并生成一張以 YAML 表示的交互拓?fù)鋱D:簡單任務(wù)使用輕量團(tuán)隊(duì),復(fù)雜任務(wù)則使用更復(fù)雜的交互圖,實(shí)現(xiàn)能力與成本的自適應(yīng)匹配。



      圖 1.(a) 拓?fù)浣Y(jié)構(gòu)的 YAML 表示與實(shí)際圖結(jié)構(gòu)的映射;(b) AgentConductor 拓?fù)渖膳c演化過程展示

      更關(guān)鍵的是,AgentConductor 并非一次性規(guī)劃:當(dāng)生成代碼運(yùn)行失敗時,指揮智能體會根據(jù)環(huán)境反饋的錯誤信息,結(jié)合記憶中的歷史軌跡,對拓?fù)溥M(jìn)行端到端重新生成,從而探索新的協(xié)作形式。實(shí)驗(yàn)結(jié)果表明,該方法在顯著提升編碼準(zhǔn)確率(+14.6%)的同時,將 Token 成本降低了 68%。這說明真正高效的 AI 編程團(tuán)隊(duì)需要的是一種面向任務(wù)、可隨執(zhí)行反饋動態(tài)演化的協(xié)作結(jié)構(gòu),而非僵化的一刀切工作流。相關(guān)論文已經(jīng)公開,代碼將于近期開源。



      • 論文名稱:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
      • 論文鏈接:https://arxiv.org/abs/2602.17100

      社區(qū)影響力

      圖 2 展示了 AgentConductor 工作在國際 AI 社區(qū) (X, 前身 Twitter) 引發(fā)的廣泛關(guān)注與認(rèn)可。這項(xiàng)工作被知名 AI 分享博主 DAIR.AI 當(dāng)日置頂宣傳并評為 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并獲得新銳 AI 科技博主 Rohan Paul 對 i-WiN 團(tuán)隊(duì)和論文的高度評價(jià)。



      圖 2.AgentConductor 得到 DAIR.AI 與 Rohan Paul 等賬號推薦

      核心特色與方法介紹

      1. 基于 YAML 的新型多智能體交互圖結(jié)構(gòu)

      相比傳統(tǒng)多智能體拓?fù)?,我們在表示形式與交互機(jī)制兩個層面進(jìn)行了設(shè)計(jì)與優(yōu)化。

      1.1 表示形式

      傳統(tǒng)方法多采用連接矩陣等數(shù)學(xué)形式來描述交互圖,不僅可讀性差,也難以直接編輯與校驗(yàn),更無法由大模型端到端生成;近期工作嘗試使用自然語言描述,但存在拓?fù)洳粐?yán)格、難以結(jié)構(gòu)化約束等問題。我們使用 YAML 結(jié)構(gòu)化表示交互圖 (圖 1 (a)),使其既具備可讀性,又支持程序化校驗(yàn)與約束,并可由 LLM 直接生成。這種形式在設(shè)計(jì)上與當(dāng)前流行的Skill 配置文件具有一致性,便于理解與落地。



      圖 3. 本文交互拓?fù)浣Y(jié)構(gòu)與傳統(tǒng)方法的對比

      1.2 交互形式

      如圖 3 所示,傳統(tǒng)鏈?zhǔn)?、樹狀拓?fù)浞謩e限制并行性、通信范圍或連接靈活性,而全連接結(jié)構(gòu)又過于復(fù)雜。我們?nèi)诤隙喾N拓?fù)鋬?yōu)勢,支持層內(nèi)并行和跨層通訊且每個智能體可任意鏈接之前的歷史節(jié)點(diǎn),在提升表達(dá)能力的同時避免不必要的通信開銷

      2. 訓(xùn)練范式

      2.1 SFT + GRPO 的兩階段訓(xùn)練范式

      AgentConductor 采用兩階段訓(xùn)練策略,只訓(xùn)練一個指揮智能體:

      監(jiān)督微調(diào)(SFT):基于 GPT-4o 生成的 4,500 個高質(zhì)量拓?fù)錁颖荆ǜ采w三檔難度),賦予基礎(chǔ)模型拓?fù)湎闰?yàn);

      基于 GRPO 的多輪端到端 Agentic 強(qiáng)化學(xué)習(xí)訓(xùn)練:將環(huán)境反饋的代碼報(bào)錯和多輪的拓?fù)湮谋疽黄鹱鳛檐壽E (Trajectory) 來用于智能體的強(qiáng)化學(xué)習(xí)訓(xùn)練,基于 GRPO 算法優(yōu)化模型的拓?fù)渖刹呗砸宰畲蠡瘡?fù)合獎勵,最終實(shí)現(xiàn)低 Token 成本的高質(zhì)量代碼生成。



      圖 4. AgentConductor 的總體框架

      2.2 拓?fù)涿芏仍u估函數(shù)

      為實(shí)現(xiàn)任務(wù)自適應(yīng),我們將問題分成三檔難度,并根據(jù)從 Token 成本到拓?fù)涿芏鹊男问交成?,提出了拓?fù)涿芏仍u估函數(shù)并作為獎勵函數(shù)一部分。綜合刻畫節(jié)點(diǎn)數(shù)、邊密度與圖深度對通信成本的影響。

      我們在論文中證明,多智能體系統(tǒng)的平均通信成本可形式化為:



      其中 d 為圖深度, m 為提示詞最大長度。相比之下,傳統(tǒng)方法大多簡單的通過矩陣的秩來衡量交互密度,丟失了多智能體交互的數(shù)學(xué)含義

      實(shí)驗(yàn)結(jié)果展示

      我們在三個競賽級(APPS, LiveCodeBench, CodeContests)與兩個基礎(chǔ)代碼數(shù)據(jù)集(HumanEval, MBPP)上評估 AgentConductor(基于 Qwen-2.5-3B-Instruct):



      表 1. AgentConductor 的 pass@1 準(zhǔn)確率對比



      表 2. AgentConductor 在性能、成本及平均拓?fù)涿芏确矫娴谋容^結(jié)果

      表 1 說明,AgentConductor 以僅 3B 參數(shù)量,在 APPS 上顯著超越最強(qiáng)基線,同時減少了最多 68% 的 completion token 消耗,并實(shí)現(xiàn)最高拓?fù)湎∈瓒取8匾氖牵到y(tǒng)展現(xiàn)出細(xì)粒度難度適配能力:在 easy 任務(wù)上使用極簡拓?fù)洌ㄆ骄?3–4 節(jié)點(diǎn)),在 hard 任務(wù)上自動擴(kuò)展至 8–10 節(jié)點(diǎn),而多數(shù)基線無論難度均維持固定密度。(* 更多結(jié)果詳見論文)

      結(jié)語:多智能體系統(tǒng)正在學(xué)會組織自己

      過去,多智能體系統(tǒng)常被視為“堆人力”的暴力解法:越多AI越好。但AgentConductor 證明,智能協(xié)作的關(guān)鍵不在于數(shù)量,更在于結(jié)構(gòu)的適應(yīng)性。它標(biāo)志著多智能體研究從“靜態(tài)工作流”邁向“動態(tài)生態(tài)系統(tǒng)”。 AgentConductor 不僅是一項(xiàng)工程優(yōu)化,更代表了一種新范式:將多智能體協(xié)作視為可學(xué)習(xí)、可演化的結(jié)構(gòu)化決策過程。 通過將任務(wù)難度、執(zhí)行反饋與通信成本統(tǒng)一納入強(qiáng)化學(xué)習(xí)框架,我們實(shí)現(xiàn)了準(zhǔn)確率與效率的協(xié)同提升。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      松下衛(wèi)浴盧瑞東:技術(shù)的真正價(jià)值,是每一個功能都被用戶高頻使用

      松下衛(wèi)浴盧瑞東:技術(shù)的真正價(jià)值,是每一個功能都被用戶高頻使用

      中國家電網(wǎng)
      2026-04-03 16:19:37
      「逝者」85歲陳麗華去世:系“唐僧”遲重瑞之妻,曾以505億元成中國女首富

      「逝者」85歲陳麗華去世:系“唐僧”遲重瑞之妻,曾以505億元成中國女首富

      界面新聞
      2026-04-07 13:08:04
      車輛墜河致5人遇難,包括一家三口

      車輛墜河致5人遇難,包括一家三口

      中國新聞周刊
      2026-04-07 13:00:03
      突發(fā) | 食其家創(chuàng)始人,心梗去世!

      突發(fā) | 食其家創(chuàng)始人,心梗去世!

      天津廣播
      2026-04-07 12:29:11
      王楚欽奪冠不到24小時,壞消息來襲!世界乒聯(lián)公布,國乒僅存2人

      王楚欽奪冠不到24小時,壞消息來襲!世界乒聯(lián)公布,國乒僅存2人

      寶哥精彩賽事
      2026-04-07 07:22:29
      太悲傷!網(wǎng)傳江蘇一22歲女生剛畢業(yè)工作已定,突發(fā)主動脈夾層去世

      太悲傷!網(wǎng)傳江蘇一22歲女生剛畢業(yè)工作已定,突發(fā)主動脈夾層去世

      火山詩話
      2026-04-07 09:37:00
      中惠保險(xiǎn)經(jīng)紀(jì)公司董事長史亞政逝世,享年55歲

      中惠保險(xiǎn)經(jīng)紀(jì)公司董事長史亞政逝世,享年55歲

      界面新聞
      2026-04-07 14:20:17
      比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

      比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

      細(xì)說職場
      2026-04-07 11:32:47
      不要錯過!4月7日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

      不要錯過!4月7日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

      寶哥精彩賽事
      2026-04-07 12:15:59
      浴巾發(fā)現(xiàn)用過的“偉哥”……女子住桔子酒店,一夜換三次房

      浴巾發(fā)現(xiàn)用過的“偉哥”……女子住桔子酒店,一夜換三次房

      政法頻道
      2026-04-07 12:56:31
      易中天,獲獎勵20萬元

      易中天,獲獎勵20萬元

      極目新聞
      2026-04-06 21:04:19
      “中國紫檀女王”陳麗華逝世,曾是中國女首富,47歲時倒追“唐僧”遲重瑞,晚年每天生活費(fèi)10元

      “中國紫檀女王”陳麗華逝世,曾是中國女首富,47歲時倒追“唐僧”遲重瑞,晚年每天生活費(fèi)10元

      極目新聞
      2026-04-07 12:39:33
      陳麗華身價(jià)500億坐擁北京一條街,婚后給丈夫定三條規(guī)矩

      陳麗華身價(jià)500億坐擁北京一條街,婚后給丈夫定三條規(guī)矩

      老呶侃史
      2026-01-05 18:56:38
      蘋果iPhone Fold折疊屏開始試產(chǎn) 12月全球開售

      蘋果iPhone Fold折疊屏開始試產(chǎn) 12月全球開售

      PChome電腦之家
      2026-04-07 11:18:51
      鄭麗文今日訪陸,其彝族背景引發(fā)熱議,多年前曾回云南祭祖

      鄭麗文今日訪陸,其彝族背景引發(fā)熱議,多年前曾回云南祭祖

      海峽導(dǎo)報(bào)社
      2026-04-07 10:13:04
      伊朗墜機(jī)美軍上校:腿傷走7公里爬2100米山脊 高級求生訓(xùn)練底子厚

      伊朗墜機(jī)美軍上校:腿傷走7公里爬2100米山脊 高級求生訓(xùn)練底子厚

      勁爆體壇
      2026-04-07 06:06:04
      同事介紹他堂妹給我,約會時才發(fā)現(xiàn),我們小時候是睡一張床的玩伴

      同事介紹他堂妹給我,約會時才發(fā)現(xiàn),我們小時候是睡一張床的玩伴

      黑貓故事所
      2025-06-28 14:39:07
      快訊!伊朗伊斯蘭革命衛(wèi)隊(duì)重大戰(zhàn)報(bào)!

      快訊!伊朗伊斯蘭革命衛(wèi)隊(duì)重大戰(zhàn)報(bào)!

      達(dá)文西看世界
      2026-04-07 11:14:57
      73歲遲重瑞近況:賣故宮旁自家房子,均價(jià)15萬,陳麗華嫁他好福氣

      73歲遲重瑞近況:賣故宮旁自家房子,均價(jià)15萬,陳麗華嫁他好福氣

      一娛三分地
      2026-02-19 17:04:30
      中國國民黨主席鄭麗文率團(tuán)抵達(dá)上海,并赴南京

      中國國民黨主席鄭麗文率團(tuán)抵達(dá)上海,并赴南京

      三湘都市報(bào)
      2026-04-07 13:24:16
      2026-04-07 15:03:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12700文章數(shù) 142616關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗(yàn)明身份

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗(yàn)明身份

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發(fā)文內(nèi)涵

      財(cái)經(jīng)要聞

      2026年,全國租房市場還有波降價(jià)潮

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      游戲
      健康
      數(shù)碼
      親子
      公開課

      《紅色沙漠》玩家發(fā)現(xiàn)新樂子:用蘋果引誘NPC跳崖!

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      數(shù)碼要聞

      榮耀WIN游戲本官宣4月23日發(fā)布:定位高端性能旗艦

      親子要聞

      記錄下人生最勇敢的一天,我們就是一家三口啦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版