Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
Skills剛爆火,又有新的Agent范式來攪局了……
根本不用Skills,也不需要上GitHub翻項目、找工具。直接把需求丟給Agent,它能一邊干活,一邊給自己造裝備。
![]()
是的,完全不需要人類伺候,也不用給AI師傅遞板手、搬梯子。
工作中遇到啥需要用的裝備,Agent能自己直接「進化」出來。
以Gemini 3 Pro為后端,在地獄級評測HLE(Humanity’s Last Exam)上一騎絕塵,僅次于GPT5.2-Pro智能體。
在幾個高難評測集里,比官方未披露方法的含工具使用的結果,高了將近20分
甚至還是One take,一口氣跑出來的。
這是剛剛新發的一篇論文。
會自己造工具的Agent
發現這篇論文,還是因為前幾天刷到了個demo。
第一眼看上去,只是個很普通的交互場景:用戶有個任務需求,丟給了Agent一串Prompt。
- 找找2023屆畢業生中,哪些州的ACT考試參與率達到或超過50%,且平均綜合分數在20分及以上。并給出這些州中,各州學生達到科學基準的比例。
![]()
然后Agent開始做分析、規劃任務,挑選可能會用到的工具。
目前為止,一切都還很正常。
![]()
但說實話,感覺這個demo選的任務不是很好,太開放,不像是現有工具能一次解決的,估計得迭代對話不少次。
嚯!果然出問題了,工具不夠用,干不下去。
誒,等一下……
它怎么開始自己造工具了??用錯了還能修復?
![]()
![]()
有點過于魔幻了啊。感覺就像動物園里,前一秒還躺著剝香蕉的猩猩,轉頭一看,一個跟頭翻起來,開始鉆木取火了。
我趕緊把論文翻出來,從頭到尾扒了一遍,
不看沒事,這一看,扒出來一堆更讓人細思極恐的細節。
這家伙,居然靠這種方式,在只有一次答題機會的5個評測集中,造了128個工具!!
是的,白手起家,從0開始,一個一個捏到了128。
簡直是天崩開局。
更慘的是,研究人員還一上來就把它扔進了地獄級的Benchmark—HLE(Humanity’s Last Exam)上,和基于GPT、Claude、Gemini的這些Agent怪物同臺競爭。
不過,意料之外的事情發生了。
遇到「打」不過的題目,這家伙居然會自己造武器
一路邊打怪,邊合成裝備。
等把HLE兩千多道題刷完,它已經悄悄攢了97把大寶劍。
這還沒完,它又背著這九十多把大劍,前往了更多樣的Benchmark試煉場——DeepSearchQA、FinSearch Comp、XBench
還是故技重施,繼續造工具,繼續打怪升級。
一直刷到將近4000道題時,它突然停了,不造裝備了。
趨勢上也有跡可循,下面這條曲線,前期增速很快,后面明顯開始出現邊際效應遞減。
最終,工具數量穩定收斂在128個。
像是知道這些已經夠用了一樣。
![]()
△按特定順序的工具數量隨處理的query數統計圖
這點非常關鍵。說明前面的工具不是亂造的,而是真的具備可復用性
所以在積累到128個工具時,Agent才會突然發現:舊工具已經可以覆蓋絕大多數新任務,沒必要繼續擴張。
再看這張圖更直觀——兩種策略下的Agent性能統計對比,ZS代表從零工具起手,WS代表前面說的按數據集順序的知識遷移策略。
在WS策略下可以明顯看到:舊工具越多,新工具越少。甚至在最后兩個XBench階段直接歸零。
![]()
△不同策略下的Agent性能統計
下面這張圖更有意思,這是這個Agent最愛用的50個工具。
![]()
△工具使用頻率統計圖
排名第一的是「網頁搜索」,斷崖式第一。
后面跟著的也都很眼熟:內容獲取、計算器、文件下載、學術論文搜索、PDF處理……
簡直和人類的工作習慣一模一樣啊,都是些通用的基礎工具。而且復用率非常高,馬太效應極其明顯。
這么看來,它可能真不是為了造工具而造工具,而是真的像人一樣,在工作過程中沉淀出了一套方法論,并且能在不同任務之間遷移。
實驗結果也印證了這一點。
這只會自己造工具的Agent,在剛剛說的那五項Benchmark上,幾乎全部一騎絕塵。
全方位碾壓基于Gemini 3 Pro的Agent,在需要復雜檢索與推理的任務中,甚至能高出十余個百分點。
![]()
原位自進化框架
怎么做到的?
研究團隊用了一種全新框架,叫原位自進化(In-situ Self-evolving Agent)。
第一眼沒太看懂,但隱約感覺是個很性感的概念。
仔細研究了一下,發現行業其實一直在做自進化(Self-evolving Agent),但和原位自進化是兩件事。
普通自進化,大都發生在訓練階段。高度依賴高質量外部監督信號,必須有專家提前選定進化領域,一個模型出題或標注好答案,再讓新模型基于這些標注題目,開始最大化目標函數的進化。
這種模式呢,往往是基于一個長期目標做優化,可以從根本上重塑模型的大腦。
最常見的交付結果,就是現在各種模型廠商在做的:煉丹,發一款新模型上來炸場。
但缺點也很明顯。
工程量巨大,反饋鏈路極長,因此只能在訓練階段完成。一旦上線,就沒有「進化」這一說了。
而原位自進化,是一種發生在推理階段的自進化。
不需要外部監督,也沒有真值,光靠模型推理時的內部反饋,以及上一次交互中積累的經驗,就能蒸餾出可復用的通用技能。
換句話說,只要上線,模型就能做到「邊做邊學」。
讀到這里,肯定有讀者要問了:
這難道就是AI行業一直苦苦追尋的明珠,自主學習嗎?
只要訓一次,后面就能在線上不斷習得新能力,甚至抵達智能爆炸的奇點,實現ASI。
事實上,在2025年的云棲大會上,阿里CEO吳泳銘就曾指出:
ASI一定會到達,并且此前的一個關鍵節點,就是AI能夠自進化。
![]()
但值得注意的是,行業在談ASI的這種自進化時,更多還是指參數層面。
而原位自進化關注的是另外三件事:工作流、記憶、工具
肯定不是那么「終極」的解決方案,但也更現實可行,馬上就能開始干。
記得幾周前參加大模型清華論劍時,也聽到姚順雨提過類似觀點:
自主學習其實已經發生了,ChatGPT會根據對話過程不斷擬合聊天風格,Claude的Agent代碼庫95%都是模型自己寫的。
云玦科技的Agent,正是采用的這種現在就能落地的「原位自進化」,但他們走的路線比較特殊——工具優先。
團隊認為,工作流路線,容易對少數任務過擬合,思路一旦固化,很難泛化;
而記憶路線,又繞不開LLM天然存在的幻覺問題,一旦Token上來,偏差會像雪球一樣越滾越大。
從第一性原理出發,工具才是最符合直覺的進化載體。
首先,工具直接決定了Agent的能力邊界
人類基于地球資源制造的一切奇觀,都是以新的生產工具為基礎。AI也一樣,積累再多上下文,沒有鏟子,也只能坐在金礦上發呆。
其次,工具執行天然自帶高質量監督信號,不需要人類標注
工作流好不好、記憶靠不靠譜,很主觀;但工具能不能用,直接看代碼報沒報錯就行。這就是所謂的二元判別信號(Binary Feedback)。
并且,通過形式化驗證的代碼,可以最大程度保證安全性,放心讓Agent去執行API調用、數據庫讀寫這些底層操作。
也不用擔心會不會撿了芝麻丟西瓜。待工具基本收斂后,再去補齊工作流和記憶,依然來得及。
基于上述思考,團隊以「工具優先」為理念,打造了一支可實現原位自進化的Agent軍團
由四個角色組成——
首先是管理者(Manager),負責統籌大局。
在收到用戶需求后,它會分析任務、拆解目標,并與現有工具庫對齊,看看有沒有現成工具可用。
如果發現能力不足,管理者就會指揮工匠(Tool Developer),現場捏一個工具,并立刻在當前上下文中完成配置。
準備就緒后,執行者(Executor)會拿這些工具開始處理任務。
如果發現還是搞不定,它會暫停執行,向管理者匯報。
管理者收到信息后,重復前面的流程,繼續補工具、補能力,直到任務能完整跑通為止。
任務完成后,交給整合者(Integrator),對執行歷史和中間結果進行整合,生成最終回答。
![]()
還有最后一步。
對話結束后,系統會對整個過程進行復盤,更新自己的工具庫,并將迭代過程蒸餾、沉淀為可復用的方法論。
為了能更好地監測Agent的進化情況,團隊還引入了個叫「測試時收斂」(Test-Time Convergence)的定量指標,作用和傳統優化中的Training Loss類似,方便直觀感受AI的學習情況。
![]()
聽上去簡直是個完美的解決方案,但在實際操作中遇到了問題。
如果嚴格按這條路線來,進化流程非常長,而且Agent必須一個任務跑完,才能進化一次,效率實在太低。
于是,團隊引入了Parallel batch
別一個一個跑了,直接把一批相似任務打包在一塊,一起丟給Agent。
等著一整個Batch跑完后,Agent就能得到一個巨大的經驗包,一次性喂飽知識庫。
至此,一只能從零開始自我進化的Agent,誕生了。
無需任何事先訓練,完全依靠工具的自進化來拓展能力,還在各種Benchmark上取得媲美SOTA的成績。
最后再劃個重點——
這套能媲美SOTA的自進化框架,還是開源的。包括上述實驗的所有日志數據,評測腳本和結果,也都向社區開放。
又是一套可以直接落地部署的開源方案。
又是一項來自中國團隊的研究。
只花了15萬元實驗經費的研究團隊
這支團隊來自云玦科技,這是前阿里巴巴集團副總裁彭超創辦的AI公司,劍指可穿戴通用智能體。
而這篇論文的通訊作者,正是云玦科技的聯合創始人兼CTO——齊煒禎
![]()
齊煒禎曾任中關村人工智能研究院研究員、中關村學院大模型博士培養方向導師。現在雖然投身AI創業,但仍以兼職身份擔任中關村學院的科研共建導師。
他是MTP架構(ProphetNet)的第一作者。這套多詞元預測方法,在Meta研究機構FAIR 2024年的高影響力論文 Better & Faster Large Language Models via Multi-token Prediction中,齊煒禎第一作者研發的ProphetNet,被明確視為提出多Token預測架構的原創來源和定義出處。
工業界也在為這項研究背書,DeepSeek V3、Qwen-3-Next等多款主流大模型,當將其作為核心預訓練方法。
量子位聽說,DeepSeek今年年底即將發布的新架構論文,依然會引用這項工作,Qwen 3.5大概率也會繼續沿用。
齊煒禎本科就讀于中科大,最早學的是物理,后來轉向計算機。
本科畢業后,他成為中科大與微軟亞洲研究院的聯培博士生,在這里積累了大量偏工程落地、以實際應用為導向的科研經驗。
ProphetNet就是其中之一,除此之外,他還是Visual ChatGPT的核心作者。
該項目開源僅一周就收獲了3萬Star,開創性地定義了以LLM為中心的、調用多模態工具以完成復雜視覺任務的Agent范式。
在推理優化方面,他是業界首批提出KV Cache優化(EL-Attention)的學者,其核心思想與后來DeepSeek提出的MLA等高效推理部署算法高度一致。
谷歌學術顯示,齊煒禎的論文引用數已超過3000,h-index為17。
![]()
這篇論文的一作有兩位,都是在云玦科技實習期間參與的這項工作。李昊天,哈工大博士生,楊釋鈞,中科大碩士生,他們在此之前都有多段大廠的實習經歷。
還聽說個有意思的事。
論文里的所有數據集和實驗結果都是One take,完全靠同一個架構,一口氣跑出來的。
這當然說明了這項工作的穩健性。但事實是,就算結果不好,也只能認栽。
團隊只設定了15萬元的研究經費,也就只夠跑一次完整的推理實驗。
也正因為如此,他們最開始也沒法選擇那些依賴大量人類標注、需要反復調參的方案。
只能賭一把。
賭原位自進化,賭「工具優先」,賭Agent能自己涌現出通用能力。
開源陣營的又一核武器
對于To C場景來說,AI始終面臨著「開放性、可控性、經濟性」的不可能三角
LLM雖能處理開放性問題,但幻覺始終是硬傷,這在金融、醫療等場景下是不可容忍的。更別說,還要時刻面對防不勝防的提示詞注入攻擊。
成本同樣是個大問題。完全依賴大參數模型的CoT推理,在To C服務動輒億級日調用量的背景下,得燒出來個天文數字。
為了解決這個問題,垂直Agent應運而生。
提前把流程給設計好,工具也是固定的,以換取極低的成本和極高的安全性。
但代價也很明顯:幾乎沒有自由度,Agent只能處理像「預定機票」這樣的標準化需求。
可真實世界的人類需求,永遠是高度發散的。就拿訂機票這件看似沒什么技術含量的事來說:
- 老板想訂去巴黎的機票,但他護照快過期了,先幫我查一下簽證加急流程,再決定要不要訂。
這還只是一個例子,不同長尾場景下需要的新Context千差萬別,不可能每個都能提前覆蓋到。
而一旦用戶意圖超出了預設流程的邊界,系統要么癱瘓,要么陷入死循環。
想要同時兼顧安全性、低成本,又能處理開放性需求,唯一的路,只能是讓Agent在真實工作中學習。
這正是這篇論文給出的答案——「工具優先」的原位自進化。
能力邊界的問題,可以交給工具集來解決;可控性,也能通過代碼的執行反饋來約束。
甚至工作流也能自進化,通過模擬大量長尾場景,靠自我博弈與經驗蒸餾,不斷生成新的策略組合,探索各種工具組合路徑。
而一旦某條路徑被反復驗證有效,它還會被「固化」為靜態模板。遇到用戶請求,Agent可以優先匹配這些模板,如果合適,直接填參數執行即可,無需再跑一遍昂貴的大模型推理。
關鍵是,這套能「越用越好用」的自進化架構,是開源的。
從工業角度來看,這個項目還和常規的AI開源項目不太一樣。
事實上,今天雖然已經有很多開源模型,但開源陣營的整體聲勢,遠沒達到當年Linux在互聯網時代那種級別
沒辦法,Linux的飛輪太容易轉起來了,只要代碼不報錯,通過審核就能合并上線。
所以,就算Linux最開始只有1000個社區成員,他們每天能貢獻的代碼量也是相當恐怖的;而Linux每一次進化,又會吸引更多開發者參與,這是典型的網絡效應
AI很難這么做,反饋路徑太嚴格,對數據質量的要求極高。
這種時候,用戶增長基本對模型能力沒什么貢獻,最多能反映出個宏觀偏好,還會持續消耗昂貴的推理算力。
這也是為什么MiniMax CEO以及不少AI創業者都認為:AI產品的用戶太多,未必是好事
但這個問題,并非沒有解法。
Skills的爆火已經證明——
開源始終是一座金礦,只是需要合適的工具去開采。
Skills是開始,原位自進化,走向Zero Skill,或許是下一步。
以DeepSeek為代表的一眾開源模型,已經在全球范圍內鋪開了足夠大的市場。
如果能用原位自進化,賦予其「越用越好用」的動態優勢,再去和閉源模型正面掰手腕,甚至彎道超車——
不是不可能。
論文鏈接:
https://github.com/YunjueTech/Yunjue-Agent/blob/main/tech_report/YunjueAgentTechReport.pdf
GitHub鏈接:
https://github.com/YunjueTech/Yunjue-Agent/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.