網易首頁 > 網易號 > 正文申請入駐

Skills剛火，就有零Skill的Agent來了…

2026-01-26 23:39:04　來源: 量子位

北京舉報

分享至

Jay 發自凹非寺
量子位 | 公眾號 QbitAI

Skills剛爆火，又有新的Agent范式來攪局了……

根本不用Skills，也不需要上GitHub翻項目、找工具。直接把需求丟給Agent，它能一邊干活，一邊給自己造裝備。

是的，完全不需要人類伺候，也不用給AI師傅遞板手、搬梯子。

工作中遇到啥需要用的裝備，Agent能自己直接「進化」出來。

以Gemini 3 Pro為后端，在地獄級評測HLE（Humanity’s Last Exam）上一騎絕塵，僅次于GPT5.2-Pro智能體。

在幾個高難評測集里，比官方未披露方法的含工具使用的結果，高了將近20分

甚至還是One take，一口氣跑出來的。

這是剛剛新發的一篇論文。

會自己造工具的Agent

發現這篇論文，還是因為前幾天刷到了個demo。

第一眼看上去，只是個很普通的交互場景：用戶有個任務需求，丟給了Agent一串Prompt。

找找2023屆畢業生中，哪些州的ACT考試參與率達到或超過50%，且平均綜合分數在20分及以上。并給出這些州中，各州學生達到科學基準的比例。

然后Agent開始做分析、規劃任務，挑選可能會用到的工具。

目前為止，一切都還很正常。

但說實話，感覺這個demo選的任務不是很好，太開放，不像是現有工具能一次解決的，估計得迭代對話不少次。

嚯！果然出問題了，工具不夠用，干不下去。

誒，等一下……

它怎么開始自己造工具了？？用錯了還能修復？

有點過于魔幻了啊。感覺就像動物園里，前一秒還躺著剝香蕉的猩猩，轉頭一看，一個跟頭翻起來，開始鉆木取火了。

我趕緊把論文翻出來，從頭到尾扒了一遍，

不看沒事，這一看，扒出來一堆更讓人細思極恐的細節。

這家伙，居然靠這種方式，在只有一次答題機會的5個評測集中，造了128個工具！！

是的，白手起家，從0開始，一個一個捏到了128。

簡直是天崩開局。

更慘的是，研究人員還一上來就把它扔進了地獄級的Benchmark—HLE（Humanity’s Last Exam）上，和基于GPT、Claude、Gemini的這些Agent怪物同臺競爭。

不過，意料之外的事情發生了。

遇到「打」不過的題目，這家伙居然會自己造武器

一路邊打怪，邊合成裝備。

等把HLE兩千多道題刷完，它已經悄悄攢了97把大寶劍。

這還沒完，它又背著這九十多把大劍，前往了更多樣的Benchmark試煉場——DeepSearchQA、FinSearch Comp、XBench

還是故技重施，繼續造工具，繼續打怪升級。

一直刷到將近4000道題時，它突然停了，不造裝備了。

趨勢上也有跡可循，下面這條曲線，前期增速很快，后面明顯開始出現邊際效應遞減。

最終，工具數量穩定收斂在128個。

像是知道這些已經夠用了一樣。

△按特定順序的工具數量隨處理的query數統計圖

這點非常關鍵。說明前面的工具不是亂造的，而是真的具備可復用性

所以在積累到128個工具時，Agent才會突然發現：舊工具已經可以覆蓋絕大多數新任務，沒必要繼續擴張。

再看這張圖更直觀——兩種策略下的Agent性能統計對比，ZS代表從零工具起手，WS代表前面說的按數據集順序的知識遷移策略。

在WS策略下可以明顯看到：舊工具越多，新工具越少。甚至在最后兩個XBench階段直接歸零。

△不同策略下的Agent性能統計

下面這張圖更有意思，這是這個Agent最愛用的50個工具。

△工具使用頻率統計圖

排名第一的是「網頁搜索」，斷崖式第一。

后面跟著的也都很眼熟：內容獲取、計算器、文件下載、學術論文搜索、PDF處理……

簡直和人類的工作習慣一模一樣啊，都是些通用的基礎工具。而且復用率非常高，馬太效應極其明顯。

這么看來，它可能真不是為了造工具而造工具，而是真的像人一樣，在工作過程中沉淀出了一套方法論，并且能在不同任務之間遷移。

實驗結果也印證了這一點。

這只會自己造工具的Agent，在剛剛說的那五項Benchmark上，幾乎全部一騎絕塵。

全方位碾壓基于Gemini 3 Pro的Agent，在需要復雜檢索與推理的任務中，甚至能高出十余個百分點。

原位自進化框架

怎么做到的？

研究團隊用了一種全新框架，叫原位自進化（In-situ Self-evolving Agent）。

第一眼沒太看懂，但隱約感覺是個很性感的概念。

仔細研究了一下，發現行業其實一直在做自進化（Self-evolving Agent），但和原位自進化是兩件事。

普通自進化，大都發生在訓練階段。高度依賴高質量外部監督信號，必須有專家提前選定進化領域，一個模型出題或標注好答案，再讓新模型基于這些標注題目，開始最大化目標函數的進化。

這種模式呢，往往是基于一個長期目標做優化，可以從根本上重塑模型的大腦。

最常見的交付結果，就是現在各種模型廠商在做的：煉丹，發一款新模型上來炸場。

但缺點也很明顯。

工程量巨大，反饋鏈路極長，因此只能在訓練階段完成。一旦上線，就沒有「進化」這一說了。

而原位自進化，是一種發生在推理階段的自進化。

不需要外部監督，也沒有真值，光靠模型推理時的內部反饋，以及上一次交互中積累的經驗，就能蒸餾出可復用的通用技能。

換句話說，只要上線，模型就能做到「邊做邊學」。

讀到這里，肯定有讀者要問了：

這難道就是AI行業一直苦苦追尋的明珠，自主學習嗎？

只要訓一次，后面就能在線上不斷習得新能力，甚至抵達智能爆炸的奇點，實現ASI。

事實上，在2025年的云棲大會上，阿里CEO吳泳銘就曾指出：

ASI一定會到達，并且此前的一個關鍵節點，就是AI能夠自進化。

但值得注意的是，行業在談ASI的這種自進化時，更多還是指參數層面。

而原位自進化關注的是另外三件事：工作流、記憶、工具

肯定不是那么「終極」的解決方案，但也更現實可行，馬上就能開始干。

記得幾周前參加大模型清華論劍時，也聽到姚順雨提過類似觀點：

自主學習其實已經發生了，ChatGPT會根據對話過程不斷擬合聊天風格，Claude的Agent代碼庫95%都是模型自己寫的。

云玦科技的Agent，正是采用的這種現在就能落地的「原位自進化」，但他們走的路線比較特殊——工具優先。

團隊認為，工作流路線，容易對少數任務過擬合，思路一旦固化，很難泛化；

而記憶路線，又繞不開LLM天然存在的幻覺問題，一旦Token上來，偏差會像雪球一樣越滾越大。

從第一性原理出發，工具才是最符合直覺的進化載體。

首先，工具直接決定了Agent的能力邊界

人類基于地球資源制造的一切奇觀，都是以新的生產工具為基礎。AI也一樣，積累再多上下文，沒有鏟子，也只能坐在金礦上發呆。

其次，工具執行天然自帶高質量監督信號，不需要人類標注

工作流好不好、記憶靠不靠譜，很主觀；但工具能不能用，直接看代碼報沒報錯就行。這就是所謂的二元判別信號（Binary Feedback）。

并且，通過形式化驗證的代碼，可以最大程度保證安全性，放心讓Agent去執行API調用、數據庫讀寫這些底層操作。

也不用擔心會不會撿了芝麻丟西瓜。待工具基本收斂后，再去補齊工作流和記憶，依然來得及。

基于上述思考，團隊以「工具優先」為理念，打造了一支可實現原位自進化的Agent軍團

由四個角色組成——

首先是管理者（Manager），負責統籌大局。

在收到用戶需求后，它會分析任務、拆解目標，并與現有工具庫對齊，看看有沒有現成工具可用。

如果發現能力不足，管理者就會指揮工匠（Tool Developer），現場捏一個工具，并立刻在當前上下文中完成配置。

準備就緒后，執行者（Executor）會拿這些工具開始處理任務。

如果發現還是搞不定，它會暫停執行，向管理者匯報。

管理者收到信息后，重復前面的流程，繼續補工具、補能力，直到任務能完整跑通為止。

任務完成后，交給整合者（Integrator），對執行歷史和中間結果進行整合，生成最終回答。

還有最后一步。

對話結束后，系統會對整個過程進行復盤，更新自己的工具庫，并將迭代過程蒸餾、沉淀為可復用的方法論。

為了能更好地監測Agent的進化情況，團隊還引入了個叫「測試時收斂」（Test-Time Convergence）的定量指標，作用和傳統優化中的Training Loss類似，方便直觀感受AI的學習情況。

聽上去簡直是個完美的解決方案，但在實際操作中遇到了問題。

如果嚴格按這條路線來，進化流程非常長，而且Agent必須一個任務跑完，才能進化一次，效率實在太低。

于是，團隊引入了Parallel batch

別一個一個跑了，直接把一批相似任務打包在一塊，一起丟給Agent。

等著一整個Batch跑完后，Agent就能得到一個巨大的經驗包，一次性喂飽知識庫。

至此，一只能從零開始自我進化的Agent，誕生了。

無需任何事先訓練，完全依靠工具的自進化來拓展能力，還在各種Benchmark上取得媲美SOTA的成績。

最后再劃個重點——

這套能媲美SOTA的自進化框架，還是開源的。包括上述實驗的所有日志數據，評測腳本和結果，也都向社區開放。

又是一套可以直接落地部署的開源方案。

又是一項來自中國團隊的研究。

只花了15萬元實驗經費的研究團隊

這支團隊來自云玦科技，這是前阿里巴巴集團副總裁彭超創辦的AI公司，劍指可穿戴通用智能體。

而這篇論文的通訊作者，正是云玦科技的聯合創始人兼CTO——齊煒禎

齊煒禎曾任中關村人工智能研究院研究員、中關村學院大模型博士培養方向導師。現在雖然投身AI創業，但仍以兼職身份擔任中關村學院的科研共建導師。

他是MTP架構（ProphetNet）的第一作者。這套多詞元預測方法，在Meta研究機構FAIR 2024年的高影響力論文 Better & Faster Large Language Models via Multi-token Prediction中，齊煒禎第一作者研發的ProphetNet，被明確視為提出多Token預測架構的原創來源和定義出處。

工業界也在為這項研究背書，DeepSeek V3、Qwen-3-Next等多款主流大模型，當將其作為核心預訓練方法。

量子位聽說，DeepSeek今年年底即將發布的新架構論文，依然會引用這項工作，Qwen 3.5大概率也會繼續沿用。

齊煒禎本科就讀于中科大，最早學的是物理，后來轉向計算機。

本科畢業后，他成為中科大與微軟亞洲研究院的聯培博士生，在這里積累了大量偏工程落地、以實際應用為導向的科研經驗。

ProphetNet就是其中之一，除此之外，他還是Visual ChatGPT的核心作者。

該項目開源僅一周就收獲了3萬Star，開創性地定義了以LLM為中心的、調用多模態工具以完成復雜視覺任務的Agent范式。

在推理優化方面，他是業界首批提出KV Cache優化（EL-Attention）的學者，其核心思想與后來DeepSeek提出的MLA等高效推理部署算法高度一致。

谷歌學術顯示，齊煒禎的論文引用數已超過3000，h-index為17。

這篇論文的一作有兩位，都是在云玦科技實習期間參與的這項工作。李昊天，哈工大博士生，楊釋鈞，中科大碩士生，他們在此之前都有多段大廠的實習經歷。

還聽說個有意思的事。

論文里的所有數據集和實驗結果都是One take，完全靠同一個架構，一口氣跑出來的。

這當然說明了這項工作的穩健性。但事實是，就算結果不好，也只能認栽。

團隊只設定了15萬元的研究經費，也就只夠跑一次完整的推理實驗。

也正因為如此，他們最開始也沒法選擇那些依賴大量人類標注、需要反復調參的方案。

只能賭一把。

賭原位自進化，賭「工具優先」，賭Agent能自己涌現出通用能力。

開源陣營的又一核武器

對于To C場景來說，AI始終面臨著「開放性、可控性、經濟性」的不可能三角

LLM雖能處理開放性問題，但幻覺始終是硬傷，這在金融、醫療等場景下是不可容忍的。更別說，還要時刻面對防不勝防的提示詞注入攻擊。

成本同樣是個大問題。完全依賴大參數模型的CoT推理，在To C服務動輒億級日調用量的背景下，得燒出來個天文數字。

為了解決這個問題，垂直Agent應運而生。

提前把流程給設計好，工具也是固定的，以換取極低的成本和極高的安全性。

但代價也很明顯：幾乎沒有自由度，Agent只能處理像「預定機票」這樣的標準化需求。

可真實世界的人類需求，永遠是高度發散的。就拿訂機票這件看似沒什么技術含量的事來說：

老板想訂去巴黎的機票，但他護照快過期了，先幫我查一下簽證加急流程，再決定要不要訂。

這還只是一個例子，不同長尾場景下需要的新Context千差萬別，不可能每個都能提前覆蓋到。

而一旦用戶意圖超出了預設流程的邊界，系統要么癱瘓，要么陷入死循環。

想要同時兼顧安全性、低成本，又能處理開放性需求，唯一的路，只能是讓Agent在真實工作中學習。

這正是這篇論文給出的答案——「工具優先」的原位自進化。

能力邊界的問題，可以交給工具集來解決；可控性，也能通過代碼的執行反饋來約束。

甚至工作流也能自進化，通過模擬大量長尾場景，靠自我博弈與經驗蒸餾，不斷生成新的策略組合，探索各種工具組合路徑。

而一旦某條路徑被反復驗證有效，它還會被「固化」為靜態模板。遇到用戶請求，Agent可以優先匹配這些模板，如果合適，直接填參數執行即可，無需再跑一遍昂貴的大模型推理。

關鍵是，這套能「越用越好用」的自進化架構，是開源的。

從工業角度來看，這個項目還和常規的AI開源項目不太一樣。

事實上，今天雖然已經有很多開源模型，但開源陣營的整體聲勢，遠沒達到當年Linux在互聯網時代那種級別

沒辦法，Linux的飛輪太容易轉起來了，只要代碼不報錯，通過審核就能合并上線。

所以，就算Linux最開始只有1000個社區成員，他們每天能貢獻的代碼量也是相當恐怖的；而Linux每一次進化，又會吸引更多開發者參與，這是典型的網絡效應

AI很難這么做，反饋路徑太嚴格，對數據質量的要求極高。

這種時候，用戶增長基本對模型能力沒什么貢獻，最多能反映出個宏觀偏好，還會持續消耗昂貴的推理算力。

這也是為什么MiniMax CEO以及不少AI創業者都認為：AI產品的用戶太多，未必是好事

但這個問題，并非沒有解法。

Skills的爆火已經證明——

開源始終是一座金礦，只是需要合適的工具去開采。

Skills是開始，原位自進化，走向Zero Skill，或許是下一步。

以DeepSeek為代表的一眾開源模型，已經在全球范圍內鋪開了足夠大的市場。

如果能用原位自進化，賦予其「越用越好用」的動態優勢，再去和閉源模型正面掰手腕，甚至彎道超車——

不是不可能。

論文鏈接：
https://github.com/YunjueTech/Yunjue-Agent/blob/main/tech_report/YunjueAgentTechReport.pdf
GitHub鏈接：
https://github.com/YunjueTech/Yunjue-Agent/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.