<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Skills剛火,就有零Skill的Agent來了…

      0
      分享至

      Jay 發自 凹非寺
      量子位 | 公眾號 QbitAI

      Skills剛爆火,又有新的Agent范式來攪局了……

      根本不用Skills,也不需要上GitHub翻項目、找工具。直接把需求丟給Agent,它能一邊干活,一邊給自己造裝備。



      是的,完全不需要人類伺候,也不用給AI師傅遞板手、搬梯子。

      工作中遇到啥需要用的裝備,Agent能自己直接「進化」出來。

      以Gemini 3 Pro為后端,在地獄級評測HLE(Humanity’s Last Exam)上一騎絕塵,僅次于GPT5.2-Pro智能體。

      在幾個高難評測集里,比官方未披露方法的含工具使用的結果,高了將近20分

      甚至還是One take,一口氣跑出來的。

      這是剛剛新發的一篇論文。

      會自己造工具的Agent

      發現這篇論文,還是因為前幾天刷到了個demo。

      第一眼看上去,只是個很普通的交互場景:用戶有個任務需求,丟給了Agent一串Prompt。

      • 找找2023屆畢業生中,哪些州的ACT考試參與率達到或超過50%,且平均綜合分數在20分及以上。并給出這些州中,各州學生達到科學基準的比例。



      然后Agent開始做分析、規劃任務,挑選可能會用到的工具。

      目前為止,一切都還很正常。



      但說實話,感覺這個demo選的任務不是很好,太開放,不像是現有工具能一次解決的,估計得迭代對話不少次。

      嚯!果然出問題了,工具不夠用,干不下去。

      誒,等一下……

      它怎么開始自己造工具了??用錯了還能修復?





      有點過于魔幻了啊。感覺就像動物園里,前一秒還躺著剝香蕉的猩猩,轉頭一看,一個跟頭翻起來,開始鉆木取火了。

      我趕緊把論文翻出來,從頭到尾扒了一遍,

      不看沒事,這一看,扒出來一堆更讓人細思極恐的細節。

      這家伙,居然靠這種方式,在只有一次答題機會的5個評測集中,造了128個工具!!

      是的,白手起家,從0開始,一個一個捏到了128。

      簡直是天崩開局。

      更慘的是,研究人員還一上來就把它扔進了地獄級的Benchmark—HLE(Humanity’s Last Exam)上,和基于GPT、Claude、Gemini的這些Agent怪物同臺競爭。

      不過,意料之外的事情發生了。

      遇到「打」不過的題目,這家伙居然會自己造武器

      一路邊打怪,邊合成裝備。

      等把HLE兩千多道題刷完,它已經悄悄攢了97把大寶劍。

      這還沒完,它又背著這九十多把大劍,前往了更多樣的Benchmark試煉場——DeepSearchQA、FinSearch Comp、XBench

      還是故技重施,繼續造工具,繼續打怪升級。

      一直刷到將近4000道題時,它突然停了,不造裝備了。

      趨勢上也有跡可循,下面這條曲線,前期增速很快,后面明顯開始出現邊際效應遞減。

      最終,工具數量穩定收斂在128個。

      像是知道這些已經夠用了一樣。



      △按特定順序的工具數量隨處理的query數統計圖

      這點非常關鍵。說明前面的工具不是亂造的,而是真的具備可復用性

      所以在積累到128個工具時,Agent才會突然發現:舊工具已經可以覆蓋絕大多數新任務,沒必要繼續擴張。

      再看這張圖更直觀——兩種策略下的Agent性能統計對比,ZS代表從零工具起手,WS代表前面說的按數據集順序的知識遷移策略。

      在WS策略下可以明顯看到:舊工具越多,新工具越少。甚至在最后兩個XBench階段直接歸零。



      △不同策略下的Agent性能統計

      下面這張圖更有意思,這是這個Agent最愛用的50個工具。



      △工具使用頻率統計圖

      排名第一的是「網頁搜索」,斷崖式第一。

      后面跟著的也都很眼熟:內容獲取、計算器、文件下載、學術論文搜索、PDF處理……

      簡直和人類的工作習慣一模一樣啊,都是些通用的基礎工具。而且復用率非常高,馬太效應極其明顯。

      這么看來,它可能真不是為了造工具而造工具,而是真的像人一樣,在工作過程中沉淀出了一套方法論,并且能在不同任務之間遷移。

      實驗結果也印證了這一點。

      這只會自己造工具的Agent,在剛剛說的那五項Benchmark上,幾乎全部一騎絕塵。

      全方位碾壓基于Gemini 3 Pro的Agent,在需要復雜檢索與推理的任務中,甚至能高出十余個百分點。



      原位自進化框架

      怎么做到的?

      研究團隊用了一種全新框架,叫原位自進化(In-situ Self-evolving Agent)。

      第一眼沒太看懂,但隱約感覺是個很性感的概念。

      仔細研究了一下,發現行業其實一直在做自進化(Self-evolving Agent),但和原位自進化是兩件事。

      普通自進化,大都發生在訓練階段。高度依賴高質量外部監督信號,必須有專家提前選定進化領域,一個模型出題或標注好答案,再讓新模型基于這些標注題目,開始最大化目標函數的進化。

      這種模式呢,往往是基于一個長期目標做優化,可以從根本上重塑模型的大腦。

      最常見的交付結果,就是現在各種模型廠商在做的:煉丹,發一款新模型上來炸場。

      但缺點也很明顯。

      工程量巨大,反饋鏈路極長,因此只能在訓練階段完成。一旦上線,就沒有「進化」這一說了。

      而原位自進化,是一種發生在推理階段的自進化。

      不需要外部監督,也沒有真值,光靠模型推理時的內部反饋,以及上一次交互中積累的經驗,就能蒸餾出可復用的通用技能。

      換句話說,只要上線,模型就能做到「邊做邊學」。

      讀到這里,肯定有讀者要問了:

      這難道就是AI行業一直苦苦追尋的明珠,自主學習嗎?

      只要訓一次,后面就能在線上不斷習得新能力,甚至抵達智能爆炸的奇點,實現ASI。

      事實上,在2025年的云棲大會上,阿里CEO吳泳銘就曾指出:

      ASI一定會到達,并且此前的一個關鍵節點,就是AI能夠自進化。



      但值得注意的是,行業在談ASI的這種自進化時,更多還是指參數層面。

      而原位自進化關注的是另外三件事:工作流、記憶、工具

      肯定不是那么「終極」的解決方案,但也更現實可行,馬上就能開始干。

      記得幾周前參加大模型清華論劍時,也聽到姚順雨提過類似觀點:

      自主學習其實已經發生了,ChatGPT會根據對話過程不斷擬合聊天風格,Claude的Agent代碼庫95%都是模型自己寫的。

      云玦科技的Agent,正是采用的這種現在就能落地的「原位自進化」,但他們走的路線比較特殊——工具優先。

      團隊認為,工作流路線,容易對少數任務過擬合,思路一旦固化,很難泛化;

      而記憶路線,又繞不開LLM天然存在的幻覺問題,一旦Token上來,偏差會像雪球一樣越滾越大。

      從第一性原理出發,工具才是最符合直覺的進化載體。

      首先,工具直接決定了Agent的能力邊界

      人類基于地球資源制造的一切奇觀,都是以新的生產工具為基礎。AI也一樣,積累再多上下文,沒有鏟子,也只能坐在金礦上發呆。

      其次,工具執行天然自帶高質量監督信號,不需要人類標注

      工作流好不好、記憶靠不靠譜,很主觀;但工具能不能用,直接看代碼報沒報錯就行。這就是所謂的二元判別信號(Binary Feedback)。

      并且,通過形式化驗證的代碼,可以最大程度保證安全性,放心讓Agent去執行API調用、數據庫讀寫這些底層操作。

      也不用擔心會不會撿了芝麻丟西瓜。待工具基本收斂后,再去補齊工作流和記憶,依然來得及。

      基于上述思考,團隊以「工具優先」為理念,打造了一支可實現原位自進化的Agent軍團

      由四個角色組成——

      首先是管理者(Manager),負責統籌大局。

      在收到用戶需求后,它會分析任務、拆解目標,并與現有工具庫對齊,看看有沒有現成工具可用。

      如果發現能力不足,管理者就會指揮工匠(Tool Developer),現場捏一個工具,并立刻在當前上下文中完成配置。

      準備就緒后,執行者(Executor)會拿這些工具開始處理任務。

      如果發現還是搞不定,它會暫停執行,向管理者匯報。

      管理者收到信息后,重復前面的流程,繼續補工具、補能力,直到任務能完整跑通為止。

      任務完成后,交給整合者(Integrator),對執行歷史和中間結果進行整合,生成最終回答。



      還有最后一步。

      對話結束后,系統會對整個過程進行復盤,更新自己的工具庫,并將迭代過程蒸餾、沉淀為可復用的方法論。

      為了能更好地監測Agent的進化情況,團隊還引入了個叫「測試時收斂」(Test-Time Convergence)的定量指標,作用和傳統優化中的Training Loss類似,方便直觀感受AI的學習情況。



      聽上去簡直是個完美的解決方案,但在實際操作中遇到了問題。

      如果嚴格按這條路線來,進化流程非常長,而且Agent必須一個任務跑完,才能進化一次,效率實在太低。

      于是,團隊引入了Parallel batch

      別一個一個跑了,直接把一批相似任務打包在一塊,一起丟給Agent。

      等著一整個Batch跑完后,Agent就能得到一個巨大的經驗包,一次性喂飽知識庫。

      至此,一只能從零開始自我進化的Agent,誕生了。

      無需任何事先訓練,完全依靠工具的自進化來拓展能力,還在各種Benchmark上取得媲美SOTA的成績。

      最后再劃個重點——

      這套能媲美SOTA的自進化框架,還是開源的。包括上述實驗的所有日志數據,評測腳本和結果,也都向社區開放。

      又是一套可以直接落地部署的開源方案。

      又是一項來自中國團隊的研究。

      只花了15萬元實驗經費的研究團隊

      這支團隊來自云玦科技,這是前阿里巴巴集團副總裁彭超創辦的AI公司,劍指可穿戴通用智能體。

      而這篇論文的通訊作者,正是云玦科技的聯合創始人兼CTO——齊煒禎



      齊煒禎曾任中關村人工智能研究院研究員、中關村學院大模型博士培養方向導師。現在雖然投身AI創業,但仍以兼職身份擔任中關村學院的科研共建導師。

      他是MTP架構(ProphetNet)的第一作者。這套多詞元預測方法,在Meta研究機構FAIR 2024年的高影響力論文 Better & Faster Large Language Models via Multi-token Prediction中,齊煒禎第一作者研發的ProphetNet,被明確視為提出多Token預測架構的原創來源和定義出處。

      工業界也在為這項研究背書,DeepSeek V3、Qwen-3-Next等多款主流大模型,當將其作為核心預訓練方法。

      量子位聽說,DeepSeek今年年底即將發布的新架構論文,依然會引用這項工作,Qwen 3.5大概率也會繼續沿用。

      齊煒禎本科就讀于中科大,最早學的是物理,后來轉向計算機。

      本科畢業后,他成為中科大與微軟亞洲研究院的聯培博士生,在這里積累了大量偏工程落地、以實際應用為導向的科研經驗。

      ProphetNet就是其中之一,除此之外,他還是Visual ChatGPT的核心作者。

      該項目開源僅一周就收獲了3萬Star,開創性地定義了以LLM為中心的、調用多模態工具以完成復雜視覺任務的Agent范式。

      在推理優化方面,他是業界首批提出KV Cache優化(EL-Attention)的學者,其核心思想與后來DeepSeek提出的MLA等高效推理部署算法高度一致。

      谷歌學術顯示,齊煒禎的論文引用數已超過3000,h-index為17。



      這篇論文的一作有兩位,都是在云玦科技實習期間參與的這項工作。李昊天,哈工大博士生,楊釋鈞,中科大碩士生,他們在此之前都有多段大廠的實習經歷。

      還聽說個有意思的事。

      論文里的所有數據集和實驗結果都是One take,完全靠同一個架構,一口氣跑出來的。

      這當然說明了這項工作的穩健性。但事實是,就算結果不好,也只能認栽。

      團隊只設定了15萬元的研究經費,也就只夠跑一次完整的推理實驗。

      也正因為如此,他們最開始也沒法選擇那些依賴大量人類標注、需要反復調參的方案。

      只能賭一把。

      賭原位自進化,賭「工具優先」,賭Agent能自己涌現出通用能力。

      開源陣營的又一核武器

      對于To C場景來說,AI始終面臨著「開放性、可控性、經濟性」的不可能三角

      LLM雖能處理開放性問題,但幻覺始終是硬傷,這在金融、醫療等場景下是不可容忍的。更別說,還要時刻面對防不勝防的提示詞注入攻擊。

      成本同樣是個大問題。完全依賴大參數模型的CoT推理,在To C服務動輒億級日調用量的背景下,得燒出來個天文數字。

      為了解決這個問題,垂直Agent應運而生。

      提前把流程給設計好,工具也是固定的,以換取極低的成本和極高的安全性。

      但代價也很明顯:幾乎沒有自由度,Agent只能處理像「預定機票」這樣的標準化需求。

      可真實世界的人類需求,永遠是高度發散的。就拿訂機票這件看似沒什么技術含量的事來說:

      • 老板想訂去巴黎的機票,但他護照快過期了,先幫我查一下簽證加急流程,再決定要不要訂。

      這還只是一個例子,不同長尾場景下需要的新Context千差萬別,不可能每個都能提前覆蓋到。

      而一旦用戶意圖超出了預設流程的邊界,系統要么癱瘓,要么陷入死循環。

      想要同時兼顧安全性、低成本,又能處理開放性需求,唯一的路,只能是讓Agent在真實工作中學習。

      這正是這篇論文給出的答案——「工具優先」的原位自進化。

      能力邊界的問題,可以交給工具集來解決;可控性,也能通過代碼的執行反饋來約束。

      甚至工作流也能自進化,通過模擬大量長尾場景,靠自我博弈與經驗蒸餾,不斷生成新的策略組合,探索各種工具組合路徑。

      而一旦某條路徑被反復驗證有效,它還會被「固化」為靜態模板。遇到用戶請求,Agent可以優先匹配這些模板,如果合適,直接填參數執行即可,無需再跑一遍昂貴的大模型推理。

      關鍵是,這套能「越用越好用」的自進化架構,是開源的。

      從工業角度來看,這個項目還和常規的AI開源項目不太一樣。

      事實上,今天雖然已經有很多開源模型,但開源陣營的整體聲勢,遠沒達到當年Linux在互聯網時代那種級別

      沒辦法,Linux的飛輪太容易轉起來了,只要代碼不報錯,通過審核就能合并上線。

      所以,就算Linux最開始只有1000個社區成員,他們每天能貢獻的代碼量也是相當恐怖的;而Linux每一次進化,又會吸引更多開發者參與,這是典型的網絡效應

      AI很難這么做,反饋路徑太嚴格,對數據質量的要求極高。

      這種時候,用戶增長基本對模型能力沒什么貢獻,最多能反映出個宏觀偏好,還會持續消耗昂貴的推理算力。

      這也是為什么MiniMax CEO以及不少AI創業者都認為:AI產品的用戶太多,未必是好事

      但這個問題,并非沒有解法。

      Skills的爆火已經證明——

      開源始終是一座金礦,只是需要合適的工具去開采。

      Skills是開始,原位自進化,走向Zero Skill,或許是下一步。

      以DeepSeek為代表的一眾開源模型,已經在全球范圍內鋪開了足夠大的市場。

      如果能用原位自進化,賦予其「越用越好用」的動態優勢,再去和閉源模型正面掰手腕,甚至彎道超車——

      不是不可能。

      論文鏈接:
      https://github.com/YunjueTech/Yunjue-Agent/blob/main/tech_report/YunjueAgentTechReport.pdf
      GitHub鏈接:
      https://github.com/YunjueTech/Yunjue-Agent/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      軍事 | 梅洛尼:愛也特朗普,恨也特朗普

      軍事 | 梅洛尼:愛也特朗普,恨也特朗普

      新民周刊
      2026-01-26 09:10:47
      日本!暴跌開始了!

      日本!暴跌開始了!

      大嘴說天下
      2026-01-26 20:16:55
      對 “臺獨” 絕不手軟!解放軍首次確認,抓捕賴清德不惜一切手段

      對 “臺獨” 絕不手軟!解放軍首次確認,抓捕賴清德不惜一切手段

      荷蘭豆愛健康
      2026-01-24 15:43:46
      科學家讓一對情侶在核磁共振里實戰,才發現人體驚人真相!

      科學家讓一對情侶在核磁共振里實戰,才發現人體驚人真相!

      徐德文科學頻道
      2026-01-06 19:51:55
      主打一個相信,恩佐在埃斯特旺破門前5秒就提前開始慶祝了

      主打一個相信,恩佐在埃斯特旺破門前5秒就提前開始慶祝了

      懂球帝
      2026-01-26 17:43:28
      “訛詐”套路生效了,上當的還是歐洲,特朗普得到三項承諾

      “訛詐”套路生效了,上當的還是歐洲,特朗普得到三項承諾

      溫讀史
      2026-01-27 01:22:40
      日本K杯偶像發視頻呼吁2月8日一起去投票,粉絲大贊

      日本K杯偶像發視頻呼吁2月8日一起去投票,粉絲大贊

      隨波蕩漾的漂流瓶
      2026-01-26 18:40:03
      27國出手,逼解放軍后退,大陸海警金門外對峙,臺當局又飄了

      27國出手,逼解放軍后退,大陸海警金門外對峙,臺當局又飄了

      笑談歷史阿晡
      2026-01-27 00:28:21
      賴清德再遭暴擊!美國新版國防戰略發布,對華關系部分讓他心寒

      賴清德再遭暴擊!美國新版國防戰略發布,對華關系部分讓他心寒

      天啟談古說今
      2026-01-26 23:02:35
      公司重大資產重組完成,中航成飛2025年凈利同比預增2927.37%~3105.45%

      公司重大資產重組完成,中航成飛2025年凈利同比預增2927.37%~3105.45%

      財聞
      2026-01-26 19:14:36
      最低售7.98萬元 三款經典熱門家轎 哪款才是你的菜?

      最低售7.98萬元 三款經典熱門家轎 哪款才是你的菜?

      沙雕小琳琳
      2026-01-27 02:28:23
      夫妻有屬這個生肖,注定惹不起,一輩子錢財不缺,遲早享福

      夫妻有屬這個生肖,注定惹不起,一輩子錢財不缺,遲早享福

      人閒情事
      2026-01-26 10:23:01
      定檔1月26號,東方衛視又一部好劇來襲,演員陣容很強大

      定檔1月26號,東方衛視又一部好劇來襲,演員陣容很強大

      小邵說劇
      2026-01-24 21:18:49
      霍震霆也沒想到,被寄予厚望的兒媳郭晶晶,竟遭到一個這么大教訓

      霍震霆也沒想到,被寄予厚望的兒媳郭晶晶,竟遭到一個這么大教訓

      天天熱點見聞
      2026-01-26 08:14:01
      再貴也要吃,它是公認的“蔬菜一絕”,比蘿卜鮮,比山藥補

      再貴也要吃,它是公認的“蔬菜一絕”,比蘿卜鮮,比山藥補

      阿龍美食記
      2026-01-24 10:32:12
      中到大雪馬上到安徽

      中到大雪馬上到安徽

      黃河新聞網呂梁頻道
      2026-01-26 14:12:24
      清水梨紗:遠藤航就像一位親切的父親,他是個很溫柔的人

      清水梨紗:遠藤航就像一位親切的父親,他是個很溫柔的人

      懂球帝
      2026-01-26 17:30:13
      我入贅給市長的瘋女兒,新婚夜她卻說:我裝瘋這么多年就是為了這天

      我入贅給市長的瘋女兒,新婚夜她卻說:我裝瘋這么多年就是為了這天

      蕭竹輕語
      2025-11-14 16:25:55
      金飾每克便宜200元,搶爆了!凌晨6點開始排隊,有人拖著行李箱去買

      金飾每克便宜200元,搶爆了!凌晨6點開始排隊,有人拖著行李箱去買

      臺州交通廣播
      2026-01-24 16:30:36
      趙露思直播賣貨動作幅度太大露出內褲,遭質疑博流量,太敗好感!

      趙露思直播賣貨動作幅度太大露出內褲,遭質疑博流量,太敗好感!

      桑葚愛動畫
      2026-01-02 19:46:41
      2026-01-27 03:24:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12065文章數 176362關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      印度尼帕病毒現跨區域傳播 世衛:或引起全球大流行

      頭條要聞

      印度尼帕病毒現跨區域傳播 世衛:或引起全球大流行

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      旅游
      游戲
      藝術
      公開課
      軍事航空

      旅游要聞

      本市將打造中國入境旅游首選地

      分析師稱PS6不會在2027年到來!停滯兩年或不是壞事

      藝術要聞

      沙特急剎車,NEOM規模大縮水,線性摩天樓留小段

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      委代總統稱遭美威脅:馬杜羅已死

      無障礙瀏覽 進入關懷版