AI 正陷入“應試狂熱”,真正的智能體必須走出考場。
作者 | 王啟隆
出品 | AI 科技大本營(ID:rgznai100)
“我覺得也差不多。”
當被問及“IMO 2026 年可能是人類最后一次有機會戰勝 AI”這個預言時,螞蟻集團 AWorld 算法負責人莊晨熠博士的回答平靜而迅速,不帶一絲猶豫。
“因為現在 AI 跟人類水平是持平的,”他解釋道,“今年 25 年的 IMO 是六道題,人類跟 AI 基本上都能答對前五道,第六道誰都答不對。但是很有可能明年 26 年就是 AI 超過人類的時候,因為第六道題可能 AI 很快就能答對。”
的采訪間里,北京正值寒露,但空氣中卻彌漫著 AI 行業特有的燥熱與亢奮。在 2025 年無數涌現的熱詞里,AI Agent(智能體)無疑是聚光燈下最耀眼的明星,它向世界承諾了一個近乎科幻的未來——AI 將不再是簡單的工具,而是能夠為我們自主工作的伙伴。但在這條通往未來的路上,巨大的光環之下,是同樣巨大的陰影。
行業里一種聲音愈發響亮,帶著審視與懷疑:Agent 賽道存在巨大的泡沫。 太多打著 Agent 旗號的產品,其內核不過是將傳統的工作流(Workflow)自動化腳本,包裝上一個時髦的外殼,進行著一場心照不宣的“智能體洗白”(Agent Washing)。
用戶滿懷著對智能未來的期待而來,體驗一次后,發現其內核與十幾年前的 RPA(機器人流程自動化)并無本質區別,于是迅速流失,留下一地雞毛。
我和莊晨熠的對話也從這個尖銳的話題開始。
![]()
“這是一個很好的問題。” 他頓了頓,似乎在組織一場更深層次的辯護,不僅是為 AWorld,也是為整個 Agent 賽道。
“我想引用微軟 CEO 的一句話,他覺得大模型當前刷的榜單,不論是數學、代碼,還是一些工具的使用等,都更像是一種考試的邏輯。”
這番話切中了當前 AI 發展的要害。整個行業似乎都陷入了一種“應試教育”的狂熱,大家都在追求一個個漂亮的“分數”,卻可能忽略了技術真正的價值所在。
“智能體為什么這么火?我覺得有其本質原因。因為大家希望 AI 不是一個泡沫,而是真的能改變我們生活周邊或日常中的一些事情,無論是提高辦公效率,還是讓認知提升更快,比如在教育、科普等方面。在 AI 到應用的這個過程中,大家似乎都一致地選擇了智能體這個技術賽道,所以智能體才會這么火。”
在莊晨熠看來,Agent 的火爆,源于一種集體的、深沉的渴望——渴望 AI 能夠走出實驗室,走出排行榜,真正作用于現實世界,去提升類似 GDP 這樣的宏觀指標,而不是僅僅為了贏得一場又一場的“代碼競賽”或“數學考試”。這是一種對“實干”的呼喚。
![]()
那么,又該如何回應那個最核心的質疑:Agent 是不是 Workflow 的“套殼”?這是所有從業者都無法繞開的靈魂拷問。
“我們覺得智能體本身是不是一個有很厚技術壁壘的賽道?這包括它跟 workflow 之間的關系。這個我可以稍微展開一下。”
他沒有直接給出“是”或“否”的簡單答案,而是選擇從歷史的演進中尋找答案。“以前我們在公司里做智能助理,在大模型出現之前,它也是一個聊天系統。智能助理背后其實也是無數的 workflow,你可以認為它是一個 graph。什么樣的問題應該如何回答,這是偏規則性的、靜態的。但是,這種我們稱之為編排的 graph,到一定程度后就無法維護了。 因為它有太多的規則,再增加一條,就很有可能影響其他規則,導致那些 if-else 或代碼無法維護。”
大模型的出現,成了一個真正的分水嶺。它用強大的、基于概率的語義理解能力,替代了過去需要工程師一行行手寫的、脆弱不堪的僵化規則。這是一種根本性的解放。
“Agent 這邊也是一樣。像現在比較火的 LangChain、N8N 等框架,它們還是主打 workflow。但我認為 workflow 是智能體前期一個成熟的技術階段,它是一個里程碑(milestone)。 不是說 workflow 就不是智能體,但智能體一定會在 workflow 的基礎上繼續往下發展。”
這是一個極其重要的論斷。莊晨熠并不認為 Workflow 是 Agent 的對立面,或者是一種“偽裝”。恰恰相反,他將其視為通往真正智能體的必經之路,是一個堅實、可靠、且在當前階段不可或缺的里程碑。將兩者對立起來,是一種非黑即白的誤讀。
真正的分野在于,發展的終極方向是什么。
![]()
“過去是用戶提前定義好 SOP(標準作業程序):寫代碼前要先做需求分析,然后做設計,再寫一個類,最后實現類里的方法。這是人類做事的方式,也是 workflow 比較魯棒、易于落地的方式。但未來是結果導向的:你能做得好,那就是好;如果做得不好,過程再 SOP、再標準化也沒有意義。 所以它應該是一個循序漸進的過程。”
從遵循固定的“標準作業程序”,到追求最終的“結果導向”,這正是莊晨熠眼中,Agent 所帶來的真正革命性的轉變。它要求智能體不再是一個只會按圖索驥的木偶,而是一個能夠自主判斷、動態調整、甚至在必要時打破規則的生命體。
從這一刻開始,我們的對話從概念的邊界轉向實踐的深水區。
![]()
![]()
一場關于“彎道超車”的豪賭
當行業的巨頭們在“練大模型”的軍備競賽中不斷加碼,將海量的電力與資本投入到無盡的參數競賽中,追求著更高的 Scaling Law 時,一條不同的、更安靜的聲音開始出現。
“我前有一次去上海人工智能學院,跟政府里面的人聊到這個話題。其實從政府或者國家層面,他們是想在大模型這個領域彎道超車的。以及有一些教授專家,他們會覺得大模型的軍備競賽有點太浪費資源。”莊晨熠坦言,這種反思的聲音,并非少數。
問題是,不參與這場近乎殘酷的“軍備競賽”,還有別的路可走嗎?
AWorld 團隊所走的“群體智能”路線,正被一部分人視為這樣一次“彎道超車”的嘗試。其核心思想并非去構建一個無所不能的、巨大的“通天塔”模型,而是通過構建一個高效的協同框架,讓多個相對“小”的智能體(背后可能是中等規模的大模型)協同工作,像一個配合默契的專家團隊,去完成一個“巨無霸”模型也難以獨立完成的復雜任務。
這聽起來像是一個完美的非對稱戰略。如果這個理論成立,那是否意味著我們應該把資源更多地投入到如何“組織模型”,而非“訓練更大的模型”上?
莊晨熠并不認為這是一個非此即彼的、需要站隊的選擇。他的思考更為辯證。
“在我看來,它們應該是一個相輔相成的關系。 這里的本質是,群體智能背后也是一個一個的大模型。那么就變成了說,哪些應該由群體智能來做,哪些最終應該還是放到模型里面?”
為了闡述這兩者之間微妙而深刻的共生關系,他描繪了一個極富想象力的場景。
“群體智能很有可能能完成一個操作系統的開發,比如說它能開發出一個 Linux。一個非常復雜的系統,可能要跑一個月甚至半年時間,它把這個操作系統開發出來了。開發出來之后,它里面會沉淀很多的數據。那么這些數據到底對大模型有沒有用?哪些應該放到大模型里面,哪些應該還是通過群體智能或者復雜系統去做?這是一個很有意思的課題。”
在這個宏大的設想中,群體智能系統扮演了一個前所未有的角色:它不再是單純的數據消費者,而是一個高度復雜的“數據工廠”。它通過解決真實世界中極其復雜的問題(如開發操作系統),生產出傳統方法(如爬取網頁)難以獲得的高質量、帶過程邏輯、充滿因果鏈條的數據。
這些數據,反過來又可以“喂養”基礎大模型,讓其基礎能力變得更強,擁有更深刻的邏輯推理能力。
而一個更強的大模型,又會讓群體智能系統中的每一個智能體變得更聰明,從而能挑戰更艱巨的任務,生產出更高質量的數據。
“所以雖然大家技術賽道可能會分叉,但是我覺得它是個螺旋上升的過程。我復雜系統做好的東西是不是可以給大模型借鑒,大模型做好了是不是又可以幫我的復雜系統做提升,大概是這么一個螺旋的關系。”
這種“螺旋上升”的哲學觀,也體現在他對通用智能體與基礎模型關系的判斷上。當被問及 OpenAI、Google 這樣的基礎模型廠商是否在不斷壓縮 Agent 團隊的生存空間時,他的回答再次出人意料。
“我自己的答案也比較明確,我覺得通用 Agent,也就是 AWorld 在做的事情,跟基礎模型其實邊界是相對模糊的。”
許多人將 Agent 創業看作是純粹的應用層開發,是“模型有了,我們做個殼”的生意。但莊晨熠的日常工作,卻徹底顛覆了這種淺層的認知。“我自己平時日常里做得最多的事情其實還是訓練。 可能大家會覺得做智能體有很多工程上的事情,會有一些上下文管理,或者現在比較火的詞叫‘上下文工程’。但是我覺得更本質的還是要訓練一個模型。你可能可以不做 pre-train,但是 post-train 還是需要做的。”
他認為,基礎模型能力的提升,對于智能體是天大的好事,絕非威脅。而 Agent 團隊的核心價值,在于走完從技術到價值的、最艱難的“最后一公里”。
“真的讓模型在一個場景里有用戶愿意來用,或者有客戶愿意為你掏錢,這應該是智能體技術需要去做的事情,包括工程和訓練。”
模型的能力是必要條件,它決定了天花板的絕對高度。而 Agent 框架和群體智能系統,則是在想方設法地去逼近,甚至在特定任務上,通過巧妙的協同,暫時性地“突破”這個天花板。
“就像我們做強化學習時,冷啟動的 policy model 能力一定要足夠強,”他再次強調模型的基礎性,“有了強的模型能力之后,你怎么樣去設計這個復雜系統?如果不設計這個系統,你有可能只能答對三道題;設計了這個系統,你就能答對五道題。 那這個系統本身,或者說我們叫上下文工程,還是有貢獻的。所以今天應該是個相輔相成的關系。”
![]()
當機器學會“繞路”
理論的闡述總是顯得有些蒼白,一個生動的故事,往往更能揭示革命的本質。
在 AWorld 團隊使用其框架挑戰 GAIA(一個以復雜、多步驟、跨應用操作著稱的通用 AI 評測基準)時,發生了一件讓所有參與者都印象深刻的事。這個故事,或許是區分一個“真 Agent”和一個“偽 Agent”的最佳試金石。
“不管是 workflow 也好,還是動態的智能體自己編排也好,都離不開使用工具,”莊晨熠開始娓娓道來,將我們帶回那個具體的測試場景,“工具的服務本身有可能有一定概率是失敗的,這個是一定要承認的。比如這個工具本身需要花錢,你突然間預算用完了,不管怎么調用它都是失敗的。如果是 workflow,你會發現就失敗了,這個節點永遠跑不過去。”
這是傳統自動化流程與生俱來的脆弱性。它像一列在固定軌道上行駛的火車,任何一處鐵軌的損壞,都會導致整趟旅程的徹底失敗。它沒有備用路線,沒有繞行的能力。
“但我們自己拿 AWorld 構建的智能體去動態跑的時候,會發現這個工具返回失敗之后,它會繞過去。”
當時,智能體需要調用一個外部的 PDF 解析工具來讀取一個關鍵文件的內容,但那個工具因為網絡、權限或其他未知原因,調用失敗了。按照傳統劇本,任務應該就此中斷,并向用戶拋出一個冰冷的錯誤報告。但接下來發生的事情,讓在場的工程師們真實地看到了“智能”的火花。
“它會自己去寫 Python 代碼。”莊晨熠回憶道,語氣中帶著一絲興奮,“它會想,那個工具用不了了,那要不自己寫一個,自己去裝一個叫 PYPDF 的包來處理。你會發現它有一定的智能可以繞過那個失敗的節點。”
這個“繞路”行為,看似只是一個小小的技術細節,背后卻是一次認知上的巨大飛躍。它意味著系統不再是僵化的、需要人類預設所有異常情況的指令執行者,而是具備了初步的自主診斷、問題分析和尋找替代方案的能力。這正是動態智能體與靜態工作流最核心、最本質的區別。
這個生動的故事也引出了一個更深層的問題:智能體與我們這個紛繁復雜的真實世界,究竟應該如何交互?為什么它不直接使用像 Microsoft Word 或 Adobe Acrobat 這樣成熟的人類工具,而非要自己“造輪子”去寫代碼?
“這是個好問題,也是我被問了兩年的問題。”
莊晨熠顯然對這個問題有過長期的思考,他系統地總結了智能體影響真實世界的三種經典介質。
第一種介質是“人”。“我是一個智能體,我打電話給你,你是披薩店的店員。我是通過自然語言跟你聊,然后你操作那個系統幫我把披薩下單并送過來,那么介質就是人。”這是一種間接的交互,智能體通過說服和溝通,讓人類成為其在物理世界的“執行器”。
第二種介質是“API”。這是目前最主流、最成熟的方式,幾乎所有的 Agent 框架都在大量使用。“但它的局限性也很明顯,”莊晨熠指出,“API 在一定程度上很垂直,你很依賴寫那個 API 的公司或個人。它的參數一旦改了,你也得跟著適配。”這使得基于 API 的 Agent 系統非常脆弱,并且難以泛化到新的、沒有提供 API 的應用上。
第三種介質,也是莊晨熠認為未來潛力最大、最具想象空間的,是“GUI”,即圖形用戶界面。“像桌面環境,或者你剛剛講的 Word、Office 其他的一些軟件,它提供給用戶的是一套圖形界面……GUI 其實更像是一套人類自然語言 plus 符號語言,我怎么知道‘確定’那個按鈕就代表這個意思,它背后是有語義在里面的,更像是一套符號。既然自然語言可以建模得這么絲滑,那符號語言是不是也可以建模得這么絲滑?”
他個人判斷,GUI 的泛化性和可擴展性是最高的,因為它模擬的是人類使用計算機的自然方式。這也是“Computer Use”(計算機使用)這個概念在學術界和產業界都如此火熱的根本原因。
但他也坦誠,這條路的實現難度同樣是最高的。
“難度也比較高,”他簡單地補充了一句。
在通往 GUI 這個終極形態的漫漫長路上,行業需要建立標準和協議來讓不同的智能體之間能夠溝通和協作。但無論是目前流行的 MCP(Model-Controller-Plugin)還是 A2A(Agent-to-Agent),莊晨熠都認為它們還不是最終形態。
“協議還會再變化,不會就一直是 MCP 或者 A2A,”他說,“這是一個技術上的思考。另外從生態上來說,如果大家都認可了這個協議,它有可能就會成為一個標準。這個是很難預測的,有可能是些大公司振臂一呼,很多人就 follow……另外一種是它確實好用,那它有可能形成一個生態,就會比較穩定。”
![]()
開源是技術人的名片
莊晨熠與“智能體”的結緣,并非始于大模型的浪潮,而是始于一場關于生與死的計算機模擬。
他博士期間的研究方向是圖卷積(Graph Convolutional Networks),一個純粹的、偏理論的算法領域。畢業后,他在日本國立研究所工作的一年,這段看似與主流 AI 敘事有些偏離的經歷,卻無意中為他日后的職業生涯埋下了最關鍵的伏筆。
“日本是一個災難特別多的國家,比如海嘯、地震。”他回憶道,“當時我在他們的國立研究所里面做的一個課題是,當災難發生后,一個車站要怎么去快速疏散乘客,避免踩踏,或者疏散不完導致生命危險等。它其實是個防災的課題。”
![]()
在這個聽起來更像是“城市應急管理”或“數字孿生”的項目里,他第一次真正意義上接觸到了 Agent 的概念,盡管那是傳統意義上的、基于規則的 Agent。
“這里面我們會把所有的乘客和內部的人員模擬成智能體(Agent),但跟現在的智能體概念不太一樣。然后我們去給他們設計全局最優的疏散路線。我們會假設有些通道可以同時通過兩個人,有些可能只能通過一個人等等。這個又涉及到 graph 的一些事情,所以本身跟我博士課題也比較相關。”
從模擬災難中倉皇求生的人群,到編排數字世界里協同工作的 AI,這兩者之間,看似風馬牛不相及,但內里的哲學卻有一種奇妙的共通之處。它們的核心,都是關于如何理解和組織“群體行為”,如何通過對微觀個體的建模和引導,來達成一個宏觀的、復雜系統的最優目標。
這段獨特的經歷,或許在他內心深處種下了一顆“群體智能”的種子。當他后來加入螞蟻集團,正式投身于大模型落地應用時,智能體這條賽道,對他而言,幾乎是一種宿命般的、自然而然的選擇。
在技術浪潮以天為單位進行迭代的今天,如何保持領先?
莊晨熠的方法論聽起來簡單而純粹:做開源。
![]()
“螞蟻的開源,我覺得是寫在血液里面的。”他首先將其歸因于一種根深蒂固的企業文化,“這是第一點,我們自己員工不太會去思考要不要開源。包括我們寫論文,一般也會把代碼或者數據開源出來,這是一個企業文化的事情。”
但更重要的,是他作為一個一線技術人,對開源價值的切身體會和堅定信仰。他親眼見證了開源社區是如何在短短兩年之內,將與閉源頂尖模型的差距從“望塵莫及”的恐慌,追趕到今天以“月”為單位計算的并駕齊驅。
“這個其實就是開源的力量。你有些技術拿在自己手里的時候,可能會覺得別人一定是追不上的。但是集體的智慧,又回到了那個群體智能的邏輯,我覺得集體的智慧還是能加速 AI 的發展。 因為 AI 還不是一個很收斂的場景,需要大家群策群力。”
對于一個 Agent 開源框架,社區最寶貴的貢獻是什么?是更多的工具、更多的測試集,還是天馬行空的腦洞?他的答案都不是。
“我覺得它更需要貢獻的是一些認知上的東西。”
這是一個深刻的洞察。他認為,代碼本身,一個優秀的工程團隊總能實現,盡管過程會很艱難。“但是開源里面更核心的一點是說,你要把認知給傳達出來。一是讓別人去檢驗你的認知到底對不對,或者是不是最先進的那一波。其次是你的認知也可以給別人一些提示或者信號。那么他們愿不愿意 follow,或者在你的認知之上能不能做出更優秀、更超前的一些認知或技術產品,這時你就會發現開源非常有意義。所以我認為它不是單純的代碼,代碼背后的思考是非常重要的。”
代碼是思想的載體,而開源,就是將代碼背后的設計哲學、技術判斷和對未來的洞見,毫無保留地公之于眾,接受整個世界的檢驗、批評與共創。
這種開放的心態,也徹底改變了他與全球頂尖開發者的交流方式。
“做開源就是一個非常好的點。你會發現很多公司,無論是創業公司還是大公司,很多項目是基于開源項目二次開發的。” 莊晨熠提到了 OpenManus 的 00 后創始人,正是我們此前在《萬有引力》對話的梁新兵、向勁宇。
開源項目,成了一種超越公司、地域、年齡和背景的“技術社交名片”,一種全球極客通用的語言。
“如果你不開源,你跟他說 ‘我是莊晨熠,來自螞蟻的’,他跟你聊不起來。但是他一旦知道 ‘哦,原來你是那個項目的!’——他可能看過你那個項目,你們很快就能對齊(align)到一起了。”
“開源項目是名片。” 我聽完之后,這么形容道。
“對,是名片,然后才能聊實質的東西。不然見面只能聊 ‘你哪個公司的’,那些沒有太多的營養。”
這種“Talking is cheap, show me the code”的極客精神,也貫穿于他對自己團隊的要求之中。他有一個看似簡單卻極難達成的硬性標準:“我們自己做出來的智能體我們自己能用。 你說你做得很好,那你給我用一用。我的 query 有可能是 ‘你幫我讀這一百篇論文’。”
AWorld 項目鏈接:https://github.com/inclusionAI/AWorld
![]()
創造一個可以 7x24 小時工作的“獨立個體”
對話的最后,我們聊到了更遙遠的未來。在解決了 IMO 這樣的頂級智力難題之后,下一個最令莊晨熠興奮、也最能體現群體智能價值的挑戰是什么?
他的目光,投向了“長程任務”(Long-horizon Task)。
“我個人是喜歡去去跑那種長程任務。現在一般的應用,我們看到的都是偏短期的,要不就 10 秒內或一分鐘內就希望得到結果。但是我對未來智能體的設想是一個獨立的個體,那它應該就是 7x24 小時獨立的。 它可以干活也可以休息,這是它的自由。但它一定要把長程任務給跑起來。”
他透露,像 Anthropic 這樣的頂級公司,內部也正在測試需要連續跑七個小時的標準任務。長程任務不僅僅是一個時間維度的拉長,它像一個“考綱”,背后牽扯出了一系列目前 Agent 技術最棘手、最核心的難題:超長上下文的管理和記憶、多輪交互中的信息衰減、模型 Attention 機制在長序列下的局限性等等。
“它會引出很多技術挑戰,但表現出來就是我能正兒八-經地、很好地完成一個非常復雜的長程任務。這個是我們自己在數學、GAIA 這樣的榜單之后,會關注的一些技術課題。”
對于 AWorld 的未來,他將其清晰地歸納為兩件核心的事。
第一,是“環境”。“我們有一個使命是想讓智能體在不同的環境里面跑起來。跑起來不是說它只是做一個產品,而是希望智能體可以在不同環境里面去學習經驗。你在 GAIA 的環境里面學到一些 computer use 的經驗,你在 IMO 的環境里面學到一些數學的經驗。”這些在不同“世界”里學到的寶貴經驗,最終將通過不斷的訓練,沉淀到模型本身,創造出在垂直領域更強大、甚至超越通用頂尖模型的新模型。
第二,是“技術產品”。AWorld 構建的智能體,將作為一個開放的、讓社區能第一時間用到技術紅利的產品,而非一個精雕細琢、追求極致交互體驗的消費級產品。“我們會把它定義成一個技術產品,因為它不是那么一個我們俗稱‘雕過花’的產品……我們可能不關注這些,但是一些技術的紅利,最好是能讓社區或者大家能提前用起來。”
一個持續學習的模型,一個開放共享的技術產品。這便是莊晨熠為 AWorld 規劃的清晰路徑。
在這場圍繞 AI Agent 的巨大喧囂與泡沫中,莊晨熠和他的團隊,似乎選擇了一條更需要耐心和定力的路。他們不急于定義終局,也不熱衷于包裝概念,而是在一次次解決世界級難題的極限挑戰中,在一次次面向全球開發者的開源分享中,讓智能體在真實的世界里,學習、犯錯、進化。
就像那個在工具調用失敗后,沒有報錯、沒有放棄,而是默默開始自己寫 Python 代碼的 Agent 一樣,這條少有人走的路或許也會遇到各種障礙和失敗的節點,但真正的智能,總會找到“繞路”前行的方法。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.