網易首頁 > 網易號 > 正文申請入駐

對話螞蟻 AWorld 莊晨熠：Workflow 不是“偽智能體”，而是 Agent 的里程碑

2025-10-28 14:43:24　來源: AI科技大本營

北京舉報

分享至

AI 正陷入“應試狂熱”，真正的智能體必須走出考場。

作者 | 王啟隆

出品 | AI 科技大本營（ID：rgznai100）

“我覺得也差不多。”

當被問及“IMO 2026 年可能是人類最后一次有機會戰勝 AI”這個預言時，螞蟻集團 AWorld 算法負責人莊晨熠博士的回答平靜而迅速，不帶一絲猶豫。

“因為現在 AI 跟人類水平是持平的，”他解釋道，“今年 25 年的 IMO 是六道題，人類跟 AI 基本上都能答對前五道，第六道誰都答不對。但是很有可能明年 26 年就是 AI 超過人類的時候，因為第六道題可能 AI 很快就能答對。”

的采訪間里，北京正值寒露，但空氣中卻彌漫著 AI 行業特有的燥熱與亢奮。在 2025 年無數涌現的熱詞里，AI Agent（智能體）無疑是聚光燈下最耀眼的明星，它向世界承諾了一個近乎科幻的未來——AI 將不再是簡單的工具，而是能夠為我們自主工作的伙伴。但在這條通往未來的路上，巨大的光環之下，是同樣巨大的陰影。

行業里一種聲音愈發響亮，帶著審視與懷疑：Agent 賽道存在巨大的泡沫。 太多打著 Agent 旗號的產品，其內核不過是將傳統的工作流（Workflow）自動化腳本，包裝上一個時髦的外殼，進行著一場心照不宣的“智能體洗白”（Agent Washing）。

用戶滿懷著對智能未來的期待而來，體驗一次后，發現其內核與十幾年前的 RPA（機器人流程自動化）并無本質區別，于是迅速流失，留下一地雞毛。

我和莊晨熠的對話也從這個尖銳的話題開始。

“這是一個很好的問題。” 他頓了頓，似乎在組織一場更深層次的辯護，不僅是為 AWorld，也是為整個 Agent 賽道。

“我想引用微軟 CEO 的一句話，他覺得大模型當前刷的榜單，不論是數學、代碼，還是一些工具的使用等，都更像是一種考試的邏輯。”

這番話切中了當前 AI 發展的要害。整個行業似乎都陷入了一種“應試教育”的狂熱，大家都在追求一個個漂亮的“分數”，卻可能忽略了技術真正的價值所在。

“智能體為什么這么火？我覺得有其本質原因。因為大家希望 AI 不是一個泡沫，而是真的能改變我們生活周邊或日常中的一些事情，無論是提高辦公效率，還是讓認知提升更快，比如在教育、科普等方面。在 AI 到應用的這個過程中，大家似乎都一致地選擇了智能體這個技術賽道，所以智能體才會這么火。”

在莊晨熠看來，Agent 的火爆，源于一種集體的、深沉的渴望——渴望 AI 能夠走出實驗室，走出排行榜，真正作用于現實世界，去提升類似 GDP 這樣的宏觀指標，而不是僅僅為了贏得一場又一場的“代碼競賽”或“數學考試”。這是一種對“實干”的呼喚。

那么，又該如何回應那個最核心的質疑：Agent 是不是 Workflow 的“套殼”？這是所有從業者都無法繞開的靈魂拷問。

“我們覺得智能體本身是不是一個有很厚技術壁壘的賽道？這包括它跟 workflow 之間的關系。這個我可以稍微展開一下。”

他沒有直接給出“是”或“否”的簡單答案，而是選擇從歷史的演進中尋找答案。“以前我們在公司里做智能助理，在大模型出現之前，它也是一個聊天系統。智能助理背后其實也是無數的 workflow，你可以認為它是一個 graph。什么樣的問題應該如何回答，這是偏規則性的、靜態的。但是，這種我們稱之為編排的 graph，到一定程度后就無法維護了。 因為它有太多的規則，再增加一條，就很有可能影響其他規則，導致那些 if-else 或代碼無法維護。”

大模型的出現，成了一個真正的分水嶺。它用強大的、基于概率的語義理解能力，替代了過去需要工程師一行行手寫的、脆弱不堪的僵化規則。這是一種根本性的解放。

“Agent 這邊也是一樣。像現在比較火的 LangChain、N8N 等框架，它們還是主打 workflow。但我認為 workflow 是智能體前期一個成熟的技術階段，它是一個里程碑（milestone）。 不是說 workflow 就不是智能體，但智能體一定會在 workflow 的基礎上繼續往下發展。”

這是一個極其重要的論斷。莊晨熠并不認為 Workflow 是 Agent 的對立面，或者是一種“偽裝”。恰恰相反，他將其視為通往真正智能體的必經之路，是一個堅實、可靠、且在當前階段不可或缺的里程碑。將兩者對立起來，是一種非黑即白的誤讀。

真正的分野在于，發展的終極方向是什么。

“過去是用戶提前定義好 SOP（標準作業程序）：寫代碼前要先做需求分析，然后做設計，再寫一個類，最后實現類里的方法。這是人類做事的方式，也是 workflow 比較魯棒、易于落地的方式。但未來是結果導向的：你能做得好，那就是好；如果做得不好，過程再 SOP、再標準化也沒有意義。 所以它應該是一個循序漸進的過程。”

從遵循固定的“標準作業程序”，到追求最終的“結果導向”，這正是莊晨熠眼中，Agent 所帶來的真正革命性的轉變。它要求智能體不再是一個只會按圖索驥的木偶，而是一個能夠自主判斷、動態調整、甚至在必要時打破規則的生命體。

從這一刻開始，我們的對話從概念的邊界轉向實踐的深水區。

一場關于“彎道超車”的豪賭

當行業的巨頭們在“練大模型”的軍備競賽中不斷加碼，將海量的電力與資本投入到無盡的參數競賽中，追求著更高的 Scaling Law 時，一條不同的、更安靜的聲音開始出現。

“我前有一次去上海人工智能學院，跟政府里面的人聊到這個話題。其實從政府或者國家層面，他們是想在大模型這個領域彎道超車的。以及有一些教授專家，他們會覺得大模型的軍備競賽有點太浪費資源。”莊晨熠坦言，這種反思的聲音，并非少數。

問題是，不參與這場近乎殘酷的“軍備競賽”，還有別的路可走嗎？

AWorld 團隊所走的“群體智能”路線，正被一部分人視為這樣一次“彎道超車”的嘗試。其核心思想并非去構建一個無所不能的、巨大的“通天塔”模型，而是通過構建一個高效的協同框架，讓多個相對“小”的智能體（背后可能是中等規模的大模型）協同工作，像一個配合默契的專家團隊，去完成一個“巨無霸”模型也難以獨立完成的復雜任務。

這聽起來像是一個完美的非對稱戰略。如果這個理論成立，那是否意味著我們應該把資源更多地投入到如何“組織模型”，而非“訓練更大的模型”上？

莊晨熠并不認為這是一個非此即彼的、需要站隊的選擇。他的思考更為辯證。

“在我看來，它們應該是一個相輔相成的關系。 這里的本質是，群體智能背后也是一個一個的大模型。那么就變成了說，哪些應該由群體智能來做，哪些最終應該還是放到模型里面？”

為了闡述這兩者之間微妙而深刻的共生關系，他描繪了一個極富想象力的場景。

“群體智能很有可能能完成一個操作系統的開發，比如說它能開發出一個 Linux。一個非常復雜的系統，可能要跑一個月甚至半年時間，它把這個操作系統開發出來了。開發出來之后，它里面會沉淀很多的數據。那么這些數據到底對大模型有沒有用？哪些應該放到大模型里面，哪些應該還是通過群體智能或者復雜系統去做？這是一個很有意思的課題。”

在這個宏大的設想中，群體智能系統扮演了一個前所未有的角色：它不再是單純的數據消費者，而是一個高度復雜的“數據工廠”。它通過解決真實世界中極其復雜的問題（如開發操作系統），生產出傳統方法（如爬取網頁）難以獲得的高質量、帶過程邏輯、充滿因果鏈條的數據。

這些數據，反過來又可以“喂養”基礎大模型，讓其基礎能力變得更強，擁有更深刻的邏輯推理能力。

而一個更強的大模型，又會讓群體智能系統中的每一個智能體變得更聰明，從而能挑戰更艱巨的任務，生產出更高質量的數據。

“所以雖然大家技術賽道可能會分叉，但是我覺得它是個螺旋上升的過程。我復雜系統做好的東西是不是可以給大模型借鑒，大模型做好了是不是又可以幫我的復雜系統做提升，大概是這么一個螺旋的關系。”

這種“螺旋上升”的哲學觀，也體現在他對通用智能體與基礎模型關系的判斷上。當被問及 OpenAI、Google 這樣的基礎模型廠商是否在不斷壓縮 Agent 團隊的生存空間時，他的回答再次出人意料。

“我自己的答案也比較明確，我覺得通用 Agent，也就是 AWorld 在做的事情，跟基礎模型其實邊界是相對模糊的。”

許多人將 Agent 創業看作是純粹的應用層開發，是“模型有了，我們做個殼”的生意。但莊晨熠的日常工作，卻徹底顛覆了這種淺層的認知。“我自己平時日常里做得最多的事情其實還是訓練。 可能大家會覺得做智能體有很多工程上的事情，會有一些上下文管理，或者現在比較火的詞叫‘上下文工程’。但是我覺得更本質的還是要訓練一個模型。你可能可以不做 pre-train，但是 post-train 還是需要做的。”

他認為，基礎模型能力的提升，對于智能體是天大的好事，絕非威脅。而 Agent 團隊的核心價值，在于走完從技術到價值的、最艱難的“最后一公里”。

“真的讓模型在一個場景里有用戶愿意來用，或者有客戶愿意為你掏錢，這應該是智能體技術需要去做的事情，包括工程和訓練。”

模型的能力是必要條件，它決定了天花板的絕對高度。而 Agent 框架和群體智能系統，則是在想方設法地去逼近，甚至在特定任務上，通過巧妙的協同，暫時性地“突破”這個天花板。

“就像我們做強化學習時，冷啟動的 policy model 能力一定要足夠強，”他再次強調模型的基礎性，“有了強的模型能力之后，你怎么樣去設計這個復雜系統？如果不設計這個系統，你有可能只能答對三道題；設計了這個系統，你就能答對五道題。 那這個系統本身，或者說我們叫上下文工程，還是有貢獻的。所以今天應該是個相輔相成的關系。”

當機器學會“繞路”

理論的闡述總是顯得有些蒼白，一個生動的故事，往往更能揭示革命的本質。

在 AWorld 團隊使用其框架挑戰 GAIA（一個以復雜、多步驟、跨應用操作著稱的通用 AI 評測基準）時，發生了一件讓所有參與者都印象深刻的事。這個故事，或許是區分一個“真 Agent”和一個“偽 Agent”的最佳試金石。

“不管是 workflow 也好，還是動態的智能體自己編排也好，都離不開使用工具，”莊晨熠開始娓娓道來，將我們帶回那個具體的測試場景，“工具的服務本身有可能有一定概率是失敗的，這個是一定要承認的。比如這個工具本身需要花錢，你突然間預算用完了，不管怎么調用它都是失敗的。如果是 workflow，你會發現就失敗了，這個節點永遠跑不過去。”

這是傳統自動化流程與生俱來的脆弱性。它像一列在固定軌道上行駛的火車，任何一處鐵軌的損壞，都會導致整趟旅程的徹底失敗。它沒有備用路線，沒有繞行的能力。

“但我們自己拿 AWorld 構建的智能體去動態跑的時候，會發現這個工具返回失敗之后，它會繞過去。”

當時，智能體需要調用一個外部的 PDF 解析工具來讀取一個關鍵文件的內容，但那個工具因為網絡、權限或其他未知原因，調用失敗了。按照傳統劇本，任務應該就此中斷，并向用戶拋出一個冰冷的錯誤報告。但接下來發生的事情，讓在場的工程師們真實地看到了“智能”的火花。

“它會自己去寫 Python 代碼。”莊晨熠回憶道，語氣中帶著一絲興奮，“它會想，那個工具用不了了，那要不自己寫一個，自己去裝一個叫 PYPDF 的包來處理。你會發現它有一定的智能可以繞過那個失敗的節點。”

這個“繞路”行為，看似只是一個小小的技術細節，背后卻是一次認知上的巨大飛躍。它意味著系統不再是僵化的、需要人類預設所有異常情況的指令執行者，而是具備了初步的自主診斷、問題分析和尋找替代方案的能力。這正是動態智能體與靜態工作流最核心、最本質的區別。

這個生動的故事也引出了一個更深層的問題：智能體與我們這個紛繁復雜的真實世界，究竟應該如何交互？為什么它不直接使用像 Microsoft Word 或 Adobe Acrobat 這樣成熟的人類工具，而非要自己“造輪子”去寫代碼？

“這是個好問題，也是我被問了兩年的問題。”

莊晨熠顯然對這個問題有過長期的思考，他系統地總結了智能體影響真實世界的三種經典介質。

第一種介質是“人”。“我是一個智能體，我打電話給你，你是披薩店的店員。我是通過自然語言跟你聊，然后你操作那個系統幫我把披薩下單并送過來，那么介質就是人。”這是一種間接的交互，智能體通過說服和溝通，讓人類成為其在物理世界的“執行器”。

第二種介質是“API”。這是目前最主流、最成熟的方式，幾乎所有的 Agent 框架都在大量使用。“但它的局限性也很明顯，”莊晨熠指出，“API 在一定程度上很垂直，你很依賴寫那個 API 的公司或個人。它的參數一旦改了，你也得跟著適配。”這使得基于 API 的 Agent 系統非常脆弱，并且難以泛化到新的、沒有提供 API 的應用上。

第三種介質，也是莊晨熠認為未來潛力最大、最具想象空間的，是“GUI”，即圖形用戶界面。“像桌面環境，或者你剛剛講的 Word、Office 其他的一些軟件，它提供給用戶的是一套圖形界面……GUI 其實更像是一套人類自然語言 plus 符號語言，我怎么知道‘確定’那個按鈕就代表這個意思，它背后是有語義在里面的，更像是一套符號。既然自然語言可以建模得這么絲滑，那符號語言是不是也可以建模得這么絲滑？”

他個人判斷，GUI 的泛化性和可擴展性是最高的，因為它模擬的是人類使用計算機的自然方式。這也是“Computer Use”（計算機使用）這個概念在學術界和產業界都如此火熱的根本原因。

但他也坦誠，這條路的實現難度同樣是最高的。

“難度也比較高，”他簡單地補充了一句。

在通往 GUI 這個終極形態的漫漫長路上，行業需要建立標準和協議來讓不同的智能體之間能夠溝通和協作。但無論是目前流行的 MCP（Model-Controller-Plugin）還是 A2A（Agent-to-Agent），莊晨熠都認為它們還不是最終形態。

“協議還會再變化，不會就一直是 MCP 或者 A2A，”他說，“這是一個技術上的思考。另外從生態上來說，如果大家都認可了這個協議，它有可能就會成為一個標準。這個是很難預測的，有可能是些大公司振臂一呼，很多人就 follow……另外一種是它確實好用，那它有可能形成一個生態，就會比較穩定。”

開源是技術人的名片

莊晨熠與“智能體”的結緣，并非始于大模型的浪潮，而是始于一場關于生與死的計算機模擬。

他博士期間的研究方向是圖卷積（Graph Convolutional Networks），一個純粹的、偏理論的算法領域。畢業后，他在日本國立研究所工作的一年，這段看似與主流 AI 敘事有些偏離的經歷，卻無意中為他日后的職業生涯埋下了最關鍵的伏筆。

“日本是一個災難特別多的國家，比如海嘯、地震。”他回憶道，“當時我在他們的國立研究所里面做的一個課題是，當災難發生后，一個車站要怎么去快速疏散乘客，避免踩踏，或者疏散不完導致生命危險等。它其實是個防災的課題。”

在這個聽起來更像是“城市應急管理”或“數字孿生”的項目里，他第一次真正意義上接觸到了 Agent 的概念，盡管那是傳統意義上的、基于規則的 Agent。

“這里面我們會把所有的乘客和內部的人員模擬成智能體（Agent），但跟現在的智能體概念不太一樣。然后我們去給他們設計全局最優的疏散路線。我們會假設有些通道可以同時通過兩個人，有些可能只能通過一個人等等。這個又涉及到 graph 的一些事情，所以本身跟我博士課題也比較相關。”

從模擬災難中倉皇求生的人群，到編排數字世界里協同工作的 AI，這兩者之間，看似風馬牛不相及，但內里的哲學卻有一種奇妙的共通之處。它們的核心，都是關于如何理解和組織“群體行為”，如何通過對微觀個體的建模和引導，來達成一個宏觀的、復雜系統的最優目標。

這段獨特的經歷，或許在他內心深處種下了一顆“群體智能”的種子。當他后來加入螞蟻集團，正式投身于大模型落地應用時，智能體這條賽道，對他而言，幾乎是一種宿命般的、自然而然的選擇。

在技術浪潮以天為單位進行迭代的今天，如何保持領先？

莊晨熠的方法論聽起來簡單而純粹：做開源。

“螞蟻的開源，我覺得是寫在血液里面的。”他首先將其歸因于一種根深蒂固的企業文化，“這是第一點，我們自己員工不太會去思考要不要開源。包括我們寫論文，一般也會把代碼或者數據開源出來，這是一個企業文化的事情。”

但更重要的，是他作為一個一線技術人，對開源價值的切身體會和堅定信仰。他親眼見證了開源社區是如何在短短兩年之內，將與閉源頂尖模型的差距從“望塵莫及”的恐慌，追趕到今天以“月”為單位計算的并駕齊驅。

“這個其實就是開源的力量。你有些技術拿在自己手里的時候，可能會覺得別人一定是追不上的。但是集體的智慧，又回到了那個群體智能的邏輯，我覺得集體的智慧還是能加速 AI 的發展。 因為 AI 還不是一個很收斂的場景，需要大家群策群力。”

對于一個 Agent 開源框架，社區最寶貴的貢獻是什么？是更多的工具、更多的測試集，還是天馬行空的腦洞？他的答案都不是。

“我覺得它更需要貢獻的是一些認知上的東西。”

這是一個深刻的洞察。他認為，代碼本身，一個優秀的工程團隊總能實現，盡管過程會很艱難。“但是開源里面更核心的一點是說，你要把認知給傳達出來。一是讓別人去檢驗你的認知到底對不對，或者是不是最先進的那一波。其次是你的認知也可以給別人一些提示或者信號。那么他們愿不愿意 follow，或者在你的認知之上能不能做出更優秀、更超前的一些認知或技術產品，這時你就會發現開源非常有意義。所以我認為它不是單純的代碼，代碼背后的思考是非常重要的。”

代碼是思想的載體，而開源，就是將代碼背后的設計哲學、技術判斷和對未來的洞見，毫無保留地公之于眾，接受整個世界的檢驗、批評與共創。

這種開放的心態，也徹底改變了他與全球頂尖開發者的交流方式。

“做開源就是一個非常好的點。你會發現很多公司，無論是創業公司還是大公司，很多項目是基于開源項目二次開發的。” 莊晨熠提到了 OpenManus 的 00 后創始人，正是我們此前在《萬有引力》對話的梁新兵、向勁宇。

開源項目，成了一種超越公司、地域、年齡和背景的“技術社交名片”，一種全球極客通用的語言。

“如果你不開源，你跟他說 ‘我是莊晨熠，來自螞蟻的’，他跟你聊不起來。但是他一旦知道 ‘哦，原來你是那個項目的！’——他可能看過你那個項目，你們很快就能對齊（align）到一起了。”

“開源項目是名片。” 我聽完之后，這么形容道。

“對，是名片，然后才能聊實質的東西。不然見面只能聊 ‘你哪個公司的’，那些沒有太多的營養。”

這種“Talking is cheap, show me the code”的極客精神，也貫穿于他對自己團隊的要求之中。他有一個看似簡單卻極難達成的硬性標準：“我們自己做出來的智能體我們自己能用。 你說你做得很好，那你給我用一用。我的 query 有可能是 ‘你幫我讀這一百篇論文’。”

AWorld 項目鏈接：https://github.com/inclusionAI/AWorld

創造一個可以 7x24 小時工作的“獨立個體”

對話的最后，我們聊到了更遙遠的未來。在解決了 IMO 這樣的頂級智力難題之后，下一個最令莊晨熠興奮、也最能體現群體智能價值的挑戰是什么？

他的目光，投向了“長程任務”（Long-horizon Task）。

“我個人是喜歡去去跑那種長程任務。現在一般的應用，我們看到的都是偏短期的，要不就 10 秒內或一分鐘內就希望得到結果。但是我對未來智能體的設想是一個獨立的個體，那它應該就是 7x24 小時獨立的。 它可以干活也可以休息，這是它的自由。但它一定要把長程任務給跑起來。”

他透露，像 Anthropic 這樣的頂級公司，內部也正在測試需要連續跑七個小時的標準任務。長程任務不僅僅是一個時間維度的拉長，它像一個“考綱”，背后牽扯出了一系列目前 Agent 技術最棘手、最核心的難題：超長上下文的管理和記憶、多輪交互中的信息衰減、模型 Attention 機制在長序列下的局限性等等。

“它會引出很多技術挑戰，但表現出來就是我能正兒八-經地、很好地完成一個非常復雜的長程任務。這個是我們自己在數學、GAIA 這樣的榜單之后，會關注的一些技術課題。”

對于 AWorld 的未來，他將其清晰地歸納為兩件核心的事。

第一，是“環境”。“我們有一個使命是想讓智能體在不同的環境里面跑起來。跑起來不是說它只是做一個產品，而是希望智能體可以在不同環境里面去學習經驗。你在 GAIA 的環境里面學到一些 computer use 的經驗，你在 IMO 的環境里面學到一些數學的經驗。”這些在不同“世界”里學到的寶貴經驗，最終將通過不斷的訓練，沉淀到模型本身，創造出在垂直領域更強大、甚至超越通用頂尖模型的新模型。

第二，是“技術產品”。AWorld 構建的智能體，將作為一個開放的、讓社區能第一時間用到技術紅利的產品，而非一個精雕細琢、追求極致交互體驗的消費級產品。“我們會把它定義成一個技術產品，因為它不是那么一個我們俗稱‘雕過花’的產品……我們可能不關注這些，但是一些技術的紅利，最好是能讓社區或者大家能提前用起來。”

一個持續學習的模型，一個開放共享的技術產品。這便是莊晨熠為 AWorld 規劃的清晰路徑。

在這場圍繞 AI Agent 的巨大喧囂與泡沫中，莊晨熠和他的團隊，似乎選擇了一條更需要耐心和定力的路。他們不急于定義終局，也不熱衷于包裝概念，而是在一次次解決世界級難題的極限挑戰中，在一次次面向全球開發者的開源分享中，讓智能體在真實的世界里，學習、犯錯、進化。

就像那個在工具調用失敗后，沒有報錯、沒有放棄，而是默默開始自己寫 Python 代碼的 Agent 一樣，這條少有人走的路或許也會遇到各種障礙和失敗的節點，但真正的智能，總會找到“繞路”前行的方法。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.