文 | 有界UnKnown,作者丨山茶,編輯|錢江
回顧2025年,AI行業最重要的變化不是模型,而是Agent真正進入工作流。
11月,Nano Banana一經發布就在創作工具賽道撕出一道缺口。它不是簡單地幫人做設計,而是重構了設計師的工作方式,讓AI第一次具備可用的、規模化的產出能力。
可以說,Nano Banana將所有設計相關的工作方式都改了一遍。同樣,國內AI Agent也以迅雷之勢滲透進各行各業的辦公場景。寫一個文檔、做一套PPT、剪輯一個播客節目、整理數據報表——越來越多工作被Agent承接。
可以說,打工人的工作方式,這一年也被悄然改寫了一遍。
在海外,Microsoft Copilot、Google Gemini、Notion AI等多模態辦公與創作工具矩陣已成型;國內廠商同樣不甘落后,百度文庫和網盤聯合推出的GenFlow3.0、金山的WPS.AI、阿里的千問和夸克、字節的扣子空間等紛紛入局,將寫文檔、做PPT、數據處理、圖像生成、自動化分發等整合成一站式多模態Agent系統。
但問題隨之浮現——當AI觸手可及、無處不在時,用戶真正需要的Agent究竟是什么?是完全替代原有流程?還是在工作中主動設計方案?是自動化能力的疊加?還是創造力的擴張?
更關鍵的是,在所有大廠集體下場之后——誰會成為“中國的Nano Banana”,改造國人的工作方式?誰會真正定義下一代創作與辦公場景?
帶著這些問題,我們挑選了目前國內5家主流大廠系Agent進行實測:百度GenFlow3.0、騰訊ima、金山WPS.AI、扣子空間、夸克。而通過5款產品測評后,我們發現3次代際分層正在出現:
1、有能力生產完整工作流; 2、有能力形成數據閉環; 3、有能力持續積累認知與記憶。
但目前僅兩家跨進第三階段。
1、Agent的3個衡量標準
在回答問題之前,我們需要先理解:AI到底如何改變了當下的生產和創作方式。
過去,無論是早期的Office,還是后來興起的各類SaaS創作平臺(如Canva等),其結構本質都很簡單——底層是編輯套件,上層是創作模板、素材和協同工具。
在這一階段,生產力的核心仍然是“人”,創作平臺更多只是“工具箱”。
ChatGPT問世后,微軟率先將AI能力整合進Office,開啟了傳統創作工具的第一次轉型。但早期Agent只能做文本處理、潤色、擴寫,內容生成等,直到今年多模態模型成熟,Agent才開始深度介入創作全流程,并推動AI從單一工具,走向一站式“智能流水線”。
在這一背景下,Agent架構也變得更復雜。基于我們對多款Agent產品的調研,目前的一站式Agent大致可以拆分為三個層級:
這個三層結構,正是支撐未來AI Agent從輔助走向主導的關鍵框架。
![]()
在這個全新的結構下,有3個Agent的衡量標準非常重要:
首先是多模態一站式生成能力。AI應用正從“一個工具解決一個問題”的單點時代,邁向“一個產品解決多類任務”的通用時代。正如Sam Altman近期訪談提到:“通常情況下,大多數用戶都希望擁有一款單一且高效的AI服務,能夠貫穿其整個生活軌跡并持續提供價值,所以ChatGPT需要不斷增加更多功能。”今年初,Manus爆火也加速了這一趨勢,通用、多功能整合成為行業共識。
其次是知識庫打通程度。真正讓Agent之間拉開差距、形成壁壘的,不在于大模型,也不在prompt和工具,而在于它能在多大范圍調動數據。如果素材、語料、用戶偏好都能系統化沉淀成知識且跨素材調用、跨風格理解、跨任務遷移,那每次創作就都能建立在可學習、可進化的知識結構上,AI可以像人一樣,越做越好。
最后是人與AI的協作。這也是Agent與傳統AI工具最大的不同。傳統AI工具由人掌控,創作者意志可以直接貫徹到作品;Agent則是與人共同創作,AI是創作者的搭檔、助手、副駕駛。這也意味著,人類需要以更主動、全面的姿態介入到傳統的“AI黑盒”——人機協作編輯更加重要。
因此,我們可以對一款AI Agent是否具備競爭力做出科學的判斷,主要有以下三個核心判斷標準:
1、是否有足夠豐富的AI創作工具/Agent,能夠支持全模態、一站式的內容生成; 2、是否有強大的知識庫,能夠沉淀知識和記憶,并將這些數據反哺到創作當中; 3、是否有良好的人機協作框架,讓人與AI充分協作。
圍繞這些標準,我們對5家主流Agent進行了系統性測評,并把測試結果收斂整理,形成這張總覽圖:
![]()
產品實測:誰是中國的“Nano Banana”?
當AI真正走進創作與辦公場景,決定體驗差異的第一道分水嶺,并不在于模型參數或算法能力,而在于——它到底能不能把一件事完整的做完。
衡量這一點的首要指標,正是平臺功能的完備程度。下表展示了各平臺在創作深度與任務跨度上的支持情況:
![]()
從功能覆蓋度來看,GenFlow3.0是目前唯一具備全模態創作能力的平臺,基本覆蓋了主流AI創作平臺的所有核心能力;夸克與WPS位列第二梯隊,能夠支撐起絕大多數常見的創作與辦公場景。相比之下,扣子空間與ima在多模態能力、文檔工具鏈及專業功能上仍存在不同程度的缺口,整體產品形態尚處于持續完善的爬坡期。
然而,隨著各家AI的任務覆蓋面逐漸趨同,決定用戶體驗差異的第二道分水嶺已然出現:核心矛盾不再是AI“能不能生成”,而是人類“能不能隨時接管和修正”。
在這一維度上,決定協作深度的關鍵指標,正是對Office體系的兼容程度:
![]()
測試結果顯示,各平臺在這一維度上的表現涇渭分明。除去本身就是辦公軟件的WPS占據主場優勢外,GenFlow3.0是唯一實現“原生級兼容”的AI平臺:它不僅支持直接輸出Office格式,更打通了跨工具、跨設備的編輯鏈路,真正實現了從“AI生成”到“落地執行”的閉環。
在交互設計上,GenFlow3.0采用了獨特的“雙模態編輯”策略:
輕量微調:生成文檔或PPT時,右側預覽窗支持對話式修改,無論是Excel高亮制定列、生成雷達圖,還是調整PPT格式,一句指令即可完成。
深度精修:若需復雜的排版,一鍵切換至“高級編輯”模式即可進入高度還原Office的專業界面,操作習慣與功能體驗幾乎無縫銜接。
相比之下,扣子空間、夸克和ima雖然也配備了預覽窗口及基礎的圖文編輯功能,但其內核仍是“輕量級編輯器”,缺乏完整的Office工具套件支持,難以應對深度的文檔處理需求。
除生成能力外,人與Agent的協作順暢度構成了產品體驗的第三道分水嶺。這其中的核心命題在于:系統是否賦予了人類在執行過程中隨時介入與調優的權利。
真實的創作往往是非線性的——它是一個邊做邊想、隨著靈感涌現而不斷修正邏輯的動態演進過程。這種“螺旋式上升”的思維模式,才是人類工作的常態。
遺憾的是,目前大多數Agent仍沿用機械的“單向執行”邏輯:一旦啟動便難以打斷,即便用戶中途發現方向跑偏,也只能被迫等待其執行完畢后再推倒重來,造成了大量算力與時間的雙重浪費。
為了規避這種“過程黑盒”帶來的偏航風險,主流產品普遍采取了折中的“前置確認”策略。例如GenFlow3.0、扣子空間、ima和夸克等,在生成PPT或長文檔前,都會強制先生成提綱與視覺風格,待用戶“簽字畫押”后,才敢進入正式生成的環節。
當然,“前置溝通”并非行業標配。以WPS為代表的部分產品仍沿用傳統的指令邏輯:用戶下達需求后,AI便進入“黑盒執行”狀態,直至直接輸出完整結果。
值得一提的是,GenFlow3.0在這次測試中展現出了最具差異化的交互形態。它不僅具備標準的“前置確認”流程,更首創了“斷點續寫”能力——即允許用戶在生成過程中隨時按下暫停鍵進行干預。
實測中,我們在撰寫年終總結時故意遺漏了關鍵信息,中途暫停并補充指令要求“著重強調全年業績亮點”。GenFlow3.0接收指令后,并未機械地推倒重來,而是不僅理解了新需求,還能“接得住”之前的進度,在原有邏輯流上無縫繼續生成。
這種“動態糾偏”能力,標志著AI協作從“指令式”真正邁向了“交互式”。
至此,人機關系已發生質變:AI不再是單純的輸出工具,而是進入了被管理、被糾偏、深度協作的“員工形態”。
但當AI需要持續參與長鏈條任務,甚至面對用戶的反復打斷與修正時,一個底層技術命題隨之浮出水面:它憑什么能記得住上下文、接得住新指令、且越干越順手?
這就觸及到了AI的核心記憶中樞——知識庫。
如今,知識庫雖已成為Agent產品的標配,但真正的體驗鴻溝在于:它究竟是一個死板的“倉庫”,還是一套自然流動的“知識引擎”。理想的知識體系,不應成為用戶的額外負擔,而應在閱讀、思考與創作的過程中無感沉淀、自然生長。
因此,評測的焦點不再是“有沒有”,而在“怎么存(知識獲取)”與“怎么用(知識應用)”這兩個關鍵閉環上。對此,我們對各家的表現進行了全景掃描:
![]()
在“知識獲取”這一環節,各家的生態基因決定了三種截然不同的護城河:
首先是ima,它的優勢在于對騰訊生態內容的深度整合。它不僅支持騰訊文檔的一鍵導入,更直接打通了微信公眾號文章的收藏鏈路。這意味著那些封閉在微信私域內的高價值內容,只有ima能將其便捷地轉化為可調用的知識資產。夸克的優勢則建立在瀏覽器這一高頻入口上,通過截屏與劃詞,夸克可以將碎片化信息的收集門檻降至最低。
相比之下,GenFlow3.0的優勢不僅僅是全,更在于“專”。依靠百度文庫和百度學術的龐大數據庫,它能獲取到海量別人搜不到的內容——比如各行業專家上傳的專業文檔、公文模板、考試題庫以及深度的學術論文。這些通常需要付費或特定權限才能看到的獨家干貨,構成了GenFlow3.0最硬核的知識底座。
此外,GenFlow3.0還構建了一套獨特的“內循環”機制:所有由AI生成的內容,都可以一鍵回流至知識庫,在畫布中被自由拖拽、重組,并再次參與創作。知識不再只是被存放,而是在反復使用中持續增值,真正實現了隨取隨用、越用越強。
當然,知識的獲取不是目的,讓獲取的知識為創作賦能才是目的。
當我們將視角轉向“知識應用”時,體驗的分水嶺隨之顯現:
夸克雖然在采集端表現出色,但目前存在明顯的“存儲-應用”斷層——其收藏的內容多以“書簽”形式存在,無法在創作中直接調用,這大大削弱了知識庫的實用價值。同樣,ima的知識庫底座雖然強大,但卻由于工具鏈過于單薄,能夠調用知識庫的場景寥寥無幾,導致沉淀的知識價值無法被充分發揮出來。
真正的閉環出現在GenFlow3.0和WPS身上。
WPS依托云盤打通了手機、電腦、平板及微信等全端文件,支持實時上傳與調用,構建了“素材存儲-內容創作”的標準閉環。
GenFlow3.0則構建了更立體的“四重資料體系”:對外連接百度文庫、百度學術的專業知識,對內通過百度網盤同步各端數據;同時還能自動備份你的查閱歷史和AI生成內容,再加上自定義知識庫,同樣打通了“收、存、用”的完整閉環。
3、淘汰賽正式開始!
很多人說2025年是AI應用的元年,到了年底,AI應用卻已經邁入了下一階段。
一方面,單一的AI工具正在加速向一站式Agent創作平臺演進。另一方面,行業格局也在重排——大廠正迅速取代創業公司,成為這場競爭的真正主角。
這兩大變化相互疊加,清晰地勾勒出AI Agent的下一階段走向。
在此之前,Agent靠差異化生存——找到足夠細小的賽道就能立足;但在這之后,百川匯流,Agent正式進入正面戰爭。如果說過去是“晉級賽”,那現在接下來算是進入“淘汰賽”了。
淘汰賽的競爭是全方位的,這種全方位,不僅包含圖片、視頻、音頻、文字在內的多模態模型;也包括流量和入口在內的生態協同。這也是為什么大廠在這場游戲中逐漸占據優勢的一個重要原因。
但問題也恰恰出現在這里,當牌桌上只剩下大廠,大家同樣資源雄厚時,真正可以拉開差距的地方,顯然還是產品。
那么,AI時代Agent的終極形態應該是什么樣?我不知道,但我可以確定的是:Agent的終極目標,絕不是在一套固定流程里替用戶完成幾項固定任務。
它應該成為一個“伙伴”,而不是“工具”;它也不應該只服務于具體的工作場景,而是貫穿你生活與創作始終。
正如李飛飛所說,AI的最終使命,是成為人類應對重大挑戰的得力伙伴,讓人類潛能得到更大的釋放,創造一個更美好的未來。
然而,這正是當下許多產品面臨的最大挑戰——許多產品依然停留在流程化思維中,把創作理解為可預設的步驟。但顯然,如果AI只是按照流程行事,那它終究又會回到傳統SaaS的老路,失去應有的創造力與可能性。
因此,未來Agent的核心賽點不再取決于單次的“生成驚艷度”,而在于它能否真正滲透進復雜的工作現場,并長期駐扎下來。
對絕大多數人而言,工作的本質并非對話框里的閑聊,而是對文檔、PPT與表格的反復打磨。如果AI止步于一次性交付,無法進入這些深度編輯場景,那它終究只能是游離于核心工作流之外。
所以,我們認為真正的下一代Agent,必須重構三大能力支柱:
當 Agent 具備了這些素質,競爭便超越了模型接口的參數之爭,轉變為人類員工“長期協作伙伴”的生態位之爭。
在辦公和創作場景下,真正的中國版“Nano Banana”,不會誕生在某個炫技式的Demo中,而只會誕生在——那個你每天都離不開的,多模態創作的“超級員工”身上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.