網易首頁 > 網易號 > 正文申請入駐

年終盤點：誰會成為中國的"Nano Banana"？

2025-12-16 13:42:16　來源: 鈦媒體APP

北京舉報

分享至

文 | 有界UnKnown，作者丨山茶，編輯｜錢江

回顧2025年，AI行業最重要的變化不是模型，而是Agent真正進入工作流。

11月，Nano Banana一經發布就在創作工具賽道撕出一道缺口。它不是簡單地幫人做設計，而是重構了設計師的工作方式，讓AI第一次具備可用的、規模化的產出能力。

可以說，Nano Banana將所有設計相關的工作方式都改了一遍。同樣，國內AI Agent也以迅雷之勢滲透進各行各業的辦公場景。寫一個文檔、做一套PPT、剪輯一個播客節目、整理數據報表——越來越多工作被Agent承接。

可以說，打工人的工作方式，這一年也被悄然改寫了一遍。

在海外，Microsoft Copilot、Google Gemini、Notion AI等多模態辦公與創作工具矩陣已成型；國內廠商同樣不甘落后，百度文庫和網盤聯合推出的GenFlow3.0、金山的WPS.AI、阿里的千問和夸克、字節的扣子空間等紛紛入局，將寫文檔、做PPT、數據處理、圖像生成、自動化分發等整合成一站式多模態Agent系統。

但問題隨之浮現——當AI觸手可及、無處不在時，用戶真正需要的Agent究竟是什么？是完全替代原有流程？還是在工作中主動設計方案？是自動化能力的疊加？還是創造力的擴張？

更關鍵的是，在所有大廠集體下場之后——誰會成為“中國的Nano Banana”，改造國人的工作方式？誰會真正定義下一代創作與辦公場景？

帶著這些問題，我們挑選了目前國內5家主流大廠系Agent進行實測：百度GenFlow3.0、騰訊ima、金山WPS.AI、扣子空間、夸克。而通過5款產品測評后，我們發現3次代際分層正在出現：

1、有能力生產完整工作流； 2、有能力形成數據閉環； 3、有能力持續積累認知與記憶。

但目前僅兩家跨進第三階段。

1、Agent的3個衡量標準

在回答問題之前，我們需要先理解：AI到底如何改變了當下的生產和創作方式。

過去，無論是早期的Office，還是后來興起的各類SaaS創作平臺（如Canva等），其結構本質都很簡單——底層是編輯套件，上層是創作模板、素材和協同工具。

在這一階段，生產力的核心仍然是“人”，創作平臺更多只是“工具箱”。

ChatGPT問世后，微軟率先將AI能力整合進Office，開啟了傳統創作工具的第一次轉型。但早期Agent只能做文本處理、潤色、擴寫，內容生成等，直到今年多模態模型成熟，Agent才開始深度介入創作全流程，并推動AI從單一工具，走向一站式“智能流水線”。

在這一背景下，Agent架構也變得更復雜。基于我們對多款Agent產品的調研，目前的一站式Agent大致可以拆分為三個層級：

這個三層結構，正是支撐未來AI Agent從輔助走向主導的關鍵框架。

在這個全新的結構下，有3個Agent的衡量標準非常重要：

首先是多模態一站式生成能力。AI應用正從“一個工具解決一個問題”的單點時代，邁向“一個產品解決多類任務”的通用時代。正如Sam Altman近期訪談提到：“通常情況下，大多數用戶都希望擁有一款單一且高效的AI服務，能夠貫穿其整個生活軌跡并持續提供價值，所以ChatGPT需要不斷增加更多功能。”今年初，Manus爆火也加速了這一趨勢，通用、多功能整合成為行業共識。

其次是知識庫打通程度。真正讓Agent之間拉開差距、形成壁壘的，不在于大模型，也不在prompt和工具，而在于它能在多大范圍調動數據。如果素材、語料、用戶偏好都能系統化沉淀成知識且跨素材調用、跨風格理解、跨任務遷移，那每次創作就都能建立在可學習、可進化的知識結構上，AI可以像人一樣，越做越好。

最后是人與AI的協作。這也是Agent與傳統AI工具最大的不同。傳統AI工具由人掌控，創作者意志可以直接貫徹到作品；Agent則是與人共同創作，AI是創作者的搭檔、助手、副駕駛。這也意味著，人類需要以更主動、全面的姿態介入到傳統的“AI黑盒”——人機協作編輯更加重要。

因此，我們可以對一款AI Agent是否具備競爭力做出科學的判斷，主要有以下三個核心判斷標準：

1、是否有足夠豐富的AI創作工具/Agent，能夠支持全模態、一站式的內容生成； 2、是否有強大的知識庫，能夠沉淀知識和記憶，并將這些數據反哺到創作當中； 3、是否有良好的人機協作框架，讓人與AI充分協作。

圍繞這些標準，我們對5家主流Agent進行了系統性測評，并把測試結果收斂整理，形成這張總覽圖：

產品實測：誰是中國的“Nano Banana”?

當AI真正走進創作與辦公場景，決定體驗差異的第一道分水嶺，并不在于模型參數或算法能力，而在于——它到底能不能把一件事完整的做完。

衡量這一點的首要指標，正是平臺功能的完備程度。下表展示了各平臺在創作深度與任務跨度上的支持情況：

從功能覆蓋度來看，GenFlow3.0是目前唯一具備全模態創作能力的平臺，基本覆蓋了主流AI創作平臺的所有核心能力；夸克與WPS位列第二梯隊，能夠支撐起絕大多數常見的創作與辦公場景。相比之下，扣子空間與ima在多模態能力、文檔工具鏈及專業功能上仍存在不同程度的缺口，整體產品形態尚處于持續完善的爬坡期。

然而，隨著各家AI的任務覆蓋面逐漸趨同，決定用戶體驗差異的第二道分水嶺已然出現：核心矛盾不再是AI“能不能生成”，而是人類“能不能隨時接管和修正”。

在這一維度上，決定協作深度的關鍵指標，正是對Office體系的兼容程度：

測試結果顯示，各平臺在這一維度上的表現涇渭分明。除去本身就是辦公軟件的WPS占據主場優勢外，GenFlow3.0是唯一實現“原生級兼容”的AI平臺：它不僅支持直接輸出Office格式，更打通了跨工具、跨設備的編輯鏈路，真正實現了從“AI生成”到“落地執行”的閉環。

在交互設計上，GenFlow3.0采用了獨特的“雙模態編輯”策略：

輕量微調：生成文檔或PPT時，右側預覽窗支持對話式修改，無論是Excel高亮制定列、生成雷達圖，還是調整PPT格式，一句指令即可完成。

深度精修：若需復雜的排版，一鍵切換至“高級編輯”模式即可進入高度還原Office的專業界面，操作習慣與功能體驗幾乎無縫銜接。

相比之下，扣子空間、夸克和ima雖然也配備了預覽窗口及基礎的圖文編輯功能，但其內核仍是“輕量級編輯器”，缺乏完整的Office工具套件支持，難以應對深度的文檔處理需求。

除生成能力外，人與Agent的協作順暢度構成了產品體驗的第三道分水嶺。這其中的核心命題在于：系統是否賦予了人類在執行過程中隨時介入與調優的權利。

真實的創作往往是非線性的——它是一個邊做邊想、隨著靈感涌現而不斷修正邏輯的動態演進過程。這種“螺旋式上升”的思維模式，才是人類工作的常態。

遺憾的是，目前大多數Agent仍沿用機械的“單向執行”邏輯：一旦啟動便難以打斷，即便用戶中途發現方向跑偏，也只能被迫等待其執行完畢后再推倒重來，造成了大量算力與時間的雙重浪費。

為了規避這種“過程黑盒”帶來的偏航風險，主流產品普遍采取了折中的“前置確認”策略。例如GenFlow3.0、扣子空間、ima和夸克等，在生成PPT或長文檔前，都會強制先生成提綱與視覺風格，待用戶“簽字畫押”后，才敢進入正式生成的環節。

當然，“前置溝通”并非行業標配。以WPS為代表的部分產品仍沿用傳統的指令邏輯：用戶下達需求后，AI便進入“黑盒執行”狀態，直至直接輸出完整結果。

值得一提的是，GenFlow3.0在這次測試中展現出了最具差異化的交互形態。它不僅具備標準的“前置確認”流程，更首創了“斷點續寫”能力——即允許用戶在生成過程中隨時按下暫停鍵進行干預。

實測中，我們在撰寫年終總結時故意遺漏了關鍵信息，中途暫停并補充指令要求“著重強調全年業績亮點”。GenFlow3.0接收指令后，并未機械地推倒重來，而是不僅理解了新需求，還能“接得住”之前的進度，在原有邏輯流上無縫繼續生成。

這種“動態糾偏”能力，標志著AI協作從“指令式”真正邁向了“交互式”。

至此，人機關系已發生質變：AI不再是單純的輸出工具，而是進入了被管理、被糾偏、深度協作的“員工形態”。

但當AI需要持續參與長鏈條任務，甚至面對用戶的反復打斷與修正時，一個底層技術命題隨之浮出水面：它憑什么能記得住上下文、接得住新指令、且越干越順手？

這就觸及到了AI的核心記憶中樞——知識庫。

如今，知識庫雖已成為Agent產品的標配，但真正的體驗鴻溝在于：它究竟是一個死板的“倉庫”，還是一套自然流動的“知識引擎”。理想的知識體系，不應成為用戶的額外負擔，而應在閱讀、思考與創作的過程中無感沉淀、自然生長。

因此，評測的焦點不再是“有沒有”，而在“怎么存（知識獲取）”與“怎么用（知識應用）”這兩個關鍵閉環上。對此，我們對各家的表現進行了全景掃描：

在“知識獲取”這一環節，各家的生態基因決定了三種截然不同的護城河：

首先是ima，它的優勢在于對騰訊生態內容的深度整合。它不僅支持騰訊文檔的一鍵導入，更直接打通了微信公眾號文章的收藏鏈路。這意味著那些封閉在微信私域內的高價值內容，只有ima能將其便捷地轉化為可調用的知識資產。夸克的優勢則建立在瀏覽器這一高頻入口上，通過截屏與劃詞，夸克可以將碎片化信息的收集門檻降至最低。

相比之下，GenFlow3.0的優勢不僅僅是全，更在于“專”。依靠百度文庫和百度學術的龐大數據庫，它能獲取到海量別人搜不到的內容——比如各行業專家上傳的專業文檔、公文模板、考試題庫以及深度的學術論文。這些通常需要付費或特定權限才能看到的獨家干貨，構成了GenFlow3.0最硬核的知識底座。

此外，GenFlow3.0還構建了一套獨特的“內循環”機制：所有由AI生成的內容，都可以一鍵回流至知識庫，在畫布中被自由拖拽、重組，并再次參與創作。知識不再只是被存放，而是在反復使用中持續增值，真正實現了隨取隨用、越用越強。

當然，知識的獲取不是目的，讓獲取的知識為創作賦能才是目的。

當我們將視角轉向“知識應用”時，體驗的分水嶺隨之顯現：

夸克雖然在采集端表現出色，但目前存在明顯的“存儲-應用”斷層——其收藏的內容多以“書簽”形式存在，無法在創作中直接調用，這大大削弱了知識庫的實用價值。同樣，ima的知識庫底座雖然強大，但卻由于工具鏈過于單薄，能夠調用知識庫的場景寥寥無幾，導致沉淀的知識價值無法被充分發揮出來。

真正的閉環出現在GenFlow3.0和WPS身上。

WPS依托云盤打通了手機、電腦、平板及微信等全端文件，支持實時上傳與調用，構建了“素材存儲-內容創作”的標準閉環。

GenFlow3.0則構建了更立體的“四重資料體系”：對外連接百度文庫、百度學術的專業知識，對內通過百度網盤同步各端數據；同時還能自動備份你的查閱歷史和AI生成內容，再加上自定義知識庫，同樣打通了“收、存、用”的完整閉環。

3、淘汰賽正式開始！

很多人說2025年是AI應用的元年，到了年底，AI應用卻已經邁入了下一階段。

一方面，單一的AI工具正在加速向一站式Agent創作平臺演進。另一方面，行業格局也在重排——大廠正迅速取代創業公司，成為這場競爭的真正主角。

這兩大變化相互疊加，清晰地勾勒出AI Agent的下一階段走向。

在此之前，Agent靠差異化生存——找到足夠細小的賽道就能立足；但在這之后，百川匯流，Agent正式進入正面戰爭。如果說過去是“晉級賽”，那現在接下來算是進入“淘汰賽”了。

淘汰賽的競爭是全方位的，這種全方位，不僅包含圖片、視頻、音頻、文字在內的多模態模型；也包括流量和入口在內的生態協同。這也是為什么大廠在這場游戲中逐漸占據優勢的一個重要原因。

但問題也恰恰出現在這里，當牌桌上只剩下大廠，大家同樣資源雄厚時，真正可以拉開差距的地方，顯然還是產品。

那么，AI時代Agent的終極形態應該是什么樣？我不知道，但我可以確定的是：Agent的終極目標，絕不是在一套固定流程里替用戶完成幾項固定任務。

它應該成為一個“伙伴”，而不是“工具”；它也不應該只服務于具體的工作場景，而是貫穿你生活與創作始終。

正如李飛飛所說，AI的最終使命，是成為人類應對重大挑戰的得力伙伴，讓人類潛能得到更大的釋放，創造一個更美好的未來。

然而，這正是當下許多產品面臨的最大挑戰——許多產品依然停留在流程化思維中，把創作理解為可預設的步驟。但顯然，如果AI只是按照流程行事，那它終究又會回到傳統SaaS的老路，失去應有的創造力與可能性。

因此，未來Agent的核心賽點不再取決于單次的“生成驚艷度”，而在于它能否真正滲透進復雜的工作現場，并長期駐扎下來。

對絕大多數人而言，工作的本質并非對話框里的閑聊，而是對文檔、PPT與表格的反復打磨。如果AI止步于一次性交付，無法進入這些深度編輯場景，那它終究只能是游離于核心工作流之外。

所以，我們認為真正的下一代Agent，必須重構三大能力支柱：

當 Agent 具備了這些素質，競爭便超越了模型接口的參數之爭，轉變為人類員工“長期協作伙伴”的生態位之爭。

在辦公和創作場景下，真正的中國版“Nano Banana”，不會誕生在某個炫技式的Demo中，而只會誕生在——那個你每天都離不開的，多模態創作的“超級員工”身上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.