網易首頁 > 網易號 > 正文申請入駐

沒有發布會，沒有CEO站臺，谷歌用一根“香蕉”贏得了歡呼

2025-09-01 22:05:34　來源: 太空與網絡

北京舉報

分享至

作者｜黃小藝

在大模型發布新版本往往高舉高打的當下，Google的一款秘密模型低調地引爆了社交網絡。

8月中旬，一個名為nano-banana的模型在LMArena平臺的「Battle」中被發現，盡管沒有任何官方開發者明確聲稱其歸屬，但很快，出于驚人的效果獲得了病毒式的關注。甚至大量用戶只為能被分配到該模型，而不斷地參與平臺模型盲測，相關圖片也在社交平臺上廣泛傳播。

直到北京時間8月27日凌晨，谷歌正式認領了該模型，正是新推出的Gemini 2.5 Flash Image，目前已經可以在Gemini app、Google AI studio、Google API進行使用。

在官方介紹中，核心技術亮點主要是以下三個：

顛覆性的一致性（Consistency）：在連續生成或編輯中保持人物身份的穩定。
自然語言驅動的編輯：用戶僅通過對話式指令即可實現高精度圖像修改，無需復雜的專業工具。
閃電速度：圖像生成與編輯響應時間通常在1-2秒內，提供了接近實時的交互體驗。

我們也實測了一番，結果有驚艷，也有翻車，但確實在一致性上做到了斷層領先的水平。

模型實測：

能幫我實現Labubu自由，

還會做計算題？

一打開模型，我們就向AI下達了第一個指令：給我來七個Labubu，直接實現“手辦自由”。

直接上傳一張Labubu的商品圖，并復制修改了這段廣為流傳的手辦Prompt，生成結果如下：

乍一看效果非常好，Labubu的外形特征、搪膠材質都非常的逼真，甚至可以發朋友圈以假亂真。但仔細一看，數量卻不對，桌面上只有六小只，缺失了一個綠色的玩偶。

讓AI學會準確數數，依然是個問題。另外，由于我們最初的prompt里提到了“正版”，AI沒能輸出結果，修改措辭后才完成了生成。

接下來，我們又嘗試了多張圖片融合，據官方介紹能夠保持人物的一致性，目前最多可支持三張圖片合成，我們嘗試了一下讓甄嬛和安陵容來到現代都市，并且要求保持復雜的中國傳統首飾不變形。

AI也基本完成了任務，在甄嬛的身體發生轉動和變化的情況下，袖口的花紋和頭飾基本沒有變化，并為了完成Prompt中提到的couple（沒錯，我是甄嬛和安陵容CP粉），設計了一個在街頭親密自拍的動作。

如果覺得這個姿勢不夠滿意，甚至可以通過簡筆畫的方式，讓AI直接理解圖片示例，比如我們直接告訴AI，姿勢照著圖二修改。

盡管火柴人畫得很抽象，但AI還是完成了任務。

這并不是一個簡單的多圖融合。此前生成模型的多圖參考，是文本和圖像兩種跨模態輸入的對齊，對prompt格式有要求，例如A+B+C+運動，圖像主體盡量清晰，運動描述盡量直觀簡潔，還需要一定的抽卡概率。

而Gemini2.5Flash顯然對復雜的多模態輸入理解得更加準確。

這個多圖融合的featuer，在匿名測試階段就已經被電商用戶瘋狂夸贊了，我們接下來嘗試了商品的替換，實測結果卻輕微地翻車了。

將兩張圖片融合后的生成結果如下，盡管可以看到材質、樣式符合了原圖，但遺憾是個超大杯。

當我們試圖通過prompt修改，讓香水瓶恢復正常尺寸時，模型卻顯得始終執著于超大杯，修改后的圖片與原圖幾乎沒有差別。

雖然很想繼續修改，但大量用戶涌入后，由于“內部錯誤”，這個號稱能速生圖片的模型硬生生卡了幾分鐘，也無法完成更多任務了。

不過值得注意的是，官方提到得益于Gemini的先進推理，模型會有一定的理解和思維能力。盡管在符合現實邏輯上翻了車，但計算數學題卻成功了。

我們給出了一個小學腦力計算題，在很短的時間內，模型就計算出了正確答案。

此處值得一個掌聲。

“社區民選”的勝利

不僅模型的一致性效果很驚艷，此次模型出圈的路線也很有趣。

8月中旬，這款模型以完全匿名身份出現在LMArena的對戰模式中時，用戶需要在不知來源的情況下，僅憑生成效果進行盲測投票，短短兩周時間，憑借在“一致性”上的壓倒性優勢，“nano-banana”在盲測中持續勝出，迅速引起了全球AI核心用戶和開發者的注意。

討論從LMArena平臺迅速擴散至Reddit、X(Twitter)、Discord等社區。用戶自發進行極限測試、分享驚艷案例，并為其創造了“一致性之王”、“Photoshop殺手”等極具傳播力的標簽，甚至很多人會因為想要使用nano-banana模型，反復參與點評和測試，只為獲得一次隨機抽中banana的機會。

就在不少人還在猜測，模型是否會開源，什么時候正式發布的時候，谷歌工程師巧妙地在社交媒體發布""表情符號，將解謎游戲推向新高度。8月26日，在市場熱度和口碑達到峰值時，谷歌正式宣布"nano-banana"即為Gemini 2.5 Flash Image模型，并開始全面推送。

很難說，這一路徑并非谷歌有意為之。畢竟，早在8月初剛剛出圈，就有外媒報道，多位AI研究者和愛好者推測，nano-banana可能是谷歌最新的圖像生成模型，也有觀察人士認為，可能來源于Qwen Image或來自各大實驗室尚未發布的其他模型。

當然，這種“神秘發布”模式并非谷歌首創，從去年開始，不少模型們都會選擇在LMArena上進行盲測，OpenAI此前也曾讓神秘模型"im-also-a-good-gpt2-chatbot"現身競技場，最終揭曉為GPT-4o測試版，預熱了產品發布。

一方面，模型們選擇LMArena，固然是因為在匿名的黑箱中，用戶的選擇完全是基于模型的實力，而排除了品牌的偏見和預期，為真實性能提供了純粹的認證。

另一方面，在AI競賽白熱化的背景下，大廠的模型發布往往會被置于一種“追趕者or顛覆者”的敘事框架內，從而被嚴格審視甚至審判。

相比起傳統的高舉高打的發布模式，匿名發布再到官方認領的策略，完成一次“民選”模型的病毒式傳播，既充分利用了社區自發傳播的勢能，又避免了過度炒作可能帶來的反噬效應，使其性能優勢在發布前就已成為“市場共識”。

這也為焦慮市場反饋的下一代模型們，提供了一種新的發布思路。

>End

本文轉載自“硅星人Pro”，原標題《沒有發布會，沒有CEO站臺，谷歌用一根“香蕉”贏得了歡呼》。

為分享前沿資訊及有價值的觀點，太空與網絡微信公眾號轉載此文，并經過編輯。

未按照規范轉載及引用者，我們保留追究相應責任的權利

部分圖片難以找到原始出處，故文中未加以標注，如若侵犯了您的權益，請第一時間聯系我們。

HISTORY/往期推薦

充滿激情的新時代，

充滿挑戰的新疆域，

與踔厲奮發的引領者，

卓爾不群的企業家，

一起開拓，

一起體驗，

一起感悟，

共同打造更真品質，

共同實現更高價值，

共同見證商業航天更大的跨越！

——《太空與網絡》，觀察，記錄，傳播，引領。

·《衛星與網絡》創始人：劉雨菲

·《衛星與網絡》副社長：王俊峰

·微信公眾號（ID：satnetdy）團隊

編輯：艷玲、哈玫，周泳、邱莉、黃榕、娜娜

主筆記者：李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部：楊艷、若?、李真子

視覺總監：董濘

專業攝影：馮小京、宋偉

設計部：顧錳、潘希峎、楊小明

行政部：姜河、林紫

業務部：王錦熙、瑾怡

原創文章轉載授權、轉載文章侵權、投稿等事宜，請加微信：15910858067

商務合作；展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣；企業口碑傳播及整體營銷傳播等，請加微信：13811260603

雜志訂閱，請加微信：wangxiaoyu9960

·衛星與網絡各分部：

成都分部負責人：沈淮

長沙分部負責人：賓鴻浦

西安分部負責人：郭朝暉

青島分部負責人：江偉

·衛星與網絡總部負責人：農燕

·會議活動部負責人：喬顥益、許克新、董今福

· 投融資及戰略層面合作：劉雨菲

·本平臺簽約設計公司：一畫開天（北京）文化創意設計有限公司

· 航天加（深圳）股權投資基金管理負責人：楊艷

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.