![]()
![]()
作者|黃小藝
在大模型發布新版本往往高舉高打的當下,Google的一款秘密模型低調地引爆了社交網絡。
8月中旬,一個名為nano-banana的模型在LMArena平臺的「Battle」中被發現,盡管沒有任何官方開發者明確聲稱其歸屬,但很快,出于驚人的效果獲得了病毒式的關注。甚至大量用戶只為能被分配到該模型,而不斷地參與平臺模型盲測,相關圖片也在社交平臺上廣泛傳播。
![]()
直到北京時間8月27日凌晨,谷歌正式認領了該模型,正是新推出的Gemini 2.5 Flash Image,目前已經可以在Gemini app、Google AI studio、Google API進行使用。
![]()
在官方介紹中,核心技術亮點主要是以下三個:
顛覆性的一致性(Consistency):在連續生成或編輯中保持人物身份的穩定。
自然語言驅動的編輯:用戶僅通過對話式指令即可實現高精度圖像修改,無需復雜的專業工具。
閃電速度:圖像生成與編輯響應時間通常在1-2秒內,提供了接近實時的交互體驗。
我們也實測了一番,結果有驚艷,也有翻車,但確實在一致性上做到了斷層領先的水平。
模型實測:
能幫我實現Labubu自由,
還會做計算題?
一打開模型,我們就向AI下達了第一個指令:給我來七個Labubu,直接實現“手辦自由”。
![]()
直接上傳一張Labubu的商品圖,并復制修改了這段廣為流傳的手辦Prompt,生成結果如下:
![]()
乍一看效果非常好,Labubu的外形特征、搪膠材質都非常的逼真,甚至可以發朋友圈以假亂真。但仔細一看,數量卻不對,桌面上只有六小只,缺失了一個綠色的玩偶。
讓AI學會準確數數,依然是個問題。另外,由于我們最初的prompt里提到了“正版”,AI沒能輸出結果,修改措辭后才完成了生成。
接下來,我們又嘗試了多張圖片融合,據官方介紹能夠保持人物的一致性,目前最多可支持三張圖片合成,我們嘗試了一下讓甄嬛和安陵容來到現代都市,并且要求保持復雜的中國傳統首飾不變形。
![]()
AI也基本完成了任務,在甄嬛的身體發生轉動和變化的情況下,袖口的花紋和頭飾基本沒有變化,并為了完成Prompt中提到的couple(沒錯,我是甄嬛和安陵容CP粉),設計了一個在街頭親密自拍的動作。
![]()
如果覺得這個姿勢不夠滿意,甚至可以通過簡筆畫的方式,讓AI直接理解圖片示例,比如我們直接告訴AI,姿勢照著圖二修改。
![]()
盡管火柴人畫得很抽象,但AI還是完成了任務。
這并不是一個簡單的多圖融合。此前生成模型的多圖參考,是文本和圖像兩種跨模態輸入的對齊,對prompt格式有要求,例如A+B+C+運動,圖像主體盡量清晰,運動描述盡量直觀簡潔,還需要一定的抽卡概率。
而Gemini2.5Flash顯然對復雜的多模態輸入理解得更加準確。
這個多圖融合的featuer,在匿名測試階段就已經被電商用戶瘋狂夸贊了,我們接下來嘗試了商品的替換,實測結果卻輕微地翻車了。
![]()
將兩張圖片融合后的生成結果如下,盡管可以看到材質、樣式符合了原圖,但遺憾是個超大杯。
![]()
當我們試圖通過prompt修改,讓香水瓶恢復正常尺寸時,模型卻顯得始終執著于超大杯,修改后的圖片與原圖幾乎沒有差別。
![]()
雖然很想繼續修改,但大量用戶涌入后,由于“內部錯誤”,這個號稱能速生圖片的模型硬生生卡了幾分鐘,也無法完成更多任務了。
![]()
不過值得注意的是,官方提到得益于Gemini的先進推理,模型會有一定的理解和思維能力。盡管在符合現實邏輯上翻了車,但計算數學題卻成功了。
我們給出了一個小學腦力計算題,在很短的時間內,模型就計算出了正確答案。
![]()
此處值得一個掌聲。
“社區民選”的勝利
不僅模型的一致性效果很驚艷,此次模型出圈的路線也很有趣。
8月中旬,這款模型以完全匿名身份出現在LMArena的對戰模式中時,用戶需要在不知來源的情況下,僅憑生成效果進行盲測投票,短短兩周時間,憑借在“一致性”上的壓倒性優勢,“nano-banana”在盲測中持續勝出,迅速引起了全球AI核心用戶和開發者的注意。
討論從LMArena平臺迅速擴散至Reddit、X(Twitter)、Discord等社區。用戶自發進行極限測試、分享驚艷案例,并為其創造了“一致性之王”、“Photoshop殺手”等極具傳播力的標簽,甚至很多人會因為想要使用nano-banana模型,反復參與點評和測試,只為獲得一次隨機抽中banana的機會。
就在不少人還在猜測,模型是否會開源,什么時候正式發布的時候,谷歌工程師巧妙地在社交媒體發布""表情符號,將解謎游戲推向新高度。8月26日,在市場熱度和口碑達到峰值時,谷歌正式宣布"nano-banana"即為Gemini 2.5 Flash Image模型,并開始全面推送。
很難說,這一路徑并非谷歌有意為之。畢竟,早在8月初剛剛出圈,就有外媒報道,多位AI研究者和愛好者推測,nano-banana可能是谷歌最新的圖像生成模型,也有觀察人士認為,可能來源于Qwen Image或來自各大實驗室尚未發布的其他模型。
當然,這種“神秘發布”模式并非谷歌首創,從去年開始,不少模型們都會選擇在LMArena上進行盲測,OpenAI此前也曾讓神秘模型"im-also-a-good-gpt2-chatbot"現身競技場,最終揭曉為GPT-4o測試版,預熱了產品發布。
一方面,模型們選擇LMArena,固然是因為在匿名的黑箱中,用戶的選擇完全是基于模型的實力,而排除了品牌的偏見和預期,為真實性能提供了純粹的認證。
另一方面,在AI競賽白熱化的背景下,大廠的模型發布往往會被置于一種“追趕者or顛覆者”的敘事框架內,從而被嚴格審視甚至審判。
相比起傳統的高舉高打的發布模式,匿名發布再到官方認領的策略,完成一次“民選”模型的病毒式傳播,既充分利用了社區自發傳播的勢能,又避免了過度炒作可能帶來的反噬效應,使其性能優勢在發布前就已成為“市場共識”。
這也為焦慮市場反饋的下一代模型們,提供了一種新的發布思路。
>End
本文轉載自“硅星人Pro”,原標題《沒有發布會,沒有CEO站臺,谷歌用一根“香蕉”贏得了歡呼》。
為分享前沿資訊及有價值的觀點,太空與網絡微信公眾號轉載此文,并經過編輯。
未按照規范轉載及引用者,我們保留追究相應責任的權利
部分圖片難以找到原始出處,故文中未加以標注,如若侵犯了您的權益,請第一時間聯系我們。
HISTORY/往期推薦
充滿激情的新時代,
充滿挑戰的新疆域,
與踔厲奮發的引領者,
卓爾不群的企業家,
一起開拓,
一起體驗,
一起感悟,
共同打造更真品質,
共同實現更高價值,
共同見證商業航天更大的跨越!
——《太空與網絡》,觀察,記錄,傳播,引領。
·《衛星與網絡》創始人:劉雨菲
·《衛星與網絡》副社長:王俊峰
·微信公眾號(ID:satnetdy)團隊
編輯:艷玲、哈玫,周泳、邱莉、黃榕、娜娜
主筆記者:李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟
策劃部:楊艷、若?、李真子
視覺總監:董濘
專業攝影:馮小京、宋偉
設計部:顧錳、潘希峎、楊小明
行政部:姜河、林紫
業務部:王錦熙、瑾怡
原創文章轉載授權、轉載文章侵權、投稿等事宜,請加微信:15910858067
商務合作;展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣;企業口碑傳播及整體營銷傳播等,請加微信:13811260603
雜志訂閱,請加微信:wangxiaoyu9960
·衛星與網絡各分部:
成都分部負責人:沈淮
長沙分部負責人:賓鴻浦
西安分部負責人:郭朝暉
青島分部負責人:江偉
·衛星與網絡總部負責人:農燕
·會議活動部負責人:喬顥益、許克新、董今福
· 投融資及戰略層面合作:劉雨菲
·本平臺簽約設計公司:一畫開天(北京)文化創意設計有限公司
· 航天加(深圳)股權投資基金管理負責人:楊艷
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.