網易首頁 > 網易號 > 正文申請入駐

人物一致性新王Nano Banana登基，AI圖片編輯史詩級升級。

2025-08-19 09:09:48　來源: 數字生命卡茲克

天津舉報

分享至

　　是不是以為我又標題黨了。

　　但是這玩意我覺得真的夠強，在我實際工作中也已經用上好幾天，所以，體驗下來，我是真的覺得對的這個史詩級名號。

　　 這個神秘的AI繪圖的新模型，叫做，Nano Banana。

　　雖然現在還只能在LMArena盲測的時候隨機出現，還沒有公司出來認領，但是大概率是Google家的，AI繪圖新模型。

　　強到離譜。

　　因為它的生圖一致性，實在很頂。

　　直接給你們上一個case。

　　左邊，是我的照片。

　　右邊，是我用Nano Banana生成的最新一期視頻封面的底圖。

　　而我的Prompt，就是我把我自己的照片，扔進去，然后寫了一段：

　　 “ A man with the same facial features and appearance as the person in the reference image is facing the camera. One hand is making a gesture that forms the number "0," while the other hand is holding three colorful children's picture books. His expression is natural and engaged, with a lively and playful pose. The scene conveys a lighthearted and humorous atmosphere. The background is a simple indoor setting with soft natural lighting. Realistic photographic style, 4K resolution, high detail, shallow depth of field. ”

　　你們可以看到，Nano Banana幾乎完全保留了我的面部特征和表情，連嘴角弧度都是一致的，只是變了動作和手勢。

　　人物一致性堪稱完美。

　　而與它相對比，其他幾家的生成結果是這樣的。

　　我拼了一張圖，你們可以直觀對比一下。

　　最左邊是GPT-4o，幾個月前剛出來的時候，感覺還是挺好用的，但是人物一致性簡直就是一坨，現在再一對比，這泛黃的濾鏡，真的可以直接打入冷宮了。

　　中間是Flux Kontext，跟我長得，感覺完全不是一家人...emmmmm，而且把表情換成了憨笑，我也沒讓它換，它自作主張給我換了。

　　而最右邊即夢的版本，使勁的方向干脆就錯了，衣服上的圖標什么的倒是保留的很好，人臉完全不對勁，手上的繪本也很奇怪。

　　對比下來，Nano Banana完勝。

　　做封面這種場景，我其實就一個要求，長得像我。

　　但這個要求，以現在很多AI目前的一致性水平，還是達不到。

　　而如今，用Nano Banana，基本上，roll一兩次就行了。

　　真的很爽。

　　不過現在這個Nano Banana，非常神秘。

　　它現在只出現在LMArena上。

　　如果對大模型評測比較了解的朋友可能會知道，這就是全球現在最主流的大模型競技場，

　　主要的評測形式，就是兩個模型匿名對戰，用戶根據生成結果投票，網站再根據投票結果，用一系列算法來計算模型排行。

　　很多廠子的新模型，在正式放出來之前，也經常會用一個特殊的代號，扔到LMArena上去給用戶盲測一下，看看用戶那邊的最終效果。

　　而這次的Nano Banana，其實就是這么一個提前放出來的神秘模型，目前沒有任何公開使用鏈接，但是在LMArena上做生圖評測的時候，會被隨機到。

　　本來生圖這個江湖，是seedream、flux、gpt、google imagen這些模型在混戰。

　　但有一天，大家測評的時候突然發現，臥槽，怎么有個從來沒聽過的Banana混入其中？

　　甚至，這個Nano Banana在已有的生圖模型里都找不到，只有在隨機測評時才會出現，偷感超重。。。

　　然后大家又發現，臥槽，怎么這個Banana，效果還挺好的。。。

　　而且，人物一致性，近乎無敵。

　　于是，Nano Banana就在外網上火起來了。

　　大家奔走相告，一堆人在LMArena上瘋狂roll圖，就為用到Nano Banana做一些事，甚至有人，把紙片人變成3D手辦。

　　給手辦加個酷炫背景。

　　還做出了各種意想不到的夢幻聯動。

　　人物幾乎完美一樣。

　　也有人開始搜索，這個之前在江湖上沒名沒姓的Nano Banana，到底師出何門。

　　然后發現，這個模型好像是google家的。

　　Google目前還沒有出來認領Nano Banana，但我只是套路了Nano Banana兩句，它就把自己的家底兒都交代了，在自己身上畫了個大大的Google DeepMind。

　　大家基于此推測，Nano Banana應該是谷歌即將推出的新模型，低調來LMArena遛一圈，測測實力。

　　就解釋了，為什么Nano Banana偷感超重，只在battle中出現，還是隨機出現。。。

　　說下怎么用。

　　先登錄LMArena網站：https://lmarena.ai/

　　然后選擇頂上的battle模式，其他的什么都不用管，直接輸入prompt和參考圖。

　　它就會隨機選擇兩個模型，給你生成兩張圖片。

　　但是它不會告訴你這倆模型都是什么，這時候，需要你去選擇哪張圖效果更好。

　　等你選完之后，它才會給你揭曉答案。

　　你會發現，選中的模型，可能并不是Nano Banana，這就對了，因為是盲測。。。

　　你也不知道啥時候會隨到他，但是效果又確實爆炸的好。

　　這種神龍見首不見尾的情況還挺折磨人的，有時候連測四五次，nano都不出來。

　　更不用說過程中一直遭遇人機驗證，還經常報錯。有人懂我測的有多崩潰嗎。。。

　　要不是看在它效果好的份上，我真的，早就不測了。。。求求了Google，啥時候上下AI Studio或者Gemini吧。

　　我自己大概跑了一天的時間，也給大家看看實際效果。

　　這次，我把Nano Banana、flux、gpt4o、即夢都拉過來一起測。

　　測完的圖，直接拼在一起看效果，非常直觀。

　　第一個case，是單個主體一致性。

　　我給了幾個模型這樣一張原圖，然后讓圖中的女人直面鏡頭，伸出手來觸碰鏡頭，仿佛打破了第四面墻。

　　然后，各家模型的效果是這樣的。

　　左上Nano Banana，右上gpt4o，左下flux，右下是seedream。

　　這樣看，效果還是非常直觀的。

　　Nano Banana主體保持的很好，妝容、服飾、頭飾都和原圖一樣。并且也做到了我提示詞上的內容。

　　flux和seedream，主體還算大差不差，但是動作都有點別扭。

　　gpt主體性保持的最差，還非常固執地用著自己的比例和泛黃濾鏡。。。

　　第一題，Nano Banana勝。

　　然后是多主體測試。

　　我用了一張很經典的電影海報《羅馬假日》，提示詞是，把男女主換成川普和馬斯克，電影名改為doge holiday。

　　左上Nano Banana，右上gpt4o，左下flux，右下是seedream。

　　最成功的，依然是Nano Banana。

　　gpt4o還是老毛病，泛黃，馬斯克的臉也沒那么像。

　　flux更離譜，直接干出來一對并不怎么像馬斯克的雙胞胎。

　　不過這道題對seedream有點不公平，因為它無法生成川普的形象，最終只能用一個金發老頭來替代。而且忘了給我生成馬斯克。。。

　　第二題，還是Nano Banana贏了。

　　第三個case，是背景替換能力，我用了一張我在漫展上拍到的很酷的機甲。

　　提示詞如下：

　　Replace the background with a cinematic post-apocalyptic ruin. The scene should feature destroyed buildings, rubble, and a dark, dramatic atmosphere. Behind the character, a massive explosion with fiery glow and billowing black smoke rises, creating intense tension and a sense of chaos. The overall look should be highly detailed, with realistic textures, strong contrast, and a cinematic color grade. Photorealistic style, 4K resolution, high detail.

　　一樣的順序，左上Nano Banana，右上gpt4o，左下flux，右下seedream3.0。

　　背景生成效果最好的，還是Nano Banana。

　　隨著爆炸發生，主體也被爆炸產生的強光照亮了，光影的真實感更強，整個畫面對比更強烈。后面的廢墟大樓也有更多細節。

　　flux和gpt的背景就有點糊成一團，比較草率。

　　seedream背景也有點草率，最好玩的是，居然還莫名其妙增加了一個蹲在地上的程序猿= =

　　Nano Banana，再拿一局。

　　第四個case，是主體一致性+背景替換。

　　提示詞寫了一大串，我就不貼了，大意是，把這個手辦放進盒子里。

　　還是和之前一樣的順序。

　　這張圖乍一看，只有gpt需要被叉出去。

　　但仔細一看，flux悄悄魔改了眉眼和表情，讓本來元氣滿滿的小手辦顯得不是很有精神。

　　seedream這次能和Nano Banana打個平手。

　　再看看動作遷移能力，沒有特別趁手的圖，我就用了雞你太美的表情包和一張我已經用到包漿的照片。

　　因為即夢不支持多圖參考，所以這一輪只有三個選手參與測評。

　　從左到右，Nano Banana，gpt，flux。

　　Nano Banana還是最強，主體和動作保持的都很好。

　　但我真想把中間的gpt叉出去，看著就火大，有病。。。

　　下面一個，測的是人物情緒。

　　我用了一對酷哥酷姐，幾個場景分別是：高興、生氣、一個人嘲笑另一個人。

　　這是兩個人在笑。

　　這是他倆發火了。

　　這是男的吃了哈利波特怪味豆里鼻屎味的豆子，女的在笑話他。

　　一整個看下來，最強的還是Nano Banana，無論做什么大表情，人物都不會崩。

　　不是，這個人物一致性和動作的遵循，實在是太特么牛逼了。

　　倒數第二個，是細節修改能力。

　　底圖是這張報紙，提示詞是，把中間的skor四個字母換成kazi。

　　只有Nano Banana完全遵守了指令，只改了中間四個字母，其他的沒增也沒刪。

　　最后一個case，是風格轉換。

　　原圖在此。

　　我分別做了賽博朋克風格，梵高風格，還有水墨畫風格。

　　賽博朋克這張，Nano Banana的完成度是最高的，無論是畫面的精細程度，還是人物的一致性保持，都拉開很大一截差距。

　　梵高風格的這一張，也是Nano Banana筆觸更細膩，人物更一致。

　　水墨畫風格，結論還是一樣的，Nano Banana，真的很強。。。

　　以上，就是全部的測評。

　　從生圖效果來看，Nano Banana，完勝。

　　seedream和flux，一次直出的效果不如Nano Banana，但是整體質量還可以，就是需要多抽點卡。

　　gpt4o，我實在是不想評價它。。。

　　而看完Nano Banana的測評，你們應該也就知道，怎么只用一張照片+Nano Banana，就做出N個動作的真人視頻封面了。

　　答案就是，帶著你自己想要當封面的個人照片，和你希望的提示詞：表情，動作，背景，直接去LMArena上，開battle模式生圖。

　　生成出來之后，憑直覺選擇你覺得更好的那一張，不用懷疑，大部分情況下，你覺得最完美的那一個，大概率就是Nano Banana生成的。

　　然后把圖片下載下來就完活兒了。

　　沒有用過Nano Banana的朋友們，我真的勸你們，趕快去用，快點。

　　另外，實在是感嘆一句，Google真的還是太全面了。

　　感覺現在的Google，真的是多點開花，全面領先。

　　底蘊太厚了，太牛逼了。

　　目前的一致性之王，當之無愧的屬于Nano Banana。

　　不知道下一次，這頂桂冠。

　　會花落誰家？

　　以上，謝謝你看我的文章，我們，下次再見。

　　>/ 作者：卡茲克、水杉、Chiyo

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.