是不是以為我又標題黨了。
但是這玩意我覺得真的夠強,在我實際工作中也已經用上好幾天,所以,體驗下來,我是真的覺得對的這個史詩級名號。
這個神秘的AI繪圖的新模型,叫做,Nano Banana。
雖然現在還只能在LMArena盲測的時候隨機出現,還沒有公司出來認領,但是大概率是Google家的,AI繪圖新模型。
強到離譜。
因為它的生圖一致性,實在很頂。
直接給你們上一個case。
左邊,是我的照片。
右邊,是我用Nano Banana生成的最新一期視頻封面的底圖。
![]()
而我的Prompt,就是我把我自己的照片,扔進去,然后寫了一段:
“ A man with the same facial features and appearance as the person in the reference image is facing the camera. One hand is making a gesture that forms the number "0," while the other hand is holding three colorful children's picture books. His expression is natural and engaged, with a lively and playful pose. The scene conveys a lighthearted and humorous atmosphere. The background is a simple indoor setting with soft natural lighting. Realistic photographic style, 4K resolution, high detail, shallow depth of field. ”
你們可以看到,Nano Banana幾乎完全保留了我的面部特征和表情,連嘴角弧度都是一致的,只是變了動作和手勢。
人物一致性堪稱完美。
而與它相對比,其他幾家的生成結果是這樣的。
我拼了一張圖,你們可以直觀對比一下。
![]()
最左邊是GPT-4o,幾個月前剛出來的時候,感覺還是挺好用的,但是人物一致性簡直就是一坨,現在再一對比,這泛黃的濾鏡,真的可以直接打入冷宮了。
中間是Flux Kontext,跟我長得,感覺完全不是一家人...emmmmm,而且把表情換成了憨笑,我也沒讓它換,它自作主張給我換了。
而最右邊即夢的版本,使勁的方向干脆就錯了,衣服上的圖標什么的倒是保留的很好,人臉完全不對勁,手上的繪本也很奇怪。
對比下來,Nano Banana完勝。
做封面這種場景,我其實就一個要求,長得像我。
但這個要求,以現在很多AI目前的一致性水平,還是達不到。
而如今,用Nano Banana,基本上,roll一兩次就行了。
真的很爽。
不過現在這個Nano Banana,非常神秘。
它現在只出現在LMArena上。
如果對大模型評測比較了解的朋友可能會知道,這就是全球現在最主流的大模型競技場,
主要的評測形式,就是兩個模型匿名對戰,用戶根據生成結果投票,網站再根據投票結果,用一系列算法來計算模型排行。
很多廠子的新模型,在正式放出來之前,也經常會用一個特殊的代號,扔到LMArena上去給用戶盲測一下,看看用戶那邊的最終效果。
而這次的Nano Banana,其實就是這么一個提前放出來的神秘模型,目前沒有任何公開使用鏈接,但是在LMArena上做生圖評測的時候,會被隨機到。
本來生圖這個江湖,是seedream、flux、gpt、google imagen這些模型在混戰。
但有一天,大家測評的時候突然發現,臥槽,怎么有個從來沒聽過的Banana混入其中?
甚至,這個Nano Banana在已有的生圖模型里都找不到,只有在隨機測評時才會出現,偷感超重。。。
![]()
然后大家又發現,臥槽,怎么這個Banana,效果還挺好的。。。
![]()
而且,人物一致性,近乎無敵。
于是,Nano Banana就在外網上火起來了。
大家奔走相告,一堆人在LMArena上瘋狂roll圖,就為用到Nano Banana做一些事,甚至有人,把紙片人變成3D手辦。
![]()
給手辦加個酷炫背景。
![]()
還做出了各種意想不到的夢幻聯動。
![]()
人物幾乎完美一樣。
也有人開始搜索,這個之前在江湖上沒名沒姓的Nano Banana,到底師出何門。
然后發現,這個模型好像是google家的。
Google目前還沒有出來認領Nano Banana,但我只是套路了Nano Banana兩句,它就把自己的家底兒都交代了,在自己身上畫了個大大的Google DeepMind。
![]()
大家基于此推測,Nano Banana應該是谷歌即將推出的新模型,低調來LMArena遛一圈,測測實力。
就解釋了,為什么Nano Banana偷感超重,只在battle中出現,還是隨機出現。。。
說下怎么用。
先登錄LMArena網站:https://lmarena.ai/
然后選擇頂上的battle模式,其他的什么都不用管,直接輸入prompt和參考圖。
![]()
它就會隨機選擇兩個模型,給你生成兩張圖片。
但是它不會告訴你這倆模型都是什么,這時候,需要你去選擇哪張圖效果更好。
![]()
等你選完之后,它才會給你揭曉答案。
![]()
你會發現,選中的模型,可能并不是Nano Banana,這就對了,因為是盲測。。。
你也不知道啥時候會隨到他,但是效果又確實爆炸的好。
這種神龍見首不見尾的情況還挺折磨人的,有時候連測四五次,nano都不出來。
更不用說過程中一直遭遇人機驗證,還經常報錯。有人懂我測的有多崩潰嗎。。。
![]()
要不是看在它效果好的份上,我真的,早就不測了。。。求求了Google,啥時候上下AI Studio或者Gemini吧。
我自己大概跑了一天的時間,也給大家看看實際效果。
這次,我把Nano Banana、flux、gpt4o、即夢都拉過來一起測。
測完的圖,直接拼在一起看效果,非常直觀。
第一個case,是單個主體一致性。
我給了幾個模型這樣一張原圖,然后讓圖中的女人直面鏡頭,伸出手來觸碰鏡頭,仿佛打破了第四面墻。
![]()
然后,各家模型的效果是這樣的。
![]()
左上Nano Banana,右上gpt4o,左下flux,右下是seedream。
這樣看,效果還是非常直觀的。
Nano Banana主體保持的很好,妝容、服飾、頭飾都和原圖一樣。并且也做到了我提示詞上的內容。
flux和seedream,主體還算大差不差,但是動作都有點別扭。
gpt主體性保持的最差,還非常固執地用著自己的比例和泛黃濾鏡。。。
第一題,Nano Banana勝。
然后是多主體測試。
我用了一張很經典的電影海報《羅馬假日》,提示詞是,把男女主換成川普和馬斯克,電影名改為doge holiday。
![]()
左上Nano Banana,右上gpt4o,左下flux,右下是seedream。
![]()
最成功的,依然是Nano Banana。
gpt4o還是老毛病,泛黃,馬斯克的臉也沒那么像。
flux更離譜,直接干出來一對并不怎么像馬斯克的雙胞胎。
不過這道題對seedream有點不公平,因為它無法生成川普的形象,最終只能用一個金發老頭來替代。而且忘了給我生成馬斯克。。。
第二題,還是Nano Banana贏了。
第三個case,是背景替換能力,我用了一張我在漫展上拍到的很酷的機甲。
![]()
提示詞如下:
Replace the background with a cinematic post-apocalyptic ruin. The scene should feature destroyed buildings, rubble, and a dark, dramatic atmosphere. Behind the character, a massive explosion with fiery glow and billowing black smoke rises, creating intense tension and a sense of chaos. The overall look should be highly detailed, with realistic textures, strong contrast, and a cinematic color grade. Photorealistic style, 4K resolution, high detail.
![]()
一樣的順序,左上Nano Banana,右上gpt4o,左下flux,右下seedream3.0。
背景生成效果最好的,還是Nano Banana。
隨著爆炸發生,主體也被爆炸產生的強光照亮了,光影的真實感更強,整個畫面對比更強烈。后面的廢墟大樓也有更多細節。
flux和gpt的背景就有點糊成一團,比較草率。
seedream背景也有點草率,最好玩的是,居然還莫名其妙增加了一個蹲在地上的程序猿= =
Nano Banana,再拿一局。
第四個case,是主體一致性+背景替換。
提示詞寫了一大串,我就不貼了,大意是,把這個手辦放進盒子里。
![]()
還是和之前一樣的順序。
![]()
這張圖乍一看,只有gpt需要被叉出去。
但仔細一看,flux悄悄魔改了眉眼和表情,讓本來元氣滿滿的小手辦顯得不是很有精神。
seedream這次能和Nano Banana打個平手。
再看看動作遷移能力,沒有特別趁手的圖,我就用了雞你太美的表情包和一張我已經用到包漿的照片。
![]()
因為即夢不支持多圖參考,所以這一輪只有三個選手參與測評。
從左到右,Nano Banana,gpt,flux。
![]()
Nano Banana還是最強,主體和動作保持的都很好。
但我真想把中間的gpt叉出去,看著就火大,有病。。。
下面一個,測的是人物情緒。
![]()
我用了一對酷哥酷姐,幾個場景分別是:高興、生氣、一個人嘲笑另一個人。
這是兩個人在笑。
![]()
這是他倆發火了。
![]()
這是男的吃了哈利波特怪味豆里鼻屎味的豆子,女的在笑話他。
![]()
一整個看下來,最強的還是Nano Banana,無論做什么大表情,人物都不會崩。
不是,這個人物一致性和動作的遵循,實在是太特么牛逼了。
倒數第二個,是細節修改能力。
底圖是這張報紙,提示詞是,把中間的skor四個字母換成kazi。
![]()
只有Nano Banana完全遵守了指令,只改了中間四個字母,其他的沒增也沒刪。
![]()
最后一個case,是風格轉換。
原圖在此。
![]()
我分別做了賽博朋克風格,梵高風格,還有水墨畫風格。
賽博朋克這張,Nano Banana的完成度是最高的,無論是畫面的精細程度,還是人物的一致性保持,都拉開很大一截差距。
![]()
梵高風格的這一張,也是Nano Banana筆觸更細膩,人物更一致。
![]()
水墨畫風格,結論還是一樣的,Nano Banana,真的很強。。。
![]()
以上,就是全部的測評。
從生圖效果來看,Nano Banana,完勝。
seedream和flux,一次直出的效果不如Nano Banana,但是整體質量還可以,就是需要多抽點卡。
gpt4o,我實在是不想評價它。。。
而看完Nano Banana的測評,你們應該也就知道,怎么只用一張照片+Nano Banana,就做出N個動作的真人視頻封面了。
答案就是,帶著你自己想要當封面的個人照片,和你希望的提示詞:表情,動作,背景,直接去LMArena上,開battle模式生圖。
生成出來之后,憑直覺選擇你覺得更好的那一張,不用懷疑,大部分情況下,你覺得最完美的那一個,大概率就是Nano Banana生成的。
然后把圖片下載下來就完活兒了。
沒有用過Nano Banana的朋友們,我真的勸你們,趕快去用,快點。
另外,實在是感嘆一句,Google真的還是太全面了。
感覺現在的Google,真的是多點開花,全面領先。
底蘊太厚了,太牛逼了。
目前的一致性之王,當之無愧的屬于Nano Banana。
不知道下一次,這頂桂冠。
會花落誰家?
以上,謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、水杉、Chiyo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.