![]()
智東西
作者 李水青
編輯 云鵬
智東西2月27日報道,剛剛,谷歌正式發布其最強圖片生成和編輯模型Nano Banana 2(Gemini 3.1 Flash Image),該模型已在谷歌Gemini應用、搜索、AI Studio等谷歌全線產品中上線。
![]()
▲谷歌官宣Nano Banana 2發布
Nano Banana 2兼具Pro級功能與Flash級速度,在世界知識、圖像質量、推理能力和主體一致性等方面實現了全面升級,在基準測試中大幅超越了GPT-Image 1.5、Seedream 5.0 Lite、Grok Imagine Image Pro等業界領先模型,配合思考模式、文本和圖像搜索工具則全面超越Nano Banana Pro。
![]()
▲Nano Banana 2基準測試成績
智東西第一時間對Nano Banana 2進行了體驗,發現Nano Banana 2生成圖片細節逼真度增強,指令精準執行上表現超出預期,文字渲染能力和中國傳統文化儲備提升,且在處理復雜場景方面明顯提升。
比如我們讓Nano Banana 2和Nano Banana Pro基于圍繞“60歲亞洲漁夫”的一段相同的提示詞生成圖片,前者生成效果明顯更逼真、細節更豐富,指令遵循準確度更高。
![]()
▲Nano Banana 2生成
![]()
▲Nano Banana Pro生成
提示詞:一位年約60歲的亞洲漁夫的超高清面部特寫,海浪作為背景虛化。他臉上布滿飽經風霜的皺紋和曬斑,皮膚紋理極其細膩,能看到細小的毛孔和銀色的胡茬。陽光從側面45度打來,照亮他半張臉,眼睛微瞇,眼神中透露出堅毅與平靜,眼球表面映出遠處海平面的反光。畫面銳度極高,皮膚質感真實到仿佛能觸摸到。
不過Nano Banana 2仍被經典的“時鐘+滿杯紅酒”問題難倒,在同時面臨多物體+物理邏輯+光影難題等多重問題時生成仍不準確(后文第一部分詳解)。同時,一些圖片仍有“AI感”,無法做到完全以假亂真。不過話說回來,瑕不掩瑜,Nano Banana 2相比Nano Banana Pro跨代升級明顯。
雖然效果更強、速度更快,但Nano Banana 2的價格不增反降。在谷歌AI Studio平臺,Nano Banana 2相比Nano Banana Pro的輸入圖片的單價從2美元降至0.5美元,輸出圖片的單價也從0.134美元減半至0.067美元。
![]()
▲Nano Banana 2的價格不增反降
去年8月,Nano Banana(Gemini 2.5 Flash Image)席卷全球并重新定義圖像生成;11月,基于Gemini 3 Pro的Nano Banana Pro更是憑借更強智能和創作控制力,成為AI生圖圈接近“封神”的存在;今天,谷歌首度將兩者的優勢結合打造一款全新定位的模型。
按照谷歌的設計,Nano Banana Pro適合對事實準確性要求最高的專業任務,而Nano Banana 2則適合快速生成、精確指令遵循和圖像搜索集成的工作場景。
在谷歌Gemini應用,Nano Banana 2已取代Fast、Thinking和Pro版本中的Nano Banana Pro,Pro和Ultra訂閱用戶仍可按需繼續選擇使用Nano Banana Pro。
![]()
▲Nano Banana 2已上線谷歌Gemini
一、1分鐘生成4K圖片,細節更逼真,破解“時鐘生成難題”
智東西第一時間對Nano Banana 2進行了體驗,發現其在指令精準執行上表現很好,而且中文亂碼問題上也改善明顯,對中國傳統文化理解超出預期。
如下圖所示,當智東西要求“一只大熊貓寫毛筆字”的相關圖片,Nano Banana 2不僅準確生成了“熊貓絲絲入扣的毛發”、“珠翠和絨球質感真實”,茶館窗外景觀和攝影風格都遵循了指令。在文字渲染上,“生成式AI”筆鋒流暢且基本沒錯別字,但“式”的左下部分的“工”書寫不太規范。
![]()
▲智東西用Nano Banana 2生成的圖片
提示詞:一只戴著中國傳統京劇頭飾的可愛大熊貓,正坐在現代中式茶館里,用毛筆在宣紙上書寫漢字“生成式AI”。要求熊貓的毛發絲絲入扣,頭飾上的珠翠和絨球質感真實,寫出的毛筆字“生成式AI”筆鋒流暢且沒有錯別字。茶館窗外是模糊的未來都市景象(深圳天際線)。畫風要求是超寫實攝影與工筆畫融合的風格。
Nano Banana 2在特殊角度的透視還原上也比較逼真。如下圖所示,下圖圍繞“仰視視角拍攝一位芭蕾舞演員騰空躍起的瞬間”主題生成,Nano Banana 2實現了對下對面部比例和透視的準確控制,下巴、下巴的陰影以及舒展的身體線條,包括專注的眼神都精準呈現,形態沒有畸變。
![]()
提示詞:仰視視角拍攝一位芭蕾舞演員騰空躍起的瞬間。鏡頭從下往上,觀眾看到她的下巴、下巴的陰影以及舒展的身體線條。她的雙臂張開,舞裙飛揚,面部表情專注而寧靜,眼神望向遠方。舞臺燈光從上方打下,在她面部形成強烈的明暗對比。要求下巴到額頭的透視關系準確,沒有畸變。
在多人物互動與情感交流的生圖體驗中,Nano Banana 2準確還原了新娘和新郎笑中帶淚的對視場景,準確呈現了提示詞內容,包括“西裝面料紋理”、“模糊的草坪和鮮花拱門”都精準呈現。新郎新娘動作、表情和延伸都比較自然,但新郎眼角流出的眼淚在折射和流體形狀上不太自然,讓人有些“出戲”。
![]()
提示詞: 一對新婚夫婦在婚禮上的First Look瞬間。新娘穿著潔白婚紗,從背后輕輕蒙住新郎的眼睛,新郎轉過身來,兩人相視而笑,眼中含淚。陽光透過樹葉灑在他們身上,婚紗的蕾絲細節、新郎西裝的面料紋理清晰可見。背景是模糊的草坪和鮮花拱門,畫面充滿幸福甜蜜的氛圍。
下面這個例子進一步體現了Nano Banana 2精準指令遵循特征。當我上傳了三張圖片,讓Nano Banana 2將下面左圖停車場中的小車替換為右圖兩個小車時,其在保持原圖一致性的基礎上將其中幾輛小車替換,替換后的車輛與其他車輛的比例保持一致,車下的太陽光陰影也符合物理規律。
![]()
提示詞:將圖1中停車場中的小車替換為圖2、圖3中的小車,要求畫面風格一致,符合物理規律。
很多海內外用戶也肯定了Nano Banana 2的跨代升級,Nano Banana 2在處理復雜場景和細節密度方面明顯提升。
一位網友分享了“一個復雜的城市場景”的生成圖。如下圖所示,光照一致性和人群構成令人印象深刻。這位網友稱,大多數AI圖像生成器都難以處理像這樣復雜的場景——多人、反射、多變的光照,Nano Banana 2在處理細節密度方面遠超預期。
![]()
▲社交平臺X網友分享的Nano Banana 2生成圖
Nano Banana 2還解決了“時鐘難題”。一位網友很興奮地稱:“終于!Nano Banana 2可以精準生成時鐘了?!”他輸入的提示詞是“傳統時鐘 21:35”,這一任務考察模型將抽象數字轉化為時鐘精細具象表達的能力,此前Nano Banana Pro在多次處理這一任務中都失敗了。
![]()
▲Nano Banana 2生成的時鐘圖
![]()
▲Nano Banana Pro生成的時鐘圖
但這位網友也提到,可惜的是,當面臨復雜一些的時鐘和滿杯酒測試,Nano Banana 2的生成效果依舊差了一點。Nano Banana 2還是沒有完全通過時鐘和滿杯酒測試,時針和分針搞反了。看來AI一直以來的準確性難題依舊難以解決。
![]()
▲Nano Banana Pro生成的時鐘和滿杯酒測試
不過,話說回來,Nano Banana 2確實性價比可觀。一位中國網友稱:“Nano Banana 2出來了,產圖真的是又快又好,不到一分鐘就能產4K圖。比Nano Banana Pro效果好、快、便宜。谷歌特有的以下克上,倒反天罡?”
![]()
▲X網友分享的Nano Banana 2生成圖
二、核心升級點:更全世界知識、更精準文本渲染、更強創作控制力
看完實測體驗,再來看看Nano Banana 2的具體升級點。
谷歌稱,該模型將Gemini Flash的高速應用于圖像生成,實現了快速編輯和迭代。同時,它試圖讓更多用戶用上了原本Pro版才有的功能:
1、先進世界知識:模型調用Gemini的真實世界知識庫,并結合網絡搜索獲取的實時信息和圖像,能夠更準確地呈現特定主題。這種深度理解還可用于創建信息圖表、將筆記轉化為圖表,以及生成數據可視化內容。
2、精準文本渲染與翻譯:Nano Banana 2可為營銷素材或賀卡生成準確易讀的文本。用戶還可以翻譯和本地化圖像中的文字,與全球受眾分享創意。
下圖是谷歌官方公布的示例圖片,圍繞“一張平鋪式的信息圖,描繪了水循環”主題生成,可以看到谷歌比較強調Nano Banana 2的科學知識儲備和將抽象知識轉化為具象圖像的能力。
![]()
▲谷歌官方公布的Nano Banana 2生成圖
同時,Nano Banana 2還具備更強的創作控制力。
Nano Banana 2大幅縮小了速度與畫質的差距,能生成高質量、照片級的逼真圖像。相比初代Nano Banana,主要改進包括:
1、主體一致性:在單個工作流中,最多可保持五個角色的形象相似性,以及最多14個對象的特征一致性,方便進行故事板繪制和敘事創作。
2、精確指令遵循:增強的指令執行能力讓模型能更嚴格地遵循復雜要求,精準捕捉你的創意細節,確保生成結果符合預期。
3、生產就緒規格:支持從512px到4K的多種分辨率和寬高比,無論是豎屏社交媒體還是寬屏背景,都能輸出清晰銳利的視覺效果。
4、畫質提升:Nano Banana 2呈現更鮮艷的光照、更豐富的紋理和更清晰的細節,在保持Flash系列速度的同時,實現了高質量的畫面效果。
下圖展示了“農場里換了的任務和物品”主題圖生成,輸入15個圖像素材,Nano Banana 2講這些包含動物和農場所需物品融合生成了一張符合主題的圖片,突出了主題一致、精準指令遵循等特征。
![]()
▲谷歌官方公布的Nano Banana 2生成圖
三、三款示例應用發布,全球廣告本地化降本“神器”來了
Nano Banana 2利用Gemini模型豐富的全球知識,通過網絡搜索圖像來創建增強的視覺效果。為了展示這種視覺基礎的實際應用,谷歌構建了一個名為“靠窗座位(Window Seat)”的示例App,該App利用Nano Banana 2的知識和網絡圖像搜索來創建受世界各地位置和實時天氣數據啟發的逼真窗景。

▲靠窗座位(Window Seat)App
Nano Banana 2在之前的Flash圖像模型基礎上進行了升級,提供了更可靠的文本渲染效果。谷歌開發了一款名為“全球廣告本地化器(Global Ad Localizer)”的演示App,它可以將廣告翻譯成不同語言,以適應國際市場。
![]()
▲全球廣告本地化器(Global Ad Localizer)App
Nano Banana 2兼具速度和視覺保真度,呈現生動的光照、更豐富的紋理和更清晰的細節。現在,用戶可以通過多種高級創意功能更好地控制這些高保真輸出:
原生寬高比:無縫生成或編輯圖像以滿足用戶的項目需求,我們原生支持所有現有寬高比,現在還新增了 4:1、1:4、8:1 和 1:8。在此處查找支持的寬高比的完整列表。
新增512px分辨率:優化效率。繼 1K、2K 和 4K 分辨率之后,這一全新分辨率級別可最大限度地減少延遲,從而實現快速迭代和高負載處理流程。
改進的指令遵循:該模型更加嚴格地遵循復雜的、多層的開發者提示,有助于確保應用程序請求的圖像就是生成的圖像。
可配置的思考模式:用戶現在可以更好地控制模型的推理過程。調整思維水平(最低(默認)與高/動態),使模型能夠在渲染之前推理復雜的提示,從而顯著提高輸出質量和提示遵循度。
其“寵物護照(Pet Passport)”演示版只需拍攝用戶寵物的一張照片,即可帶領它開啟環球旅行,游覽世界各地著名地標。它能確保寵物在不同的目的地保持相同的形象。

▲寵物護照(Pet Passport)App
四、Nano Banana 2谷歌全線產品上線,Pro版仍有適用場景
Nano Banana 2即日起在谷歌全線產品中上線,包括:
Gemini應用:Nano Banana 2將取代Fast、Thinking和Pro版本中的Nano Banana Pro。Google AI Pro和Ultra訂閱用戶仍可通過三點菜單重新生成圖像,在特定任務中繼續使用Nano Banana Pro。
Nano Banana Pro適合對事實準確性要求最高的專業任務,而Nano Banana 2則適合快速生成、精確指令遵循和圖像搜索集成的工作場景。
搜索:可通過谷歌應用以及移動和桌面瀏覽器,在AI模式和Google鏡頭中使用。支持范圍新增141個國家和地區以及8種語言。
AI Studio+API:已在AI Studio和Gemini API中提供預覽版。定價信息可點擊查詢。Google Antigravity也已集成。
Google Cloud:可通過Vertex AI中的Gemini API預覽使用。
Flow:Nano Banana 2已成為Flow的默認圖像生成模型,對所有Flow用戶免費開放。
廣告:Nano Banana可用于廣告場景,在創建廣告系列時提供建議。
結語:全球AI生圖賽道競賽升級
全球AI生圖賽道競賽正在升級。在國內,字節Seedream 5.0、阿里Qwen-Image-2.0等國產模型的密集出擊,交出了優秀的成績;在國外,谷歌正將戰火從單純的畫質比拼,引向世界知識集成、精準指令執行和生產效率的綜合較量,開辟新戰場。
隨著Nano Banana 2的發布,谷歌在圖像生成產品矩陣實現更清晰切割:Pro版駐扎專業高地和事實準確性,Flash版則以更快、更便宜、足夠好的策略搶占規模化應用場景。該模型全線登陸谷歌產品矩陣并大幅降價,AI圖像生成的競賽已從“能不能畫”邁入“畫得多快、多準、多便宜”的新階段。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.