過去一個周末 Gemini 3 Pro Image 的能力被反復(fù)「折磨」,花樣越來越多——噢,你問這是什么,它的另一個名字是 Nano Banana 2。這么跟個惡搞一樣的名字,居然被保留下來了。
Nano Banana2 各方面能力超群,甚至是「友商」Sam Altman 也要點頭的程度。
![]()
▲ 圖片來自:The Information
夸夸只是夸夸,Nano Banana 第二階段,其實標(biāo)志著 AI 圖像生成領(lǐng)域的一個重要轉(zhuǎn)折點:從基于概率的「以此類推」,轉(zhuǎn)向了基于理解的「邏輯構(gòu)建」。更承載著一個特殊的意義:AI 不再只是沖著你的眼睛去,還沖著你的智商去。
大語言模型不再「文盲」
一直以來 AI 生圖都有個繞不過去的問題:才華橫溢,信手拈來,但有時候就跟喝高了一樣控制不住,這從 Midjourney 時期就開始了,往后走逐漸好轉(zhuǎn),不過始終存在。
其中最大的 bug 之一就是文字。這導(dǎo)致在很長一段時間里,鑒別一張圖是否由 AI 生成,最簡單的辦法就是看圖里的字。
![]()
這是基于擴散模型(Diffusion Model)的先天缺陷:它將文字視為一種紋理,而非符號。
Nano Banana 2 最直觀的突破,就在于它「識字」了。即所謂的 Text Rendering 文字渲染。
我的隨手測試「生成一張復(fù)古電影海報,標(biāo)題是《香蕉的復(fù)仇》,副標(biāo)題用紅色襯線體寫 2025 年上映。」
![]()
如果是在以前嘗試這個指令,大概率會得到一張極具藝術(shù)感的圖「BANANA REVENGE」的某種變體尚且能保持清晰和正常,但小字往往經(jīng)不住看了,甚至有時候主標(biāo)題都會拼寫成「BANNANA」。但在 Nano Banana 2 里,這些字符被準(zhǔn)確、清晰、且符合排版美學(xué)地「寫」在了畫面上。
![]()
So what?這僅僅是省去加字的時間嗎?
對普通用戶來說可能是,而且還是一種「表情包自由」。你終于可以生成一張精準(zhǔn)吐槽老板的圖,配上精準(zhǔn)的文案,不用再單獨拉一個文本框。
而對于商業(yè)世界,這意味著 AI 圖像生成從「素材(Material)」階段,正式跨入了「成品」(Deliverable)階段。
![]()
▲ 圖片來自 X 用戶@chumsdock
當(dāng) AI 能夠準(zhǔn)確地處理符號信息,它能交付的成果就更多樣也更實用,包括但不限于電商海報、PPT 配圖、甚至是數(shù)據(jù)圖表。以前設(shè)計師用 AI 只能生成背景底圖,關(guān)鍵信息還得自己貼。現(xiàn)在,AI 可以直接生成原型圖,乃至帶有數(shù)據(jù)標(biāo)注的餅狀圖,或者一張文字完美貼合透視關(guān)系的廣告。
這是商業(yè)交付的「最后一公里」,也是生圖模型在信息傳遞層面的巨大進(jìn)步。
從「猜概率」到「懂物理」
字渲染的成功是 Nano Banana 2 底層技術(shù)躍遷的一個極具代表性的縮影,更深層的變化在于:這只「香蕉」,長了腦子。
也就是我們所說的基于「推理」的圖像生成。
大模型本質(zhì)上是一個概率統(tǒng)計機器。當(dāng)你要求畫一只「坐在玻璃桌上的貓」時,模型通過學(xué)習(xí)數(shù)億張圖片,在生成時,它只是重現(xiàn)像素的統(tǒng)計規(guī)律。
![]()
Nano Banana 2 的不同之處在于,它引入了 Gemini 3 語言模型的推理能力。在生成圖像之前,它似乎先在「大腦」里構(gòu)建了一個物理模型。它知道「貓」下面通常會有模糊的影子,以及玻璃板上、下的物品有不同的光線關(guān)系。
在我的另一個隨手測試中,當(dāng)要求它生成「一個復(fù)雜的化學(xué)實驗室,桌子上放著裝有藍(lán)色液體的燒杯,背景是黑板上的分子式」時,它表現(xiàn)出了驚人的邏輯性:
![]()
燒杯里的液體會有正確的彎液面;玻璃器皿對光線的折射符合物理直覺;最重要的是,背景黑板上的分子式不再是亂畫的線條,而是看上去像模像樣化學(xué)結(jié)構(gòu)的式子(雖然還是有瑕疵)。
當(dāng)畫筆有了「大腦」,交互方式變了
之所以如此強調(diào)文字生成這個本領(lǐng),是因為 Text Rendering 是外在表現(xiàn),反映的是 Reasoning 作為內(nèi)在引擎。合在一起, Nano Banana 2 帶給用戶的最終體驗,就是一塊「會思考的畫布」(The Thinking Canvas)。
Google 將這個模型深度整合進(jìn)了它的生態(tài)系統(tǒng),不僅僅是生成圖片,更是「修改」現(xiàn)實,下一步,就是走進(jìn)更嚴(yán)肅的領(lǐng)域:信息圖、教案、講解素材,等等等等。
![]()
整體上,圖像生成往往用戶給 20% 的指令,剩下 80% 靠 AI 腦補——以前是靠概率腦補(隨機填色)。現(xiàn)在則是靠因果腦補,不僅畫出了「結(jié)果」,還隱含了「過程」,這能夠讓畫面的敘事性和感染力指數(shù)級上升。
![]()
它不再只是為了取悅你的眼睛,它開始試圖取悅你的智商。像上面這種結(jié)構(gòu)圖,雖然吧不敢說 100% 符合機械工程標(biāo)準(zhǔn),但釘是釘,鉚是鉚。「邏輯上的正確」,是它推理能力的直接體現(xiàn)。
然而任何事情都是一體兩面的,當(dāng)換一個角度看,這就可能意味著創(chuàng)造力的同質(zhì)化。
當(dāng) AI 能夠完美地生成「符合商業(yè)標(biāo)準(zhǔn)」的圖表、海報和插畫時,它實際上是在拉平審美的平均線。所有的海報都排版正確、光影完美,但可能也因此失去了曾經(jīng)設(shè)計中那些因為「不完美」而誕生的神來之筆。
![]()
▲ 圖片來自X用戶@dotey
更深層的問題在于真相的消逝。當(dāng)上面所說的那種邏輯正確、信息「干貨」多的內(nèi)容,可以被批量生產(chǎn),取悅智商從未如此容易,也從未如此輕飄飄。如果它決定了我從圖片信息到文字信息的所有攝入,那……會是怎樣的景象?
還有 Deepfake 這個老大難問題,已經(jīng)是老生常談了。雖然這次 Google 加上了 SynthID(一種人眼不可見的數(shù)字水印)來標(biāo)記 AI 內(nèi)容,但在視覺沖擊力面前,技術(shù)的防偽標(biāo)簽往往是蒼白的。制造「真實」變得如此廉價和便捷,我們對「眼見為實」的信仰將被徹底重構(gòu)。
至于它叫「Nano Banana」還是「Gemini 3 Pro」,其實已經(jīng)不重要了。重要的是,從這一刻起,我們在屏幕上看到的每一個像素,每一行文字,都可能不再來自人類的手指,而是來自機器的思考。
這既令人興奮,又讓人在某些時刻,感到脊背發(fā)涼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.