網易首頁 > 網易號 > 正文申請入駐

nano banana刷屏一周：邪修玩法背后你不知道的訓練密碼

2025-09-02 23:24:46　來源: 四木相對論

北京舉報

分享至

Google 最新發布的多模態模型 nano banana（Gemini 2.5 Flash image）已經刷屏整整一周了。

Twitter、小紅書等等社媒上隨處可見小香蕉的帖子，Gemini 甚至還花錢給它買了個“熱搜”。

每次新模型出來后，網友們總有保留節目——玩梗和搞創意。nano banana 強大的主體形象一致性特點，以及對圖像理解、用戶意圖理解的能力，讓網友們貢獻出眾多“邪修”玩法。

玩法一：保持環境一致換臉

*圖源：

@EHuanglu

玩法二：保持人物一致，指定衣服和動作

*圖源：

@ai_for_success

玩法三：生成3D模型

*圖源：

@deedydas

上傳一張帶有物體的精美照片，或者是一幅電影截圖，nano banana 可以生成一個幾乎 1:1 的3D模型圖，可以直接用來做3D建模。

玩法四：保持人物形象，改變人物姿態

*圖源：

tapehead_Lab

玩法五：原材料生成食品圖

*圖源：

maxescu

上傳一些原材料的圖片，給模型輸入提示詞讓它來做一個吃的。

玩法六：改變圖片角度

*圖源：

dr_cintas

玩法七：更換背景、姿勢，一鍵P圖

*圖源：

clandestino_ai

玩法八：上傳戶型圖看裝修

*圖源：

levelsio

玩法九：替換發型

*圖源：

hahazwei

玩法十：生成四格電影

*圖源：

FinanceYF5

玩法十一：做幾何題

*圖源：@Gorden_Sun

在邪修玩法之外，nano banana 令人驚艷的特點包括但不限于審美提升，任務執行精準。

近期，nano banana 核心團隊做客了一檔節目，揭秘模型訓練背后的故事。核心觀點如下：

雖然模型已經有很大提升，但團隊認為 nano banana 的文字渲染能力不夠完美，接下來還會優化。
關于模型評估，這次 Gemini 團隊把“文字渲染”作為評估指標之一。一個重要原因是，當模型學會了在圖像中正確生成文字這種結構以后，往往也能學到圖像中其他結構的生成。
nano banana說明，多模態模型的圖像理解和圖像生成能力是"攜手并進"的。
nano banana能夠精準執行任務的一個原因是交錯生成，也就是將復雜的提示分解成多個步驟，并在不同的步驟中逐一進行編輯。模型也能獲取多模態的上下文信息，然后基于它來生成新的圖像。
nano banana 相比自己的上一代，更大的提升是用不同角度渲染同一個角色，依然能保持一致。并且，它的審美也更好。

以下是這次交流的逐字翻譯：

Logan：大家好，歡迎來到 Release Notes 節目。我是 Logan Kilpatrick，來自 Google DeepMind 團隊。今天和我們一起的是 Kaushik、Robert、Nicole 和 Mustafa。他們是 Gemini 圖像生成模型研發和產品團隊成員。我們今天討論這個最新的模型。

Nicole：對，我們在 Gemini 中發布一個圖像生成和編輯功能的更新。這次是一個巨大的飛躍，模型達到了最先進水平，我直接來演示一下這個模型的效果?，F在我要給你拍一張照片，把畫面放遠一點，生成一張你穿著巨型香蕉服裝的圖像，確保你的臉是清晰可見的。生成需要幾秒鐘，但速度還是相當快的——你應該記得我們上個版本也是相當快速的模型。這是我最喜歡的功能之一。

圖片出來了，這就是 Logan，畫面中仍然是你的臉。這個模型了不起的地方在于，它生成的形象仍然看起來像你，它給你穿上了一個巨大的香蕉服裝。圖片的背景很好看，是你走在城市街道上的場景。

Logan：太有意思了，這張圖是在芝加哥，而且實際上這基本就是那條街的真實模樣。這個模型居然體現出了現實世界的知識！

Nicole：現在我們繼續，讓我們試一下輸入“make it nano”，讓我們看看模型會怎么做。好了，現在模型基于你的形象創建出了一個可愛的“納米版本”的你，穿著巨型香蕉服。

Logan：太喜歡這個了，真棒。

Nicole：這里特別棒的一點是——我們的提示詞非常模糊。

可是模型的創造力足夠強，居然能自行解釋這個要求，然后創建出一個場景，既滿足了用戶的提示，又在整體上下文中合理，還保持了場景中其他所有元素的一致性。

這一點真的令人興奮，我認為這是我們第一次看到大模型能在多次編輯中保持場景的一致性，并讓用戶用非常自然的語言與模型交互，不需要輸入很長的提示詞——只需用非常自然的語言給出指令，就能夠和模型經過多輪交互完成創作。

Logan：的確讓人興奮。我也很喜歡這一點。那么模型在文字渲染方面做得怎么樣？這是我個人最關心的用例之一。要不然我們在這張圖片上加點文字試試？比如“Gemini Nano”。

Nicole：圖片出來了，效果很好。文本字符數很少，詞也很簡單，所以效果非常好。我們在發布說明中也指出了目前文字渲染存在一些不足之處，我們也在努力改進。

Logan：關于此次發布的評估維度有沒有什么可以分享的？很多情況下我們用人類偏好來衡量，但很難有一個“真實標準”，我想聽聽你們怎么看待這個問題，不僅針對這次發布，也包括模型訓練的整體過程。

Mustafa：我認為總體來說，對圖像、視頻這類多模態任務，要持續不斷提高指標表現是非常困難的。過去的常用方法是利用大量人類偏好數據，不斷迭代優化模型。顯然，圖像的好壞是非常主觀的。因此這就需要從大量用戶那里獲得反饋數據結論，非常耗費時間，并不是最快的評估方法，往往需要花費很多小時才能收集到結果。

所以我們一直在想辦法設計其他可用于模型訓練過程中持續優化的指標。

我覺得“文字渲染”作為評估指標就是一個非常有意思的例子。Kaushik 其實很早就一直在強調這一點，他是這方面最大的倡導者之一。而我們起初有段時間對他的話有點愛搭不理，心想“這家伙是不是有點瘋魔了”。他當時確實對文本渲染指標格外執著。

不過到頭來，文本渲染確實逐漸成為我們重點關注的指標之一。你可以這樣來看：當模型學會了在圖像中正確生成文字這種結構以后，它往往也能學到圖像中其他結構的生成。

在圖像中會有不同的成分，可能有大塊的結構，也會有紋理等細節。所以文字渲染這個指標確實能夠提示模型在生成場景結構方面的能力有多強。讓 Kaushik 再補充說一點吧。

Logan：你當初是基于什么信念認為它是重要的？是在做很多實驗時逐漸發現了這個現象嗎？

Kaushik：是的，我認為最初是從找出這些模型不擅長什么開始的。要改進任何模型，我們都需要一個能指示其薄弱環節的指標。

接下來我們會嘗試各種各樣的改進思路，無論是模型架構、數據，還是其他方面。一旦有了明確的指標，我們就肯定能在這上面取得顯著進展。我記得幾年前，當時幾乎沒有模型能在這方面做得很好，哪怕只是像“生成 Gemini nano”這樣簡短的一行提示詞，模型都難以應對。

因此，我們越來越重視這個指標，每次實驗都持續跟蹤它。無論在進行什么實驗，只要我們跟蹤這個指標，就能確保模型在這方面沒有退步。而且正因為把它作為一個指標，我們甚至發現有些我們本來不認為會有影響的改動，在這個指標上確實產生了影響。

這樣我們就能確保隨著時間推移不斷提升這個指標。

Mustafa：正如 Kaushik 所說，當缺乏合適的圖像質量指標時，文字渲染是一個衡量整體圖像質量的極佳方式。

人類評估的一個問題在于，當足夠多的人去評估足夠多類別的大量提示詞及其結果時，確實能得到相當多有價值的數據結果。不過這種方法代價很高，我們不可能一直讓一群人來給圖像評分。

所以在模型訓練中，觀察這個文字渲染指標，就能很好地說明模型的表現是否符合預期。

Logan：還想知道圖像生成能力和圖像理解能力之間的相互影響是怎樣的。

之前我們做過一期節目采訪 Ani，他們團隊在圖像理解方面下了很大功夫。是不是可以這樣理解：當模型在圖像理解上變強時，其中一些能力實際上也可以遷移到圖像生成上？畢竟，我們肯定希望最終能夠實現原生的多模態理解與生成。

Mustafa：我們希望不同能力之間能實現正向遷移。這不光適用于單一模態的理解和生成，還包括：我們能否從圖像、視頻或音頻中學到一些世界規律，幫助提升文本的理解或生成？所以毫無疑問，圖像理解和圖像生成就像姐妹一樣。我們確實看到它們在交錯生成（interleaved generation）中是攜手并進的。

我給你舉一個例子。

在語言領域有一種現象叫“報告偏差”（reporting bias）。意思是：你去朋友家玩，回來后跟別人聊天時，你不會特地去提你朋友家那張普通的沙發。但是如果你給別人看一張他家房間的照片，照片里卻清楚地展現了那張沙發。所以如果想讓模型學習世界上的很多事物，圖像和視頻里面其實已經蘊含了這些信息，而不需要明確地、逐字逐句地提出請求來獲取這些信息。

通過其他模態也能學習到許多東西，但可能需要更多的語言 token 來描述。所以視覺信號絕對是學習這個世界的一個很好的捷徑。

回到理解和生成問題，這兩者是攜手并進的。具體到“交錯式生成”（interleaved generation）這種場景，你會發現圖像理解對提升生成效果有巨大幫助，反之亦然。圖像生成是有助益的，我們有時會通過在白板上畫圖來幫助解決問題。所以這樣一來，也許你就能更好地理解以視覺圖像形式呈現的問題。

我們可以實際演示一下交錯式生成，展示理解和生成如何與文本協同工作。

我來試一個提示詞：“把這個主體變成1980年代美國商場魅力風格的照片，給出五種不同呈現。”

*其中的三張展示

Nicole：看起來效果不錯。很明顯這一步花的時間稍長一些，因為我們這次要生成多張圖像。另外我們還讓模型生成了描述這些圖像的文本。

原生圖像生成的一個特點是模型會逐張生成圖像，而非同時生成多張。因此，模型可能會選擇參考前一張圖像，然后要么嘗試生成與之前截然不同的畫面，要么在之前的基礎上做出一些細微修改。

至少模型可以獲取到前面已經生成的內容作為上下文。這就是我們所說的“原生圖像生成模型”（native image generation model）的含義——模型能夠獲取多模態的上下文信息，然后基于它來生成新的圖像。

Logan：這很有意思。我之前腦補的模型工作方式一直是仿佛做了四次相互獨立的前向傳播之類的。但實際上，這整個過程都發生在同一次，是在模型統一的上下文中的。這樣生成的圖像風格是保持一致的。

Nicole：模型還有個有趣的地方，每一張圖里模型都把 Logan 重復生成了兩次。

我們可以把其中一些圖放大看看。

這個造型被模型命名為“街機之王 Logan”，這張叫“Rad Dude”。這些圖像配的描述都不是我們事先寫的，我們最初給的提示詞只是說讓他來一張“1980年代美國商場魅力風格的照片”。

下一張叫“購物狂”，Logan 你真的可以考慮試試這些服裝！

每張圖里 Logan 的服裝都不一樣，但每個形象看起來都是 Logan。至于在每張里都出現了兩個人，這大概是模型的一個小瑕疵。不過能夠看到模型想出了五種完全不同的創意，還給每種造型起了不同的名字、穿上不同的服裝，同時角色形象仍然保持一致，這真的很厲害了。

*每張圖都生成了兩個Logan

這項能力不僅對創造角色有用，其實如果用戶有一張自己房間的照片，它也同樣有用。

用戶可以對模型說，“嘿，幫我把這個房間用五種不同風格裝修一下”，也許可以讓它從非常有創意的方案一直生成到相對保守、只做了一點點改動的方案。

我們團隊里已經有很多人用它來重新設計自家的花園和房子了，這種非常實用的應用場景真的很棒。相比之下，我們剛才拿“80年代風格的Logan”開玩笑就只是娛樂了。

Logan：我實際上曾經在AI Studio上給我女朋友快速做了個“小項目”，能幫她把自己辦公室裝上各種不同顏色的窗簾或百葉窗來生成可視化效果。當時她在糾結：“我不知道哪種窗簾顏色更符合想要的氛圍”，所以我就用模型試了一下。當時用的是2.0版本，我以后得用2.5版本再試一次，看看各種不同的風格效果。模型當時的表現已經很不錯，非常有幫助。不過2.0有時候會把床或者別的東西也改掉，不只是改窗簾。

Nicole：所以看到那個用例真的很有趣，這也是我最喜歡的用法之一。

這個模型在保持場景其他部分一致性方面做得相當不錯。我們稱這種能力為“像素級編輯”（pixel-perfect editing）。這點非常重要，因為有時候用戶只想編輯圖像里的某一個元素，但希望其他所有東西都維持不變。

再舉個例子，如果用戶在塑造角色形象，只是想讓角色換個朝向，但希望 TA 穿的衣服在所有場景里都保持一樣。

這個模型在這方面做得很好，雖然不能保證每次都100%完美，但它的進步程度已經讓我們相當振奮了。

Robert：還有一個非常棒的點就是模型速度依然很快。剛才整個生成總共用了13秒。

Logan：那對于已經用過2.0版本的人來說，新模型的使用也有不同之處。舉個例子，用2.0的時候最好一次只做一項編輯。如果用戶讓它同時改六個不同的地方，模型往往每一項都做得不夠好。那么在這個模型中，這一點還有必要遵循嗎？或者說，在可用性方面還有什么需要提醒用戶注意的嗎？

Mustafa：基本上說，“交錯式生成” 的奇妙之處之一在于，它為圖像生成提供了一種全新的范式。

如果用戶的提示詞非常復雜，比如一次就提了50個圖像編輯要求，因為這個模型現在有了非常好的機制，可以從上下文（像素級信息）中提取信息并在下一步使用，所以用戶可以讓模型把這個復雜的指令拆解開，無論是編輯任務還是圖像生成任務都一樣。

把任務拆解成多個步驟，一步步逐項完成編輯。比如第一步處理其中的五個修改，然后下一步再處理下五個，如此往復。

這個過程其實非常類似于我們在語言模型那邊所謂“鏈式思維”（chain of thought）推理的計算。投入更多的算力，讓模型把這種思考過程帶入像素空間，并將整體任務分解成若干小步驟，這樣每一步都能做到精準，同時這些步驟又在不斷累積，最終就可以完成無論多復雜的任務。

所以我再強調一下，這就是交錯式生成的魔力：我們可以采用增量生成的思路來生成非常復雜的圖像，而不是用傳統方法一股腦硬逼模型一次性生成最完美的圖。說到底，單次生成在模型所能推動的復雜度上是有上限的。

想想看，當用戶要求圖像里有上百個細節的時候，一次性完成顯然做不到。但采用這種拆步驟的交織生成，用戶想要多大的容量、多高的復雜度都是可以逐步實現的。

Logan：Nicole，你同時也是我們 Imagen 模型這邊的產品經理。那么對于開發者或者了解我們各類模型的用戶來說，他們該如何取舍或理解 Imagen 模型和我們這個原生多模態模型之間的關系呢？

Nicole：我們的目標始終是用 Gemini 構建出一個統一的模型。從長遠來看，我們的目標是把所有模態最終都融合進 Gemini 中，以便我們能充分利用 Mustafa 提到的各種知識遷移的好處，最終朝著 AGI 的方向邁進。

不過在邁向終極目標的過程中，讓專門的模型針對某一特定任務做到極致，其實有很大的價值。比如 Imagen 模型就是一個非常出色的文本圖像生成模型。而且我們也有很多不同的 Imagen 變體可以執行圖像編輯，這些都已經在 Vertex 平臺上提供。

這些模型就是專門針對特定任務進行了優化。如果你只是想做文本生成圖像，而且每次只需要輸出一張圖，希望畫質特別精美，同時生成速度很快、成本也劃算，那么 Imagen 就是你的不二之選。

但如果你想實現一些更復雜的工作流，比如在同一個流程里先用模型生成圖像，再對圖像進行編輯，并且希望經過多輪交互來完成的時候；或者希望利用模型做一些頭腦風暴式的創意工作，就像我們剛才那樣，比如“你能幫我想些設計創意嗎，為我的房間或這個書房？”，那么 Gemini 2.5 Flash Image 就是你該用的模型。

它真的是一個更加多模態的、有創造力的伙伴，既可以輸出圖像，也可以輸出文本。

而且你給 Gemini 的指令可以不用那么精確。比如一開始我們只是說了“make it nano”這種模糊指令，因為 Gemini 具備對世界的理解能力，會更加富有創造力地去解讀你的意圖。

但另一方面，如果開發者想要針對某個特定任務使用高度優化的模型，Imagen 系列依然是很好的選擇。

Logan：我很想聽聽你們覺得該用哪個模型，或者說這個原生圖像生成模型是否能解決這個問題。比如我對模型說：“生成一張廣告牌的圖，把這個廣告牌做成我提到的某家公司風格。”像這種需求，原生圖像生成是不是會更有優勢？因為它在融入世界知識這方面會更強一些。

而 Imagen 雖然在你提供明確提示時生成效果很好，但在理解我隱含的意圖方面就沒那么出色，也就是在真正領會我想讓它做什么這一點上。

Nicole：我覺得你說的是其中一個方面。另外，在原生圖像生成里，如果你就是想獲取你提到的那個公司風格的視覺參考，你還可以直接把相關圖片輸入模型，作為參考。

你完全可以輸入一張圖像作為參考，這會幫助模型理解你的提示。而這種操作在 Gemini 里原生就支持，做起來比在 Imagen 里容易得多。

Logan：回到我們2.0升級的話題。我印象最深的是，當2.0發布時，大家給我們反饋了海量關于在 AI Studio 乃至后來 Gemini 應用中的體驗，各種模型的失敗模式之類的問題。

能不能請你們說說這個模型改進的過程，以及之前收集到的那些失敗案例？比如2.0時有哪些效果不好的地方，而現在2.5有望把它做好？

Robert：我們當時真的是天天守在 X 上翻閱各種反饋。

我記得我和 Kaushik 還有團隊里其他一些人，一起收集了所有這些失敗的案例，然后把它們做成了評測集。所以我們現在有一個基于真實用戶反饋的數據集，內容全都是推特上別人@我們說“嘿，這個沒生成好”的那些例子。

未來每出一個新模型，我們都會把新發現的問題附加進這個集合里。舉個例子，比如我們發布2.0時，有一個常見的失敗情況是：如果你對圖像進行編輯，模型確實會按你的要求添加那個編輯內容，但它不一定能與你圖像的其余部分保持一致。所以當時我們把這一條列入了待改進清單，然后針對它不斷優化。

當然類似的問題還有很多。所以我們一直在不斷收集這些反饋。歡迎大家把那些生成失敗的例子都發給我們！

Logan：對你們來說，有沒有特別突出的例子，是以前完全不行、而現在變成了一項絕活的？

Robert：在2.0模型中，我們原本認為非常難的一項是跨圖像的一致性。特別是當用戶需要在多張圖中構建同一個物體或者角色，并希望這個角色在所有圖里都保持一致時，結果發現這其實相當容易。2.0模型能很好地做到這一點，比如它可以在角色頭上加頂帽子、改變一下表情之類，同時姿勢和場景的大體結構都能保持不變。

2.5模型在2.0這些能力基礎上更進一步的是：你可以讓它從不同角度渲染同一個角色，結果角色看起來還是完全一模一樣。又或者，你可以把一件家具放到一個完全不同的環境中，改變它的朝向，并據此生成整個新場景。那個家具依然保持與你上傳的原始圖像高度一致，盡管它在圖像中被進行了很大的改變。

模型并不是簡單地把輸入圖像里的像素摳出來貼到輸出圖上去而已。

Logan：我很喜歡這一點。我對2.0版本的一些反饋是，有時生成的圖看起來就像是直接貼上去的，有點像用 PS 硬加上的效果。

Nicole：實際上我認為這很大程度上取決于參與這個模型的各個團隊的合作。對于之前的模型，我們團隊當時的心態是：它按照指令完成了編輯，這就算是成功了。但當我們后來和 Imagen 團隊越走越近、緊密合作時，他們看我們 Gemini 這邊得到的編輯結果，卻會說：“這太糟糕了?！?/p>

“你們怎么會希望模型做出這樣的效果呢？” 這是一個很好的例子，說明將兩邊團隊的視角融合是如何促進模型改進的。Gemini 團隊這邊更注重指令遵循、世界知識這些方面；而 Imagen 團隊則更關注讓圖像看起來自然、美觀，并且真正實用。

我認為兩方面都很重要。正是因為這些團隊一起合作，才使得2.5模型在你剛才提到的那些方面改進了許多。

Robert：說到這個，我們團隊里其實有幾位成員來自 Imagen 團隊，他們對圖像審美有著非常敏銳的感知。所以很多時候我們做模型評估時，會讓他們真的去看成百上千張圖片。他們會很篤定地說：“不，這個模型生成的圖像明顯比另一個模型好。”

而團隊里很多其他人可能看了同樣的圖會有點摸不著頭腦，找不到區別。這樣的審美敏感度需要幾年時間去打磨，我自己這幾年也進步了很多，但團隊里確實有些人這方面異常厲害。每當我們需要在模型之間做出取舍時，總是會請他們來幫忙。

Logan：能不能拿這些人的個人審美，來訓練一個自動評分器？

Nicole：目前我們還沒做到，這是個有意思的項目。

Logan：我特別期待，隨著 Gemini 理解能力的提升，能夠基于我們團隊里某個人的審美品味訓練出一個“審美判別算子”，把那位同事的審美直覺拿來給模型提供訓練數據就好了。

2.5版本有了很多進步，顯然大家一定都非常期待去體驗這個模型。那么接下來呢？

Mustafa：說到圖像生成，我認為視覺質量當然很重要，但我覺得有一個新的著力點。我們希望通過一個統一的“Omni”（全模態）模型來實現——就是讓它變得更聰明。

你希望你的圖像生成模型用起來讓人覺得很聰明。當用戶和它交互時，不僅會對圖像質量感到驚艷，還會覺得：“哇，這東西好聰明?！?/p>

我腦子里有個想法，非常期待能看到模型來實現。但有點微妙的是，我很難準確定義這個特性：當我讓模型做某件事時，它并沒有完全照著我的指令去做，但生成結束時我卻會說：“真慶幸，它沒有嚴格按我的指令來，結果比我描述的要好的多?！?/p>

Logan：你覺得模型是故意這么做的嗎？

Mustafa：不不，我不是那個意思。我是說，有時候你的請求本身可能描述不足；或者有時候是你對現實某些情況理解有誤。但是在 Gemini 掌握的外部世界知識看來，實際情況與你的想法不一樣。

我認為這當然不是模型有意為之，它只是自然地就發生了，你會感覺自己在跟一個比你還聰明的系統交互。當我讓它生成一些圖像時，即使結果有點偏離了我的提示，生成出了和我要求不太一樣的東西，我也不介意，因為大多數情況下它給出的結果比我腦子里想的還要好。

所以我認為，在我們保持或提升視覺質量的同時，讓模型在更高層面上變得更聰明絕對是我們努力推進的方向。當然，還有非常多具體的能力、特性和應用場景，特別是針對開發者的。后面還有一些更新的版本在籌備中，時間節點暫時不能透露。

Logan：你們還有沒有其他讓人興奮的新能力想提一下？

Nicole：我個人對提升準確性這一點特別期待。這又說回一個場景，有時候你可能需要為工作演示做一個小圖表或信息圖。圖表好看當然很好，但對于這個目的來說光好看是不夠的。它必須準確，比如文本部分不允許有任何多余的亂七八糟字符。

它不僅得美觀，還必須在功能上符合場景需求。我覺得我們目前只是開始探索模型在這方面的潛力，我非常期待即將推出的一些版本，我們會在這類用例上不斷提升。我的夢想是，將來有一天這些模型真的可以幫我做一套好看的工作PPT。

我正打算把我工作中這部分活兒外包給 Gemini 去干，我們在這方面大有可為。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.