![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
谷歌最近動作不斷:前腳剛拋出 Gemini 3 和 Antigravity,后腳 Nano Banana Pro 也在 Vertex AI 里上線了,模型名叫 gemini-3-pro-image-preview。
簡單測了一圈之后,我們覺得它不只是“會畫圖”這么簡單,生圖質量很穩,更有意思的是,它看起來已經開始會推理了。
模型實測:看手相做幾何題,Nano Banana Pro 還有什么不能做的?
測試 1:跨次元的視頻會議
我們先來一個簡單的測試,讓現實 AI 界五大巨頭和動畫界的光頭共同開一場視頻會議。
prompts:
"A realistic HD screenshot-style image of a video conference interface, similar to Zoom, in 16:9 horizontal format. There are six participants, each in their own video tile: 1.Sam Altman, short hair, blue eyes, wearing a simple T-shirt or casual shirt, focused expression.2. Elon Musk, slightly slicked-back short hair, wearing a dark T-shirt or jacket, a faint smile. 3. Sundar Pichai, black-rim glasses, beard, wearing a dark suit with a light shirt, looking at the screen.4.Satya Nadella, bald, thin-frame glasses, business-casual suit, gentle expression.5. Mark Zuckerberg, short slightly curly hair, simple dark T-shirt, looking a bit tense but focused.6.the character in the uploaded image,turn the head toward the upper right
The interface shows classic video call UI elements: bottom bar with mute, stop video, share screen buttons, and a simple chat panel on the right side. Overall style: realistic, high resolution, soft lighting, modern tech atmosphere."
![]()
這次任務有幾個難點。首先是現實人物的生成。像奧特曼、馬斯克這種大眾極其熟悉的形象,只要跟真實長相稍微不符,就會立刻穿幫。但 Nano Banana Pro 基本還原了每個人物的特征,細節到位,已經接近“以假亂真”的程度。
第二個難點是跨次元融合。我上傳的是一張動漫人物圖,Nano Banana Pro 并沒有粗暴地把它拉成寫實風格,而是保留了角色原本的二維質感,讓這個二次元角色出現在真實視頻會議畫面中時,形成了一種既突兀又合理的效果。
最后,我在提示詞里埋了一個小坑,讓這位動漫人物把頭轉向右上方,避免 Nano Banana Pro 通過截圖等方式渾水摸魚。結果可以看到, 其不僅正確地完成了轉頭動作,說明不是截圖。還理解了“視頻會議畫面是鏡像”的這一點,從我們觀眾的視角看過去,角色實際上是轉向了左上方。
![]()
我們再來看一下其它細節,Nano Banana Pro 還在除了奧特曼之外的人身后加上了對應公司的 logo,好像在說“我知道我生成的人物是誰”。
右下角的對話也能證明這一點,各自都在討論與自己相關的話題,而且沒有拼寫錯誤。
那我就很好奇,Nano Banana Pro 對文字的理解到達了什么程度?
測試 2:這菜單你不能細看
我們嘗試讓 Nano Banana Pro 生成“英文、中文、日文和俄羅斯語”四種菜單。
promtps:
"modern western bistro menu,vertical A4 layout, clean grid design,warm beige background with subtle paper texture,all text in English only, no other languages,sections as bold headings: Signature Dishes, Starters, Mains, Sides, Drinks,elegant handwritten-style restaurant title at the top,readable body font for dish names and prices,neat list layout with enough white space,small food illustrations in the corners: steak, salad, bread, wine glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
"Japanese izakaya menu,modern Japanese style, vertical A4 layout, clean grid,warm beige background, soft paper texture,all text in Japanese only, no English,sections as bold Japanese headings:おすすめ, 焼き物, 揚げ物, ご飯もの, 飲み物,elegant handwritten-style Japanese title at the top,readable Japanese body font,neatly aligned dish names and prices, plenty of white space,small illustrations in the corners: 串焼き, 枝豆, たこ唐揚げ, 日本酒グラス,minimalist icon style, cozy warm lighting,high resolution, 4k, printable, no watermark, no logo。"
"Russian home-style cafe menu, cozy and traditional,vertical A4 page, clean and simple grid layout,warm beige background with gentle paper texture,all text in Russian only, no English,sections as bold Russian headings:Фирменные блюда, Горячие блюда, Закуски, Гарниры, Напитки,elegant handwritten-style Russian title at the top,clear serif body font for dish names and prices,neatly organized lists with generous white space,small corner illustrations: bowl of borscht, dumplings, slice of rye bread, vodka glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
Chinese Sichuan restaurant menu, modern Sichuan style, vertical A4 layout, clean grid design, warm beige background with subtle rough paper texture, menu hanging on the interior wall of a cozy Sichuan restaurant, soft spotlight from above and natural shadows, only Simplified Chinese text, bold section headings: 招牌川菜, 熱菜, 涼菜, 主食, 飲品, top title in elegant handwritten Chinese, readable Chinese body font, dish names + prices neatly listed, small corner illustrations: 辣椒、花椒、蒜瓣、紅油小碟, minimalist icons, warm ambient restaurant lighting, slight vignette, high resolution, 4k, printable, no watermark, no logo。
![]()
這四份菜單,可以很容易的看出來用了哪國的語言,但,你不能細看。
比如使用中文的四川餐館菜單,我們可以看到標題,大正宗川味小館、以及分類詞向招牌川菜、涼菜、主食等,還原的很完美。但仔細看具體的菜品,就會露出 AI 馬腳,比如“蒜泥”兩個字很虛,58 元的菜基本認不出是什么中文。可以猜測,Nano Banana Pro 能很好的還原提示詞中的文字,但對提示詞之外,AI 自己生成的文字把控能力不強。
為了驗證這個想法,我們將菜單所有的中文輸入進 promtps 中。
prompts:
Sichuan restaurant menu poster,vertical A4 layout hanging on a textured wall,warm spotlight from above, soft shadow under the menu,light beige paper with subtle fiber texture,modern Sichuan style, clean grid layout,small corner illustrations: chili peppers, Sichuan peppercorns, garlic cloves,handwritten-style Chinese title, clear body font,only Simplified Chinese text, no English,cozy indoor lighting, slight vignette, natural restaurant ambience,high resolution, 4k, printable, no watermark, no logo.Menu text (Chinese only):招牌川菜:沸騰水煮魚(招牌) ¥128 歌樂山辣子雞 ¥88 毛血旺(精品) ¥98 夫妻肺片 ¥78 口水雞 ¥68 熱菜:宮保雞丁 ¥58 回鍋肉 ¥62 麻婆豆腐 ¥42 魚香肉絲 ¥48 蒜泥白肉 ¥52 涼菜:拍黃瓜 ¥22 涼拌木耳 ¥28 川北涼粉 ¥26 口水茄子 ¥32 皮蛋豆腐 ¥24 主食:四川擔擔面 ¥28 鐘水餃 ¥26 賴湯圓 ¥22 紅油抄手 ¥24 米飯 ¥5 飲品:酸梅湯 ¥18 王老吉 ¥12 青島啤酒 ¥15 熱茶(壺) ¥38
我們可以看到,雖然部分字體有點虛,但基本還原了 promtps 中的中文。
![]()
測試 3:老中醫+老先生,google 用了多少中國文化素材
除了中文,中國還有不少獨有的圖像,像看手相、算命、看穴位等等,Nano Banana Pro 也能像中文那樣做得好嗎?
prompts:
給下面的手看看手相。
![]()
可以看到 Nano Banana Pro 像一個算命先生一樣清晰的畫出手上的生命線、感情線和智慧線。然而,Nano Banana Pro 并沒有學到家,把智慧線和生感情線畫反了。
![]()
再來看一下老中醫擅長的領域,足底穴位。
prompts:
"我想要對腎好,該按哪里"
![]()
Nano Banana Pro 不但知道對腎好要按涌泉穴,還正確指出涌泉穴的位置。
![]()
測試 4:哪里不會拍哪里
nanobanana 就有能拍照解題的潛力,但正確率不高,我們來試一下 Nano Banana Pro 的實力如何。
我們在網上找了兩道題,一道代數題、一道幾何題。
prompts:
這題答案是什么?
![]()
由于作者本人數學已廢,我們就讓 GPT5 來判斷一下 Nano Banana Pro 答的對不對。
首先是第一題代數題,GPT5 的回答是:這題在「初中數學默認前提:a,b,c 為實數,且 a,b\ge 0」的條件下,是對的。唯一可以挑的刺是:AM-GM 需要 a,b\ge0 的前提,題目沒寫,但在七年級題目里一般是默認的,所以在這個教學語境下,這份解答是成立的。
![]()
再看第二道更加復雜的幾何題,GPT5 計算后也給出了和 Nano Banana Pro 一樣的答案。
![]()
從這幾輪折騰下來看,Nano Banana Pro 已經很難再被簡單歸類為一個“畫圖工具”了。它一邊在像素層面穩穩地還原人物五官、菜單排版、界面細節,一邊又在語義層面做著不那么“美工”的工作:知道誰是哪個大廠 CEO,能分清菜單上哪些文字必須一字不差照抄、哪些內容可以自由發揮。遇到看手相、找穴位、做幾何題這種需要結構理解的任務,也不是隨便糊一張圖,而是先想清楚“這條線該從哪起、大致是什么角度”“這個高要垂到哪條邊上”,再動手繪制。
它當然還不完美,會把智慧線畫反,也會在俄文里冒出幾串詭異單詞,但你能明顯感覺到,它已經在用“推理 + 生成”的流程去理解 prompt 和圖片,而不是機械地把詞表映射成紋理。對一個主打圖像生成的模型來說,這種能力的邊界正在悄悄往“世界模型”方向挪:它不只是知道“像什么樣子畫出來”,還在內部搭建一個粗糙的世界觀,誰和誰屬于同一個會議室,菜單應該長在什么紙張上,力學和幾何關系大概怎么運轉。
這也是為什么它讓人既興奮又有點警惕:當一個生圖模型開始具備對場景、人物關系、物理與幾何結構的統一理解,它離“看懂世界再畫世界”就不遠了。下一步,當你對它說“幫我畫一道我看不懂的題的解題過程”,它很可能先在自己的世界模型里把題做完,再順手把推理過程以一張圖的方式展現給你。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.