<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Nano Banana 2發(fā)布,圖像生成下半場比的是“世界知識”

      0
      分享至



      進(jìn)入2026年以后,很少有人再提起圖像生成模型,行業(yè)內(nèi)的焦點全在agent身上。

      圖像生成模型,似乎已經(jīng)成為“上一個時代”的故事。大多數(shù)從業(yè)者的共識是,圖像生成的技術(shù)路線已經(jīng)基本定型,剩下的只是工程優(yōu)化和成本控制。

      國際調(diào)研機(jī)構(gòu)Fundamental Business Insights在《AI圖像生成器市場規(guī)模和份額預(yù)測》中提到,2024年全球市場規(guī)模為4.1024億美元,2025年為4.785億美元,2026年為5.4136億美元。

      由此可見,圖像生成模型市場已然是一個成熟穩(wěn)定,且想象空間比較小的市場。

      可就在這個節(jié)骨眼上,谷歌拿出了Nano Banana 2。

      這是用同樣提示詞生成的圖片,可以看到,Nano Banana 2在呈現(xiàn)圖片的方式上,已經(jīng)和Nano Banana Pro呈現(xiàn)出了明顯的區(qū)別。



      因為這不是那種簡單的版本迭代。

      谷歌在發(fā)布當(dāng)天就宣布,這個新模型將立即取代之前的所有版本,成為 Gemini、谷歌搜索、AI Studio等所有產(chǎn)品中的默認(rèn)圖像生成模型,最讓人詫異的是,就連谷歌自己的AI編程工具Antigravity也對Nano Banana 2完成了接入。

      為啥谷歌突然“All-in”?

      在過去一段時間里,用戶一直面臨著一個兩難選擇,想生成4K分辨率的圖片就需要等很久,想立刻生成圖片,就只能找低分辨率的模型。

      而Nano Banana 2又快又好。

      谷歌認(rèn)為,在agent時代,圖像生成依然是一個值得重倉投入的戰(zhàn)場。

      01

      Nano Banana 2的特點都有什么?

      Nano Banana 2最大的特點就是快,它能夠在4-6秒內(nèi)完成4K分辨率圖像的生成。

      谷歌的Gemini系列一直維持著兩條產(chǎn)品線:Pro追求性能,F(xiàn)lash追求效率。

      但將這套架構(gòu)遷移到圖像生成領(lǐng)域,并非簡單的模型壓縮。圖像生成的計算密集度遠(yuǎn)高于文本生成,一張2K分辨率的圖像包含的信息量,相當(dāng)于數(shù)千個文本token。

      如何在不犧牲視覺質(zhì)量的前提下提升推理速度,這是一個工程難題。

      Nano Banana 2的解決方案是采用了分層生成策略。

      模型首先在較低分辨率下完成場景理解、構(gòu)圖規(guī)劃和物理關(guān)系推理,然后再通過高效的上采樣管道將圖像提升至2K甚至4K分辨率。

      這種“先思考,后渲染”的流程,讓模型能夠在保持Pro級別的一致性和細(xì)節(jié)質(zhì)量時,降低計算成本。

      除了速度,Nano Banana 2還引入了“世界知識”這個概念。

      傳統(tǒng)的圖像生成模型,本質(zhì)上是一個強(qiáng)大的視覺模式匹配器。它們在海量圖像數(shù)據(jù)上訓(xùn)練,學(xué)會了“什么樣的畫面看起來真實”,但并不真正理解畫面中的物理規(guī)律、地理特征或文化背景。

      比如說你要求生成“巴黎鐵塔在雨天的景象”,它可能生成一張看起來不錯的圖片,但鐵塔的結(jié)構(gòu)細(xì)節(jié)、巴黎特有的建筑風(fēng)格、雨天的光線特征,都可能是模糊或錯誤的。

      Nano Banana 2的不同之處在于,它直接繼承了Gemini大語言模型的世界知識庫,并且能夠?qū)崟r調(diào)用谷歌圖像搜索作為“視覺參考庫”。

      也就是說當(dāng)你要求生成某個真實地點的場景時,模型不僅知道這個地點的地理位置、氣候特征、建筑風(fēng)格,還能檢索相關(guān)的真實照片作為視覺基準(zhǔn),從而生成更加準(zhǔn)確的圖像。

      在谷歌的“Window Seat”演示中。它能夠根據(jù)用戶指定的任何地點和當(dāng)前的實時天氣數(shù)據(jù),生成該地點窗外的逼真景觀。

      舉個例子,《哈利波特》中通往霍格沃茨的9?站臺位于英國的國王十字車站(King's Cross station)。在Window Seat中輸入對應(yīng)車站,窗戶的樣式輸入溫馨咖啡館,外面的天氣指定為瓢潑大雨,Nano Banana 2就會生成以下一幕。



      把“世界知識”注入到Nano Banana 2里,其實就是將大語言模型的推理能力與圖像生成的渲染能力結(jié)合起來的產(chǎn)物。

      模型在生成圖像之前,會先進(jìn)行一次“語義推理”,理解提示詞中涉及的真實世界概念,然后再將這些概念轉(zhuǎn)化為視覺元素。

      在圖像生成領(lǐng)域,文字渲染一直是一個公認(rèn)的難題。無論是Stable Diffusion、Midjourney還是早期的DALL-E,生成的圖像中如果包含文字,往往會出現(xiàn)字母錯位、拼寫錯誤、字體混亂等問題。

      這個問題的根源在于,傳統(tǒng)的擴(kuò)散模型將文字視為視覺紋理的一部分,而不是具有語義結(jié)構(gòu)的符號系統(tǒng)。

      Nano Banana 2在文字渲染上取得了顯著進(jìn)步。根據(jù)官方說明,這一代模型能夠“更可靠地渲染文字”,支持多語言文本,并且能夠保持字體的清晰度和風(fēng)格一致性。

      這個能力的提升,來自于模型對文字的“雙重理解”。Nano Banana 2既通過Gemini的語言模型能力,理解了文字本身的語義內(nèi)容,也通過圖像生成的渲染能力理解文字的視覺呈現(xiàn)規(guī)律。

      我讓Nano Banana 2設(shè)計了一個“字母AI”的Logo,它就能很好展示出每一個字,并且還用電路板這個視覺元素來強(qiáng)化AI的概念。



      02

      Nano Banana 2背后的技術(shù)是什么?

      Nano Banana 2 的另一個重要特性,是它的“對話式編輯”能力。這的確不是一個新概念,但實際用起來效果要比以往好很多。

      Nano Banana 2現(xiàn)在能夠做到,完全使用對話來進(jìn)行圖片編輯,比如“把背景換成日落”、“把這個人的衣服改成藍(lán)色”、“去掉左邊的那棵樹”。

      這種交互方式的關(guān)鍵,在于模型能夠在多輪對話中保持對圖像的“記憶”。當(dāng)你在第三輪對話中說“把剛才那個藍(lán)色衣服改回紅色”時,模型需要知道“剛才那個藍(lán)色衣服”指的是第二輪編輯中被改成藍(lán)色的那件衣服。

      這種上下文追蹤能力,叫做“思維簽名”(Thought Signatures)。

      簡單來說,當(dāng)模型生成圖像時,它內(nèi)部會進(jìn)行一系列思考,思維簽名就是每一步思考的標(biāo)簽。在多輪對話編輯圖像時,你把上一輪的思維簽名傳回給模型,它就能記住之前的構(gòu)圖邏輯、光影關(guān)系和設(shè)計意圖,從而實現(xiàn)連貫的局部修改—。

      當(dāng)你要求對已有圖片進(jìn)行修改時,那么模型就會用思維簽名來理解原始圖像的整體結(jié)構(gòu),做出合理的調(diào)整而不破壞畫面的一致性。

      前文提到的一致性,是目前圖像生成模型最大的難題之一。

      Nano Banana 2支持最多14張參考圖像的混合使用,其中可以包括最多5張人物角色圖像和最多6張物體圖像。

      模型能夠從這些參考圖像中提取視覺特征,并在新生成的圖像中保持這些特征的一致性。

      比如Nano Banana 2官方發(fā)的圖片,將一個香蕉和恐龍玩偶結(jié)合,就得到了一個以香蕉當(dāng)作身體的恐龍玩偶。



      以及,我們不妨來看看Nano Banana 2和GPT的對比,同樣的提示詞下,GPT帶有明顯的AI生成感。Nano Banana 2生成的圖片更真實一些。

      GPT:



      Nano Banana 2:



      同時,Nano Banana官方還放出了一些由Nano Banana 2生成的超長圖片。





      03

      相較于其他模型,Nano Banana 2的優(yōu)勢是什么?

      Nano Banana 2是一個非常均衡的圖片生成模型,它又有速度,又有質(zhì)量,關(guān)鍵還便宜。

      根據(jù)谷歌官方給出的信息,Nano Banana 2生成1k圖的價格大約為0.067美元,相當(dāng)于不到5毛錢。2K圖片為0.1美元,約7毛錢。4K圖片為0.15美元,大約1塊錢。這個價格比Nano Banana Pro便宜很多。



      Pro版本的優(yōu)勢在于極致的復(fù)雜場景把控、超寫實光影渲染和小眾藝術(shù)風(fēng)格還原,適合專業(yè)視覺設(shè)計師、影視概念設(shè)計師等對畫質(zhì)有極致要求的用戶。

      Nano Banana 2用畫質(zhì)上限的稍許讓步,換來了顯著的效率提升。Nano Banana 2的定價更符合普通創(chuàng)作者,以及那些需要快速迭代、大批量生成的實際業(yè)務(wù)需求。







      Midjourney依然是藝術(shù)創(chuàng)作的天花板。它的審美上限和風(fēng)格化能力在行業(yè)內(nèi)無人能及,特別是在生成具有電影質(zhì)感、繪畫筆觸的藝術(shù)作品方面表現(xiàn)出色。

      V7版本的生成速度約為20秒/張,在復(fù)雜場景下可能更長。

      但Midjourney的短板也極其明顯,它沒有對話式編輯功能,無法精準(zhǔn)控制真實世界元素(如特定地點的準(zhǔn)確建筑風(fēng)格、實時天氣條件), API開放度極低,且主要通過Discord 界面操作,不適合企業(yè)級集成。

      此前,在一項包含50多個提示詞的對比測試中,Nano Banana Pro的生成速度是Midjourney的10倍以上,Nano Banana 2只會更快。

      另外一大圖像生成模型就是Stable Diffusion 3。它的優(yōu)勢是開源、可本地部署、自定義程度高,這對于有技術(shù)能力和數(shù)據(jù)隱私需求的開發(fā)者來說是重要優(yōu)勢。

      它還支持LoRA微調(diào)、ControlNet等高級控制功能,可以針對特定需求進(jìn)行深度定制。可以說,只要你技術(shù)能力夠高,那么Stable Diffusion 3絕對是最好的選擇。

      但Stable Diffusion 3,需要配置本地環(huán)境、理解復(fù)雜的參數(shù)設(shè)置、自行優(yōu)化提示詞。

      而且在原生能力方面,Stable Diffusion 3的文字渲染準(zhǔn)確度在學(xué)術(shù)評測中得分僅為1.25-1.95(滿分 5 分),遠(yuǎn)低于Nano Banana 2。

      此外,它的生成速度、事實準(zhǔn)確性、對話式編輯能力也全面落后于Nano Banana 2。

      當(dāng)然,Nano Banana 2并非完美無缺。在極致的藝術(shù)風(fēng)格化創(chuàng)作、超復(fù)雜場景的光影渲染上,它和Nano Banana Pro以及Midjourney這樣的產(chǎn)品,依然存在差距。

      在多輪對話編輯方面,雖然模型支持最多5個角色的一致性維護(hù),但在一些特定的場景,仍然會出現(xiàn)細(xì)微變化。而當(dāng)對話進(jìn)行多輪次后,這些細(xì)微的變化也會累積在一起。

      同時,對于小眾冷門的地點、物體,“世界知識”的效果也會有所折扣。

      但不可否認(rèn)的是,Nano Banana 2給整個文生圖行業(yè)帶來新的啟示,未來的AI圖像生成,不再是單純的“紋理匹配”,而是“大語言模型推理能力 + 視覺渲染能力 + 檢索增強(qiáng)事實準(zhǔn)確性”的深度融合。

      文生圖工具終將從“畫畫的機(jī)器”,變成真正懂需求、懂世界的視覺創(chuàng)作助手。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      5億遺產(chǎn),67%歸妻,16.5%留女!張雪峰留給世界的最后賬本!

      5億遺產(chǎn),67%歸妻,16.5%留女!張雪峰留給世界的最后賬本!

      新浪財經(jīng)
      2026-03-27 10:53:31
      中年人的“窮鬼樂園”爆火半年即涼,50萬投資30天沒生意

      中年人的“窮鬼樂園”爆火半年即涼,50萬投資30天沒生意

      豆腐腦觀察局
      2026-03-30 06:30:03
      藏拙藏到?jīng)Q賽!施海榮完勝蔡斌,江蘇女排扮豬吃虎打懵上海

      藏拙藏到?jīng)Q賽!施海榮完勝蔡斌,江蘇女排扮豬吃虎打懵上海

      金毛愛女排
      2026-03-30 00:00:15
      “生女兒的,再厲害也是給我兒子服務(wù)!”家長低認(rèn)知發(fā)言,被群嘲

      “生女兒的,再厲害也是給我兒子服務(wù)!”家長低認(rèn)知發(fā)言,被群嘲

      妍妍教育日記
      2026-03-30 18:56:05
      網(wǎng)友預(yù)訂一家“寵物友好”酒店,店方推薦其到當(dāng)?shù)劓?zhèn)上吃狗肉,文旅局工作人員:該飲食文化悠久,最早追溯至明清

      網(wǎng)友預(yù)訂一家“寵物友好”酒店,店方推薦其到當(dāng)?shù)劓?zhèn)上吃狗肉,文旅局工作人員:該飲食文化悠久,最早追溯至明清

      極目新聞
      2026-03-30 19:04:32
      吐槽一下,長沙的就業(yè)環(huán)境

      吐槽一下,長沙的就業(yè)環(huán)境

      一條要飛躍的咸魚
      2026-03-30 18:45:11
      國歌中一句話引發(fā)爭議,建國以來被反復(fù)修改,其中一版本只用四年

      國歌中一句話引發(fā)爭議,建國以來被反復(fù)修改,其中一版本只用四年

      顧秋韻
      2026-03-30 14:39:53
      擋不住了!10倍光纖牛股5天3板,市值突破2000億!創(chuàng)新藥集體走強(qiáng),是反彈還是反轉(zhuǎn)?

      擋不住了!10倍光纖牛股5天3板,市值突破2000億!創(chuàng)新藥集體走強(qiáng),是反彈還是反轉(zhuǎn)?

      雪球
      2026-03-30 16:26:00
      大跳水!金價跌破1000元,第一批跟風(fēng)炒黃金的受害者,已經(jīng)出現(xiàn)了

      大跳水!金價跌破1000元,第一批跟風(fēng)炒黃金的受害者,已經(jīng)出現(xiàn)了

      毒sir財經(jīng)
      2026-03-30 16:03:36
      王曼昱贏下47歲老將!早田考夫蔓同一地方滑倒,王藝迪展望次輪

      王曼昱贏下47歲老將!早田考夫蔓同一地方滑倒,王藝迪展望次輪

      排球黃金眼
      2026-03-30 15:49:26
      謝霆鋒不再隱瞞!坦言拒絕和王菲結(jié)婚的真相,讓她開心的另有其人

      謝霆鋒不再隱瞞!坦言拒絕和王菲結(jié)婚的真相,讓她開心的另有其人

      最新聲音
      2026-03-30 03:01:44
      張?zhí)m欺詐轉(zhuǎn)移資產(chǎn)實錘!2億名畫遭美國扣押,9.8 億欠債啥時候還清

      張?zhí)m欺詐轉(zhuǎn)移資產(chǎn)實錘!2億名畫遭美國扣押,9.8 億欠債啥時候還清

      煙潯渺渺
      2026-03-30 12:00:52
      上海男籃的難題又來了!

      上海男籃的難題又來了!

      新民晚報
      2026-03-30 10:42:17
      重磅回歸!反詐老陳抖音賬號解封,全網(wǎng)刷屏歡迎回來

      重磅回歸!反詐老陳抖音賬號解封,全網(wǎng)刷屏歡迎回來

      雷科技
      2026-03-30 15:42:06
      三任嬌妻皆絕色,他卻晚景凄涼,一生令人唏噓

      三任嬌妻皆絕色,他卻晚景凄涼,一生令人唏噓

      嘮叨說歷史
      2026-03-27 16:39:19
      迪拜崩了!伊朗美國大戰(zhàn),迪拜40年的造富神話,11天就崩了!

      迪拜崩了!伊朗美國大戰(zhàn),迪拜40年的造富神話,11天就崩了!

      澳洲紅領(lǐng)巾
      2026-03-19 14:27:38
      章澤天穿小香風(fēng)接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

      章澤天穿小香風(fēng)接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

      阿廢冷眼觀察所
      2026-03-30 13:14:47
      美國華盛頓特區(qū)撞機(jī)事故畫面曝光:67人遇難,無人生還

      美國華盛頓特區(qū)撞機(jī)事故畫面曝光:67人遇難,無人生還

      IT之家
      2026-03-30 21:58:15
      努涅斯身價跌1000萬至2500萬歐,兩年前巔峰身價7000萬歐

      努涅斯身價跌1000萬至2500萬歐,兩年前巔峰身價7000萬歐

      懂球帝
      2026-03-30 22:03:53
      俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

      俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

      聽風(fēng)喃
      2026-03-30 10:42:29
      2026-03-30 22:32:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2329文章數(shù) 8055關(guān)注度
      往期回顧 全部

      數(shù)碼要聞

      vivo Pad 6 Pro體驗:旗艦性能+全鏈4K創(chuàng)作,平板也有生產(chǎn)力

      頭條要聞

      開發(fā)商承諾有學(xué)校3年后交房沒建 業(yè)主起訴被當(dāng)?shù)伛g回

      頭條要聞

      開發(fā)商承諾有學(xué)校3年后交房沒建 業(yè)主起訴被當(dāng)?shù)伛g回

      體育要聞

      想進(jìn)世界杯,意大利還要過他這一關(guān)

      娛樂要聞

      單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

      財經(jīng)要聞

      本輪地緣沖突,A股憑什么走出獨立行情

      科技要聞

      一句謊言引發(fā)的硅谷血案

      汽車要聞

      限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

      態(tài)度原創(chuàng)

      時尚
      教育
      旅游
      游戲
      房產(chǎn)

      這件衣服絕美!今年流行的風(fēng)格而都離不開它

      教育要聞

      媽媽不要怕,有我在,你的兒子女兒會平安快樂長大!

      旅游要聞

      貴州“仰阿莎”和山東“夏雨荷” 在此刻夢幻聯(lián)動了

      《GTA4》重大泄露!開發(fā)機(jī)流出:118G海量數(shù)據(jù)泄密

      房產(chǎn)要聞

      重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

      無障礙瀏覽 進(jìn)入關(guān)懷版