<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌“香蕉”殺死Photoshop,全球軟件業(yè)徹底變天了

      0
      分享至

      文 | 硅基星芒

      若論當(dāng)前最火的AI應(yīng)用,非谷歌的“香蕉”——Nano Banana莫屬。

      Nano Banana原名是Gemini 2.5 Flash Image,但自從它“驗明真身”,大家普遍反映還是Banana好記。

      而“聽勸”的谷歌,也馬上把模型名換了回去。

      不論是文本生成還是圖像編輯,Nano Banana都展現(xiàn)出了斷檔領(lǐng)先的實力。

      首先來看看評分:


      圖:LMarena文生圖模型排行榜


      圖:LMarena圖像編輯模型排行榜

      可以看到,文生圖能力屬于最優(yōu)一檔,而圖像編輯能力更是碾壓級別,幾乎砸穿了Photoshop的鍋。

      我們可以篤定,Nano Banana之后,全球軟件業(yè)徹底變天了。

      01 用戶體驗:“驚艷”兩個字已不足以形容

      事實上,“驚艷”這兩個字,已經(jīng)不足以形容Nano Banana的強大。

      先前的文生圖評測中,我們已經(jīng)見識過它的本事。

      但根據(jù)Gemini API文檔中的描述,它還有幾個其他的“拿手好活”:


      在Nano Banana被發(fā)現(xiàn)出現(xiàn)于LMarena之前,各家大模型對于文生圖中的文字幾乎都“束手無策”。

      哪怕不提漢字,只是英文單詞,生成出來的基本都是亂碼,令人難以理解。

      Nano Banana輕而易舉地攻克了這一難關(guān)。


      而最近讓Nano Banana在網(wǎng)絡(luò)上爆火的原因,則是有網(wǎng)友發(fā)現(xiàn)它可以制作精度極高的手辦圖。


      圖片中的手辦完全能夠以假亂真,圈外人可能完全無法分辨這到底是不是真的手辦。

      除此之外,Google還明確介紹了Nano Banana的其他生圖優(yōu)勢:

      例如逼真的場景、風(fēng)格化的插圖和貼紙、產(chǎn)品模型和商業(yè)攝影、極簡風(fēng)格和負(fù)空間設(shè)計等。

      而在圖像編輯方面,Nano Banana也能夠出色的完成以下任務(wù):例如添加和移除元素、局部重繪、風(fēng)格遷移、組合多張圖片、高保真細(xì)節(jié)保留等……有效解決了以往模型“牽一發(fā)而動全身”的問題。

      這么說可能有些抽象,我們用Nano Banana團隊在采訪中談到的例子來解釋。

      ①像素級的修圖編輯

      最常見的需求之一:只想修改一張圖像中的一處細(xì)節(jié),但又希望其他部分保持原樣。

      旅游照片P掉路過的游客、自拍照去掉熬夜的黑眼圈,這些對于以往的多模態(tài)模型來說,并不是一項很簡單的挑戰(zhàn)。

      微小的修改往往會導(dǎo)致圖像整體風(fēng)格或結(jié)構(gòu)的不協(xié)調(diào),而觀感則會遭到嚴(yán)重的破壞。

      Robert Riachi在采訪中提到,團隊在模型2.0版本時期遇到的一個主要挑戰(zhàn),就是編輯時往往無法保證與圖像其他部分的一致性。

      但通過持續(xù)的“爬坡訓(xùn)練”和用戶反饋收集,Nano Banana才取得了明顯的進(jìn)步。

      無論是給小貓戴上一頂帽子,還是調(diào)整一件家具的方向,它都能做到保持場景的整體姿態(tài)和結(jié)構(gòu)不變,讓編輯的部分與圖像其余部分無縫融合。

      而這種精準(zhǔn)的控制力,對于需要高度一致性的創(chuàng)作場景至關(guān)重要。


      ②不同角度的渲染

      圖像雖然是2D的,但它反映的內(nèi)容卻是3D的。

      因此,想要完成對現(xiàn)實世界中物體的精確編輯,還需要AI對三維空間具備一定的理解能力。

      NanoBanana能夠從不同的角度渲染角色和物體,創(chuàng)造出全新的場景。

      比如,上傳一件家具的圖像,讓它從側(cè)面或是背面重新生成,生成的結(jié)果仍然能保持高度一致性。

      這種能力不僅是像素的復(fù)制,而是通過理解對象的外觀和深層結(jié)構(gòu),對原始圖像進(jìn)行實質(zhì)性變換,而創(chuàng)作自由度也是由此而來。

      ③交錯式生成

      相比于文本,圖像中包含的信息往往更多。

      對于較為復(fù)雜的圖像生成任務(wù),Nano Banana引入了“交錯式生成”的新范式。

      傳統(tǒng)的文生圖模型需要一次性處理所有細(xì)節(jié),如果指令中包含大量修改或元素的提示,模型就很容易發(fā)生“飽和”現(xiàn)象。

      Nano Banana采取的解決方案是“化整為零”。

      將復(fù)雜的提示分解為多個步驟,逐步進(jìn)行編輯或生成。

      這種增量生成的方式,能夠讓模型處理細(xì)節(jié)時更加精準(zhǔn)。

      同時,它還可以積累上下文信息,從而生成高度復(fù)雜且高質(zhì)量的圖像。

      創(chuàng)作流程因此變得更加靈活可控,模型處理復(fù)雜任務(wù)的能力也得以顯著提升。

      ④超越用戶的預(yù)期

      Mostafa Dehghani在訪談中提到了一個詞——“智能感”。

      他給出了一個有趣的例子:在要求模型執(zhí)行某項操作時,模型并未原封不動地遵循并執(zhí)行他的指令。

      但最終生成的結(jié)果卻比他實際描述的要更好,這使得他感到十分驚喜。

      可以看出,Nano Banana已經(jīng)打破“執(zhí)行命令的工具”這一格局。

      它具備一定的真實世界的相關(guān)知識和常識,能夠在一些特定情境下對用戶的模糊或錯誤指令進(jìn)行修正和優(yōu)化。

      這種“智能”帶來的影響可好可壞,或許它無法達(dá)成用戶的預(yù)期效果,但也可能生成更符合用戶潛在需求甚至更具創(chuàng)意的圖像。

      對于大部分人來說,這種“智能”還是會明顯提升用戶體驗,畢竟“創(chuàng)意”總是可遇而不可求的。

      02 商業(yè)化前景:文生圖盈虧平衡出現(xiàn)曙光

      任何先進(jìn)的技術(shù),其商業(yè)化落地都離不開成本效益的考量。

      而Nano Banana在圖像領(lǐng)域的應(yīng)用,自然也涉及到成本和潛在的盈利模式。

      Robert Riachi在采訪中,明確提出多模態(tài)數(shù)據(jù)(圖像和視頻等)的“爬坡訓(xùn)練”非常困難。

      這需要大量的人類偏好信號,因此訓(xùn)練就需要投入巨大的時間成本和資源。

      機器學(xué)習(xí)的過程中,需要錨定一個指標(biāo)用于評估訓(xùn)練結(jié)果的好壞。

      以往的指標(biāo)往往需要幾個小時才能獲取到有效反饋,而Google的研究團隊則始終在努力尋找更為高效的訓(xùn)練指標(biāo)。

      另一方面,圖像的極度主觀性,使得收集并處理用戶反饋成為一個同樣耗時且昂貴的過程。

      Kaushik Shivakumar強調(diào)了“人工評分”在圖像生成評估中的成本效益問題。

      先前我們的AI競技場一文中曾經(jīng)介紹過,LMarena就采用了這種“人工評分”的方式。

      我們看到的排行榜上的Votes正是由該網(wǎng)站的使用者進(jìn)行投票得出的。

      即便是效果如此出色的Nano Banana,目前的投票數(shù)量也只有22萬左右。

      因此,讓足夠多的用戶進(jìn)行圖像質(zhì)量評分固然能提供良好的信號,但這種方式的成本恐怕令Google團隊都難以承受。

      這條路走不通,就必須尋找更加高效且經(jīng)濟的評估指標(biāo),也就是Nano Banana目前使用的“文本渲染度量”,這項技術(shù)我們后面再介紹。

      除了訓(xùn)練成本,模型部署上線后的推理成本也要考慮。

      目前,Nano Banana的API定價為:

      • 文字輸入:$0.30/M tokens
      • 文字輸出:$2.50/M tokens
      • 圖像輸入:$0.30/張
      • 圖像輸出:$0.039/張

      在Google AI Studio上可以免費使用,但近期已經(jīng)設(shè)置免費額度。

      如此低的定價再加上高質(zhì)量的生成效果,Nano Banana的性價比可以說是直接拉滿。

      與此同時,本周網(wǎng)上已經(jīng)開始出現(xiàn)第三方平臺以更低的價格提供Nano Banana的API服務(wù)。

      以AI領(lǐng)域現(xiàn)有的產(chǎn)品迭代速度,其他廠商推出水平相近的模型恐怕也只是時間問題。

      僅僅依靠Nano Banana的使用費用,極難覆蓋Google在如此先進(jìn)的模型上投入的巨大成本。

      因此,這一重新定義AI圖像領(lǐng)域的模型的誕生,更多還是為了應(yīng)對市場份額和生態(tài)系統(tǒng)的競爭。

      AIGC作為科技巨頭公司競爭的焦點,Google必須不斷推出有競爭力的產(chǎn)品以對抗OpenAI或是Midjourney等公司。

      而Nano Banana和Gemini 2.5 Pro兩款高用戶評分產(chǎn)品的存在,有效保持了Google在AI領(lǐng)域的領(lǐng)導(dǎo)地位。

      從技術(shù)角度來看,模型的迭代和優(yōu)化是一個幾乎永不間斷的過程。

      平民級別的價格能夠帶來的,是所有廠商都急需的大量真實用戶數(shù)據(jù)。

      Google這樣的科技公司,更多是通過平臺上提供的各種服務(wù)實現(xiàn)盈利。

      即使Nano Banana現(xiàn)在可能虧本,但低成本的圖像生成和編輯能力,不僅可以用來吸引用戶進(jìn)入Google的生態(tài)系統(tǒng),鼓勵用戶使用Google提供的相關(guān)服務(wù);未來,還可能成為某些更大利潤業(yè)務(wù)的核心組件。

      03 技術(shù)邏輯:跨時代的強大

      Nano Banana能夠在AI圖像領(lǐng)域?qū)崿F(xiàn)如此強大的能力,歸功于Google團隊在多模態(tài)學(xué)習(xí)、用戶反饋機制和創(chuàng)新架構(gòu)設(shè)計等方面的長期投入和努力。

      在觀看完Google官方發(fā)布的約30分鐘的采訪后,不得不對其技術(shù)能力感到驚訝。

      ①文本渲染度量

      這是Kaushik Shivakumar始終堅持的一項指標(biāo),起初誰也沒能想到它就是成功的關(guān)鍵。

      前面我們說過,Google團隊需要找到一個無需依靠用戶主觀評價的指標(biāo)來判斷模型是否在“越變越好”。

      在Nano Banana正式發(fā)布之前,無論是國內(nèi)還是國外的多模態(tài)模型,生圖水平參差不齊。

      但在圖片中加入文字這件事上,所有的模型都無法準(zhǔn)確完成。

      看起來,文字生成只是AI圖像領(lǐng)域的一個分支,但Google團隊堅持以此為優(yōu)化目標(biāo)。

      最終結(jié)果也證明了這是一個無比正確的決定。

      在對文本渲染的不斷優(yōu)化過程中,研究團隊發(fā)現(xiàn)圖像生成質(zhì)量也在不斷提高。

      天才般的想法,加上持之以恒的努力,成就了Nano Banana的強大。

      ②多模態(tài)統(tǒng)一模型與正向遷移

      Mostafa Dehghani提出了Nano Banana的核心理念之一:實現(xiàn)原生的圖像生成和多模態(tài)理解與生成。

      這意味著模型會在同一個訓(xùn)練運行中學(xué)習(xí)所有模態(tài)和不同的能力,而最終目標(biāo)則是實現(xiàn)跨不同維度的正遷移。

      簡單地說,就是要讓模型不僅能理解和生成單一模態(tài)(比如文本或圖像),還能利用從一種模態(tài)中學(xué)到的知識,幫助理解和生成另一種模態(tài)。

      例如,模型可以從圖像、音頻和視頻中學(xué)到真實世界的相關(guān)知識,從而更好地理解和生成文本。

      就像Robert Riachi提到的一種名為“報告偏差”的現(xiàn)象:

      人們在日常對話中通常不會提及哪些顯而易見、習(xí)以為常的事物,比如朋友家的普通沙發(fā)。

      但如果展示一張房間的圖片,沙發(fā)就會自然呈現(xiàn)在眼前。

      說實話,這個例子舉得有點莫名其妙,但確實有一定道理:

      圖像和視頻等視覺信號里,包含著大量關(guān)于真實世界的隱性信息,而這些信息無需明確請求即可獲取。

      對于一個多模態(tài)模型來說,視覺信號是了解世界難得的“捷徑”。

      這種統(tǒng)一的多模態(tài)學(xué)習(xí)方式,幫助Google團隊建立了更全面和深入的“世界模型”。

      Gemini系列產(chǎn)品也在各種模態(tài)任務(wù)中表現(xiàn)出了更高的智能化程度,LMarena的數(shù)據(jù)已經(jīng)驗證了這一點。

      因此,采訪中提及圖像理解和圖像生成被視為“姐妹”,在交錯生成中互相促進(jìn)。

      ③從錯誤中學(xué)習(xí):用戶反饋驅(qū)動“爬坡訓(xùn)練”

      Robert Riachi著重強調(diào)了利用人類偏好進(jìn)行“爬坡訓(xùn)練”的重要性。

      但前面已經(jīng)說過,不可能模型每次生成圖片都讓人類來判斷孰優(yōu)孰劣。

      因此,Google團隊收集了大量來自Twitter等平臺的真實用戶反饋,將失敗案例轉(zhuǎn)化為評估基準(zhǔn),而這些恰恰是用于改進(jìn)模型的寶貴信號。

      在模型的2.0版本發(fā)布時,團隊成員敏銳地注意到一個常見的失敗案

      例:

      編輯時無法保持圖像其余部分的一致性。

      于是,以此為基礎(chǔ),團隊開始針對于具體問題進(jìn)行“爬坡訓(xùn)練”和迭代。

      這種以用戶為中心、從錯誤中學(xué)習(xí)的機制,正是Nano Banana能夠解決這一挑戰(zhàn)的關(guān)鍵。

      ④團隊協(xié)作:Gemini與Imagen的融合

      采訪的最后,Robert Riachi也談到了Nano Banana的成功離不開Gemini和Imagen兩個團隊的緊密協(xié)作。

      Gemini團隊專注于指令遵循和世界知識等方面,確保模型能夠理解用戶的意圖并生成符合邏輯的內(nèi)容。

      Imagen團隊專注于圖像的視覺質(zhì)量,確保生成的圖像自然美觀,且不出現(xiàn)明顯問題。

      Gemini 2.5 Pro之前的長期霸榜已經(jīng)說明其功能的強大,而融合兩個團隊的視角和專業(yè)知識,Nano Banana做到了兼顧圖像的“智能性”和“美觀性”。

      Nano Banana在Google AI Studio上線后,我們也可以發(fā)現(xiàn),它和Gemini 2.5 Pro是融為一體的,在原先的聊天界面就可以直接使用,而非兩個獨立的模型。

      這種跨團隊的深度合作,使得Google的產(chǎn)品體系上升到了一個新的高度。

      04 結(jié)語

      就像很多標(biāo)題所說,Nano Banana的出現(xiàn)毫無疑問給AI圖像領(lǐng)域帶來了革命性的變化。

      從像素級的完美編輯,到交錯式的復(fù)雜圖像構(gòu)建;

      從對用戶意圖的智能理解,到超越預(yù)期的創(chuàng)意發(fā)散;

      人工智能在視覺藝術(shù)上的創(chuàng)作潛力正在被逐步發(fā)掘。

      但與此同時,以假亂真的高質(zhì)量圖像也在改變很多行業(yè)的現(xiàn)狀。

      盡管Nano Banana生成的圖像目前也已經(jīng)明確帶有AI生成標(biāo)識,但它的作品已經(jīng)足以滿足大多數(shù)人的需求。

      未來的創(chuàng)作者和藝術(shù)家又該何去何從?

      唯一可以確定的,是AI圖像領(lǐng)域的未來將會更加智能、更加高效、更具創(chuàng)意。

      而人機之間的協(xié)作,也即將開始書寫全新的篇章,全球軟件業(yè)正因此重塑。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      河南一公司連續(xù)兩年婦女節(jié)給近2000名女員工發(fā)160萬元紅包,員工:過年領(lǐng)的2100元還沒用完,又發(fā)800元,太幸福了

      河南一公司連續(xù)兩年婦女節(jié)給近2000名女員工發(fā)160萬元紅包,員工:過年領(lǐng)的2100元還沒用完,又發(fā)800元,太幸福了

      極目新聞
      2026-03-07 20:45:42
      加拿大這步棋,下出了一場全球變局!

      加拿大這步棋,下出了一場全球變局!

      浪子的煙火人間
      2026-01-30 07:03:12
      特斯拉推出全新購車福利!網(wǎng)友:這么小氣不如不減

      特斯拉推出全新購車福利!網(wǎng)友:這么小氣不如不減

      汽車網(wǎng)評
      2026-03-07 23:09:14
      伊朗大規(guī)模發(fā)射新一代導(dǎo)彈,摧毀美軍多個基地雷達(dá)、飛機燃料庫、MQ-9無人機機庫等,以及多套薩德,“整個地區(qū)都能看到滾滾濃煙”

      伊朗大規(guī)模發(fā)射新一代導(dǎo)彈,摧毀美軍多個基地雷達(dá)、飛機燃料庫、MQ-9無人機機庫等,以及多套薩德,“整個地區(qū)都能看到滾滾濃煙”

      每日經(jīng)濟新聞
      2026-03-07 01:03:56
      汪峰前妻葛薈婕自曝:父母會找自己每任前任要20多萬,還說應(yīng)該的

      汪峰前妻葛薈婕自曝:父母會找自己每任前任要20多萬,還說應(yīng)該的

      觀魚聽雨
      2026-03-07 23:00:05
      狂砍61分打崩遼寧!楊鳴自嘲:我這下課,賀希寧得負(fù)全責(zé)

      狂砍61分打崩遼寧!楊鳴自嘲:我這下課,賀希寧得負(fù)全責(zé)

      劉笤說體壇
      2026-03-08 04:03:25
      一個人毀一部??!《我的山與?!分凶畲蟮臄」P就是這個“戲混子”

      一個人毀一部??!《我的山與?!分凶畲蟮臄」P就是這個“戲混子”

      她不傾國傾城
      2026-03-08 00:17:51
      震驚!北京千峰教育撤場,網(wǎng)友:難以想象,計算機也成當(dāng)年的土木

      震驚!北京千峰教育撤場,網(wǎng)友:難以想象,計算機也成當(dāng)年的土木

      火山詩話
      2026-03-07 07:30:56
      建川普大廈,輔佐入白宮,特朗普御用華裔風(fēng)水師究竟有多神?

      建川普大廈,輔佐入白宮,特朗普御用華裔風(fēng)水師究竟有多神?

      易玄
      2024-09-26 09:36:04
      河南省委書記劉寧:涉及民生的工作一天也不能拖,關(guān)乎民生的投入一點也不能降,該辦的民生實事一件也不能少

      河南省委書記劉寧:涉及民生的工作一天也不能拖,關(guān)乎民生的投入一點也不能降,該辦的民生實事一件也不能少

      全國黨媒信息公共平臺
      2026-03-07 19:19:05
      8000元相親餐男子尿遁逃單!女子被迫買單,婚介甩鍋:與我們無關(guān)

      8000元相親餐男子尿遁逃單!女子被迫買單,婚介甩鍋:與我們無關(guān)

      今朝牛馬
      2026-02-01 21:14:04
      “哈梅內(nèi)伊之死”可以有幾種贏法?

      “哈梅內(nèi)伊之死”可以有幾種贏法?

      名人茍或
      2026-03-07 06:04:59
      新婚女子手臂成亮點,“滿眼都是xxx”,難道新郎一點都不在乎?

      新婚女子手臂成亮點,“滿眼都是xxx”,難道新郎一點都不在乎?

      仙仙先生
      2026-01-30 09:35:22
      “韓國發(fā)現(xiàn)37具只有下半身的遺體…”

      “韓國發(fā)現(xiàn)37具只有下半身的遺體…”

      奮斗在韓國
      2026-03-07 16:49:24
      美國前伊朗問題特使:美以對伊開戰(zhàn)不正當(dāng) 不必要 不合法

      美國前伊朗問題特使:美以對伊開戰(zhàn)不正當(dāng) 不必要 不合法

      每日經(jīng)濟新聞
      2026-03-07 17:28:49
      山東高中生被老師談話,15分鐘后離奇死亡,尸檢結(jié)果讓家人崩潰

      山東高中生被老師談話,15分鐘后離奇死亡,尸檢結(jié)果讓家人崩潰

      碎碎紀(jì)實
      2026-03-06 18:59:33
      地中海航運公司:對所有從地中海和黑海運往印度次大陸、紅海及東非地區(qū)的貨物征收緊急燃油附加費

      地中海航運公司:對所有從地中海和黑海運往印度次大陸、紅海及東非地區(qū)的貨物征收緊急燃油附加費

      瀟湘晨報
      2026-03-07 18:16:12
      公交地鐵免費坐!武漢老年卡申請攻略來了!非武漢籍也能辦!

      公交地鐵免費坐!武漢老年卡申請攻略來了!非武漢籍也能辦!

      蔡甸在線
      2026-03-07 12:09:29
      王楚欽父親王云忠,到底是個什么樣的人,平時很低調(diào)嗎?

      王楚欽父親王云忠,到底是個什么樣的人,平時很低調(diào)嗎?

      未來就來
      2026-03-08 03:24:10
      金價大漲!油價史詩級暴漲!

      金價大漲!油價史詩級暴漲!

      天津族
      2026-03-07 17:33:42
      2026-03-08 07:44:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經(jīng)科技媒體
      130356文章數(shù) 861903關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      中國貨船通過霍爾木茲海峽后 美國宣布200億美元計劃

      頭條要聞

      中國貨船通過霍爾木茲海峽后 美國宣布200億美元計劃

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張?zhí)m公開財產(chǎn)分配

      財經(jīng)要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      家居
      手機
      數(shù)碼
      公開課
      軍事航空

      家居要聞

      暖棕撞色 輕法奶油風(fēng)

      手機要聞

      vivo X300 Max真機曝光,圓形后攝方案

      數(shù)碼要聞

      蘋果MacBook Neo跑分出爐:A18 Pro少了一個核心 GPU被反殺

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美第三個航母打擊群據(jù)稱準(zhǔn)備部署至中東

      無障礙瀏覽 進(jìn)入關(guān)懷版