<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Nano Banana,OpenAI你學不會

      0
      分享至


      奧特曼向OpenAI的全體員工發(fā)了一封內(nèi)部信,他坦言道,雖然OpenAI仍處于領(lǐng)先地位,但是谷歌正在縮短差距。并奧特曼也承認,正是由于谷歌最近一系列的產(chǎn)品發(fā)布,為OpenAI帶來了不小的壓力。

      事實也正如奧特曼所言,谷歌這次帶來的,除了贏得滿堂彩的Gemini 3 Pro,還有讓整個AIGC圈震撼的Nano Banana Pro。在此之前,所有生圖模型的底層邏輯都是臨摹世界。通過海量的數(shù)據(jù)庫,尋找最接近描述的圖,將其拼湊給你。

      而Nano Banana Pro的出現(xiàn),則徹底打破了這個規(guī)則。它并不是在“畫圖”,而是在“模擬物理世界”。其最大的突破在于,引入了思維鏈(Chain of Thought)推理機制,先讓模型進行思考,再去畫圖。

      在落下第一個像素之前,模型會先在潛空間內(nèi)進行邏輯推演,計算物體的數(shù)量、確定光影的投射角度、規(guī)劃空間嵌套關(guān)系。它不再依賴文本作為中轉(zhuǎn)站,推理結(jié)果直接以高維向量的形式指導(dǎo)像素生成。

      那么問題來了,為什么OpenAI開發(fā)不出Nano Banana Pro?

      01

      在回答問題之前,不妨先看看Nano Banana Pro,它和OpenAI現(xiàn)在生圖主要使用的GPT-4o到底有何區(qū)別。

      以“三個蘋果”的生成任務(wù)為例,提示詞為:“左側(cè)蘋果帶有咬痕,中間蘋果附著水珠,右側(cè)蘋果呈現(xiàn)腐爛狀態(tài)”。面對這一指令,GPT-4o通常會迅速生成一張色彩明艷、構(gòu)圖完美的圖像。

      但在細節(jié)核驗時往往暴露出概率生成的缺陷,中間蘋果上面的水珠其排布不符合客觀規(guī)律,而右邊蘋果的腐爛看起來又過于刻意。


      相比之下,Nano Banana Pro輸出的圖像不僅數(shù)量精確,且每個對象的屬性都嚴格對應(yīng)——左側(cè)的缺口、中間的折射光感、右側(cè)的氧化紋理,均被精準還原。


      這種表象差異的背后,是兩條截然不同的技術(shù)路徑。

      GPT-4o的生成機制本質(zhì)上基于統(tǒng)計學相關(guān)性,它在海量訓練數(shù)據(jù)中檢索“蘋果+咬痕”的視覺特征,并通過概率分布進行拼貼與融合。它并未真正理解“三個”的數(shù)量概念,也未構(gòu)建“腐爛”的物理模型,僅是根據(jù)高維空間中的特征距離進行近似匹配。

      而Nano Banana Pro引入了思維鏈(Chain-of-Thought, CoT)機制,將圖像生成過程從單純的“像素預(yù)測”升級為“邏輯推演”。在落下第一個像素前,模型內(nèi)部已完成了一輪符號化的規(guī)劃:首先確立實體對象(Object 1, 2, 3),隨即分配空間坐標,最后綁定物理屬性。

      針對“咬痕”,它推演的是幾何形態(tài)的改變;針對“水珠”,它計算的是光學反射與折射的物理規(guī)律;針對“腐爛”,它模擬的是材質(zhì)屬性的演變。這是一套從語義理解到邏輯規(guī)劃,再到執(zhí)行生成的全鏈路閉環(huán)。

      這種機制在處理涉及物理規(guī)律的復(fù)雜場景時優(yōu)勢尤為凸顯。

      提示詞“窗臺上的半杯水,陽光從左側(cè)射入”。

      GPT-4o所生成的圖片,僅0具備視覺合理性,但在物理上自相矛盾的光影關(guān)系。此時,窗臺左側(cè)應(yīng)存在由玻璃杯反射出來的陽光,但是圖片中僅存在右側(cè)折射出來的光線。


      而具Nano Banana Pro會先行計算光源向量,推導(dǎo)陰影投射方向以及液體介質(zhì)的光線折射率。這種基于物理常識的推理,使得生成結(jié)果不再是視覺元素的堆砌,而是對物理世界的數(shù)字模擬。


      更為深層的架構(gòu)差異在于,OpenAI目前的體系存在顯著的“文本信息瓶頸”(Text Information Bottleneck)。在ChatGPT中調(diào)用繪圖功能時,用戶的簡短指令往往會被GPT改寫為一段詳盡的Prompt,再傳遞給圖片生成模型。

      這一過程看似豐富了細節(jié),實則引入了噪聲。文本作為一維的線性信息載體,在描述三維空間關(guān)系、拓撲結(jié)構(gòu)及復(fù)雜的物體屬性綁定時,存在天然的低帶寬缺陷。改寫過程極易導(dǎo)致原始意圖中的關(guān)鍵約束被修飾性語言淹沒,造成信息的有損傳輸。

      此外,漢字對于圖片生成大模型來說也是一個噩夢。GPT-4o在很長時間里,寫字都是“亂碼生成器”,甚至讓它寫“OpenAI”,它都能寫成“OpanAl”或者一堆奇怪的符號。

      我讓GPT-4o以字母榜LOGO為參考,生成一個字母榜的招牌。


      但Nano Banana Pro實現(xiàn)了對文字的精準控制。在同樣的提示詞下,Nano Banana Pro提取出了上方的字母榜,左右兩側(cè)的A和Z,以及最下方的弧線,并將這些元素置于不同的圖層、不同的材質(zhì)。


      Nano Banana Pro則采用了原生多模態(tài)(Native Multimodal)架構(gòu),這是一種統(tǒng)一模型的解決方案。

      用戶的輸入在模型內(nèi)部直接映射為包含語義、空間及物理屬性的高維向量,無需經(jīng)過“文本-圖像”的轉(zhuǎn)譯中介。這種端到端的映射關(guān)系,如同建筑師直接依據(jù)藍圖施工,而非依賴翻譯人員的口述傳達,從而根除了中間環(huán)節(jié)的信息熵增。

      但這也造成了另外一個問題,提示詞門檻被拉高了。我們回到一開始三個蘋果的提示詞上。

      這是輸入給GPT-4o的提示詞,簡單易懂,就是在描述畫面構(gòu)成。


      而這是給Nano Banana Pro的提示詞。看起來就像Python代碼一樣,通過函數(shù)和()來控制生成的圖片。


      在涉及計數(shù)、方位布局、多物體屬性綁定(Attribute Binding)等精確控制任務(wù)上,Nano Banana Pro表現(xiàn)出色。它能清晰區(qū)分不同對象的屬性歸屬,避免了擴散模型常見的“屬性泄露”問題(如將紅杯子的顏色錯誤渲染到藍杯子上)。

      當然,GPT-4o依然保有其獨特的生態(tài)位。其優(yōu)勢在于推理速度與基于RLHF(人類反饋強化學習)調(diào)優(yōu)后的審美直覺。

      由于剝離了復(fù)雜的邏輯推理環(huán)節(jié),其生成效率更高,且更能迎合大眾對高飽和度、戲劇化光影的視覺偏好。對于追求視覺沖擊力而非邏輯嚴謹性的通用場景,GPT-4o依然是高效的選擇。

      然而,當需求從“好看”轉(zhuǎn)向“準確”,從“相關(guān)性”轉(zhuǎn)向“因果性”,Nano Banana Pro所代表的“先思考、后執(zhí)行”模式便構(gòu)成了降維打擊。它犧牲了部分的生成速度與討好眼球的濾鏡感,換取了對物理邏輯的忠實還原。

      02

      橘生淮南則為橘,生于淮北則為枳。Nano Banana Pro和GPT-4o之所以會有如此的差距,正是因為其開發(fā)者,谷歌和OpenAI在AI這條路上,選擇兩種完全不同的發(fā)展方向。

      谷歌選擇的是“原生多模態(tài)”這條路。

      就是從模型訓練的第一天起,文本、圖像、視頻、音頻就混在一起,扔進同一個神經(jīng)網(wǎng)絡(luò)里讓它學。在Gemini的眼里,一這些事物本質(zhì)上沒有區(qū)別,都是數(shù)據(jù)。它不需要先把圖片翻譯成文字,再去理解文字。

      這就像一個人從小就會說中文、英文、法文,這三種語言在他腦子里是同時存在的,他不需要先把英文翻譯成中文再思考。

      而OpenAI走的是“模塊化拼接”這條路。

      它的邏輯是,讓專業(yè)的人做專業(yè)的事。GPT-5負責理解語言和邏輯推理,GPT-4o負責生成圖像,Whisper負責處理語音。

      每個模塊都做得很好,然后通過API把它們連起來。這就像一個團隊,有文案、有設(shè)計師、有程序員,大家各司其職,通過開會和文檔來協(xié)作。

      這兩種路線,沒有絕對的對錯,但會導(dǎo)致完全不同的結(jié)果。

      谷歌最大的優(yōu)勢,來自于YouTube。這是全世界最大的視頻庫,里面有幾十億小時的視頻內(nèi)容。這些視頻不是靜態(tài)的圖片,而是包含了時間序列、因果關(guān)系、物理變化的動態(tài)數(shù)據(jù)。Gemini從一開始就是“看這些視頻長大的”。

      換句話說,Gemini從誕生之初,就理解物理世界的基本運行邏輯。杯子掉在地上會摔碎,水倒進杯子里會形成液面。這些東西不是靠文字描述學來的,而是通過看真實世界的視頻,自己總結(jié)出來的。

      所以當你讓Nano Banana Pro畫“一個杯子從桌子上掉下來的瞬間”,它不會畫出一個漂浮在空中、姿態(tài)僵硬的杯子。它會畫出杯子在下落過程中的傾斜角度,杯子里的水濺起來的形態(tài),甚至是杯子即將觸地時周圍空氣的擾動感。因為它見過太多這樣的場景,它知道真實世界是怎么運作的。


      除了YouTube,谷歌還有另一個護城河:OCR。谷歌做了幾十年的光學字符識別,從Books到Lens,谷歌積累了全球最大的“圖片-文字”對齊數(shù)據(jù)庫。這直接導(dǎo)致了Gemini在文字渲染上的碾壓性優(yōu)勢。

      它知道漢字在圖片里應(yīng)該長什么樣,知道不同字體、不同大小、不同排列方式下,文字應(yīng)該怎么呈現(xiàn)。這也是為什么Nano Banana Pro能精準識別漢字。

      反觀OpenAI,它的起家靠的是文本。從GPT-1到GPT-3再到GPT-5,它在語言模型上一路狂奔,確實做到了世界頂級。但視覺能力是后來才加上去的。

      DALL-E早期是獨立發(fā)展的,訓練數(shù)據(jù)主要來自網(wǎng)絡(luò)抓取的靜態(tài)圖片,來自Common Crawl這樣的數(shù)據(jù)集。這些圖片質(zhì)量參差不齊,而且都是靜態(tài)的,沒有時間維度,沒有物理過程,沒有因果關(guān)系。

      所以DALL-E學到的,更多是“這個東西大概長這樣”,而不是“這個東西為什么長這樣”或者“這個東西會怎么變化”。它可以畫出一只很漂亮的貓,但它不理解貓的骨骼結(jié)構(gòu),不理解貓的肌肉如何運動,不理解貓在跳躍時身體會呈現(xiàn)什么姿態(tài)。它只是見過很多貓的照片,然后學會了“貓長這樣”。

      更關(guān)鍵的是訓練方式的差異。

      正是因為OpenAI走的是RLHF路線。所以他們雇了大量的人類標注員,給生成的圖片打分:“這張好看嗎?”“這張更符合要求嗎?”標注員們在選擇的時候,自然而然會傾向于那些色彩鮮艷、構(gòu)圖完美、皮膚光滑、光影戲劇化的圖片。

      這導(dǎo)致GPT-4o被訓練成了一個“討好型人格”的畫家。它學會了怎么畫出讓人眼前一亮的圖,學會了怎么用高對比度和飽和色來抓住眼球,學會了怎么把皮膚修得像瓷器一樣光滑。但代價是,它犧牲了物理真實感。

      GPT-4o生成的圖片,有一種很典型的“DALL-E濾鏡”。皮膚像涂了蠟,物體表面特別光滑,光影過度戲劇化,整體感覺就是“一眼假”。它不敢畫出皮膚上的毛孔,不敢畫出布料的褶皺,不敢畫出不完美的光照。因為在訓練過程中,那些帶有瑕疵的、粗糙的、不那么“美”的圖片,都被標注員打了低分。

      而谷歌沒有走這條路。Gemini的訓練更注重“真實”而不是“美”。世界本就如此,它沒有書本里描繪的那么美。

      03

      那么谷歌又是如何追上OpenAI,以至于讓奧特曼發(fā)內(nèi)部信來強調(diào)危機感的呢?

      谷歌選擇在“準確性”和“邏輯”上發(fā)力。谷歌將其稱為“Grounding”,也就是“接地氣”,也就是“真實性”。

      為了實現(xiàn)這個目標,谷歌把思考過程,引入了圖像生成過程。這個決策會大大增加計算成本,因為在生成圖像的時候加入推理步驟,生成速度也就變慢了。但谷歌判斷這個代價是值得的,因為它換來的是質(zhì)的提升。

      當你給Nano Banana Pro一個提示詞,比如“畫一個廚房,左邊是冰箱,右邊是灶臺,中間的桌子上放著三個碗”,模型不會直接開始畫。它會先啟動思維鏈:

      首先,識別場景類型:廚房。然后,識別對象:冰箱、灶臺、桌子、碗。接著,確定空間關(guān)系:冰箱在左,灶臺在右,桌子在中間。再確定數(shù)量:三個碗。然后推理物理邏輯:廚房里通常會有什么光源?桌子應(yīng)該離冰箱和灶臺多遠才合理?三個碗應(yīng)該怎么排列?最后,確定視角和構(gòu)圖:從什么角度看這個場景最合適?

      這一整套思考完成后,模型會在內(nèi)部生成一些“思考圖像”,這些圖像用戶看不到的,但它們幫助模型理清了思路。最后,模型才開始生成真正的輸出圖像。

      這個過程看起來復(fù)雜,但它解決了一個核心問題:讓模型“理解”而不是“猜測”。

      GPT-4o以及市面上絕大多數(shù)生成圖片的模型,都是靠概率猜,“用戶說廚房,那我就把我見過的廚房元素拼起來,大概就對了。”

      而Nano Banana Pro則是真正去理解廚房這個概念:“用戶說廚房,廚房是用來洗菜做飯的,所以這個廚房需要滿足這些空間關(guān)系和物理邏輯,我要按照這個邏輯來構(gòu)建。”

      反觀OpenAI,它目前的策略是把最強的推理能力集中在o1系列模型上,也就是之前代號為Strawberry的項目。o1在數(shù)學推理和代碼生成上確實很強,它能解決一些人類數(shù)學家都覺得有挑戰(zhàn)的問題,能寫出復(fù)雜的算法代碼。

      至于圖像生成,OpenAI的判斷是:目前GPT-4o的“直覺式”生成已經(jīng)足夠好了,足夠維持用戶體驗,足夠在市場上保持領(lǐng)先,并不需要繼續(xù)提升。

      還有一個因素是產(chǎn)品理念的差異。OpenAI一直強調(diào)的是PMF,也就是Product-Market Fit,產(chǎn)品市場契合度。它的策略是“快速迭代,快速驗證”。

      DALL-E 3只要能通過提示詞和GPT-4拼起來用,那就先發(fā)布,先占領(lǐng)市場。后臺的架構(gòu)可以慢慢改,用戶看不見的地方可以慢慢優(yōu)化。

      這個市場策略被稱為“膠水科技”,其最大的弊端在于積累的技術(shù)債太多了。當你一開始選擇了模塊化拼接的架構(gòu),后面想要改成原生多模態(tài),就不是簡單地加幾行代碼的問題了。這可能需要重新訓練整個模型,需要重新設(shè)計數(shù)據(jù)管道,需要重新構(gòu)建工具鏈。

      谷歌慢工出細活,可他們也有自己的難處。

      原生多模態(tài)模型的維護成本也更高。如果你想提升圖像生成能力,就需要調(diào)整整個模型。這就是為什么,Nano Banana Pro只能伴隨著Gemini 3的更新,沒辦法自己單獨更新。

      這種“按下葫蘆浮起瓢”的問題,在模塊化架構(gòu)里就不存在,因為當你你只需要優(yōu)化圖像生成模塊,根本不用擔心影響到文本模塊。

      所以O(shè)penAI確實沒辦法訓練出來Nano Banana Pro。

      然而這并不意味著谷歌可以高枕無憂了,因為AI領(lǐng)域迭代速度太快了。我敢打賭,不出半個月,就會有一大幫生圖模型問世,直接對標Nano Banana Pro。


      歡迎在評論區(qū)留言~
      如需開白請加小編微信:dongfangmark


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      凡人侃史
      2026-03-29 17:32:28
      10年后,被允許玩手機和被嚴格限制的孩子,差距驚人!

      10年后,被允許玩手機和被嚴格限制的孩子,差距驚人!

      諾媽家有男寶娃
      2026-03-30 12:21:11
      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      阿心文史
      2026-04-06 01:25:04
      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      念洲
      2026-04-04 21:52:19
      阿韋洛亞執(zhí)教皇馬18場5負,與阿隆索本賽季帶隊輸球場次持平

      阿韋洛亞執(zhí)教皇馬18場5負,與阿隆索本賽季帶隊輸球場次持平

      懂球帝
      2026-04-05 22:13:04
      農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      三農(nóng)雷哥
      2026-03-08 20:45:46
      江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

      江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      小米高管內(nèi)訓內(nèi)容曝光:承認大家電「質(zhì)量差」,一批供應(yīng)商要完蛋

      小米高管內(nèi)訓內(nèi)容曝光:承認大家電「質(zhì)量差」,一批供應(yīng)商要完蛋

      雷科技
      2026-04-03 14:41:09
      兒科醫(yī)生不光會看病更得會斷案!網(wǎng)友:嘴巴跟不上腦子的速度

      兒科醫(yī)生不光會看病更得會斷案!網(wǎng)友:嘴巴跟不上腦子的速度

      夜深愛雜談
      2026-03-09 21:19:47
      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內(nèi)娛女明星最真實的困境

      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內(nèi)娛女明星最真實的困境

      劇芒芒
      2026-04-05 17:59:45
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      風向觀察
      2025-12-16 18:26:08
      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      曹說體育
      2026-04-05 22:12:33
      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責

      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責

      吃貨的分享
      2026-04-05 17:49:17
      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      瘋狂小菠蘿
      2026-04-01 20:13:49
      著名有機化學家、北京大學教授王劍波逝世,享年63歲

      著名有機化學家、北京大學教授王劍波逝世,享年63歲

      澎湃新聞
      2026-04-06 00:04:27
      微軟Office 365月費逼走3000萬用戶

      微軟Office 365月費逼走3000萬用戶

      固件更新中
      2026-04-05 20:35:36
      一個人養(yǎng)活一座城,這次我是真開眼了。

      一個人養(yǎng)活一座城,這次我是真開眼了。

      小光侃娛樂
      2026-02-11 05:15:05
      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      妍妍教育日記
      2026-03-20 21:33:36
      戳破臺學者荒誕“能源安全夢”

      戳破臺學者荒誕“能源安全夢”

      烽火瞭望者
      2026-04-05 11:33:37
      2026-04-06 02:43:00
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      258文章數(shù) 237關(guān)注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      體育要聞

      CBA最老球員,身價7500萬美元

      娛樂要聞

      王燦兮否認婆媳不和 曬與杜淳媽合影

      財經(jīng)要聞

      誰造出了優(yōu)思益這頭“怪物”?

      汽車要聞

      家用SUV沒駕駛樂趣?極氪8X第一個不同意

      態(tài)度原創(chuàng)

      本地
      親子
      旅游
      時尚
      公開課

      本地新聞

      跟著歌聲游安徽,聽古村回響

      親子要聞

      小英自曝給女兒剪短發(fā)原因!怕頭發(fā)搶營養(yǎng)長不高,想剃光頭太真實

      旅游要聞

      文明旅游|清明出游請注意!莫讓這些不文明行為煞風景!

      伊姐清明熱推:電視劇《暴鋒雨》;電影《我,許可》......

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版