<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Nano Banana,OpenAI你學不會

      0
      分享至


      奧特曼向OpenAI的全體員工發了一封內部信,他坦言道,雖然OpenAI仍處于領先地位,但是谷歌正在縮短差距。并奧特曼也承認,正是由于谷歌最近一系列的產品發布,為OpenAI帶來了不小的壓力。

      事實也正如奧特曼所言,谷歌這次帶來的,除了贏得滿堂彩的Gemini 3 Pro,還有讓整個AIGC圈震撼的Nano Banana Pro。在此之前,所有生圖模型的底層邏輯都是臨摹世界。通過海量的數據庫,尋找最接近描述的圖,將其拼湊給你。

      而Nano Banana Pro的出現,則徹底打破了這個規則。它并不是在“畫圖”,而是在“模擬物理世界”。其最大的突破在于,引入了思維鏈(Chain of Thought)推理機制,先讓模型進行思考,再去畫圖。

      在落下第一個像素之前,模型會先在潛空間內進行邏輯推演,計算物體的數量、確定光影的投射角度、規劃空間嵌套關系。它不再依賴文本作為中轉站,推理結果直接以高維向量的形式指導像素生成。

      那么問題來了,為什么OpenAI開發不出Nano Banana Pro?

      01

      在回答問題之前,不妨先看看Nano Banana Pro,它和OpenAI現在生圖主要使用的GPT-4o到底有何區別。

      以“三個蘋果”的生成任務為例,提示詞為:“左側蘋果帶有咬痕,中間蘋果附著水珠,右側蘋果呈現腐爛狀態”。面對這一指令,GPT-4o通常會迅速生成一張色彩明艷、構圖完美的圖像。

      但在細節核驗時往往暴露出概率生成的缺陷,中間蘋果上面的水珠其排布不符合客觀規律,而右邊蘋果的腐爛看起來又過于刻意。


      相比之下,Nano Banana Pro輸出的圖像不僅數量精確,且每個對象的屬性都嚴格對應——左側的缺口、中間的折射光感、右側的氧化紋理,均被精準還原。


      這種表象差異的背后,是兩條截然不同的技術路徑。

      GPT-4o的生成機制本質上基于統計學相關性,它在海量訓練數據中檢索“蘋果+咬痕”的視覺特征,并通過概率分布進行拼貼與融合。它并未真正理解“三個”的數量概念,也未構建“腐爛”的物理模型,僅是根據高維空間中的特征距離進行近似匹配。

      而Nano Banana Pro引入了思維鏈(Chain-of-Thought, CoT)機制,將圖像生成過程從單純的“像素預測”升級為“邏輯推演”。在落下第一個像素前,模型內部已完成了一輪符號化的規劃:首先確立實體對象(Object 1, 2, 3),隨即分配空間坐標,最后綁定物理屬性。

      針對“咬痕”,它推演的是幾何形態的改變;針對“水珠”,它計算的是光學反射與折射的物理規律;針對“腐爛”,它模擬的是材質屬性的演變。這是一套從語義理解到邏輯規劃,再到執行生成的全鏈路閉環。

      這種機制在處理涉及物理規律的復雜場景時優勢尤為凸顯。

      提示詞“窗臺上的半杯水,陽光從左側射入”。

      GPT-4o所生成的圖片,僅0具備視覺合理性,但在物理上自相矛盾的光影關系。此時,窗臺左側應存在由玻璃杯反射出來的陽光,但是圖片中僅存在右側折射出來的光線。


      而具Nano Banana Pro會先行計算光源向量,推導陰影投射方向以及液體介質的光線折射率。這種基于物理常識的推理,使得生成結果不再是視覺元素的堆砌,而是對物理世界的數字模擬。


      更為深層的架構差異在于,OpenAI目前的體系存在顯著的“文本信息瓶頸”(Text Information Bottleneck)。在ChatGPT中調用繪圖功能時,用戶的簡短指令往往會被GPT改寫為一段詳盡的Prompt,再傳遞給圖片生成模型。

      這一過程看似豐富了細節,實則引入了噪聲。文本作為一維的線性信息載體,在描述三維空間關系、拓撲結構及復雜的物體屬性綁定時,存在天然的低帶寬缺陷。改寫過程極易導致原始意圖中的關鍵約束被修飾性語言淹沒,造成信息的有損傳輸。

      此外,漢字對于圖片生成大模型來說也是一個噩夢。GPT-4o在很長時間里,寫字都是“亂碼生成器”,甚至讓它寫“OpenAI”,它都能寫成“OpanAl”或者一堆奇怪的符號。

      我讓GPT-4o以字母榜LOGO為參考,生成一個字母榜的招牌。


      但Nano Banana Pro實現了對文字的精準控制。在同樣的提示詞下,Nano Banana Pro提取出了上方的字母榜,左右兩側的A和Z,以及最下方的弧線,并將這些元素置于不同的圖層、不同的材質。


      Nano Banana Pro則采用了原生多模態(Native Multimodal)架構,這是一種統一模型的解決方案。

      用戶的輸入在模型內部直接映射為包含語義、空間及物理屬性的高維向量,無需經過“文本-圖像”的轉譯中介。這種端到端的映射關系,如同建筑師直接依據藍圖施工,而非依賴翻譯人員的口述傳達,從而根除了中間環節的信息熵增。

      但這也造成了另外一個問題,提示詞門檻被拉高了。我們回到一開始三個蘋果的提示詞上。

      這是輸入給GPT-4o的提示詞,簡單易懂,就是在描述畫面構成。


      而這是給Nano Banana Pro的提示詞??雌饋砭拖馪ython代碼一樣,通過函數和()來控制生成的圖片。


      在涉及計數、方位布局、多物體屬性綁定(Attribute Binding)等精確控制任務上,Nano Banana Pro表現出色。它能清晰區分不同對象的屬性歸屬,避免了擴散模型常見的“屬性泄露”問題(如將紅杯子的顏色錯誤渲染到藍杯子上)。

      當然,GPT-4o依然保有其獨特的生態位。其優勢在于推理速度與基于RLHF(人類反饋強化學習)調優后的審美直覺。

      由于剝離了復雜的邏輯推理環節,其生成效率更高,且更能迎合大眾對高飽和度、戲劇化光影的視覺偏好。對于追求視覺沖擊力而非邏輯嚴謹性的通用場景,GPT-4o依然是高效的選擇。

      然而,當需求從“好看”轉向“準確”,從“相關性”轉向“因果性”,Nano Banana Pro所代表的“先思考、后執行”模式便構成了降維打擊。它犧牲了部分的生成速度與討好眼球的濾鏡感,換取了對物理邏輯的忠實還原。

      02

      橘生淮南則為橘,生于淮北則為枳。Nano Banana Pro和GPT-4o之所以會有如此的差距,正是因為其開發者,谷歌和OpenAI在AI這條路上,選擇兩種完全不同的發展方向。

      谷歌選擇的是“原生多模態”這條路。

      就是從模型訓練的第一天起,文本、圖像、視頻、音頻就混在一起,扔進同一個神經網絡里讓它學。在Gemini的眼里,一這些事物本質上沒有區別,都是數據。它不需要先把圖片翻譯成文字,再去理解文字。

      這就像一個人從小就會說中文、英文、法文,這三種語言在他腦子里是同時存在的,他不需要先把英文翻譯成中文再思考。

      而OpenAI走的是“模塊化拼接”這條路。

      它的邏輯是,讓專業的人做專業的事。GPT-5負責理解語言和邏輯推理,GPT-4o負責生成圖像,Whisper負責處理語音。

      每個模塊都做得很好,然后通過API把它們連起來。這就像一個團隊,有文案、有設計師、有程序員,大家各司其職,通過開會和文檔來協作。

      這兩種路線,沒有絕對的對錯,但會導致完全不同的結果。

      谷歌最大的優勢,來自于YouTube。這是全世界最大的視頻庫,里面有幾十億小時的視頻內容。這些視頻不是靜態的圖片,而是包含了時間序列、因果關系、物理變化的動態數據。Gemini從一開始就是“看這些視頻長大的”。

      換句話說,Gemini從誕生之初,就理解物理世界的基本運行邏輯。杯子掉在地上會摔碎,水倒進杯子里會形成液面。這些東西不是靠文字描述學來的,而是通過看真實世界的視頻,自己總結出來的。

      所以當你讓Nano Banana Pro畫“一個杯子從桌子上掉下來的瞬間”,它不會畫出一個漂浮在空中、姿態僵硬的杯子。它會畫出杯子在下落過程中的傾斜角度,杯子里的水濺起來的形態,甚至是杯子即將觸地時周圍空氣的擾動感。因為它見過太多這樣的場景,它知道真實世界是怎么運作的。


      除了YouTube,谷歌還有另一個護城河:OCR。谷歌做了幾十年的光學字符識別,從Books到Lens,谷歌積累了全球最大的“圖片-文字”對齊數據庫。這直接導致了Gemini在文字渲染上的碾壓性優勢。

      它知道漢字在圖片里應該長什么樣,知道不同字體、不同大小、不同排列方式下,文字應該怎么呈現。這也是為什么Nano Banana Pro能精準識別漢字。

      反觀OpenAI,它的起家靠的是文本。從GPT-1到GPT-3再到GPT-5,它在語言模型上一路狂奔,確實做到了世界頂級。但視覺能力是后來才加上去的。

      DALL-E早期是獨立發展的,訓練數據主要來自網絡抓取的靜態圖片,來自Common Crawl這樣的數據集。這些圖片質量參差不齊,而且都是靜態的,沒有時間維度,沒有物理過程,沒有因果關系。

      所以DALL-E學到的,更多是“這個東西大概長這樣”,而不是“這個東西為什么長這樣”或者“這個東西會怎么變化”。它可以畫出一只很漂亮的貓,但它不理解貓的骨骼結構,不理解貓的肌肉如何運動,不理解貓在跳躍時身體會呈現什么姿態。它只是見過很多貓的照片,然后學會了“貓長這樣”。

      更關鍵的是訓練方式的差異。

      正是因為OpenAI走的是RLHF路線。所以他們雇了大量的人類標注員,給生成的圖片打分:“這張好看嗎?”“這張更符合要求嗎?”標注員們在選擇的時候,自然而然會傾向于那些色彩鮮艷、構圖完美、皮膚光滑、光影戲劇化的圖片。

      這導致GPT-4o被訓練成了一個“討好型人格”的畫家。它學會了怎么畫出讓人眼前一亮的圖,學會了怎么用高對比度和飽和色來抓住眼球,學會了怎么把皮膚修得像瓷器一樣光滑。但代價是,它犧牲了物理真實感。

      GPT-4o生成的圖片,有一種很典型的“DALL-E濾鏡”。皮膚像涂了蠟,物體表面特別光滑,光影過度戲劇化,整體感覺就是“一眼假”。它不敢畫出皮膚上的毛孔,不敢畫出布料的褶皺,不敢畫出不完美的光照。因為在訓練過程中,那些帶有瑕疵的、粗糙的、不那么“美”的圖片,都被標注員打了低分。

      而谷歌沒有走這條路。Gemini的訓練更注重“真實”而不是“美”。世界本就如此,它沒有書本里描繪的那么美。

      03

      那么谷歌又是如何追上OpenAI,以至于讓奧特曼發內部信來強調危機感的呢?

      谷歌選擇在“準確性”和“邏輯”上發力。谷歌將其稱為“Grounding”,也就是“接地氣”,也就是“真實性”。

      為了實現這個目標,谷歌把思考過程,引入了圖像生成過程。這個決策會大大增加計算成本,因為在生成圖像的時候加入推理步驟,生成速度也就變慢了。但谷歌判斷這個代價是值得的,因為它換來的是質的提升。

      當你給Nano Banana Pro一個提示詞,比如“畫一個廚房,左邊是冰箱,右邊是灶臺,中間的桌子上放著三個碗”,模型不會直接開始畫。它會先啟動思維鏈:

      首先,識別場景類型:廚房。然后,識別對象:冰箱、灶臺、桌子、碗。接著,確定空間關系:冰箱在左,灶臺在右,桌子在中間。再確定數量:三個碗。然后推理物理邏輯:廚房里通常會有什么光源?桌子應該離冰箱和灶臺多遠才合理?三個碗應該怎么排列?最后,確定視角和構圖:從什么角度看這個場景最合適?

      這一整套思考完成后,模型會在內部生成一些“思考圖像”,這些圖像用戶看不到的,但它們幫助模型理清了思路。最后,模型才開始生成真正的輸出圖像。

      這個過程看起來復雜,但它解決了一個核心問題:讓模型“理解”而不是“猜測”。

      GPT-4o以及市面上絕大多數生成圖片的模型,都是靠概率猜,“用戶說廚房,那我就把我見過的廚房元素拼起來,大概就對了?!?/p>

      而Nano Banana Pro則是真正去理解廚房這個概念:“用戶說廚房,廚房是用來洗菜做飯的,所以這個廚房需要滿足這些空間關系和物理邏輯,我要按照這個邏輯來構建?!?/p>

      反觀OpenAI,它目前的策略是把最強的推理能力集中在o1系列模型上,也就是之前代號為Strawberry的項目。o1在數學推理和代碼生成上確實很強,它能解決一些人類數學家都覺得有挑戰的問題,能寫出復雜的算法代碼。

      至于圖像生成,OpenAI的判斷是:目前GPT-4o的“直覺式”生成已經足夠好了,足夠維持用戶體驗,足夠在市場上保持領先,并不需要繼續提升。

      還有一個因素是產品理念的差異。OpenAI一直強調的是PMF,也就是Product-Market Fit,產品市場契合度。它的策略是“快速迭代,快速驗證”。

      DALL-E 3只要能通過提示詞和GPT-4拼起來用,那就先發布,先占領市場。后臺的架構可以慢慢改,用戶看不見的地方可以慢慢優化。

      這個市場策略被稱為“膠水科技”,其最大的弊端在于積累的技術債太多了。當你一開始選擇了模塊化拼接的架構,后面想要改成原生多模態,就不是簡單地加幾行代碼的問題了。這可能需要重新訓練整個模型,需要重新設計數據管道,需要重新構建工具鏈。

      谷歌慢工出細活,可他們也有自己的難處。

      原生多模態模型的維護成本也更高。如果你想提升圖像生成能力,就需要調整整個模型。這就是為什么,Nano Banana Pro只能伴隨著Gemini 3的更新,沒辦法自己單獨更新。

      這種“按下葫蘆浮起瓢”的問題,在模塊化架構里就不存在,因為當你你只需要優化圖像生成模塊,根本不用擔心影響到文本模塊。

      所以OpenAI確實沒辦法訓練出來Nano Banana Pro。

      然而這并不意味著谷歌可以高枕無憂了,因為AI領域迭代速度太快了。我敢打賭,不出半個月,就會有一大幫生圖模型問世,直接對標Nano Banana Pro。


      歡迎在評論區留言~
      如需開白請加小編微信:dongfangmark


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國網貸技術全球領先,為啥出海收割老外卻慘???

      中國網貸技術全球領先,為啥出海收割老外卻慘敗?

      流蘇晚晴
      2025-12-14 16:17:52
      國足有戲!南美足聯主席再次呼吁:下下屆世界杯擴軍到64隊!

      國足有戲!南美足聯主席再次呼吁:下下屆世界杯擴軍到64隊!

      邱澤云
      2025-12-15 16:02:35
      中國“摸著石頭過河”數十年,“石頭”終于快被摸完了

      中國“摸著石頭過河”數十年,“石頭”終于快被摸完了

      朔方瞭望
      2025-11-08 11:29:44
      身價上億有什么用?68歲趙本山如今家庭情況,給中老年人提了個醒

      身價上億有什么用?68歲趙本山如今家庭情況,給中老年人提了個醒

      白面書誏
      2025-12-08 13:24:49
      臺海觀瀾 民進黨成了“民禁擋”,賴清德成了“賴獨裁”

      臺海觀瀾 民進黨成了“民禁擋”,賴清德成了“賴獨裁”

      經濟觀察報
      2025-12-15 11:05:39
      賈躍亭和仨兒女美國團聚,甘薇給他準備了桃酥,賈總樂開了花

      賈躍亭和仨兒女美國團聚,甘薇給他準備了桃酥,賈總樂開了花

      阿廢冷眼觀察所
      2025-12-03 10:52:47
      中國足球留洋利好:大黑將志首次成為日本職業聯賽主教練!

      中國足球留洋利好:大黑將志首次成為日本職業聯賽主教練!

      邱澤云
      2025-12-15 16:08:36
      700億騙局曝光,專門收割有錢人,上海貴酒到底有多瘋狂?

      700億騙局曝光,專門收割有錢人,上海貴酒到底有多瘋狂?

      毒sir財經
      2025-12-14 23:15:34
      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      蕭竹輕語
      2025-12-05 17:38:25
      大回暖真來了:南方將迎春天或初夏般溫暖,新一輪大降溫雨雪已醞釀

      大回暖真來了:南方將迎春天或初夏般溫暖,新一輪大降溫雨雪已醞釀

      中國氣象愛好者
      2025-12-15 23:34:11
      東盟也要變天了,印尼終于清醒,柬埔寨被摁著摩擦不是偶然的,不是柬王室的事,柬埔寨洪森是掌控柬埔寨的實權人物,王室被架空了?

      東盟也要變天了,印尼終于清醒,柬埔寨被摁著摩擦不是偶然的,不是柬王室的事,柬埔寨洪森是掌控柬埔寨的實權人物,王室被架空了?

      軍霆說
      2025-12-16 01:18:17
      他在失蹤網站看到和自己一模一樣的臉,竟由此破獲30多年謎案…

      他在失蹤網站看到和自己一模一樣的臉,竟由此破獲30多年謎案…

      英國那些事兒
      2025-12-14 23:06:36
      宗慶后DNA被調取,3個私生子力證血緣關系,宗慶后72歲生小兒子?

      宗慶后DNA被調取,3個私生子力證血緣關系,宗慶后72歲生小兒子?

      削桐作琴
      2025-07-14 20:20:04
      冬煮蘋果水,內熱自己退!3種神仙搭配,清內熱、養脾胃、補津液

      冬煮蘋果水,內熱自己退!3種神仙搭配,清內熱、養脾胃、補津液

      江江食研社
      2025-12-13 16:30:08
      最新消息!廣東再發消費券

      最新消息!廣東再發消費券

      廣東發布
      2025-12-15 21:25:31
      所有人不許吃肉?準大一素食女生發文求助,網友:誰做她室友誰倒霉

      所有人不許吃肉?準大一素食女生發文求助,網友:誰做她室友誰倒霉

      趣筆談
      2025-08-18 15:51:25
      中國凍結巖崎茂在華資產;同時不再向日本提供熊貓

      中國凍結巖崎茂在華資產;同時不再向日本提供熊貓

      跟著老李看世界
      2025-12-16 00:01:14
      12月事業財運雙雙登頂的星座TOP3!

      12月事業財運雙雙登頂的星座TOP3!

      朗威談星座
      2025-12-16 06:50:21
      洪森危險了,不在佩通坦報復,而是馬仔陳志的150億比特幣被抄!

      洪森危險了,不在佩通坦報復,而是馬仔陳志的150億比特幣被抄!

      南宮一二
      2025-10-26 07:52:25
      遼寧最多領先21分吊打衛冕冠軍 威爾斯成王牌王嵐嵚填趙繼偉空缺

      遼寧最多領先21分吊打衛冕冠軍 威爾斯成王牌王嵐嵚填趙繼偉空缺

      醉臥浮生
      2025-12-15 21:40:03
      2025-12-16 08:11:00
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      239文章數 236關注度
      往期回顧 全部

      科技要聞

      L3車型可以上路了!重慶北京兩款車獲批

      頭條要聞

      天津警察學院兩干部論文查重率超70% 校方:官方沒認定

      頭條要聞

      天津警察學院兩干部論文查重率超70% 校方:官方沒認定

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      親子
      家居
      旅游
      時尚
      公開課

      親子要聞

      寶寶為啥一出門就不鬧了?真相不是“看新鮮”,90%家長沒琢磨透

      家居要聞

      溫暖色調 大空間不冷清

      旅游要聞

      免簽、直航助力中俄旅游雙向升溫

      外套+半身裙封神穿搭!6款顯瘦神器保暖不臃腫,冬天美得出彩

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精选成人| 中文字字幕在线中文无码| 久久久久亚洲av成人网址| 99久久国产综合精品麻豆| 成人国产精品日本在线观看| 亚洲wwww| 济宁市| 人妻无码人妻| 满洲里市| 青草青草视频2免费观看| 无码国产精品一区二区色情男同 | 鲁山县| 又黄又爽又色的免费网站| 在线人人车操人人看视频| 亚洲高清毛片一区二区| 91网站免费| 日韩无毛| xx性欧美肥妇精品久久久久久 | 亚洲AV无码不卡在线播放| 国产尻逼| 国内偷拍精品人妻| 97久久草草超级碰碰碰| 国产精品无码素人福利不卡| 亚洲AV日韩AV激情亚洲| 合山市| 国产sm调教折磨视频| 国产亚洲精品日韩香蕉网| 久久精品蜜芽亚洲国产AV| 国产精品???A片带套| 色欲色香综合网| 18禁裸乳无遮挡自慰免费动漫 | 人妻中文网| 欧美成人aaa片一区国产精品| 日本国产精品第一页久久| 狠狠干天天撸| 人妻?日韩?中文?无码?制服| 韩国精品一区二区三区四区| 亚洲日韩一区二区| 无码人妻AⅤ一区二区三区A片一| 景泰县| 欧美日产国产精品|