![]()
新智元報道
編輯:元宇
【新智元導讀】被Google按了半年頭,OpenAI終于祭出一記反殺。GPT Image 2上線12小時,就登頂Arena文生圖榜,領先Nano Banana 2達241分。Arena官方稱,這是Image Arena文生圖排行榜迄今最大的分差。
發布當天,三榜通殺。
GPT Image 2上線12小時,Text-to-Image(文生圖)、Single-Image Edit(單圖編輯)、Multi-Image Edit(多圖編輯)三個分榜全部登頂。
Arena官方原話:「a clean sweep」(全勝)。
![]()
文生圖主榜,GPT Image 2 1512分,Nano Banana 2 1271分。241分差距,Arena史上最大。
「沒有任何模型曾以這種差距統治過Image Arena」,Arena官方表示。
在Image Arena所有盲測對決中,GPT Image 2的勝率是93%:100張圖配對盲選,93張人們選了OpenAI那張。
「如果把DALL-E看作洞穴壁畫,把Images 1.0視為古代藝術,那么Images 2.0就是文藝復興」。
OpenAI在發布會開場中這樣介紹Images 2.0,奧特曼更是將它稱作跨代升級:
這好像一下子從GPT-3躍升到了GPT-5。
![]()
https://www.youtube.com/watch?v=sWkGomJ3TLI
OpenAI官方API文檔對Images 2.0給出了一個最高級的評價。
![]()
https://developers.openai.com/api/docs/models/gpt-image-2
但真正的故事,并不在數據里。
被Google壓了半年
OpenAI總算扳回一局
時間倒回2025年8月。
Google放出了Nano Banana。這個在Gemini里嵌入的圖像生成模型,在C端瞬間引爆。
三個月后的Q3財報會上,Google CEO Sundar Pichai親口披露了一組數字:Gemini月活,從7月的4.5億漲到10月的6.5億。
Google Labs負責人Josh Woodward稱,這一增長很大程度上來自Nano Banana帶動的圖像生成熱潮。
11月,Google再發Nano Banana Pro。文本渲染能力驚艷,AI圖像第一次能把字寫對,OpenAI在C端被反超。
11月18日,Google再補一刀。Gemini 3發布即登頂LM Arena,1501分,首個突破1500的前沿模型。
這一月底,奧特曼對全公司發了一份「紅色警戒」(code red)的內部備忘錄。
據The Information報道,奧特曼私下告訴員工,Gemini 3可能給OpenAI帶來經濟逆風。Yahoo Finance后續披露:code red之下,OpenAI暫停了AI Agent等其他產品的研發,資源全部傾斜到ChatGPT。
12月,OpenAI倉促拿出GPT Image 1.5。Arena第一,但C端沒能引爆。
2026年2月,Google再補一刀,Nano Banana 2登場,Arena再度領先。
OpenAI又輸了一次。
一直到4月21日,GPT Image 2上線,OpenAI這才實現反超,重新扳回一局。
畫圖AI將被重新定義
GPT Image 2憑什么能領先241分?
核心答案藏在架構層面。
GPT Image 2不是Stable Diffusion那一代的擴散模型。
OpenAI研究負責人Boyuan Chen稱這是「revamped from scratch」(從零重構)的「generalist model」(通用模型),OpenAI的內部叫法是「圖像版的GPT」。
但Chen在press briefing時拒絕公開承認它具體是擴散還是自回歸架構。
外界普遍把它理解為「帶推理規劃的圖像生成系統」:畫之前先規劃,再下筆。這正是GPT Image 2和上一代圖像模型最大的不同。
OpenAI在官方說明里給了它一個新標簽:首個具備原生思考能力的圖像模型(image model with native thinking capabilities)。
畫之前先想、畫完自己檢查、需要時聯網搜索資料、一次能產出8張前后連貫的圖。
這不是畫筆,是會思考的視覺助理。
Arena榜單分項數據顯示:
文字渲染(Text Rendering)單項,GPT Image 2比前代漲了316分;卡通動漫和人像各漲296分;3個產品/3D/寫實分類,整體在+247到+277分區間。
文字渲染是2025年11月Nano Banana Pro首次解決的問題,但當時準確率94%。GPT Image 2把它推到了99%。
![]()
OpenAI發布會現場演示:讓GPT Image 2畫一碗米飯,其中只有一粒米上寫有模型名字。
具體到能力展示,OpenAI總裁Greg Brockman在自己的X賬號上做了示范。
第一個案例,老照片修復。
![]()
褪色發黃的家庭老照片,一個提示詞,立刻變身高清彩色版。
OpenAI官方API文檔里那句「high-fidelity image inputs」(高保真圖像輸入),說的就是模型對原圖細節的保留能力:輸入端能精確讀取褪色的、破損的、模糊的老照片細節,輸出端才能重新渲染出清晰版。
第二個案例中,Brockman轉發了用戶@doodlestein的一組測試圖:用同一個復雜提示詞讓GPT Image 2畫一張數學解釋圖。
他評價說,即便是復雜提示詞,GPT Image 2也能生成風格各異的圖。
![]()
![]()
@doodlestein 測試GPT Image 2用同一個提示詞畫一張線性代數解釋圖。模型一口氣畫出4個完全不同的版本:同樣是Mona Lisa+特征向量教學,每個版本的構圖、配色、信息密度完全不同。
這個案例真正價值不在「能畫數學圖」,而是解決了過去兩年中AI生圖的一個重要的痛點:輸出單一、變體可控性差。
GPT Image 2第一次讓「一個prompt給我4個完全不同的方向」變成了產品級能力。
業內一位LM Arena資深測試者點評道:
GPT Image 2和Nano Banana Pro之間的差距,跟Nano Banana Pro和DALL-E之間的差距一樣大。
跨了整整一代。
![]()
GPT Image 2 Thinking模式生成的manga風格漫畫頁:從一個簡單提示詞出發,模型保持角色一致性、鋪出多格劇情。
DALL-E退役
Adobe Canva被逼到墻角
發布當天,下游工具集成的速度比技術圈預期的還快。
Figma、Canva、Adobe Firefly、fal、Hermes Agent,全部在4月21日當天完成集成。
API定價更是暗藏殺機:
高質量出圖$0.21一張;ChatGPT Plus $20一個月,圖像生成已經包含在套餐里。
這個差價背后,可能帶來2026年圖像生成行業最大的產業重構。
![]()
GPT Image 2生成的photorealistic candid(寫實抓拍)。海岸、陰天、復古車、膠片質感——這種過去要專業攝影師外拍+后期才能達到的視覺效果,現在API $0.21一張。OpenAI研究員Gabriel Goh說,photorealism是他對這個模型最興奮的能力。
5月12日,DALL-E 2和DALL-E 3正式退役。
它們是2022年開啟了整個AIGC視覺革命的開山祖師。三年后,被OpenAI自家的繼承者,親手送入歷史。
OpenAI在官方發布說明里提到:
圖像不是裝飾,是語言。一張好圖做的事和一個好句子一樣:選擇、排列、揭示。
這代表了一種產品哲學的轉向。
當然,也不是沒有反方聲音。ZDNet在實測中發現,GPT Image 2無法準確復刻品牌logo,連ZDNet自己的logo都被畫歪了。
Nano Banana 2在portrait realism和multi-reference一致性上仍有優勢。
GPT Image 2雖然還不夠完美,但賽道格局已經出現了變化。
渲染時代結束了
推理時代剛開始
Google把推理塞進圖像模型里。OpenAI把圖像工具塞進推理模型里。242分Elo差距測的就是二者架構上的差異。
implicator.ai的這句評價,劃分了圖像生成的兩個時代。
2022到2025年,是渲染時代。
DALL-E、Midjourney、Stable Diffusion,目標都是「畫得像」。模型是畫筆,用戶是畫師,prompt是畫稿。
GPT Image 2代表的是一個推理時代。
模型先思考再下筆,能搜索、能自檢、能完成任務。它不是畫筆,是會畫畫的助手。
GPT Image 2發布真正值得重視的,是圖像生成走向「會思考」這件事本身。
短期看,Black Forest Labs(Flux 2)麻煩可能最大。
Kingy AI直言:作為diffusion-first(擴散為先)的廠商,Flux 2的整條技術流水線在架構上和「token-by-token」的推理路線是沖突的。
要么融合,要么重寫,沒有第三條路。
中期看,Google可能會在下個季度反擊。Nano Banana 3,或者Imagen-Reason,時間不會太久。
長期看,這件事的影響遠不止圖像生成。
當AI開始用「思考」來產出圖像、視頻、音頻、代碼,整個生成式AI的范式都會跟著發生變化。
去年12月,奧特曼在備忘錄里敲下「code red」的時候,應該沒想到五個月后會以這種方式回到Arena榜首。
但這次反殺的真正意義,可能不是OpenAI贏了Google,而是OpenAI改寫了圖像生成賽道的規則。
![]()
Arena.AI單圖編輯榜(Image Edit Arena):GPT Image 2 (medium) 仍以1510+分繼續登頂,第二、三、四、五名全部被OpenAI自家模型和Google Gemini系列占據。https://arena.ai/leaderboard/image-edit
Google下一拳什么時候出?這個問題決定了2026下半年AI格局的走向。
而在那一拳揮出來之前,GPT Image 2會在Arena榜首坐多久,沒人知道。
參考資料:
https://x.com/gdb/status/2048449695622586576
https://arena.ai/leaderboard/image-edit
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.