出品 | 網易智能
作者 | 小小
編輯 | 王鳳枝
AI畫圖,又變天了。
4月22日凌晨,OpenAI正式發布ChatGPT Images 2.0。
![]()
真正讓圈內炸開的不是它又能畫出多少神圖,而是它終于開始先想再畫了,也就是先推理、先搜索、先讀文件再把圖交出來。過去最容易翻車的菜單、小字、海報和信息圖,這一次突然都有了能直接拿來用的味道。
從今天起所有ChatGPT和Codex用戶都能使用基礎版本,付費訂閱用戶則可解鎖思考模式等高級功能。與此同時底層模型gpt-image-2也已通過API對外開放。
01兩年前拼錯菜名現在菜單可以直接掛上墻
如果你還記得2024年用DALL-E 3生成墨西哥餐廳菜單的樣子,大概會對那些憑空捏造的菜名記憶猶新。當時生成的單詞諸如enchuita和churiros以及burrto甚至margartas,沒有一個詞是拼對的。當時的擴散模型處理圖像中的文字時本質上是在從噪聲里重建像素,文字只是畫面中微不足道的一小部分,模型壓根學不會把這些特定模式的像素排對。
![]()
現在完全不一樣了。向ChatGPT Images 2.0索要同樣一份墨西哥菜單,出來的成品可以直接拿去印刷。不僅菜品名稱拼寫正確且排版清晰規整,連價格都老老實實標在上面。當然售價13.5美元的酸橘汁腌魚可能讓你對食材產生一絲懷疑,畢竟在舊金山這個價格買到的海鮮大概只夠喂貓,但至少菜單本身看不出任何破綻。
這種跨越源于底層架構的徹底重構。OpenAI GPT圖像生成技術研究負責人陳博遠在媒體簡報會上把新模型描述為通才模型或圖像的生成式預訓練變換器,強調其能通過文本提示處理三維風格的視角轉換和復雜的空間推理。
雖然他沒有確認具體用的是擴散模型還是自回歸技術但效果是實打實的。小號文字、圖標、用戶界面元素、密集構圖以及微妙的風格限制,這些過去讓圖像模型頻頻翻車的精細內容現在都能穩定渲染,且分辨率最高支持2K。
更直觀的對比來自開發者西蒙·威利森(Simon Willison)的測試。他讓新舊模型分別生成一張沃利在哪里風格的尋物圖,目標是找到一只拿著業余無線電的浣熊。舊版模型生成的畫面內容豐富,但翻遍整張圖也找不到浣熊的影子。新模型在設置為高畫質及3840×2160像素后,吐出了一張17MB的復雜圖像,那只浣熊正安安靜靜地坐在左下角的業余無線電攤位里并且清晰可辨。
![]()
AI計算服務公司Hyperbolic Labs聯合創始人金宇宸試用后說剛剛試了ChatGPT Images 2.0真的非常棒。他驚嘆OpenAI終于再次在圖像生成領域引領了方向。
![]()
02生成之前先打草稿:模型會搜索會推理會自己檢查作業
ChatGPT Images 2.0最關鍵的升級不是畫得更精細,而是多了一套思考流程。
傳統圖像模型的工作方式像一個黑箱,你丟進提示詞它直接吐出圖像。而ChatGPT Images 2.0的思考模式(面向付費用戶開放)在渲染第一個像素之前會先花時間做準備工作。它會搜索網絡獲取最新信息,分析用戶上傳的文件內容,通過推理規劃圖像的結構布局并甚至對生成結果做一遍自我檢查。
OpenAI ChatGPT Images產品負責人李·艾德麗(Adele Li)在媒體演示中上傳了一份關于內部產品策略的復雜演示文稿。模型沒有簡單地配一張相關圖片了事,而是綜合了文檔里的核心數據并識別了正確的標志,最終生成了一張專業海報且完整保留了原始文件的風格特征。
這種能力讓模型可以承擔從想法到圖像之間更多的中間活。當用戶需要一張舊金山次日天氣預報及推薦活動信息圖時,模型會主動去獲取當地的實時天氣數據,在圖像中準確呈現雨天的細節,同時畫出渡輪大廈、卡斯特羅劇院、彩繪仕女屋和泛美金字塔等舊金山地標的輪廓。用戶不需要事無巨細地描述每個元素,模型拿自己的知識儲備把空白填上了。
模型的知識截止日期更新至2025年12月,也就是說它能處理涉及近期事件和當下語境的圖像需求。對于需要事實基礎的視覺任務比如制作教育資料、產品宣傳物料和內部培訓圖表,這一能力大幅降低了用戶的工作量。
沃頓商學院教授伊桑·莫利克(Ethan Mollick)過去幾周一直在測試ChatGPT Images 2.0。他說自己原本不覺得更好的圖像生成器是什么大事,但事實證明存在一個他沒預料到的質量門檻,一旦跨過去就能生成高質量的文字內容和幻燈片以及學術海報。
![]()
他拿自己著名的水獺測試做了演示,展示了模型生成復雜教學材料的能力。不過莫利克同時提醒模型仍然有典型的圖像生成通病。它在反復編輯修改時會變得非常頑固,前兩次調整效果不錯之后就開始磨洋工,這時候把圖像放進新對話重新開始會更有效。
03一次生成八張圖讓漫畫和繪本以及社交素材的流水線來了
對于需要批量產出視覺內容的創作者來說,ChatGPT Images 2.0提供了一個立竿見影的效率工具,即一個提示可以一次性生成最多八張圖,而且系列之間的角色、物體和風格能保持高度一致。
這意味著什么?一個兒童繪本的故事板以前得一次一次地生成,每次都要重新描述主角長什么樣、穿什么衣服、背景是什么色調并祈禱模型記住之前的設定。現在只需要一次提示八張連貫的畫面同時出來,角色從第一頁到最后一頁都長一個樣。
同樣的邏輯適用于漫畫分鏡、社交媒體多圖發布以及房屋各房間的設計方案。艾德麗指出這解決了用戶過去必須一次提示一張圖然后手動拼接的繁瑣流程。OpenAI官方發布說明里寫道圖像是一種語言而非裝飾。一幅好圖像所做的正如一個好句子所做的選擇、安排、揭示。
OpenAI聯合創始人兼CEO山姆·奧特曼(Sam Altman)在社交媒體上發了一部由ChatGPT Images 2.0生成的漫畫,內容是他和另一位用戶尋找更多GPU的故事。
![]()
OpenAI總裁格雷格·布羅克曼(Greg Brockman)也評論說真的難以置信,你現在用一點計算資源就能造出這樣的東西。他說自己對教育、專業環境比如幻燈片和營銷材料,以及生產力領域比如給代碼文檔配圖表的新應用感到極度興奮。
![]()
04從日語菜單到印地語海報讓非拉丁文字終于不用再鬼畫符
OpenAI在發布說明中把ChatGPT Images 2.0的多語言文本渲染能力稱為顯著進步,具體點名了日語、韓語、中文、印地語和孟加拉語。在官方展示的樣本中水循環教育圖表的韓文標注清晰工整,字符結構完整且跟畫面融合得很自然。
但樣本歸樣本。《連線》雜志記者里斯·羅杰斯(Reece Rogers)讓模型生成了一張提莫西·查拉梅(Timothée Chalamet好萊塢明星)主題的中國粉絲拼貼海報。輸出畫面包含超過二十處中文文本片段以及餃子、珍珠奶茶和熊貓的圖像,視覺效果繁復熱鬧。
![]()
羅杰斯隨后讓聊天機器人翻譯這些文字,機器人的回復倒是很誠實,它指出其中有些文本并非準確的中文句子,部分混入了日語字符,還有一些更像是模仿東亞粉絲文化風格的裝飾性文字。但在網易智能看來,模型生成的中文圖像在視覺完成度上已經相當能打,日常使用中完全可以接受。
這和兩年前的情況形成了鮮明對比。彼時AI圖像里的中文連基本的筆畫結構都撐不住,一眼就能看出是機器瞎編的。現在模型不僅能正確渲染大部分常用漢字,在排版、字號搭配和畫面融合上也明顯更自然了。當然,如果拿著放大鏡逐字檢查,偶爾還是會發現個別字符不夠規范,但對于海報、社交素材、信息圖這類實際使用場景來說,已經跨過了"可用"的門檻。OpenAI所說的多語言"質的飛躍",在中文上或許還不算滿分,但已經是一個扎實的高分。
05手外科醫生的非正式評估:X光片好得嚇人但解剖圖還是別用
前面聊的都是創意、設計、營銷場景也就是海報、菜單、漫畫、社交媒體素材。這些場景對圖像的容錯率相對寬松,排版好看且氛圍到位就算合格。但如果把模型扔進一個容錯率幾乎為零的領域它還扛不扛得住?
美國知名顯微外科與手外科專科醫療機構The Buncke Clinic的手部醫生布萊恩·普里根(Brian Pridgen)對新模型做了自己的非正式評估。他生成了一張手部X光片和一份腕管綜合征信息傳單。結論是喜憂參半。
![]()
好消息是那張AI生成的X光片是他見過的最好的AI手部X光片。腕骨區域的解剖結構尤其復雜而模型處理得相當不錯。他說橈骨遠端有一個奇怪的特征但不確定自己能不能一眼認出這是AI畫的。醫療圖像里看起來正確和實際上正確之間的差距正在迅速縮小。
壞消息是那份腕管信息傳單雖然設計精致但解剖結構過于不準確完全沒法用。這提醒人們在高專業門檻的場景里,模型的視覺表現力和事實準確性之間仍然存在巨大鴻溝。它可以把一件事畫得很像那么回事,但當細節關系到診斷、教學或實際操作時,像絕對不等于對。
在LMArena人工智能匿名測試平臺上,ChatGPT Images 2.0以化名duct tape進行了數周的秘密測試。研究者阿納斯塔西奧斯·安杰洛普洛斯(Anastasios Nikolas Angelopoulos)的評價是,這個模型把競技場排行榜搞得天翻地覆并創造了競技場歷史上最大的評分差距。
![]()
早期測試用戶已經用它生成了包含長篇文本塊或不同文本面板的復雜圖像、逼真的網站界面截圖、真實人物肖像以及融入網絡搜索結果的綜合圖像。
06安全與定價:三層權限體系下生成一張高清圖約0.4美元
在能力大幅躍升的同時OpenAI同步調整了使用權限和定價。
基礎版ChatGPT Images 2.0向所有ChatGPT和Codex用戶開放。這包括更好的指令遵循、更強的文本渲染、多語言能力、從三比一寬幅到一比三高幅更廣泛的寬高比以及更精致的輸出質量。
思考功能面向ChatGPT Plus、Pro和Business用戶開放(企業版即將推出)。這包括工具使用、網絡搜索和多圖像生成能力。在此之上Pro用戶還能用到更高級的圖像生成功能。OpenAI沒有公布三個層級之間精確的功能邊界,但從現有信息看思考模式是絕對的核心分水嶺。它讓模型從畫得快變成想得深,代價是生成速度變慢因為背后多了推理和搜索的步驟。
API用戶可以接入gpt-image-2模型,支持最高4K分辨率(測試階段)和靈活的寬高比選項。定價方面圖像輸出每百萬token收費30美元。拿威利森的浣熊沃利測試來說,那張高清圖消耗了13342個輸出token且總成本約0.4美元。
OpenAI同時確認GPT-Image-1.5將不再作為默認模型,但仍可通過API獲取以提供舊版支持。這一過渡充分說明公司對2.0模型的信心。
結語:AI畫圖正式進入推理時代
ChatGPT Images 2.0的發布不只是參數或畫質的提升。它標志著圖像生成從根據提示畫畫向理解任務并系統執行的轉變。
過去用戶和AI圖像工具之間始終存在一個意圖差距。腦子里想要的是一張結構清晰、信息準確且可直接拿來用的圖,但模型只能吐出一個差不多的畫面,剩下的細節得自己開設計軟件修補。ChatGPT Images 2.0試圖用推理能力徹底填上這個差距。
當用戶上傳一份文檔要求做成信息圖,模型不再只是畫一張看起來相關的圖片,而是分析文檔里的數據結構,規劃信息層級并安排圖文布局,最后生成一張邏輯自洽的成品。OpenAI管這個叫從工具到視覺系統的跨越式轉變。
這對商業用戶來說意義很直接。營銷團隊可以用它快速產出不同尺寸的廣告素材,教育工作者可以用它做包含測驗題的多頁學習手冊,產品經理可以用它把內部文檔直接轉成演示用的視覺方案。等模型思考多花的那一分鐘,跟手動設計要花的幾個小時比起來怎么算都劃算。
當然問題依然存在。模型在反復編輯時的頑固傾向、非英語語言的準確度波動以及專業領域知識的可靠性邊界,這些都需要在實際使用中認真對待。
威利森的測試還揭示了一個有趣的陷阱。當他要求模型在自己生成的那張找不到浣熊的圖里用紅圈標出浣熊時,模型居然在畫面中憑空畫出了一只原本不存在的浣熊然后圈了出來。這說明在涉及自身輸出的自檢任務中模型的可靠性仍然需要打個問號。
但無論如何ChatGPT Images 2.0把圖像生成帶進了一個全新的競爭階段。在谷歌Nano Banana 2于今年2月發布以及微軟MAI-Image-2等競品相繼出現的背景下,OpenAI用這款產品強勢回應了市場對更聰明而不只是更精細的圖像工具的期待。
從工具到視覺系統,這一步跨過去之后用戶不再需要學習怎么跟機器說話,因為機器已經開始學習怎么聽懂你的話了。
