![]()
編輯:Panda、Youli
北京時(shí)間凌晨 3 點(diǎn),直播準(zhǔn)時(shí)開始,OpenAI 發(fā)布了 ChatGPT Images 2.0。
![]()
- 直播鏈接:https://openai.com/zh-Hans-CN/live/
據(jù)介紹,「ChatGPT Images 2.0 是下一步進(jìn)化:一個(gè)最先進(jìn)的模型,能夠處理復(fù)雜的視覺任務(wù),并生成精確、可直接使用的視覺內(nèi)容。」
似乎也正因?yàn)榇耍琌penAI 發(fā)布的官方博客內(nèi)容還提供了兩個(gè)版本(圖像模式與經(jīng)典模式),其中圖像模式下的內(nèi)容完全是由該模型生成的!
![]()
- 博客地址:https://openai.com/index/introducing-chatgpt-images-2-0/
在博客中,OpenAI 表示:「圖像是一種語言,而不是裝飾。好的圖像,就像好的句子一樣,會進(jìn)行選擇、組織與呈現(xiàn)。它可以解釋機(jī)制,營造氛圍,驗(yàn)證想法,或構(gòu)建論證。」
ChatGPT Images 2.0 模型在細(xì)致遵循指令方面實(shí)現(xiàn)了質(zhì)的躍遷,能夠準(zhǔn)確放置與關(guān)聯(lián)對象,并渲染高密度文本,同時(shí)支持多種寬高比生成。它在構(gòu)圖與視覺審美上的能力,使輸出不再像「AI 生成」,而更像「有意設(shè)計(jì)」。
并且其在多語言環(huán)境下同樣表現(xiàn)準(zhǔn)確,并能利用擴(kuò)展的視覺與世界知識為你補(bǔ)全細(xì)節(jié),從而以更少提示詞獲得更智能的圖像。
為應(yīng)對最復(fù)雜的任務(wù),Images 2.0 首次引入「思考能力」。在 ChatGPT 中選擇 thinking 或 pro 模型時(shí),Images 2.0 可以聯(lián)網(wǎng)獲取實(shí)時(shí)信息,從一個(gè)提示生成多張不同圖像,并對自身輸出進(jìn)行復(fù)核。借助「思考」,模型能夠承擔(dān)從想法到圖像之間更多的工作,尤其在準(zhǔn)確性、時(shí)效性、一致性與視覺統(tǒng)一性至關(guān)重要時(shí)。
結(jié)合 OpenAI 推理模型的智能與對視覺世界的深刻理解,這一模型將圖像生成從「渲染」提升為「策略性設(shè)計(jì)」,從工具進(jìn)化為視覺系統(tǒng),幫助人們將想法轉(zhuǎn)化為可理解、可分享、可教學(xué)、可構(gòu)建的成果。
該能力已從今日起向 ChatGPT、Codex 與 API 的所有用戶開放。
更高的精度與控制力
Images 2.0 為圖像創(chuàng)作帶來了前所未有的具體性與還原度。它不僅能構(gòu)思更復(fù)雜的圖像,還能有效將其實(shí)現(xiàn),能夠嚴(yán)格遵循指令,保留關(guān)鍵細(xì)節(jié),并渲染以往模型容易失真的精細(xì)元素:小文本、圖標(biāo)、UI 元素、高密度構(gòu)圖以及細(xì)微風(fēng)格約束。在 API 中最高支持 2K 分辨率。結(jié)果不再是「差不多」,而是「可以直接使用」。
注意看,下面這張截圖整體上其實(shí)是 Images 2.0 生成的!
![]()
更強(qiáng)的多語言能力
以往圖像生成模型在英語及拉丁字母語言中表現(xiàn)更穩(wěn)定,但在其他語言,尤其是復(fù)雜或密集文本時(shí)精度較低。
Images 2.0 突破了這一限制,在多語言理解上顯著增強(qiáng),尤其是在日語、韓語、中文、印地語與孟加拉語的文本渲染方面有明顯提升。它不僅能正確生成非英語文本,還能保證語言表達(dá)自然流暢。
![]()
這不僅意味著翻譯標(biāo)簽,而是讓語言本身成為設(shè)計(jì)的一部分,從海報(bào)、說明圖,到圖解與漫畫,都能實(shí)現(xiàn)視覺與語言的統(tǒng)一。這使模型具備更強(qiáng)的全球適用性,讓用戶能夠在真實(shí)使用的語言環(huán)境中創(chuàng)作視覺內(nèi)容。
在直播中,OpenAI 圖像研究團(tuán)隊(duì)的成員陳博遠(yuǎn)展示了一個(gè)案例,他給出提示詞:「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」
![]()
結(jié)果生成的海報(bào)完全符合提示詞,且在細(xì)節(jié)上也能夠做到精準(zhǔn)。
![]()
「它非常擅長遵循非常詳細(xì)的指令,所以如果你有非常具體的品牌語言、設(shè)計(jì)美學(xué) —— 所有那些對創(chuàng)意工作至關(guān)重要的東西 —— 你都可以使用 ChatGPT 來創(chuàng)建和完善你的想法,從而得到你想要的結(jié)果。」陳博遠(yuǎn)說道。
更成熟的風(fēng)格表達(dá)與真實(shí)感
Images 2.0 在多種視覺風(fēng)格上的還原度顯著提升。它更擅長捕捉照片的關(guān)鍵特征,包括那些增強(qiáng)真實(shí)感的微小瑕疵,同時(shí)也能穩(wěn)定呈現(xiàn)電影感畫面、像素藝術(shù)、漫畫等多種視覺語言,在紋理、光影、構(gòu)圖與細(xì)節(jié)上更一致。
![]()
因此,模型輸出更貼近指定風(fēng)格,而非近似模仿。這對于游戲原型設(shè)計(jì)、分鏡制作、營銷創(chuàng)意,以及特定媒介或類型的資產(chǎn)創(chuàng)作尤為有價(jià)值。
靈活的寬高比
新模型在輸出形式上更靈活,支持從 3:1 到 1:3 的多種寬高比,可直接適配橫幅、演示文稿、海報(bào)、手機(jī)界面、書簽及社交媒體圖形等不同場景。你可以在提示中指定寬高比,或通過預(yù)設(shè)選項(xiàng)將已有圖像重新生成至新的尺寸。
下面展示了兩個(gè)非常規(guī)寬高比的示例:
![]()
![]()
更強(qiáng)的現(xiàn)實(shí)世界理解
Images 2.0 引入了截至 2025 年 12 月的知識,使生成結(jié)果在相關(guān)性與語境準(zhǔn)確性上更進(jìn)一步。這對于說明圖、教育圖形與可視化總結(jié)尤為關(guān)鍵,因?yàn)樵谶@些場景中,正確性與清晰度與美觀同樣重要。
其智能能力還體現(xiàn)在端到端任務(wù)處理上:整合信息、撰寫內(nèi)容,并以清晰結(jié)構(gòu)、合理留白與良好視覺流進(jìn)行排版。
![]()
視覺思考伙伴
在 ChatGPT 中啟用 thinking 模型后,系統(tǒng)會在后臺進(jìn)行更深入的理解與執(zhí)行。它可以聯(lián)網(wǎng)檢索信息,將上傳材料轉(zhuǎn)化為清晰的視覺說明,并在生成前對圖像結(jié)構(gòu)進(jìn)行推理。
在這種模式下,Images 2.0 更像一個(gè)視覺思考伙伴,幫助你將初步概念推進(jìn)為完整成品,大幅降低工作量。
![]()
它還支持一次生成多張不同圖像,這在 ChatGPT 圖像生成中尚屬首次。這使得諸如多頁漫畫、整屋設(shè)計(jì)方案、系列海報(bào)或多語言多尺寸社交素材等工作流變得高效可行。
你無需逐張生成再手動拼接,只需一次請求,即可獲得最多八張?jiān)诮巧c元素上保持一致、且具有連續(xù)性的輸出。
![]()
在 Codex 中使用圖像生成
Images 能力被整合進(jìn) Codex,使視覺創(chuàng)作、迭代與交付在同一工作空間內(nèi)完成,拓展了其在設(shè)計(jì)、營銷、產(chǎn)品、銷售及學(xué)習(xí)等領(lǐng)域的應(yīng)用。
例如,你可以快速生成多種 UI 方向與原型,比較方案,并將最佳設(shè)計(jì)直接轉(zhuǎn)化為產(chǎn)品或網(wǎng)頁體驗(yàn),無需離開 Codex。通過 ChatGPT 訂閱即可使用,無需額外 API 密鑰。
通過 API 將圖像能力嵌入產(chǎn)品
開發(fā)者與企業(yè)可通過 gpt-image-2 API 將這些能力集成進(jìn)自身產(chǎn)品,在現(xiàn)有工作流中加入高質(zhì)量圖像生成與編輯能力。
憑借更強(qiáng)的文本渲染、多語言生成、指令遵循能力,以及更多輸出格式與寬高比支持,API 更易于構(gòu)建真實(shí)業(yè)務(wù)場景中的圖像工作流,例如本地化廣告、信息圖、說明圖、教育內(nèi)容、設(shè)計(jì)工具、創(chuàng)意平臺及網(wǎng)頁生成產(chǎn)品。
局限性
OpenAI 也在博客中提到了該模型的局限性:盡管 Images 2.0 是重要進(jìn)步,但仍不完美。對于需要完整物理世界建模的任務(wù)(如折紙教程、魔方等復(fù)雜結(jié)構(gòu)),以及隱藏面、傾斜面或反向表面的精確細(xì)節(jié),模型仍可能表現(xiàn)不足。
極高密度或重復(fù)性細(xì)節(jié)(如細(xì)沙)也可能帶來挑戰(zhàn)。標(biāo)簽與圖示在涉及精確箭頭或部件標(biāo)注時(shí),仍建議人工校對。
這些都是未來改進(jìn)的重要方向。
![]()
在 API 中,超過 2K 的輸出目前仍處于測試階段,可能出現(xiàn)不穩(wěn)定情況。
定價(jià)與可用性
ChatGPT Images 2.0 今日起已向所有 ChatGPT 與 Codex 用戶開放。具備「思考」能力的高級輸出對 ChatGPT Plus、Pro 與 Business 用戶提供。
gpt-image-2 模型已在 API 中提供,價(jià)格根據(jù)圖像質(zhì)量與分辨率有所不同。
![]()
OpenAI 也在官網(wǎng)上線了大量案例,感興趣的讀者可自行前往查看。
我們也進(jìn)行了一些簡單測試,比如讓其生成了一張中國高考數(shù)學(xué)試卷第 2 頁,看著還行:
![]()
實(shí)測中,我們可以在頁面上看到 ChatGPT Images 2.0 生成一張圖片通常會經(jīng)歷多個(gè)步驟:創(chuàng)建→打個(gè)草稿→生成初稿→搭建場景→打磨細(xì)節(jié)→收尾→最后潤色→最后微調(diào)。
接下來我們繼續(xù),「生成一張《將敬酒》繁體中文草書書法作品,寬高比 3:1,內(nèi)容是李白的《將敬酒》全文。落款是 ChatGPT Images 2.0」:
![]()
不過很顯然該模型并沒有生成完整,且也明顯不是草書。
最后來一頁閃電五連鞭的功夫招式圖解說明:
![]()
還挺有趣。
整體體驗(yàn)下來,我們感覺 ChatGPT Images 2.0 確實(shí)比目前的 Nano Banana 2 強(qiáng)大不少;看看接下來谷歌如何接招。
你試過 ChatGPT Images 2.0 了嗎?感覺如何?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.