網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

ChatGPT Images 2.0發(fā)布！碾壓谷歌Nano Banana，設(shè)計(jì)真要完了

2026-04-22 10:11:24　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯：Panda、Youli

北京時(shí)間凌晨 3 點(diǎn)，直播準(zhǔn)時(shí)開始，OpenAI 發(fā)布了 ChatGPT Images 2.0。

直播鏈接：https://openai.com/zh-Hans-CN/live/

據(jù)介紹，「ChatGPT Images 2.0 是下一步進(jìn)化：一個(gè)最先進(jìn)的模型，能夠處理復(fù)雜的視覺任務(wù)，并生成精確、可直接使用的視覺內(nèi)容。」

似乎也正因?yàn)榇耍琌penAI 發(fā)布的官方博客內(nèi)容還提供了兩個(gè)版本（圖像模式與經(jīng)典模式），其中圖像模式下的內(nèi)容完全是由該模型生成的！

博客地址：https://openai.com/index/introducing-chatgpt-images-2-0/

在博客中，OpenAI 表示：「圖像是一種語言，而不是裝飾。好的圖像，就像好的句子一樣，會進(jìn)行選擇、組織與呈現(xiàn)。它可以解釋機(jī)制，營造氛圍，驗(yàn)證想法，或構(gòu)建論證。」

ChatGPT Images 2.0 模型在細(xì)致遵循指令方面實(shí)現(xiàn)了質(zhì)的躍遷，能夠準(zhǔn)確放置與關(guān)聯(lián)對象，并渲染高密度文本，同時(shí)支持多種寬高比生成。它在構(gòu)圖與視覺審美上的能力，使輸出不再像「AI 生成」，而更像「有意設(shè)計(jì)」。

并且其在多語言環(huán)境下同樣表現(xiàn)準(zhǔn)確，并能利用擴(kuò)展的視覺與世界知識為你補(bǔ)全細(xì)節(jié)，從而以更少提示詞獲得更智能的圖像。

為應(yīng)對最復(fù)雜的任務(wù)，Images 2.0 首次引入「思考能力」。在 ChatGPT 中選擇 thinking 或 pro 模型時(shí)，Images 2.0 可以聯(lián)網(wǎng)獲取實(shí)時(shí)信息，從一個(gè)提示生成多張不同圖像，并對自身輸出進(jìn)行復(fù)核。借助「思考」，模型能夠承擔(dān)從想法到圖像之間更多的工作，尤其在準(zhǔn)確性、時(shí)效性、一致性與視覺統(tǒng)一性至關(guān)重要時(shí)。

結(jié)合 OpenAI 推理模型的智能與對視覺世界的深刻理解，這一模型將圖像生成從「渲染」提升為「策略性設(shè)計(jì)」，從工具進(jìn)化為視覺系統(tǒng)，幫助人們將想法轉(zhuǎn)化為可理解、可分享、可教學(xué)、可構(gòu)建的成果。

該能力已從今日起向 ChatGPT、Codex 與 API 的所有用戶開放。

更高的精度與控制力

Images 2.0 為圖像創(chuàng)作帶來了前所未有的具體性與還原度。它不僅能構(gòu)思更復(fù)雜的圖像，還能有效將其實(shí)現(xiàn)，能夠嚴(yán)格遵循指令，保留關(guān)鍵細(xì)節(jié)，并渲染以往模型容易失真的精細(xì)元素：小文本、圖標(biāo)、UI 元素、高密度構(gòu)圖以及細(xì)微風(fēng)格約束。在 API 中最高支持 2K 分辨率。結(jié)果不再是「差不多」，而是「可以直接使用」。

注意看，下面這張截圖整體上其實(shí)是 Images 2.0 生成的！

更強(qiáng)的多語言能力

以往圖像生成模型在英語及拉丁字母語言中表現(xiàn)更穩(wěn)定，但在其他語言，尤其是復(fù)雜或密集文本時(shí)精度較低。

Images 2.0 突破了這一限制，在多語言理解上顯著增強(qiáng)，尤其是在日語、韓語、中文、印地語與孟加拉語的文本渲染方面有明顯提升。它不僅能正確生成非英語文本，還能保證語言表達(dá)自然流暢。

這不僅意味著翻譯標(biāo)簽，而是讓語言本身成為設(shè)計(jì)的一部分，從海報(bào)、說明圖，到圖解與漫畫，都能實(shí)現(xiàn)視覺與語言的統(tǒng)一。這使模型具備更強(qiáng)的全球適用性，讓用戶能夠在真實(shí)使用的語言環(huán)境中創(chuàng)作視覺內(nèi)容。

在直播中，OpenAI 圖像研究團(tuán)隊(duì)的成員陳博遠(yuǎn)展示了一個(gè)案例，他給出提示詞：「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」

結(jié)果生成的海報(bào)完全符合提示詞，且在細(xì)節(jié)上也能夠做到精準(zhǔn)。

「它非常擅長遵循非常詳細(xì)的指令，所以如果你有非常具體的品牌語言、設(shè)計(jì)美學(xué) —— 所有那些對創(chuàng)意工作至關(guān)重要的東西 —— 你都可以使用 ChatGPT 來創(chuàng)建和完善你的想法，從而得到你想要的結(jié)果。」陳博遠(yuǎn)說道。

更成熟的風(fēng)格表達(dá)與真實(shí)感

Images 2.0 在多種視覺風(fēng)格上的還原度顯著提升。它更擅長捕捉照片的關(guān)鍵特征，包括那些增強(qiáng)真實(shí)感的微小瑕疵，同時(shí)也能穩(wěn)定呈現(xiàn)電影感畫面、像素藝術(shù)、漫畫等多種視覺語言，在紋理、光影、構(gòu)圖與細(xì)節(jié)上更一致。

因此，模型輸出更貼近指定風(fēng)格，而非近似模仿。這對于游戲原型設(shè)計(jì)、分鏡制作、營銷創(chuàng)意，以及特定媒介或類型的資產(chǎn)創(chuàng)作尤為有價(jià)值。

靈活的寬高比

新模型在輸出形式上更靈活，支持從 3:1 到 1:3 的多種寬高比，可直接適配橫幅、演示文稿、海報(bào)、手機(jī)界面、書簽及社交媒體圖形等不同場景。你可以在提示中指定寬高比，或通過預(yù)設(shè)選項(xiàng)將已有圖像重新生成至新的尺寸。

下面展示了兩個(gè)非常規(guī)寬高比的示例：

更強(qiáng)的現(xiàn)實(shí)世界理解

Images 2.0 引入了截至 2025 年 12 月的知識，使生成結(jié)果在相關(guān)性與語境準(zhǔn)確性上更進(jìn)一步。這對于說明圖、教育圖形與可視化總結(jié)尤為關(guān)鍵，因?yàn)樵谶@些場景中，正確性與清晰度與美觀同樣重要。

其智能能力還體現(xiàn)在端到端任務(wù)處理上：整合信息、撰寫內(nèi)容，并以清晰結(jié)構(gòu)、合理留白與良好視覺流進(jìn)行排版。

視覺思考伙伴

在 ChatGPT 中啟用 thinking 模型后，系統(tǒng)會在后臺進(jìn)行更深入的理解與執(zhí)行。它可以聯(lián)網(wǎng)檢索信息，將上傳材料轉(zhuǎn)化為清晰的視覺說明，并在生成前對圖像結(jié)構(gòu)進(jìn)行推理。

在這種模式下，Images 2.0 更像一個(gè)視覺思考伙伴，幫助你將初步概念推進(jìn)為完整成品，大幅降低工作量。

它還支持一次生成多張不同圖像，這在 ChatGPT 圖像生成中尚屬首次。這使得諸如多頁漫畫、整屋設(shè)計(jì)方案、系列海報(bào)或多語言多尺寸社交素材等工作流變得高效可行。

你無需逐張生成再手動拼接，只需一次請求，即可獲得最多八張?jiān)诮巧c元素上保持一致、且具有連續(xù)性的輸出。

在 Codex 中使用圖像生成

Images 能力被整合進(jìn) Codex，使視覺創(chuàng)作、迭代與交付在同一工作空間內(nèi)完成，拓展了其在設(shè)計(jì)、營銷、產(chǎn)品、銷售及學(xué)習(xí)等領(lǐng)域的應(yīng)用。

例如，你可以快速生成多種 UI 方向與原型，比較方案，并將最佳設(shè)計(jì)直接轉(zhuǎn)化為產(chǎn)品或網(wǎng)頁體驗(yàn)，無需離開 Codex。通過 ChatGPT 訂閱即可使用，無需額外 API 密鑰。

通過 API 將圖像能力嵌入產(chǎn)品

開發(fā)者與企業(yè)可通過 gpt-image-2 API 將這些能力集成進(jìn)自身產(chǎn)品，在現(xiàn)有工作流中加入高質(zhì)量圖像生成與編輯能力。

憑借更強(qiáng)的文本渲染、多語言生成、指令遵循能力，以及更多輸出格式與寬高比支持，API 更易于構(gòu)建真實(shí)業(yè)務(wù)場景中的圖像工作流，例如本地化廣告、信息圖、說明圖、教育內(nèi)容、設(shè)計(jì)工具、創(chuàng)意平臺及網(wǎng)頁生成產(chǎn)品。

局限性

OpenAI 也在博客中提到了該模型的局限性：盡管 Images 2.0 是重要進(jìn)步，但仍不完美。對于需要完整物理世界建模的任務(wù)（如折紙教程、魔方等復(fù)雜結(jié)構(gòu)），以及隱藏面、傾斜面或反向表面的精確細(xì)節(jié)，模型仍可能表現(xiàn)不足。

極高密度或重復(fù)性細(xì)節(jié)（如細(xì)沙）也可能帶來挑戰(zhàn)。標(biāo)簽與圖示在涉及精確箭頭或部件標(biāo)注時(shí)，仍建議人工校對。

這些都是未來改進(jìn)的重要方向。

在 API 中，超過 2K 的輸出目前仍處于測試階段，可能出現(xiàn)不穩(wěn)定情況。

定價(jià)與可用性

ChatGPT Images 2.0 今日起已向所有 ChatGPT 與 Codex 用戶開放。具備「思考」能力的高級輸出對 ChatGPT Plus、Pro 與 Business 用戶提供。

gpt-image-2 模型已在 API 中提供，價(jià)格根據(jù)圖像質(zhì)量與分辨率有所不同。

OpenAI 也在官網(wǎng)上線了大量案例，感興趣的讀者可自行前往查看。

我們也進(jìn)行了一些簡單測試，比如讓其生成了一張中國高考數(shù)學(xué)試卷第 2 頁，看著還行：

實(shí)測中，我們可以在頁面上看到 ChatGPT Images 2.0 生成一張圖片通常會經(jīng)歷多個(gè)步驟：創(chuàng)建→打個(gè)草稿→生成初稿→搭建場景→打磨細(xì)節(jié)→收尾→最后潤色→最后微調(diào)。

接下來我們繼續(xù)，「生成一張《將敬酒》繁體中文草書書法作品，寬高比 3:1，內(nèi)容是李白的《將敬酒》全文。落款是 ChatGPT Images 2.0」：

不過很顯然該模型并沒有生成完整，且也明顯不是草書。

最后來一頁閃電五連鞭的功夫招式圖解說明：

還挺有趣。

整體體驗(yàn)下來，我們感覺 ChatGPT Images 2.0 確實(shí)比目前的 Nano Banana 2 強(qiáng)大不少；看看接下來谷歌如何接招。

你試過 ChatGPT Images 2.0 了嗎？感覺如何？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.