網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ChatGPT Images 2.0突然發(fā)布，排版設(shè)計(jì)能力巨大提升

2026-04-22 15:07:05　來(lái)源: 觀察者網(wǎng)

上海舉報(bào)

分享至

（文/萬(wàn)肇生編輯/張廣凱）

當(dāng)?shù)貢r(shí)間4月21日，美國(guó)人工智能公司OpenAI對(duì)外正式推出ChatGPT Images 2.0模型，這是其ChatGPT平臺(tái)內(nèi)圖像生成功能的最新一次升級(jí)。

該模型旨在提升對(duì)圖像生成指令的“聽(tīng)話(huà)”程度、細(xì)節(jié)保真度以及文本渲染質(zhì)量，尤其在處理圖像中的文字元素時(shí)表現(xiàn)出明顯進(jìn)步。

ChatGPT Images 2.0發(fā)布，主打文字處理能力。

根據(jù)OpenAI的官方發(fā)布，本次更新的模型為所有ChatGPT用戶(hù)提供基礎(chǔ)訪(fǎng)問(wèn)權(quán)限，經(jīng)觀察者網(wǎng)實(shí)測(cè)，大致每天可以生成5張左右圖片。而付費(fèi)用戶(hù)可則使用增強(qiáng)的“圖片思考”模式，后者整合了推理能力、多輸出生成以及網(wǎng)絡(luò)搜索工具等功能。

無(wú)論是OpenAI官方還是用戶(hù)評(píng)測(cè)，均認(rèn)為ChatGPT Images 2.0的最大改進(jìn)，在于圖像中文字的生成質(zhì)量。長(zhǎng)期以來(lái)，擴(kuò)散模型在處理小尺寸文本時(shí)面臨挑戰(zhàn)，因?yàn)槲淖窒袼卦谡麄€(gè)圖像中占比極小，模型往往優(yōu)先重建更大區(qū)域，導(dǎo)致拼寫(xiě)錯(cuò)誤或字體不自然。

OpenAI表示，Images 2.0實(shí)現(xiàn)了“前所未有的特異性和保真度”，能夠有效概念化復(fù)雜圖像，并忠實(shí)呈現(xiàn)用戶(hù)指定的細(xì)節(jié)，包括小文本、圖標(biāo)、用戶(hù)界面元素、密集構(gòu)圖以及細(xì)微的風(fēng)格約束，輸出分辨率最高可達(dá)2K。

科技媒體Tech Crunch實(shí)際測(cè)試則印證了這一進(jìn)步。平臺(tái)使用提示生成一份墨西哥餐廳菜單，結(jié)果顯示菜單上的菜品名稱(chēng)和價(jià)格基本合理，整體效果足以在真實(shí)餐廳中使用，難以看出是AI生成。與之形成對(duì)比的是，該媒體兩年前使用另一模型生成的類(lèi)似菜單，其中則出現(xiàn)了“多種明顯拼寫(xiě)錯(cuò)誤。

生成具有風(fēng)格化的菜單，字體清晰不粘連圖自TechCrunch

除了英文文本，模型在非拉丁語(yǔ)系文字處理上也有提升，支持包括中文在內(nèi)的多種語(yǔ)言的準(zhǔn)確渲染。這使得它在生成包含多語(yǔ)言元素的圖像時(shí)更具實(shí)用性。

對(duì)此，觀察者網(wǎng)通過(guò)免費(fèi)生成功能的簡(jiǎn)單指令，讓其制作一份會(huì)員服務(wù)“觀察員”的宣傳海報(bào)。其中，海報(bào)內(nèi)漢字清晰可見(jiàn)，極少有以往AI圖像生成時(shí)出現(xiàn)的筆劃粘連情況，而且海報(bào)布局合理，完成度較高，抽卡方面較以往圖片模型顯著友好。

但美中不足的是，由于未指明具體文案，除了“觀察員”外，會(huì)員的功能權(quán)益、定價(jià)、LOGO等文案內(nèi)容有一定程度的出入。不過(guò)，這不妨礙該海報(bào)在經(jīng)過(guò)后期美術(shù)簡(jiǎn)單處理后，得以實(shí)現(xiàn)產(chǎn)能意義上的快速爬坡。

ChatGPT生成的“觀察員”海報(bào)，如果去掉有出入的文案部分，整體設(shè)計(jì)完成度已達(dá)到較高水平。

另一方面，圖片思考模式還引入了推理能力，可以讓模型進(jìn)行網(wǎng)絡(luò)搜索以獲取最新信息，并進(jìn)行自我檢查以?xún)?yōu)化輸出。這些能力意味著圖像生成速度，遠(yuǎn)不如直接與ChatGPT對(duì)話(huà)那么快，但實(shí)測(cè)中生成像多格漫畫(huà)這樣復(fù)雜的內(nèi)容時(shí)，該模型仍然只需幾分鐘。

需要注意的是，在AI圖像生成領(lǐng)域，擴(kuò)散模型和自回歸模型是兩種主流的技術(shù)路線(xiàn)，如今前沿模型通常將兩者結(jié)合，而OpenAI未解釋該模型底層架構(gòu)屬于哪種。不過(guò)，隨著OpenAI推動(dòng)圖像生成技術(shù)的進(jìn)步，勢(shì)必會(huì)進(jìn)一步增加人類(lèi)識(shí)別AI生成內(nèi)容的難度，引發(fā)對(duì)虛假內(nèi)容的擔(dān)憂(yōu)。

美國(guó)財(cái)經(jīng)媒體《商業(yè)內(nèi)幕》（Business Insider）就認(rèn)為，此類(lèi)模型具備生成逼真圖像的能力，很容易被用于創(chuàng)建具備誤導(dǎo)性的圖片或偽造照片。而模型的“思考”模式接入網(wǎng)絡(luò)搜索，雖有助于事實(shí)核查，但其基于截止2025年12月的數(shù)據(jù)庫(kù)，隨著時(shí)間可能放大生成內(nèi)容的時(shí)效性風(fēng)險(xiǎn)。

正如上文生成的“觀察員”海報(bào)一樣，文案內(nèi)容與真實(shí)權(quán)益出入較大，這不得不讓人擔(dān)心，AI在生成新聞配圖、產(chǎn)品宣傳或社交媒體內(nèi)容時(shí)，若任由其自主生成文案、且缺乏明確的AI生成標(biāo)記，可能將導(dǎo)致錯(cuò)誤信息傳播的情況。

歷史經(jīng)驗(yàn)顯示，類(lèi)似的模型工具曾被不法之人用于創(chuàng)建深度偽造內(nèi)容，因此平臺(tái)責(zé)任與用戶(hù)自律一樣重要。但目前，OpenAI還未公布針對(duì)Images 2.0的特定新安全機(jī)制細(xì)節(jié)。此外，OpenAI也沒(méi)有透露訓(xùn)練數(shù)據(jù)來(lái)源，一旦模型生成與現(xiàn)有人類(lèi)作品高度相似的圖像時(shí)，也可能引發(fā)版權(quán)之爭(zhēng)。

但拋去上述風(fēng)險(xiǎn)，從技術(shù)向善的角度出發(fā)，ChatGPT Images 2.0仍然不失為一次務(wù)實(shí)的迭代升級(jí)。它在文本渲染、指令遵循和復(fù)雜構(gòu)圖方面的改進(jìn)，使AI圖像生成更接近日常實(shí)用水平，而非僅停留在概念演示。經(jīng)過(guò)幾輪簡(jiǎn)單的測(cè)試結(jié)果也能看出，該模型在簡(jiǎn)單商業(yè)場(chǎng)景中已能產(chǎn)生可用成果，這本身就是對(duì)過(guò)去兩年技術(shù)瓶頸的突破。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.