(文/萬(wàn)肇生 編輯/張廣凱)
當(dāng)?shù)貢r(shí)間4月21日,美國(guó)人工智能公司OpenAI對(duì)外正式推出ChatGPT Images 2.0模型,這是其ChatGPT平臺(tái)內(nèi)圖像生成功能的最新一次升級(jí)。
該模型旨在提升對(duì)圖像生成指令的“聽(tīng)話(huà)”程度、細(xì)節(jié)保真度以及文本渲染質(zhì)量,尤其在處理圖像中的文字元素時(shí)表現(xiàn)出明顯進(jìn)步。
![]()
ChatGPT Images 2.0發(fā)布,主打文字處理能力。
根據(jù)OpenAI的官方發(fā)布,本次更新的模型為所有ChatGPT用戶(hù)提供基礎(chǔ)訪(fǎng)問(wèn)權(quán)限,經(jīng)觀察者網(wǎng)實(shí)測(cè),大致每天可以生成5張左右圖片。而付費(fèi)用戶(hù)可則使用增強(qiáng)的“圖片思考”模式,后者整合了推理能力、多輸出生成以及網(wǎng)絡(luò)搜索工具等功能。
無(wú)論是OpenAI官方還是用戶(hù)評(píng)測(cè),均認(rèn)為ChatGPT Images 2.0的最大改進(jìn),在于圖像中文字的生成質(zhì)量。長(zhǎng)期以來(lái),擴(kuò)散模型在處理小尺寸文本時(shí)面臨挑戰(zhàn),因?yàn)槲淖窒袼卦谡麄€(gè)圖像中占比極小,模型往往優(yōu)先重建更大區(qū)域,導(dǎo)致拼寫(xiě)錯(cuò)誤或字體不自然。
OpenAI表示,Images 2.0實(shí)現(xiàn)了“前所未有的特異性和保真度”,能夠有效概念化復(fù)雜圖像,并忠實(shí)呈現(xiàn)用戶(hù)指定的細(xì)節(jié),包括小文本、圖標(biāo)、用戶(hù)界面元素、密集構(gòu)圖以及細(xì)微的風(fēng)格約束,輸出分辨率最高可達(dá)2K。
科技媒體Tech Crunch實(shí)際測(cè)試則印證了這一進(jìn)步。平臺(tái)使用提示生成一份墨西哥餐廳菜單,結(jié)果顯示菜單上的菜品名稱(chēng)和價(jià)格基本合理,整體效果足以在真實(shí)餐廳中使用,難以看出是AI生成。與之形成對(duì)比的是,該媒體兩年前使用另一模型生成的類(lèi)似菜單,其中則出現(xiàn)了“多種明顯拼寫(xiě)錯(cuò)誤。
![]()
生成具有風(fēng)格化的菜單,字體清晰不粘連圖自TechCrunch
除了英文文本,模型在非拉丁語(yǔ)系文字處理上也有提升,支持包括中文在內(nèi)的多種語(yǔ)言的準(zhǔn)確渲染。這使得它在生成包含多語(yǔ)言元素的圖像時(shí)更具實(shí)用性。
對(duì)此,觀察者網(wǎng)通過(guò)免費(fèi)生成功能的簡(jiǎn)單指令,讓其制作一份會(huì)員服務(wù)“觀察員”的宣傳海報(bào)。其中,海報(bào)內(nèi)漢字清晰可見(jiàn),極少有以往AI圖像生成時(shí)出現(xiàn)的筆劃粘連情況,而且海報(bào)布局合理,完成度較高,抽卡方面較以往圖片模型顯著友好。
但美中不足的是,由于未指明具體文案,除了“觀察員”外,會(huì)員的功能權(quán)益、定價(jià)、LOGO等文案內(nèi)容有一定程度的出入。不過(guò),這不妨礙該海報(bào)在經(jīng)過(guò)后期美術(shù)簡(jiǎn)單處理后,得以實(shí)現(xiàn)產(chǎn)能意義上的快速爬坡。
ChatGPT生成的“觀察員”海報(bào),如果去掉有出入的文案部分,整體設(shè)計(jì)完成度已達(dá)到較高水平。
另一方面,圖片思考模式還引入了推理能力,可以讓模型進(jìn)行網(wǎng)絡(luò)搜索以獲取最新信息,并進(jìn)行自我檢查以?xún)?yōu)化輸出。這些能力意味著圖像生成速度,遠(yuǎn)不如直接與ChatGPT對(duì)話(huà)那么快,但實(shí)測(cè)中生成像多格漫畫(huà)這樣復(fù)雜的內(nèi)容時(shí),該模型仍然只需幾分鐘。
需要注意的是,在AI圖像生成領(lǐng)域,擴(kuò)散模型和自回歸模型是兩種主流的技術(shù)路線(xiàn),如今前沿模型通常將兩者結(jié)合,而OpenAI未解釋該模型底層架構(gòu)屬于哪種。不過(guò),隨著OpenAI推動(dòng)圖像生成技術(shù)的進(jìn)步,勢(shì)必會(huì)進(jìn)一步增加人類(lèi)識(shí)別AI生成內(nèi)容的難度,引發(fā)對(duì)虛假內(nèi)容的擔(dān)憂(yōu)。
美國(guó)財(cái)經(jīng)媒體《商業(yè)內(nèi)幕》(Business Insider)就認(rèn)為,此類(lèi)模型具備生成逼真圖像的能力,很容易被用于創(chuàng)建具備誤導(dǎo)性的圖片或偽造照片。而模型的“思考”模式接入網(wǎng)絡(luò)搜索,雖有助于事實(shí)核查,但其基于截止2025年12月的數(shù)據(jù)庫(kù),隨著時(shí)間可能放大生成內(nèi)容的時(shí)效性風(fēng)險(xiǎn)。
正如上文生成的“觀察員”海報(bào)一樣,文案內(nèi)容與真實(shí)權(quán)益出入較大,這不得不讓人擔(dān)心,AI在生成新聞配圖、產(chǎn)品宣傳或社交媒體內(nèi)容時(shí),若任由其自主生成文案、且缺乏明確的AI生成標(biāo)記,可能將導(dǎo)致錯(cuò)誤信息傳播的情況。
歷史經(jīng)驗(yàn)顯示,類(lèi)似的模型工具曾被不法之人用于創(chuàng)建深度偽造內(nèi)容,因此平臺(tái)責(zé)任與用戶(hù)自律一樣重要。但目前,OpenAI還未公布針對(duì)Images 2.0的特定新安全機(jī)制細(xì)節(jié)。此外,OpenAI也沒(méi)有透露訓(xùn)練數(shù)據(jù)來(lái)源,一旦模型生成與現(xiàn)有人類(lèi)作品高度相似的圖像時(shí),也可能引發(fā)版權(quán)之爭(zhēng)。
但拋去上述風(fēng)險(xiǎn),從技術(shù)向善的角度出發(fā),ChatGPT Images 2.0仍然不失為一次務(wù)實(shí)的迭代升級(jí)。它在文本渲染、指令遵循和復(fù)雜構(gòu)圖方面的改進(jìn),使AI圖像生成更接近日常實(shí)用水平,而非僅停留在概念演示。經(jīng)過(guò)幾輪簡(jiǎn)單的測(cè)試結(jié)果也能看出,該模型在簡(jiǎn)單商業(yè)場(chǎng)景中已能產(chǎn)生可用成果,這本身就是對(duì)過(guò)去兩年技術(shù)瓶頸的突破。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.