日前,OpenAI發布新一代AI圖像生成模型ChatGPT Images 2.0(以下簡稱為Images 2.0),并表示“這是一個最先進的模型,能夠處理復雜的視覺任務,并生成精確、可直接使用的視覺內容”。
![]()
據OpenAI方面介紹,與前代相比,Images 2.0在指令理解與遵循、圖像質量、多語言支持、多輪編輯能力等方面均有顯著提升。
其中在指令理解與遵循方面,Images 2.0能夠更好地解析那些包含復雜場景、多元素組合的提示詞,減少語義上的偏差。對此OpenAI圖像研究團隊的成員陳博遠表示,“Images 2.0非常擅長遵循非常詳細的指令,所以如果你有非常具體的品牌語言、設計美學,所有那些對創意工作至關重要的東西,你都可以使用它來創建和完善你的想法,從而得到想要的結果”。
在圖像質量方面,Images 2.0不僅支持生成最高2K分辨率圖像,支持生成3:1、1:3等更多寬高比圖像 ,優化了像素藝術、漫畫及電影劇照等風格,還強化了圖像細節還原能力,能更精準地捕捉紋理、光影等細微元素,讓生成的圖像更接近真實場景。
多語言支持方面,Images 2.0重點改進了中文、日語、韓語、印地語及孟加拉語的文本生成能力,支持渲染密集文本。而在多輪編輯能力上,用戶可直接選擇圖像中需要修改的區域,并要求Images 2.0做出修改。
值得一提的是,Images 2.0還是首個引入思考模式的圖像模型,可聯網檢索信息,依據上傳文件創建視覺解析內容,并在生成前對圖像結構進行推理規劃。在思考模式下Images 2.0可一次性生成最多八張風格連貫、角色一致、內容遞進的圖像,適用于多頁漫畫、整屋設計方案、系列海報或多語言多尺寸社交素材創作場景。
對于Images 2.0,OpenAI CEO薩姆·奧特曼稱之為“這種感覺就像是一下子從GPT-3直接躍升到了GPT-5”。
據了解,目前Images 2.0已向所有ChatGPT與Codex用戶開放,其中思考模式則率先面向ChatGPT Plus、Pro與Business用戶提供。
【本文圖片來自網絡】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.