![]()
新智元報道
編輯:好困 桃子
【新智元導讀】今夜,ChatGPT Images 2.0震撼上線,成為首個「會思考」的圖像AI。奧特曼直呼這是從GPT-3到GPT-5的飛躍。它不僅能精準聽懂中文指令、渲染復雜UI,甚至能在米粒上刻字。
那個熟悉的OpenAI又回來了!
凌晨,奧特曼親自帶隊,開啟20分鐘線上直播,打破了數日的沉寂。
OpenAI終于祭出了傳聞中的ChatGPT Images 2.0,正式開啟圖像生成的全新紀元。
![]()
Images 2.0是一次質的飛躍,它在精準聽懂長指令、準確擺放并理清物體間關系、渲染密集文本方面有了巨大突破。
最重要的是,它是首個具備「思考能力」的圖像模型,可以聯網搜索實時信息、二次自檢。
它還能一次性直出八張風格連貫的圖,最高支持2K超清分辨率。
![]()
這么說吧,Images 2.0的出世,重新定義了視覺生成的統治力——
像素級精度:小字號文本、圖標、UI元素等復雜細節一鍵生成,支持3:1到1:3全尺寸輸出;
多語言質變:中日韓等非拉丁文字精準渲染,不僅字拼得對,語句也通順連貫;
風格成熟:照片級逼真感,電影劇照、像素藝術、漫畫等視覺語言都拿捏得住;
會思考:首個具備推理能力的圖像模型,能聯網搜索、自檢輸出,知識更新至2025年12月。
![]()
![]()
![]()
![]()
![]()
左右滑動查看
在Arena最新榜單中,Images 2.0一騎絕塵,登頂全球AI生圖王座。實力暴擊谷歌Nano Banana 2/Pro版本,領先242分。
它在全部7個文生圖類別中,全部位列第一。
![]()
![]()
最狠的是,它可以做到像素級生成。
直播中生成的一張米山圖,其中的一顆大米粒,竟刻上了「GPT image 2」的字體。
![]()
奧特曼還秀了一番,和4o圖像負責人Gabriel Goh一起更多GPU的漫畫圖。
![]()
![]()
![]()
網友們紛紛上手,被Images 2.0的實力再次驚艷到了。
甚至,有人表示,「OpenAI終于再次引領圖像生成領域」!
![]()
![]()
中文直接封神
OpenAI自己玩梗「穩穩地接住你」
過去的圖像模型,英語和拉丁字母語言表現尚可,一碰到中日韓文字就開始「鬼畫符」。
這次,官博里放出的中文Demo,直接炸了。
OpenAI研究科學家陳博遠親自出鏡(很可能也是他自己寫的prompt),生成了一整頁全中文彩色漫畫,講的是他在OpenAI做ChatGPT Image 2中文文本渲染優化的故事。
![]()
這張圖同時證明了三件事,中文文本渲染能力質變、極小字號的精度控制、以及復雜多面板漫畫的一次性生成能力
漫畫分五排,第一排是陳博遠在電腦前埋頭工作,背景里有珍珠奶茶,墻上用一條膠帶粘著一根香蕉(致敬藝術圈名場面)。
第二排是他為家鄉無錫生成的多語言手繪風格信息圖海報,上面密密麻麻的中文小字全部渲染正確。
第三排是團隊看到效果后集體興奮的場面。
第四排畫風一轉,陳博遠拿著手機休息,收到了奧特曼發來的一條翻譯短信,祝賀團隊的中文渲染成果。
然后,重頭戲來了。
第五排,陳博遠看到奧特曼生成的那張祝賀圖片,中央位置赫然寫著一句「穩穩地接住你」。
懂的都懂。
![]()
GPT在中文對話中動不動就「我會穩穩地接住你」「你的感受是合理的」,那股子油膩又真誠的美式心理咨詢味,被中文用戶瘋狂吐槽了大半年
漫畫里的陳博遠當場破防,漫畫式暴怒大喊「天吶!它又學會了接住!」,旁邊的隊友們化身小腦袋冒冷汗,弱弱地說「我們正在努力修復它!」
這波自嘲,可以給滿分。(手動狗頭)
![]()
中文之外,OpenAI還放出了全日語對白的少年冒險漫畫、涵蓋印地語、孟加拉語、泰盧固語等九種語言書籍封面的印度書店,以及韓語高級韓屋住宿廣告。
語言不再是圖像生成的「二等公民」了。
![]()
![]()
![]()
左右滑動查看
像素級生成
GPT-3到GPT-5大跨越
ChatGPT Images 2.0可以稱之為OpenAI生圖的下一個里程碑發布。
直播中,奧特曼將其稱之為,「這種感覺就像是一下子從GPT-3直接躍升到了GPT-5」。
上傳一張四人合照,ChatGPT直出一張雜志封面,在頁面設計、文字排版都非常講究。
而且海報中,包含了海量的細節,小字的處理,人物面部一致性,給人一種「男團」的即視感。
![]()
![]()
在細節方面,ChatGPT輸出完全達到了「照片級」效果,逼真到讓人看不出是AI生成的。
比如下面這張,穿越回2015年OpenAI剛成立那年,階梯教室光線環境、PPT文案讓人震驚。
![]()
真正讓全場驚掉下巴的,是一張人類登月的360°全景圖。
把ChatGPT生成的圖片扔進全景查看器,便可以實現如下的效果,太陽的位置、影子的方向,以及一些細節全部清晰可見。
![]()
官方放出的Demo里,有一張macOS瀏覽器中ChatGPT窗口的截圖。
窗口層疊、終端在后臺打開、桌面雜亂無章,視覺細節多到離譜,生成出來的效果幾乎和真實截圖一模一樣。
![]()
渲染精度到了這個級別,說明模型對圖像中每一個像素的控制力已經跨過了一個臨界點。
照片級逼真感
AI生成的圖終于不像AI了
風格逼真度是另一個大躍進。
過去AI生成的圖片,總有一種說不出的「AI感」,皮膚太光滑、光線太均勻、構圖太完美,一眼就能看出不是真人拍的。
Images 2.0反其道而行之,開始學會「不完美」。
官方Demo里有一組抓拍快照,35mm膠片質感,可見顆粒感,構圖略微偏離中心,衣服和頭發在風中飄動。
如果不告訴你是AI生成的,你會以為這是某個攝影師在公路旁隨手按下快門的結果。
![]()
還有一組一次性相機風格的照片,模擬的是2000年代初美國高中電腦室的場景,學生們擠在米色CRT顯示器前用ChatGPT。
閃光燈過曝、輕微運動模糊、角落里印著「02 18 04」的橙色日期戳,所有「膠片時代的不完美」都被精準復現。
![]()
在風格多樣性上,Images 2.0也拉開了差距。
寬高比現在支持最寬3:1、最高1:3。為此,OpenAI專門放了一張橫版中國傳統長卷山水畫,筆墨暈染和留白都有模有樣。
1960年代法國新浪潮電影海報、裝飾藝術風格書簽、動漫角色設定圖,每一種視覺語言都保持了高度的風格一致性,而不只是「看起來有點像」。
![]()
![]()
![]()
![]()
會思考的圖像模型
一次生成八張連貫畫面
現場直播中,ChatGPT圖像負責人Gabriel Goh表示,Images 2.0一共上線了兩種模式——
即時模式(Instant Mode)
思考模式(Thinking Mode)
其中最顛覆性的升級,全部藏在「思考模式」里。
當在ChatGPT中選擇思考模型時,Images 2.0不再只是一個「你說我畫」的渲染器,而是變成了一個視覺思考伙伴。
它會花更多時間理解你的意圖,搜索網絡獲取實時信息,對圖像結構進行推理,然后再動筆。
更關鍵的是,思考模式下它可以一次性生成最多八張風格連貫、角色一致、內容遞進的圖像。
只需上傳一張大頭照,ChatGPT就能立刻給出八套夏裝搭配。選擇其中一套,還會為你生成更多衣服不同角度的細節。
![]()
![]()
在這個任務中,ChatGPT調用了兩種不同的「視覺智能」:
首先是「視覺理解」能力,它要真切地去「看」照片。理解一個人的樣貌,然后規劃出合適的服裝搭配方案。
另一個維度則是「視覺生成」能力。它需要把規劃好的服裝布局,轉化為一張連貫且有條理的圖片。
以前想做一組社交媒體素材,你得一張張生成,自己拼接。現在一句prompt,Twitter、Instagram Stories、Instagram Feed、LinkedIn四種尺寸一次性出齊,色調和構圖風格統一。
官方Demo展示了一家布魯克林抹茶店「kizuki」的廣告素材,冰鎮草莓抹茶在陽光下的畫面,街頭服飾美學搭配日式極簡,四種社交平臺尺寸一步到位。
![]()
還有一個學術論文海報的Demo,直接上傳PDF,模型自動提取關鍵圖表、數據和結構,排版成一張橫版海報。
![]()
值得一提的是,Images 2.0開啟思考模式后,還可以直接聯網搜索信息。
團隊透露,幾天前在Arena盲測的「DuckTape」就是今天的Images 2.0。
然后,他們讓Images 2.0搜集網友反饋,并制作成一張圖。沒想到,模型還生成了一個可直接掃描的「二維碼」。
![]()
ChatGPT、Codex全線開放
從今天起,所有ChatGPT、Codex都可以用上ChatGPT Images 2.0。
帶有「思考」過程的圖像生成功能,已向ChatGPT Plus、Pro、Business用戶開放。底層模型gpt-image-2也已在API中上線。
![]()
在定價方面,ChatGPT Images 2.0更強了,同時toekn輸入/輸出價格沒有漲。
![]()
對普通用戶來說,演示文稿配圖、社交媒體海報、產品宣傳卡片這些過去要開Photoshop折騰半天的活,現在一句prompt搞定。
對開發者和企業來說,本地化廣告、多語言信息圖、教育內容、設計工具這些需要大量人工的視覺工作流,現在都可以通過API批量自動化了。
Codex里更是把圖像生成整合進了工作區,設計團隊可以在同一個環境里出UI方案、比選項、轉產品,全程不用切換工具。
圖像生成的iPhone時刻?
回頭看,從DALL·E到Midjourney到Stable Diffusion,AI圖像生成一直處在「夠用但不太行」的狀態。
文字渲染翻車、多語言拉胯、風格千篇一律、構圖一眼AI,這些痛點每一個都勸退了想把AI圖像用在正經場景里的人。
Images 2.0一口氣把這些短板全補上了,還加了思考能力和多圖一次性生成。
雖然它離「完美」還有距離,但它可能是第一個讓設計師、營銷人員和內容創作者覺得「這東西我真的可以用在工作里」的AI圖像模型。
現在,設計師們可能要重新想想,自己的護城河到底在哪里了。
參考資料:
https://x.com/OpenAI/status/2046661795327459677
https://x.com/OpenAI/status/2046670977145372771
https://openai.com/index/introducing-chatgpt-images-2-0/
https://x.com/sama/status/2046672912833458597
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.