從DALL-E到GPTImage2,OpenAI用不到三年時間讓AI生圖從"玩具"變成了顛覆視覺生產的工具。當生成圖片的精細度與真實性足以混淆現實,我們面臨的不僅是生產力革命,更是信息信任危機與版權倫理的新挑戰。
![]()
當一個生圖模型的傳播詞從”逼真”變成”現實不存在了”,這件事本身比任何技術參數都更值得琢磨。
一、它不是”上一代的升級”,是另一個物種
2026年4月21日,SamAltman在發布直播中形容這次飛躍”相當于從GPT-3一步到GPT-5″。這話放在任何別的場合都會被當成營銷話術,但這次,評測社區的反應讓這句話顯得有點保守。
GPTImage2的登場幾乎復制了去年GPTImage1.5的泄露劇本——從4月初在LMArena上以maskingtape-alpha、gaffertape-alpha等匿名代號意外泄露,到社區用戶被其生成質量”集體干沉默”,再到如今面向所有ChatGPT用戶開放。
值得注意的是,它不叫DALL-E4——這不是偶然。這不是擴散模型的迭代升級,而是一次架構層面的范式轉換,被廣泛認為采用了自回歸架構(AutoregressiveModel)。
換言之,OpenAI內部自己都清楚:這是另一套邏輯下的產物,貼上舊品牌名字反而是一種誤導。
二、那個卡了AI生圖三年的老問題,終于被解決了
如果你用過DALL-E系列,或者任何一款主流生圖模型,你一定經歷過這種窒息感:畫面完美,文字全爛。一個招聘海報,”誠聘英才”四個字能給你寫出”誠聘靈才””誠櫳英來”……中文字符對AI來說一直是某種詛咒。
GPTImage2在文字渲染上支持中文、日文、韓文、阿拉伯文、希伯來文、印地文,準確率約達99%。這個數字意味著什么?意味著你現在可以直接讓它做一張帶中文標題的活動海報,不用再PS里手動貼字了。
用戶實測評價是:它在中文文字渲染、真實世界理解、修改精準度、整體審美四個維度都有質的提升——生成的圖片從”一眼假”進化到”一眼分不清是AI還是真的”。
當然,這也是個雙刃劍。稍后再說。
三、幾個讓人沉默的能力點
生成速度:約3秒生成1024×1024圖像,而上一代GPTImage1.5需要8–18秒。這不是優化,這是降維。
分辨率上限:最大支持3840px,比例從1:3到3:1任意指定。印刷級需求也能覆蓋。
批量一致性:單次可生成多達八張風格統一的圖像。這對品牌設計師來說意義巨大——不用再一張張生成、手動挑選風格一致的。
編輯能力:支持mask局部編輯,也就是說你可以只改圖里某個區域,其余保持不動。這在商業修圖場景里非常實用。
思考模式:這是OpenAI首次將O系列推理能力整合進圖像生成。模型在生圖前會主動規劃畫面結構,而不是直接出圖。這解釋了為什么它在復雜排版和多元素場景里的表現遠超以往。
四、在榜單上,它打出了歷史級差距
Arena榜單上,GPTImage2以1512分領先第二名整整242分——這是該榜單有史以來最大的差距。
更值得關注的是競爭背景:自2025年12月GPTImage1.5發布以來,NanoBanana2、Seedream、Kling以及Wan等中外競品陸續更新,但GPTImage1.5始終以霸榜姿態橫亙在圖像生成領域。在過去一年中,AI圈習慣了你追我趕的均勢對抗——每當OpenAI稍顯疲態,Google或其他大廠便會迅速補位。然而,這一次的劇情走向發生了改變。
五、一個時代的終止符
OpenAI已宣布將于2026年5月12日正式停止DALL-E2和DALL-E3的服務。
這個時間節點放在這里,有一種儀式感。DALL-E2是很多人第一次見識到AI生圖能力的模型,那時候大家驚嘆的方式是”天啊AI能畫畫了”。現在,用戶的驚嘆是”現實不存在了”。
這兩句話之間的距離,用了不到三年時間。
六、我真正想說的:這件事對普通人意味著什么
大多數技術媒體報道GPTImage2,寫的是參數、Elo分、功能列表。但我更想聊的是另一面。
第一,”會用AI生圖”正在從競爭優勢變成基礎技能。從DALL-E到GPTImage1,再到如今的GPTImage2,OpenAI用不到兩年時間走完了從”玩具”到”工具”再到”生產力”的三級跳。設計、運營、內容創作這些崗位里,以前”懂AI生圖”是加分項,現在不懂反而開始需要解釋了。
第二,信息辨別的門檻又被拉高了一檔。GPTImage2泄露期間最出圈的測試方向之一,是生成GTA6風格的游戲截圖——結果在社交媒體上被大量轉發,許多用戶最初誤以為是真的游戲泄露截圖。GTA6的截圖尚且如此,那政治人物的現場照片、事件現場圖呢?這件事不會因為你知道”AI能做到”就自然解決。
第三,版權問題依然是懸而未決的炸彈。目前有51起以上版權訴訟懸而未決,平臺層面尚未解決。技術在跑,法律和倫理還在原地踏步。這個落差正在變大。
結語
GPTImage2標志著AI繪圖從”抽卡式生成”進入”高階設計師”時代。
但我認為更準確的說法是:它正在把”視覺生產”的門檻徹底打碎,同時把”視覺信任”的成本推向歷史高位。
好用和危險,從來不是互斥的。理解這一點,才算真的讀懂了GPTImage2這次發布。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.