![]()
在 AI 巨頭焦灼對戰的現在,誰也想不到,還有能靠榜單數據,拉出一個代差的文生圖模型。
沒錯,說的就是 GPT Images 2 。
測試樣例相信大家應該都看的差不多了,基本都能總結出它相比上一代好在哪。
比如高準確、高密度的文字渲染,特別是中文,甚至能生成可運行的代碼;逼真甚至有些瘆人的 UI 截圖模擬,昨天應該有不少人被一則 Claude Code 的推文騙到;畫面精細度和審美水平也大大提升,那些一眼 AI 的尷尬打光出現的概率一下子低了太多,估計能讓 Midjourney 嚇出一身冷汗;強推理能力,能關注到很多你沒寫的細節,越來越接近大語言模型的交互體驗。至于缺點,OpenAI 自己也承認,在空間理解上的能力還不夠。
當然,知危在測試一下后也能感受到,很多重復無數遍的論點依然成立:設計圈不會因此崩塌,審美和創意依舊屬于人類,廣告人才是受益最大的人群,行業市場價值確實需要重估,但不會直接歸零。要知道,每次一個炸裂的 AI 模型發布后,都是小白、老板和投資人最興奮。老板和投資人想什么大家都知道,小白不一定是指純門外漢,還有各種業務中需要補足藝術創作的人,比如廣告導演可以省去大量拍攝和后期成本。至少在當下,AI 都是用來補足人的短板,而不是替代人的。
但,相比取代人類,我們要關心可能是另一種危機:人們對圖片的信任可能會崩坍,之后看到的每一張截圖都需要留個心眼。
在今天知危對 GPT Images 2 的測評中,就會將上述提到的文字渲染、UI 模擬、精細控制、強推理這些優點,做一個極限測試,看看邊界在哪,也看看安全隱患有多大。
首先是文字渲染方面,知危特別注意到 OpenAI 發布的一張圖,看似是一個平平無奇的鋪在麻布上的白米堆。
![]()
但放大后有彩蛋,可以看到正中心的一粒米上寫了文字 “ GPT Image 2 ”。
![]()
這張圖可以說是給知危帶來最大震撼的官方案例。
知危當即打算把這個例子復刻出來。但在 ChatGPT 和 Lovart 嘗試多次后發現效果一般。大部分情況下,要么所有米粒都很大,可以輕松寫下文字。
![]()
要么會以一種 “ 作弊 ” 的方式寫上去,比如只有寫字的米粒會變得非常大。
![]()
后來通過一種多步迭代的方式來嘗試,要求模型把上圖寫著文字的米粒縮小,反復多次之后,終于有了差不多的樣子,但文字形態已經很難看清了。
![]()
然后知危才發現,OpenAI 提供的例子是 4K 分辨率的,而在 ChatGPT 和 Lovart 上免費使用時只能生成 1K 分辨率的圖像。為此,知危買了個會員來測試 GPT Image 2 的最高質量和最高分辨率版本( 通過 Higgsfield AI ),以下每張圖都基于這個規格。
是不是采用最高規格就能成功復刻了呢?并沒有。相同的問題還是一直出現,不是所有米粒都太大,就是有文字的米粒太大,無論怎么提醒模型 “ 文字只有 75x30 像素大小 ”、“ 寫著文字的米粒和其它米粒一樣大 ”。
以下是知危覺得還算比較驚艷的兩個例子。第一張圖在于文字渲染的物理真實性,第二張圖在于文字足夠小但很清晰。
![]()
![]()
接下來再刁難它一下,讓它把上圖的 “ Zhiwei ” 復制到另一顆米上去,這回倒是很順利,但很明顯模型特地新生成了一粒米來寫文字。
![]()
如果是一粒米上寫大量文字,比如一首詩呢?作弊手法再次出現。即便強調字體大小為原來的十分之一,以及寫詩的米粒不比其它米粒大,仍然很違和。
![]()
再從唐詩換為宋詞,模型直接自己灑了一把不知品種的大米來寫。
![]()
到這里只能先作罷,目前看結果要么是提示詞沒猜對,要么 OpenAI 只是給了一個偶然的結果,要么 OpenAI 是用更高級別的算力生成出來的。畢竟需要放大后才能看到文字,可能隱含了多一個級別的場景復雜度和推理難度。模型因為節省算力而降智,宣傳片和內測階段都很牛逼的模型,一旦正式發布就發現大打折扣,相信大家已經遇到不少次了。
當然,這也隱含了一種可能性,大模型公司內部的 AI 能力比我們能見到的還強得多,但受限于算力無法普及。不過這個例子也象征性地讓我們感受到文生圖模型再一次突破了極限。
對了,猜猜 GPT Images 2 老冤家 Nano Banana Pro 會怎么做這道題?
![]()
別笑,這事 GPT Image 2 也可能做得出來。
![]()
接下來,我們再看一些比較有實用價值的測試維度,比如文字渲染密度。這可能是這一版模型最具實用價值的一個能力,在海報、產品圖、科普圖中都有大用。
測試很簡單,就是看 GPT Image 2 在一張圖中最多能塞進多少個文字。
我們以《西游記》原文為例,將第一章的內容逐步增加字數提供給模型,看看效果如何。
首先是從開篇到孫悟空剛出世,大概 1300 字。
生成結果如下,幾乎看不到一個錯字或崩壞的字,甚至提示詞中包含的拼音注釋也加進去了。
![]()
接下來,增加文本,從開篇一直到孫悟空稱美猴王,大約 2800 字。這一回,模型有些吃不消了,不僅后面的文本有缺失,末尾的文字也顯得有些凌亂和擁擠。
![]()
我們再增加更多文本,從開篇一直到孫悟空獨自出行尋求長生不老之方,遇到了老樵夫,大約 5600 字。這一回,模型直接偷懶了,大概只渲染了 1500 字內容。
![]()
最后我們直接將文字篇幅提升到萬字規模,模型直接傻了,輸出了一個換胎的科普圖,還有一個前沿信息技術的 PPT,不知道受了什么刺激。實際上我輸入的內容是知危之前的采訪文章全篇,不知道模型是怎么聯想到換胎的。
![]()
最后,我們折衷一下,在讓模型出現輕微崩壞的 2800 字篇幅下稍微縮小篇幅,從《西游記》的開篇一直到剛發現水簾洞,大約 2500 字,這一回模型算是體面地完成了任務。
![]()
老冤家 Nano Banana Pro 能做到什么程度呢?
![]()
你可能覺得 Nano Banana Pro 更懂宏觀上的排版美學,但其實細節不忍直視,有太多文字崩壞。
![]()
對比一下 GPT Image 2 生成的局部放大,立見高下。實用場景下現在肯定得選擇 GPT Image 2。
![]()
這個測試結論就一句,就知危的測試結果來看,模型的文字渲染上限大概是 2500 字。
以上主要針對文字元素,接下來主要看圖像元素方面的控制精細度,特別是針對 UI 生成。
要說對于大部分人而言,最復雜的軟件是什么,可能就是 PhotoShop 了。
我們來讓 GPT Image 2 復刻一個 PhotoShop 的作業進行中的工作界面,首先是人像摳圖場景,作業內容是正在對人類頭發部分進行細致的摳圖操作。
提示詞:
一個超逼真、高清的桌面工作場景,擁有電影級的光影效果。畫面主體是電腦屏幕,背景中顯示著 Adobe Photoshop(深色主題),屏幕上正在進行精細的人像摳圖。圖像中心是一張高分辨率的半身人像,背景復雜(例如街道或自然環境)。摳圖過程正在進行中,尚未完成。
Photoshop
的界面高度逼真,與當前操作緊密相關:左側工具欄清晰地顯示了快速選擇工具、魔棒工具、套索工具、鋼筆工具和畫筆工具;頂部工具選項欄顯示了“選擇和蒙版”參數,例如邊緣檢測、羽化、對比度和移動邊緣的滑塊;畫布上主體周圍會出現動態的“螞蟻線”選區,頭發區域具有半透明的邊緣增強效果,表明正在處理細節。
右側面板包含豐富的真實信息:“圖層”面板至少包含背景、人像、蒙版、邊緣調整和顏色校正圖層或圖層組;當前選中的圖層具有清晰的圖層蒙版縮略圖(黑白對比明顯),部分區域被涂成黑色或白色;“屬性”面板顯示蒙版參數;“歷史記錄”面板列出最近的操作步驟,例如快速選擇、細化頭發和畫筆蒙版;“通道”面板顯示 RGB 和各個通道的預覽,提示可以使用基于通道的圖像摳圖功能。
圖像至少包含三個清晰可辨的圖像元素:首先是主體圖像,其邊緣已被摳出,并保留了復雜的頭發細節;其次是原始背景,已被移除或隱藏(部分區域呈現透明棋盤格圖案或被蒙版遮擋);第三是待替換的新背景圖層(例如,模糊的風景),在下方隱約可見,尚未完全融合。
畫布上顯示一個柔邊畫筆光標,輕輕地沿著主體頭發的邊緣涂抹,部分邊緣呈現半透明過渡效果,體現了“細化”的過程;整體界面簡潔明了,信息豐富,所有 UI 元素的布局均符合 Photoshop 的實際工作流程。屏幕背光柔和地照亮鍵盤和桌面環境,營造出專注、專業且逼真的氛圍,強調“操作過程中的瞬間”,而非最終成品。它擁有 4K 分辨率、極高的細節表現、逼真的用戶界面結構以及流暢無 bug 的界面。
生成結果:
![]()
周邊環境和人類可能還有些 AI 味,至少 PS 的界面本身一眼是看不出來有什么問題的,主要是信息密度太大,是在很難相信 AI 能做到,但 GPT Image 2 就是做到了。當然,知危對 PS 的很多專業知識并不熟悉,無法判斷上圖是否真的完全無誤,就不再細細分析了。
我們再考驗一下模型的精細微調能力,把控制背景圖可見性的小眼睛圖標改為 “ 不可見 ” 狀態,也就是空的方框,模型真的做到了( 看圖中橙色標記 )。
![]()
知危仔細對比過原圖,真的只有這里改動了,簡直是像素級的精細度。但還是要挑刺一下,如果背景圖被改為 “ 不可見 ”,畫布中的背景應該消失才對,畢竟模型都號稱有強推理能力了。
相比之下 Higgsfield AI 提供的便宜修改器的效果是這樣的。雖然也有把小眼睛改為空方框,但給人臉也做了一個摳除,光照也變化了,很難做到可控。
![]()
再看一個游戲概念設計場景,作業內容是正在將海盜帆船主體和大海背景進行融合,是 PS 中比較復雜的操作。
提示詞:
一幅超逼真、高清、廣角的電腦桌面場景。畫面主體是 Adobe Photoshop(深色主題)界面,捕捉了“3D 海盜游戲帆船概念設計”過程中圖像合成的瞬間。
屏幕上顯示著一塊巨大的橫向畫布,中心位置正在合成一幅精美的海盜帆船概念圖。船體由多張圖片拼接而成,包括木質船體、破舊的白色船帆、繩索、桅桿、大炮、金屬鉚釘、海浪飛濺的浪花以及濃霧和暴風云,所有元素同時呈現。圖像仍處于未完成的編輯狀態,顯然是在進行后期修飾,而非最終成品展示。
Photoshop 界面必須高度逼真且完整。
畫布周圍可見參考圖像的縮略圖預覽,展示了從圖像收集到合成的整個過程。
超逼真、細節豐富、結構精確的用戶界面,豐富的層級結構,看似混亂卻又專業,動態的編輯進行中感,4K 分辨率,電影級光照,以及極高的保真度。
生成結果:
![]()
又是一個通過復雜度就能讓人感覺真假莫辨的結果。但需要注意的是,模型對畫面元素的控制還不夠,我提示的是 “ 主體和背景暫時還沒有自然融合的瞬間 ”,類似下圖的效果( 來自 Youtube 博主 Imad Awan),模型沒有實現,而是直接在畫布中給到了一個完成的作品。
![]()
我進一步要求模型實現這個效果,生成結果是這樣的,直接把背景摳掉了,而不是調整帆船主體的光照。
![]()
可以看到,模型不管在 UI 細節生成還是精細控制上都遠超之前的模型能做到的程度。但對于 UI 設計而言,精度不一定夠。
結合知危之前和產品設計專家的交流,其實需要真正達到像素級微調的工具才是夠用的,這種要求下,還是傳統工具更高效,如果你讓模型將圖像的某個元素偏移兩個像素,模型基本就是啥也不干,輸出原圖。但 GPT Image 2 作為靈感探索和原型設計已經是一定程度的夠用,后續的細節微調工作,可以將圖片輸入 Codex 開發出原型或者轉換為 Figma 文件后再進行。
最后要上大考了,就是強推理能力。
知危之前在測試 Nano Banana Pro 的時候用過一個例子,就是通過在提示詞描寫 6X6 陣列的玩具機器人的行屬性和列屬性,讓模型自己去推理每一個玩具機器人應該長什么樣子。在這個例子下,Nano Banana Pro 和 GPT Image 1 完成的都不好,只有把每一個玩具機器人的屬性直接列出來后,Nano Banana Pro 才能較好地完成這個任務,GPT Image 1 則是完全失敗。
這次我們再次把最高難度的提示詞直接給 GPT Image 2。
提示詞:
嚴格俯視(正上方正交/orthographic top-down),整齊排列的 6x6 網格(6 行 × 6 列),白色背景,細薄灰色網格線將每個單元格分隔開。每個單元格正中放置一個玩具機器人(總計 36 個),每個機器人都有確定且唯一的外形屬性和編號(兩位數,從 01 到 36,編號以黑色或深灰色小字印在機器人底座或底盤一側,清晰可辨)。
機器人風格:復古玩具(懷舊機械/齒輪/鉚釘感),色彩鮮艷但材質各異(按規則分配),每行和每列遵循確定性屬性映射(見下方規則),確保所有機器人互不重復。
嚴格保持頂視無透視變形(無魚眼、無傾斜),均勻平行光(自上而下)、細微柔和投影以顯示立體感但不改變頂視輪廓。
高分辨率、超細節,4K 輸出(或更高),極致細節(紋理、螺絲、劃痕、貼紙、反光、鉚釘、漆面厚度等),無景深模糊。
畫面干凈:只出現機器人、網格線與白色背景。高保真、真實感玩具質感 + 稍微卡通化的色彩飽和度。
確定性生成規則:
為了保證“每一個機器人都不同且可復現”,請按照下面規則組合屬性(行 × 列 的組合生成唯一外形):
行主色(Row 1 → Row 6,決定主色調)
Row 1: 正紅(crimson)
Row 2: 橙黃(amber)
Row 3: 橙(tangerine)
Row 4: 黃(sunny yellow)
Row 5: 綠(emerald)
Row 6: 青(teal)
列材質/表面處理(Column 1 → Column 6,決定材質與整體質感)
Col 1: 拋光金屬(polished steel)
Col 2: 拉絲鋁(brushed aluminum)
Col 3: 黃銅(brass)
Col 4: 鉻鍍層(chrome)
Col 5: 涂漆塑料(high-gloss painted plastic)
Col 6: 半透明塑料(translucent acrylic)
GPT Image 2 一雪前恥,顏色、材質、編號一樣都沒錯。
![]()
接下來,我們再提升一個難度等級,做 10X10 陣列的玩具機器人,不僅要遵循按行不同顏色和按列不同材質的細節,還要加上按行不同頭部造型和按列不同眼睛類型的細節。
提示詞:
嚴格俯視(正上方正交 / orthographic top-down),整齊排列的 10×10 網格(10 行 × 10 列),純白背景,極細灰色網格線精確分隔每個單元格(線寬一致、無透視收斂)。每個單元格正中央放置一個玩具機器人(總計 100 個),所有機器人尺寸統一、居中對齊、邊距一致。
每個機器人必須具備 完全唯一的外觀組合與編號(01–100,三位數格式 001–100),編號以微小但清晰的黑色或深灰色印刷字體標注于底座或底盤邊緣,方向統一且可讀(不可旋轉或遮擋)。
整體風格:復古機械玩具(nostalgic retro toy robots),強調齒輪結構、鉚釘連接、機械拼接感;造型統一基礎結構(頭+軀干+四肢),但細節變化極豐富。色彩高飽和但真實材質響應準確。
光照:均勻平行頂光(從正上方垂直照射),極輕微柔和接觸陰影(ambient occlusion),無方向性陰影偏移;嚴格無透視、無鏡頭畸變、無魚眼效果。
畫質:超高分辨率(4K),極致細節(微劃痕、油漆厚度、金屬氧化、模具分型線、螺絲紋理、微塵、指紋痕跡、反射粗糙度差異等),無景深模糊(everything in focus)。
畫面約束:背景純凈,僅包含機器人 + 網格線;無額外元素、無文字說明(除編號外)、無雜物。
確定性生成規則(10×10 全唯一組合)
1. 行主色(Row 1 → Row 10:決定主色調)
Row 1: crimson(正紅)
Row 2: amber(褐色)
Row 3: tangerine(橙)
Row 4: sunny yellow(亮黃)
Row 5: lime green(淺酸橙綠)
Row 6: emerald(深祖母綠)
Row 7: teal(天藍)
Row 8: azure(鈷藍)
Row 9: cobalt blue(粉紅)
Row 10: violet(紫羅蘭)
2. 列材質(Column 1 → Column 10:決定整體材質)
Col 1: polished steel(拋光鋼)
Col 2: brushed aluminum(拉絲鋁)
Col 3: brass(黃銅)
Col 4: chrome(鉻)
Col 5: high-gloss painted plastic(高光漆塑料)
Col 6: translucent acrylic(半透明亞克力)
Col 7: matte rubberized coating(啞光橡膠涂層)
Col 8: anodized metal(陽極氧化金屬)
Col 9: ceramic enamel(陶瓷釉)
Col 10: frosted glass composite(磨砂玻璃復合材質)
3. 行決定頭部造型(Head Type)
Row 1–10 對應:
圓頂/立方體/六棱柱/圓柱體/梯形/天線罩/雙眼面罩/復古電視/頭盔/昆蟲狀
4. 列決定眼睛類型(Eye Style)
Col 1–10:
單透鏡/雙圓形/LED 燈條/面罩發光/像素眼/機械虹膜/十字準星/雙筒望遠鏡/狹縫眼/無可見眼
關鍵約束(非常重要)
每個機器人 = 唯一組合(顏色 × 材質 × 頭 × 眼)
不允許出現兩個視覺上相同的機器人
所有機器人朝向一致(正上視不可旋轉)
網格嚴格對齊,無偏移、無錯位
編號必須完整覆蓋 001–100 且無重復
乍一看又被驚到,顏色按行排布完全準確,眼睛類型基本沒問題,每一列的機器人造型都很不同。但仔細看就會發現,玩具機器人幾乎沒有材質上的差別,多了一列,第 7 列編號重復并和第 10 列一樣,模型按列而不是按行來畫玩具機器人的頭部造型,第 4 列玩具機器人的頭部造型沒有要求過,原本該實現的圓柱體頭部造型放到了第 6 列,缺少復古電視和昆蟲狀頭部造型,等等。
![]()
所以,GPT Image 2 的批量生成能力確實有大幅提升,還一舉超過了 Nano Banana Pro,但能力邊界還是很快被探到。
總體而言,GPT Image 2 的精細生成和控制能力都有很大程度的提升,但能力邊界也很明顯,對各種場景能帶來提效是肯定的,至于提效的程度,還是要具體場景具體分析。對于廣告估計是大跨度的量變,對于 UI 設計則可能是質變的程度,即從不可用到可用。
最后,我們聊聊模型的安全風險。
可以看到 GPT Image 2 在生成 UI 上精細程度特別高,足以以假亂真,甚至前面的 PS 畫布里的帆船概念設計都能當真圖來交作業了。
知危也嘗試問 Gemini 那張帆船圖是不是 AI 生成的,由于沒有 Google AI 的水印,Gemini 只能根據畫面元素進行判斷,結果 Gemini 完全沉浸在畫布中去分析帆船是不是 AI 生成的,得出結論說這是基于 AI 生成的圖進行人工修改后的帆船圖,完全沒意識到 UI 本身也是 AI 生成的。
![]()
![]()
ChatGPT 也給出了類似的結果。
![]()
![]()
![]()
而對于很多普通人來講,大家可能在對一張圖分析的時候,還沒 AI 細致呢。
從昨天到現在,網上流傳著各種 AI 生成的新聞軟件截圖、社媒截圖,個個都是假消息。還有人玩各種惡搞梗甚至地獄梗,包括不限于川普與高市早苗結婚、張雪峰代言長壽鄉、科比代言直升飛機等等......
這導致在編輯部群里,從昨天下午開始,每有人發一張圖,下面就馬上故意有人問:這是 AI 生成的嗎?
![]()
今后的世界,肯定是 AI 假圖滿天飛。如果每一張截圖都需要仔細甄別的話,降低上網摸魚體驗還是小事,最可怕的當然是危及財產安全。
現在,GPT Image 2 已經全量發布,靠人工檢測必然跟不上假圖發布的速度,需要 AI 的助力,但當前的 AI 檢測技術似乎還沒準備好。
所以只能說,人們對圖片的信任,基本歸 0 了,至于什么時候能重新建立信任,還真不好說。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.