剛剛,OpenAI 今天發布了新的圖像模型:GPT Image 1.5
核心變化一句話:精準編輯,不崩全圖
讓它改哪,他就改哪,其他地方不亂動
同時,對比上一代模型GPT Image 1.0:
? 更強的指令遵循
? 更好的細節保持
? 速度比上一代快4倍
? API 價格降了 20% 以上
今天開始,向所有 ChatGPT 用戶推出。
另外經實測,這個模型在中文處理上比 NanoBanana 還是差了不少,本文也會詳細說說
精準編輯
這是本次升級的核心
當你上傳一張圖片要求修改時,模型只改你要改的地方,光線、構圖、人物外貌這些元素在多輪編輯中都能保持一致
看官方給的例子,這個模型擅長各種編輯操作:添加、刪除、合成、混合、移植
三張輸入圖:兩個男人、一只狗
![]()
輸入圖1
輸入圖2
輸入圖3
第一步 把這兩個男人和這只狗合成一張 2000 年代膠片相機風格的照片,他們在一個小孩的生日派對上,看起來很無聊
第二步 在背景加一群瘋狂的小孩,到處扔東西、尖叫
前景的兩個人和狗,基本沒變
第三步 把左邊的男人改成手繪復古動漫風格,狗改成毛絨玩具風格,右邊的男人和背景保持不變
同一張圖里,三種風格共存
左邊是動漫,中間是毛絨玩具,右邊是真人
這在之前幾乎做不到
第四步 給他們都穿上 OpenAI 衛衣(參考另一張圖的樣式)
第五步
把兩個男人去掉,只留下狗,放進一個 OpenAI 直播畫面里
![]()
最終結果
五輪編輯下來,狗的形象始終保持一致
實測
我先上傳了山姆奧特曼的照片
![]()
Sam
然后說「把背景換成成都街頭的夜景實景,保持人物的姿勢、表情不變,但人物的風格變成毛絨玩具」 創意轉換
在 ChatGPT 里使用這個模型,可以看到新增了預設風格和創意模板,不用寫提示詞也能玩:電影海報、80 年代健身教練、魅力娃娃、裝飾品、時尚廣告、換裝角色、油畫、飲料廣告....
![]()
https://chatgpt.com/images
看這個電影海報的例子
![]()
電影海報輸入
提示詞:用這兩個男人的照片,做一張老派好萊塢黃金時代風格的電影海報,電影叫「codex」。把他們的服裝改成那個年代的風格。演員名字改成 Wojciech Zaremba(左)和 Greg Brockman(右),導演 Sam Altman,制片人 Fidji Simo,Feel the AGI Pictures 出品
![]()
電影海報結果
人物面部特征保留了,服裝、排版、文字都按要求生成
實測
![]()
實測「把這只貓做成一張 1960 年代法國新浪潮電影海報風格的圖,電影名叫 "Le Chat Noir",導演 Jean-Luc Godard,加上法語字幕和膠片顆粒質感」 指令遵循
相比舊版,新模型對指令的遵循更加可靠
看這個測試:畫一個 6x6 的網格,每個格子里放不同的物品
提示詞 做一個 6 列 x 6 行的網格: ? 第 1 行:希臘字母 beta、沙灘球、檸檬、機器人、魚缸、青蛙 ? 第 2 行:螳螂、名貴手表、浴缸、太陽鏡、彩色蝴蝶、信封 ? 第 3 行:郵票、相框、冒熱氣的餃子、「miracle」這個詞、滑雪板、字母 Z ? 第 4 行:馬桶、地鐵代幣、靜音圖標、香水瓶、蜻蜓、滑板頭盔 ? 第 5 行:藍牙圖標、數字 13、綠色愛心、魔方、加拿大鵝、士兵頭盔 ? 第 6 行:白色狗、救生衣、繩結、鍵盤、紙巾盒、數字 14
新版結果:
![]()
新版6x6網格
舊版結果:
![]()
舊版6x6網格
新版基本都對了,舊版數錯格子、放錯物品
這種「精確執行復雜指令」的能力,對做信息圖、產品目錄、教學材料這類場景很重要
實測
![]()
實測提示詞:生成一個 4x3 的網格,第一行放 4 種不同系列的 iPhone(第4、5、13、15代),第二行放 4 種不同款式的蘋果表帶,第三行放 4 種不同顏色的蘋果顯示器,每個產品下方標注顏色名稱 文字渲染
這個版本的模型,在文字渲染方面又進了一步,能夠處理更密集、更小的文字
看這個測試:把一段 Markdown 渲染成報紙版面
![]()
Markdown渲染成報紙
表格、標題、正文都有,字還挺清楚的
然后讓它換成另一篇文章的內容:
![]()
換成另一篇文章
之前的圖像模型,文字一多就糊成一團
實測
![]()
實測提示詞: Generate a product rendering of Six God Florida Water, classic green glass bottle, front of bottle with large text "Six God", below it "Florida Water", middle section text "Cooling & Refreshing · Anti-itch Formula", smaller text below "Main Ingredients: Six God Herbal Essence, Borneol, Menthol, Honeysuckle Extract, Wild Chrysanthemum Extract", below that "Benefits: Cooling Relief, Refreshing Sensation, Odor Elimination, Mosquito Repellent", bottom text "Net Content: 195ml" "Shanghai Jahwa United Co., Ltd." "Address: No. 527 Baoding Road, Shanghai" "Production License: HMPC20160012", white background, product photography style, soft studio lighting
中文一團糊 其他質量提升
模型在其他維度上也有改進,讓輸出更加即拿即用,比如渲染大量小臉時的效果,以及整體畫面的自然程度
1970 年代倫敦街景
提示詞 做一個 1970 年代倫敦切爾西區的街景,照片級真實感,全部對焦清晰,有很多很多人,還有一輛公交車,上面有「ImageGen 1.5」的廣告,帶 OpenAI logo,副標題是「Create what you imagine」。超寫實的業余攝影風格,iPhone 隨手拍的質感
新版:
![]()
新版1970年代倫敦
舊版:
![]()
舊版1970年代倫敦
新版的人臉更自然,整體畫面的年代感也更到位
實測
果然...還是不能有漢字
![]()
實測提示詞:生成一張 1980 年代香港街頭的照片,九龍城寨附近,霓虹燈招牌密集,街上有很多行人和小販,一輛紅色出租車停在路邊,整體是柯達膠片的色調,帶輕微的噪點和過曝感 進步與局限
OpenAI 用最初發布時的很多案例重新測試了新模型。結果顯示在各種場景下都有明顯進步,但效果仍不完美
深海海報(進步明顯)
提示詞:創作一張深海生物海報,展示不同深度的生物,縱向海洋剖面圖,精美的日本細膩動漫風格
新版:
![]()
新版深海海報
舊版:
![]()
舊版深海海報
科學準確性上還有一些問題,但大約 70% 是正確的,畫面更加生動,避免了過早裁切
仍有局限的地方
? 風格一致性:某些風格轉換還不夠穩定
? 多張臉:同時生成多個人臉時偶爾會出問題
? 多語言:非英語文字的渲染質量還有提升空間
API 版本擁有與 ChatGPT Images 完全相同的能力,相關的模型信息,可以在這里查看到https://platform.openai.com/docs/models/gpt-image-1.5
![]()
Model Card
同時,GPT Image 1.5 的圖像輸入和輸出成本比上一代降低了 20%
GPT Image 1.5 定價
質量
1024×1024
1024×1536
1536×1024
Low
$0.009
$0.013
$0.013
Medium
$0.034
$0.051
$0.05
High
$0.133
$0.199
對比 NanoBanana Pro,GPT Image 1.5 的 High 模式和 Google 2K 價格差不多
? 2K(2048×2048):$0.139
? 4K(4096×4096):$0.24
GPT Image 1.5 的 High 模式和 Google 2K 價格差不多,但還有 Low 和 Medium 兩檔可選
最后
今天開始,這個模型會向全球所有 ChatGPT 用戶和 API 用戶推出,不需要特別勾選
舊版 ChatGPT Images 可以在這個地方使用:https://chatgpt.com/g/g-6940a876d5f4819186b4668deabcd580-4o-imagegen
![]()
GPTs
可以在 OpenAI Playground 試用:https://platform.openai.com/playground/images
![]()
Playground
提示詞指南:https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide
![]()
指南
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.