文章來源:我愛計算機視覺(ID:aicvml)
當前文本生成圖像(T2I)技術早已不是畫出來就行。從 Stable Diffusion 到最新的 Nano Banana,模型能輕松生成指令一致的簡單畫面,但要生成繁忙廚房中的 30 余種物品或繩索斷裂后特技演員引發連鎖反應這類復雜場景,卻常犯漏東西和邏輯錯的毛病。問題出在哪?
近日,快手可靈團隊提出 T2I-CoReBench。首個同時覆蓋 “構圖能力” 與 “推理能力” 的全面性、高復雜度基準,用 1080 個挑戰性 prompt 和 13,500+ 個精細評測問題,戳破了當前 T2I 模型的 “能力假象”。
![]()
論文標題: Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
論文地址: https://arxiv.org/abs/2509.03516
代碼地址: https://github.com/KwaiVGI/T2I-CoReBench
項目主頁: https://t2i-corebench.github.io/
T2I 模型要生成 “靠譜” 的圖像,靠兩大核心能力:(1)構圖能力(Composition):把 prompt 里明確提到的元素(比如冰箱、菜板、島臺等)全部畫對,包括物體、屬性、位置關系。(2)推理能力(Reasoning):把 prompt 里隱含的結果(比如用力擠壓一個番茄 → 番茄擠出汁)推斷出來,生成合理畫面。
但當前的評測基準仍然存在兩個關鍵問題:(1)不全面:要么只評構圖,要么只考推理,沒法整體評估模型又能畫全、又能想對的能力。且推理維度也相對局限,多集中在常識或簡單因果,缺乏對邏輯、歸納、溯因等推理維度的全面覆蓋。(2)太簡單:構圖場景一般只包含少量的視覺元素,且推理只考察單步的簡單推理(比如擠番茄 → 出汁),完全達不到真實世界多物體、多因果的復雜度。
為了解決這兩個問題,研究團隊提出了 T2I-CoReBench,聚焦于評估 T2I 模型兩種基本能力:構圖(Composition)與推理(Reasoning)。不僅要 “測全”,還要 “測難”,讓基準的評估結果真正反映 T2I 模型在實際場景中的表現。
![]()
二、T2I-CoReBench: 12 維評估體系 + 高復雜度場景
T2I-CoReBench 聚焦于評估 T2I 模型兩種基本能力:構圖(Composition)與推理(Reasoning)。不同于過去工作靠 “主觀經驗” 設計評測維度,研究團隊從兩個經典分類框架出發,構建了嚴謹的評估體系,共計12 個維度,把 “構圖” 和 “推理” 拆解得明明白白。
![]()
構圖能力基于場景圖理論:物體、屬性、關系是共同構成畫面的核心要素。同時考慮到文本內容在 T2I 應用中的重要性(如包裝文字與商標),因而一共定義了多實例(MI)、多屬性(MA)、多關系(MR)以及文本渲染(TR)四個維度。
![]()
推理能力基于哲學領域經典的 “三大推理框架”:演繹推理、歸納推理、溯因推理,細分出 T2I 場景下的關鍵任務:
演繹推理的核心邏輯是前提為真,則結論必為真。在 T2I 場景中表現為模型需嚴格依據 prompt 給定的規則、狀態或步驟,生成確定性的視覺畫面。具體定義了邏輯推理(LR)、行為推理(BR)、假設推理(HR)以及過程推理(PR)四個維度。
![]()
歸納推理的核心是從具體例子中提煉通用規則,再將規則應用到新場景。在 T2I 中表現為模型需先從 prompt 給出的示例中學會規律,再基于規律生成未被明確描述的視覺元素。具體定義了泛化推理(GR)和類比推理(AR)兩個維度。
![]()
溯因推理的核心是從已知觀察出發,重建最可能的隱含原因或背景。在 T2I 中表現為 prompt 僅描述 “結果狀態” 或 “局部線索”,模型需調用常識、物理規律或因果邏輯,補全畫面中 “未被提及但必須存在的元素”。包括常識推理(CR)和重構推理(RR)兩個維度。
![]()
為避免模型在簡單場景中 “刷分”,T2I-CoReBench 在 prompt 設計上特意 “加難度”,使其更貼近真實世界,從而倒逼模型暴露短板:
構圖更密集: 構圖類 prompt 平均包含 20 個實例/屬性/關系。例如“擁擠教室”需呈現鉛筆、剪刀、膠棒等 35 個實例。
推理更復雜: 推理類 prompt 均為“密集推理場景”。如 火柴燒斷彈性繩 → 繩子彈倒多米諾骨牌 → 彈珠滾進紅水燒杯,需同時呈現 8 個結果,而非“一因一果”的簡單邏輯。
評測更精細: 每個 prompt 配套 checklist,例如“擁擠教室”含 35 個是/否問題(如“圖中有鉛筆嗎?”、“圖中有剪刀嗎?”),逐項獨立評分,避免粗粒度評估帶來的模糊性。
最終,T2I-CoReBench 形成 1080 個 prompt 與 13536 個評測問題的規模,平均 prompt 長度為 170 tokens,checklist 中平均有 12.5 個問題,足夠全面考驗模型在復雜場景中的真實能力。
三、評測結果:構圖有進步,推理仍是 “致命短板”
研究團隊在 T2I-CoReBench 上評測了 28 個主流 T2I 模型(21 個開源 + 7 個閉源,涵蓋擴散、自回歸、統一架構),結果既暴露了行業現狀,也給出了明確方向。
![]()
關鍵發現 1:T2I 模型構圖能力穩步提升,但復雜構圖仍遠未解決
在 T2I-CoReBench 的測試中,各模型的構圖能力整體穩步提升:閉源最優模型 Seedream 4.0 得分 86.1,開源最優 Qwen-Image 亦達到 78.0,已接近先進閉源水平。然而在復雜場景下,即便是 Seedream 4.0,在多屬性綁定(MA:84.5)和多關系生成(MR:75.0)方面仍顯吃力,復雜構圖控制依舊是亟待突破的難題。
關鍵發現 2:推理能力仍是 T2I 模型的主要瓶頸
盡管構圖能力穩步提升,但推理仍顯薄弱:Imagen 4 Ultra 推理得分最高,但也僅為 72.9,比構圖低 9.5 分,在邏輯與行為推理等維度表現不佳;開源模型差距更為明顯,Qwen-Image 構圖達 78.0,卻僅在推理上得 49.3(落后 28.7 分)。這表明當前模型仍難以從提示詞中正確推斷隱含的視覺元素。
關鍵發現 3:擴散模型略占優勢,指令理解是關鍵
在開源模型中,擴散模型整體表現略優于自回歸和統一范式,但差異不大。更強的指令編碼器顯著提升模型在構圖與推理上的表現,例如 Qwen-Image 借助 Qwen2.5-VL 編碼器取得最佳成績。這表明未來應優先強化編碼器端的指令理解與文本–圖像對齊,同時保持解碼范式的靈活性。
關鍵發現 4:提示詞重寫能緩解推理瓶頸,但仍不足以解決多模態難題
研究團隊評估了提示詞重寫(prompt rewriting)對 T2I 推理的作用,來補償 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重寫提示詞,顯式補充屬性變化、動作結果與隱含線索。結果顯示重寫確可提升推理,原生推理能力較弱的模型受益更大;但僅靠文本推理仍不足:強模型(如 GPT-Image)在多項推理維度依然未過 80。鑒于 T2I 本質為多模態任務,文本重寫難以克服視覺偏差與文本–圖像耦合(如生成方形輪子的汽車),未來應探索更緊密的多模態交互。
![]()
四、未來方向:讓 T2I 模型從 “會畫畫” 到 “會思考”
基于評測結果,研究團隊提出四個關鍵研究方向,為后續發展指明路徑:
補充復雜場景數據: 現有訓練集多為簡單場景,亟需增加 “高密度物體 + 多步推理” 的標注數據,以拓展模型的見識與泛化能力;
深度融合 LLM/MLLM: 將大模型的文本理解與推理能力嵌入 T2I 流程,例如先解析 prompt 的邏輯,再驅動圖像生成;
引入 LLM 式推理范式: 借鑒 CoT 思想,讓模型逐步推演邏輯鏈(如 “水杯掉地 → 水漬 → 杯子傾斜”),再生成對應畫面;
探索多模態交錯推理機制: 在生成過程中交替利用文本與視覺模態的推理能力,實現跨模態信息的相互補充與一致性推理,從而提升生成結果的邏輯性與逼真度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.