網易首頁 > 網易號 > 正文申請入駐

從「會畫畫」到「會思考」：快手可靈團隊提出 T2I-CoReBench，最強模型也難逃推理瓶頸

2025-10-25 21:55:11　來源: 算法與數學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

當前文本生成圖像（T2I）技術早已不是畫出來就行。從 Stable Diffusion 到最新的 Nano Banana，模型能輕松生成指令一致的簡單畫面，但要生成繁忙廚房中的 30 余種物品或繩索斷裂后特技演員引發連鎖反應這類復雜場景，卻常犯漏東西和邏輯錯的毛病。問題出在哪？

近日，快手可靈團隊提出 T2I-CoReBench。首個同時覆蓋 “構圖能力” 與 “推理能力” 的全面性、高復雜度基準，用 1080 個挑戰性 prompt 和 13,500+ 個精細評測問題，戳破了當前 T2I 模型的 “能力假象”。

論文標題： Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
論文地址： https://arxiv.org/abs/2509.03516
代碼地址： https://github.com/KwaiVGI/T2I-CoReBench
項目主頁： https://t2i-corebench.github.io/

一、研究背景與動機

T2I 模型要生成 “靠譜” 的圖像，靠兩大核心能力：（1）構圖能力（Composition）：把 prompt 里明確提到的元素（比如冰箱、菜板、島臺等）全部畫對，包括物體、屬性、位置關系。（2）推理能力（Reasoning）：把 prompt 里隱含的結果（比如用力擠壓一個番茄 → 番茄擠出汁）推斷出來，生成合理畫面。

但當前的評測基準仍然存在兩個關鍵問題：（1）不全面：要么只評構圖，要么只考推理，沒法整體評估模型又能畫全、又能想對的能力。且推理維度也相對局限，多集中在常識或簡單因果，缺乏對邏輯、歸納、溯因等推理維度的全面覆蓋。（2）太簡單：構圖場景一般只包含少量的視覺元素，且推理只考察單步的簡單推理（比如擠番茄 → 出汁），完全達不到真實世界多物體、多因果的復雜度。

為了解決這兩個問題，研究團隊提出了 T2I-CoReBench，聚焦于評估 T2I 模型兩種基本能力：構圖（Composition）與推理（Reasoning）。不僅要 “測全”，還要 “測難”，讓基準的評估結果真正反映 T2I 模型在實際場景中的表現。

二、T2I-CoReBench: 12 維評估體系 + 高復雜度場景

T2I-CoReBench 聚焦于評估 T2I 模型兩種基本能力：構圖（Composition）與推理（Reasoning）。不同于過去工作靠 “主觀經驗” 設計評測維度，研究團隊從兩個經典分類框架出發，構建了嚴謹的評估體系，共計12 個維度，把 “構圖” 和 “推理” 拆解得明明白白。

構圖能力基于場景圖理論：物體、屬性、關系是共同構成畫面的核心要素。同時考慮到文本內容在 T2I 應用中的重要性（如包裝文字與商標），因而一共定義了多實例（MI）、多屬性（MA）、多關系（MR）以及文本渲染（TR）四個維度。

推理能力基于哲學領域經典的 “三大推理框架”：演繹推理、歸納推理、溯因推理，細分出 T2I 場景下的關鍵任務：

演繹推理的核心邏輯是前提為真，則結論必為真。在 T2I 場景中表現為模型需嚴格依據 prompt 給定的規則、狀態或步驟，生成確定性的視覺畫面。具體定義了邏輯推理（LR）、行為推理（BR）、假設推理（HR）以及過程推理（PR）四個維度。

歸納推理的核心是從具體例子中提煉通用規則，再將規則應用到新場景。在 T2I 中表現為模型需先從 prompt 給出的示例中學會規律，再基于規律生成未被明確描述的視覺元素。具體定義了泛化推理（GR）和類比推理（AR）兩個維度。

溯因推理的核心是從已知觀察出發，重建最可能的隱含原因或背景。在 T2I 中表現為 prompt 僅描述 “結果狀態” 或 “局部線索”，模型需調用常識、物理規律或因果邏輯，補全畫面中 “未被提及但必須存在的元素”。包括常識推理（CR）和重構推理（RR）兩個維度。

為避免模型在簡單場景中 “刷分”，T2I-CoReBench 在 prompt 設計上特意 “加難度”，使其更貼近真實世界，從而倒逼模型暴露短板：

構圖更密集： 構圖類 prompt 平均包含 20 個實例/屬性/關系。例如“擁擠教室”需呈現鉛筆、剪刀、膠棒等 35 個實例。
推理更復雜： 推理類 prompt 均為“密集推理場景”。如火柴燒斷彈性繩 → 繩子彈倒多米諾骨牌 → 彈珠滾進紅水燒杯，需同時呈現 8 個結果，而非“一因一果”的簡單邏輯。
評測更精細： 每個 prompt 配套 checklist，例如“擁擠教室”含 35 個是/否問題（如“圖中有鉛筆嗎？”、“圖中有剪刀嗎？”），逐項獨立評分，避免粗粒度評估帶來的模糊性。

最終，T2I-CoReBench 形成 1080 個 prompt 與 13536 個評測問題的規模，平均 prompt 長度為 170 tokens，checklist 中平均有 12.5 個問題，足夠全面考驗模型在復雜場景中的真實能力。

三、評測結果：構圖有進步，推理仍是 “致命短板”

研究團隊在 T2I-CoReBench 上評測了 28 個主流 T2I 模型（21 個開源 + 7 個閉源，涵蓋擴散、自回歸、統一架構），結果既暴露了行業現狀，也給出了明確方向。

關鍵發現 1：T2I 模型構圖能力穩步提升，但復雜構圖仍遠未解決

在 T2I-CoReBench 的測試中，各模型的構圖能力整體穩步提升：閉源最優模型 Seedream 4.0 得分 86.1，開源最優 Qwen-Image 亦達到 78.0，已接近先進閉源水平。然而在復雜場景下，即便是 Seedream 4.0，在多屬性綁定（MA：84.5）和多關系生成（MR：75.0）方面仍顯吃力，復雜構圖控制依舊是亟待突破的難題。

關鍵發現 2：推理能力仍是 T2I 模型的主要瓶頸

盡管構圖能力穩步提升，但推理仍顯薄弱：Imagen 4 Ultra 推理得分最高，但也僅為 72.9，比構圖低 9.5 分，在邏輯與行為推理等維度表現不佳；開源模型差距更為明顯，Qwen-Image 構圖達 78.0，卻僅在推理上得 49.3（落后 28.7 分）。這表明當前模型仍難以從提示詞中正確推斷隱含的視覺元素。

關鍵發現 3：擴散模型略占優勢，指令理解是關鍵

在開源模型中，擴散模型整體表現略優于自回歸和統一范式，但差異不大。更強的指令編碼器顯著提升模型在構圖與推理上的表現，例如 Qwen-Image 借助 Qwen2.5-VL 編碼器取得最佳成績。這表明未來應優先強化編碼器端的指令理解與文本–圖像對齊，同時保持解碼范式的靈活性。

關鍵發現 4：提示詞重寫能緩解推理瓶頸，但仍不足以解決多模態難題

研究團隊評估了提示詞重寫（prompt rewriting）對 T2I 推理的作用，來補償 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重寫提示詞，顯式補充屬性變化、動作結果與隱含線索。結果顯示重寫確可提升推理，原生推理能力較弱的模型受益更大；但僅靠文本推理仍不足：強模型（如 GPT-Image）在多項推理維度依然未過 80。鑒于 T2I 本質為多模態任務，文本重寫難以克服視覺偏差與文本–圖像耦合（如生成方形輪子的汽車），未來應探索更緊密的多模態交互。

四、未來方向：讓 T2I 模型從 “會畫畫” 到 “會思考”

基于評測結果，研究團隊提出四個關鍵研究方向，為后續發展指明路徑：

補充復雜場景數據： 現有訓練集多為簡單場景，亟需增加 “高密度物體 + 多步推理” 的標注數據，以拓展模型的見識與泛化能力；
深度融合 LLM/MLLM： 將大模型的文本理解與推理能力嵌入 T2I 流程，例如先解析 prompt 的邏輯，再驅動圖像生成；
引入 LLM 式推理范式： 借鑒 CoT 思想，讓模型逐步推演邏輯鏈（如 “水杯掉地 → 水漬 → 杯子傾斜”），再生成對應畫面；
探索多模態交錯推理機制： 在生成過程中交替利用文本與視覺模態的推理能力，實現跨模態信息的相互補充與一致性推理，從而提升生成結果的邏輯性與逼真度。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.