<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從「會畫畫」到「會思考」:快手可靈團隊提出 T2I-CoReBench,最強模型也難逃推理瓶頸

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      當前文本生成圖像(T2I)技術早已不是畫出來就行。從 Stable Diffusion 到最新的 Nano Banana,模型能輕松生成指令一致的簡單畫面,但要生成繁忙廚房中的 30 余種物品繩索斷裂后特技演員引發連鎖反應這類復雜場景,卻常犯漏東西邏輯錯的毛病。問題出在哪?

      近日,快手可靈團隊提出 T2I-CoReBench。首個同時覆蓋 “構圖能力” 與 “推理能力” 的全面性、高復雜度基準,用 1080 個挑戰性 prompt 和 13,500+ 個精細評測問題,戳破了當前 T2I 模型的 “能力假象”。



      • 論文標題: Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

      • 論文地址: https://arxiv.org/abs/2509.03516

      • 代碼地址: https://github.com/KwaiVGI/T2I-CoReBench

      • 項目主頁: https://t2i-corebench.github.io/

      一、研究背景與動機

      T2I 模型要生成 “靠譜” 的圖像,靠兩大核心能力:(1)構圖能力(Composition):把 prompt 里明確提到的元素(比如冰箱、菜板、島臺等)全部畫對,包括物體、屬性、位置關系。(2)推理能力(Reasoning):把 prompt 里隱含的結果(比如用力擠壓一個番茄 → 番茄擠出汁)推斷出來,生成合理畫面。

      但當前的評測基準仍然存在兩個關鍵問題:(1)不全面:要么只評構圖,要么只考推理,沒法整體評估模型又能畫全、又能想對的能力。且推理維度也相對局限,多集中在常識或簡單因果,缺乏對邏輯、歸納、溯因等推理維度的全面覆蓋。(2)太簡單:構圖場景一般只包含少量的視覺元素,且推理只考察單步的簡單推理(比如擠番茄 → 出汁),完全達不到真實世界多物體、多因果的復雜度。

      為了解決這兩個問題,研究團隊提出了 T2I-CoReBench,聚焦于評估 T2I 模型兩種基本能力:構圖(Composition)推理(Reasoning)。不僅要 “測全”,還要 “測難”,讓基準的評估結果真正反映 T2I 模型在實際場景中的表現。


      二、T2I-CoReBench: 12 維評估體系 + 高復雜度場景

      T2I-CoReBench 聚焦于評估 T2I 模型兩種基本能力:構圖(Composition)推理(Reasoning)。不同于過去工作靠 “主觀經驗” 設計評測維度,研究團隊從兩個經典分類框架出發,構建了嚴謹的評估體系,共計12 個維度,把 “構圖” 和 “推理” 拆解得明明白白。


      構圖能力基于場景圖理論:物體、屬性、關系是共同構成畫面的核心要素。同時考慮到文本內容在 T2I 應用中的重要性(如包裝文字與商標),因而一共定義了多實例(MI)、多屬性(MA)、多關系(MR)以及文本渲染(TR)四個維度。


      推理能力基于哲學領域經典的 “三大推理框架”:演繹推理、歸納推理、溯因推理,細分出 T2I 場景下的關鍵任務:

      演繹推理的核心邏輯是前提為真,則結論必為真。在 T2I 場景中表現為模型需嚴格依據 prompt 給定的規則、狀態或步驟,生成確定性的視覺畫面。具體定義了邏輯推理(LR)、行為推理(BR)、假設推理(HR)以及過程推理(PR)四個維度。


      歸納推理的核心是從具體例子中提煉通用規則,再將規則應用到新場景。在 T2I 中表現為模型需先從 prompt 給出的示例中學會規律,再基于規律生成未被明確描述的視覺元素。具體定義了泛化推理(GR)類比推理(AR)兩個維度。


      溯因推理的核心是從已知觀察出發,重建最可能的隱含原因或背景。在 T2I 中表現為 prompt 僅描述 “結果狀態” 或 “局部線索”,模型需調用常識、物理規律或因果邏輯,補全畫面中 “未被提及但必須存在的元素”。包括常識推理(CR)重構推理(RR)兩個維度。


      為避免模型在簡單場景中 “刷分”,T2I-CoReBench 在 prompt 設計上特意 “加難度”,使其更貼近真實世界,從而倒逼模型暴露短板:

      1. 構圖更密集: 構圖類 prompt 平均包含 20 個實例/屬性/關系。例如“擁擠教室”需呈現鉛筆、剪刀、膠棒等 35 個實例。

      2. 推理更復雜: 推理類 prompt 均為“密集推理場景”。如 火柴燒斷彈性繩 → 繩子彈倒多米諾骨牌 → 彈珠滾進紅水燒杯,需同時呈現 8 個結果,而非“一因一果”的簡單邏輯。

      3. 評測更精細: 每個 prompt 配套 checklist,例如“擁擠教室”含 35 個是/否問題(如“圖中有鉛筆嗎?”、“圖中有剪刀嗎?”),逐項獨立評分,避免粗粒度評估帶來的模糊性。

      最終,T2I-CoReBench 形成 1080 個 prompt 與 13536 個評測問題的規模,平均 prompt 長度為 170 tokens,checklist 中平均有 12.5 個問題,足夠全面考驗模型在復雜場景中的真實能力。

      三、評測結果:構圖有進步,推理仍是 “致命短板”

      研究團隊在 T2I-CoReBench 上評測了 28 個主流 T2I 模型(21 個開源 + 7 個閉源,涵蓋擴散、自回歸、統一架構),結果既暴露了行業現狀,也給出了明確方向。


      關鍵發現 1:T2I 模型構圖能力穩步提升,但復雜構圖仍遠未解決

      在 T2I-CoReBench 的測試中,各模型的構圖能力整體穩步提升:閉源最優模型 Seedream 4.0 得分 86.1,開源最優 Qwen-Image 亦達到 78.0,已接近先進閉源水平。然而在復雜場景下,即便是 Seedream 4.0,在多屬性綁定(MA:84.5)和多關系生成(MR:75.0)方面仍顯吃力,復雜構圖控制依舊是亟待突破的難題。

      關鍵發現 2:推理能力仍是 T2I 模型的主要瓶頸

      盡管構圖能力穩步提升,但推理仍顯薄弱:Imagen 4 Ultra 推理得分最高,但也僅為 72.9,比構圖低 9.5 分,在邏輯與行為推理等維度表現不佳;開源模型差距更為明顯,Qwen-Image 構圖達 78.0,卻僅在推理上得 49.3(落后 28.7 分)。這表明當前模型仍難以從提示詞中正確推斷隱含的視覺元素。

      關鍵發現 3:擴散模型略占優勢,指令理解是關鍵

      在開源模型中,擴散模型整體表現略優于自回歸和統一范式,但差異不大。更強的指令編碼器顯著提升模型在構圖與推理上的表現,例如 Qwen-Image 借助 Qwen2.5-VL 編碼器取得最佳成績。這表明未來應優先強化編碼器端的指令理解與文本–圖像對齊,同時保持解碼范式的靈活性。

      關鍵發現 4:提示詞重寫能緩解推理瓶頸,但仍不足以解決多模態難題

      研究團隊評估了提示詞重寫(prompt rewriting)對 T2I 推理的作用,來補償 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重寫提示詞,顯式補充屬性變化、動作結果與隱含線索。結果顯示重寫確可提升推理,原生推理能力較弱的模型受益更大;但僅靠文本推理仍不足:強模型(如 GPT-Image)在多項推理維度依然未過 80。鑒于 T2I 本質為多模態任務,文本重寫難以克服視覺偏差與文本–圖像耦合(如生成方形輪子的汽車),未來應探索更緊密的多模態交互。


      四、未來方向:讓 T2I 模型從 “會畫畫” 到 “會思考”

      基于評測結果,研究團隊提出四個關鍵研究方向,為后續發展指明路徑:

      1. 補充復雜場景數據: 現有訓練集多為簡單場景,亟需增加 “高密度物體 + 多步推理” 的標注數據,以拓展模型的見識與泛化能力;

      2. 深度融合 LLM/MLLM: 將大模型的文本理解與推理能力嵌入 T2I 流程,例如先解析 prompt 的邏輯,再驅動圖像生成;

      3. 引入 LLM 式推理范式: 借鑒 CoT 思想,讓模型逐步推演邏輯鏈(如 “水杯掉地 → 水漬 → 杯子傾斜”),再生成對應畫面;

      4. 探索多模態交錯推理機制: 在生成過程中交替利用文本與視覺模態的推理能力,實現跨模態信息的相互補充與一致性推理,從而提升生成結果的邏輯性與逼真度。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      漢史趣聞
      2025-12-18 11:38:12
      男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發地為私人承包區,已排查公園安全隱患

      男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發地為私人承包區,已排查公園安全隱患

      極目新聞
      2025-12-18 17:10:51
      南京不少市民反映導航失靈?高德回應:信號干擾源導致定位異常

      南京不少市民反映導航失靈?高德回應:信號干擾源導致定位異常

      極目新聞
      2025-12-18 15:26:27
      今夜,飆漲!美聯儲,重大利好!

      今夜,飆漲!美聯儲,重大利好!

      中國基金報
      2025-12-19 00:24:24
      江蘇成立專班調查“博物院藏品疑被拍賣”事件,南京博物院工作人員再回應

      江蘇成立專班調查“博物院藏品疑被拍賣”事件,南京博物院工作人員再回應

      極目新聞
      2025-12-18 15:48:53
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      韋瑟斯龐56+6+6本季最高!青島輕取同曦3連勝 郭昊文18+9失誤

      韋瑟斯龐56+6+6本季最高!青島輕取同曦3連勝 郭昊文18+9失誤

      醉臥浮生
      2025-12-18 21:24:48
      要干什么?要打生物戰嗎?

      要干什么?要打生物戰嗎?

      求實處
      2025-12-18 00:28:44
      回國后我才敢說:越南是我去過的所有國家中,最被低估的

      回國后我才敢說:越南是我去過的所有國家中,最被低估的

      李健政觀察
      2025-12-18 09:49:21
      馬斯克凌晨三點發文警告:全球進入“大戰倒計時”!

      馬斯克凌晨三點發文警告:全球進入“大戰倒計時”!

      小鬼頭體育
      2025-12-18 04:07:23
      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      長風文史
      2025-12-18 15:00:28
      動態 | 印度最大航司崩潰,傳遞出一個危險信號...

      動態 | 印度最大航司崩潰,傳遞出一個危險信號...

      南亞研究通訊
      2025-12-17 23:08:02
      廣東男子吹玻璃30年肌肉拉傷變形,自嘲是“青蛙王子”笑稱自己練就了“蛤蟆功”

      廣東男子吹玻璃30年肌肉拉傷變形,自嘲是“青蛙王子”笑稱自己練就了“蛤蟆功”

      大象新聞
      2025-12-18 18:57:05
      大風追蹤|“智力殘疾女孩遭多次侵犯,父親為討說法不幸遇害”案新進展:維持死刑判決

      大風追蹤|“智力殘疾女孩遭多次侵犯,父親為討說法不幸遇害”案新進展:維持死刑判決

      大風新聞
      2025-12-18 18:06:06
      以色列暗殺伊朗核科學家細節曝光:和美國反復磋商,暗殺名單從100人縮減至12人

      以色列暗殺伊朗核科學家細節曝光:和美國反復磋商,暗殺名單從100人縮減至12人

      爆角追蹤
      2025-12-18 19:38:52
      赴日外國游客突破3900萬人次再創歷史新高 中國游客影響有限

      赴日外國游客突破3900萬人次再創歷史新高 中國游客影響有限

      顫抖的熊貓
      2025-12-17 22:12:26
      CBA最差教練!球隊開賽3連敗,有好球員不用,球迷:快下課

      CBA最差教練!球隊開賽3連敗,有好球員不用,球迷:快下課

      籃球專區
      2025-12-18 23:19:32
      游客大理租車當晚車身被惡意劃傷,賠償600元后監控曝光:竟是租車行員工所為!警方:行拘

      游客大理租車當晚車身被惡意劃傷,賠償600元后監控曝光:竟是租車行員工所為!警方:行拘

      封面新聞
      2025-12-18 19:17:32
      魏建軍直言:長城棄用一體化壓鑄與隱藏門把手,這些技術華而不實

      魏建軍直言:長城棄用一體化壓鑄與隱藏門把手,這些技術華而不實

      行者聊官
      2025-12-17 09:00:11
      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      環球熱點快評
      2025-12-18 11:43:15
      2025-12-19 03:03:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5269文章數 64595關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      旅游
      數碼
      本地
      房產
      公開課

      旅游要聞

      治愈冬日 emo!沈陽北陵紅燈籠長廊 + 樹掛奇觀,隨手拍都是大片

      數碼要聞

      LG新一代車用屏下攝像頭將亮相CES 2026,畫質達非屏下產品99%

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      房產要聞

      搶藏瘋潮!封關時代,海口頂奢王炸壓軸,傳世資產即刻登場!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久国产精品老女人| 久久精品一区二区三区中文字幕| 莆田市| 精品国产乱子伦一区二区三区,精品一| 部精品久久久久久久久| 国产对白老熟女正在播放| 老司机午夜精品99久久免费| 亚洲成av人片天堂网老年人| 日韩无码专区| www.干| 熟女中文字幕| 丰满人妻一区二区三区无码AV| 日韩城人网站| 激情六月丁香婷婷四房播| www.97| 欧美情侣性视频| 亚洲国产av一区二区三区四区| 精品国产重口乱子伦| 日韩A| 茄子视频国产在线观看| 亚洲第一在线综合网站| 蜜桃av无码免费看永久| 国产深夜福利| 精品人妻无码| 免费无码专区毛片高潮喷水| 亚洲av专区一区| 国产69xxx| 亚洲日韩日本中文在线| yy111111少妇影院免费观看| 欧美a√| 台安县| 欧美精品高清在线观看| 日韩乱码人妻无码中文字幕 | 91日韩在线| 亚洲乱妇熟女爽到高潮的片| 成在线人av免费无码高潮喷水| 亚洲精品自拍| 亚洲成人中出| 蜜桃麻豆www久久囤产精品| 老太脱裤让老头玩ⅹxxxx| 亚洲1234区|