<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      多模態推理新范式ThinkMorph ,文字與圖像在統一架構共同演化

      0
      分享至



      NUS、ZJU、UW、Stanford、CUHK 聯合提出「ThinkMorph」,主張讓文字與圖像在統一架構里「原生協作」、「共同演化」,而不是像當下大多數多模態模型那樣,看完圖像就閉上眼睛,后續完全靠文字鏈條推進。僅用 2.4 萬條數據微調 7B 統一模型,視覺推理平均提升34.74%,多項任務比肩甚至超越GPT-4o和Gemini 2.5 Flash。更重要的是,模型涌現出未被訓練覆蓋的視覺操作能力與自主模式切換,顯示出多模態推理走向「原生智能」或許正在跨過第一道門檻。



      • 論文標題:ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
      • 論文(arXiv): https://arxiv.org/abs/2510.27492
      • 代碼:https://github.com/ThinkMorph/ThinkMorph
      • 主頁(全開源):https://thinkmorph.github.io/

      為什么需要「原生」多模態推理?

      人類解決復雜問題時,「視覺思維」和「邏輯思維」是無縫切換的:看到一道幾何題,我們會在腦中構建空間圖景,同時用邏輯推演約束條件;走迷宮時,我們一邊在視覺上追蹤路徑,一邊在語言層面排除死胡同。兩種思維模態彼此交織、互相推進,這是人類認知的基本方式。



      圖 1:人類認知中視覺與語言思維的自然協同

      然而,當前主流的多模態大模型并非如此。圖像只在輸入階段被 “看見” 一次,之后無論是思維鏈還是強化學習,提升的都是語言層面的推理。換言之,模型「看了一眼」之后就閉上了眼睛,純靠文字完成后續所有思考。

      一種思路是調用外部視覺工具來間接彌補,但天花板有限。ThinkMorph 走的是更徹底的路:「原生多模態推理(Unified Multimodal Reasoning)」:模型可以在推理的任何階段自主生成中間圖像來輔助思考,再用文字分析圖像、推進邏輯,形成交替演進的推理鏈。整個過程在同一個統一模型中完成,不依賴任何外部工具或多階段流水線。



      圖 2:工具增強 vs 原生多模態推理

      這與人類的認知方式高度一致:我們解決視覺問題時,也是在「看」和「想」之間自然切換,而不是看一眼就閉上眼睛純靠語言推演。ThinkMorph 讓模型第一次具備了這種能力。

      核心設計:互補而非同構

      ThinkMorph 的核心理念:文字與圖像在推理中應提供互補信息,共同演化,而非同構復制。



      圖 3:文字與圖像互補協作,逐步推進推理過程

      文字負責抽象分析和邏輯驗證(「這塊碎片左側有棕色紋理,應在第三行第一列」),圖像負責空間可視化和細節呈現(生成重排后的拼圖效果圖、標注邊界框、繪制路徑),兩者互相推動,逐步逼近答案。



      圖 4:四類視覺推理任務的交錯推理實現

      基于統一多模態模型Bagel-7B,研究團隊構建了約24K條高質量交錯推理訓練數據,覆蓋四類視覺推理任務



      圖 5:四類視覺推理訓練任務

      原生多模態推理有多強,又能走多遠?

      在同一個基座模型上,研究團隊分別微調了純文字、純視覺和交錯「三種推理模式」進行對比。結果很清晰:交錯推理在視覺密集型任務上全面領先。文字與圖像在推理中確實能互補協作,而非簡單相加。



      圖 6:三種推理模式的性能對比

      更關鍵的是「泛化能力」。在全部 24K 數據聯合訓練后,ThinkMorph 在9 個基準上相比基礎模型平均提升 20.74%,其中包括多個從未見過的域外任務。盡管只有 7B 參數,它已可以與大規模模型比肩:在 BLINK-J 上超越 Qwen2.5-VL-72B 超過 10 個百分點,在 SAT 空間推理上領先 GPT-4o 24.67 個百分點,在 MMVP 上匹配 Gemini 2.5 Flash。

      這不只是規模的勝利,而是訓練策略的勝利:交錯推理讓生成與理解相互強化,用更少的數據撬動了更強的視覺推理能力。



      圖 7:ThinkMorph 在 9 個基準上的泛化表現

      不止于性能:原生多模態推理的潛力遠超想象

      如果 ThinkMorph 只是「性能更好」,它可能只是又一篇刷榜論文。但比數字更重要的,是這個初步探索中涌現出的一系列積極信號。它們暗示:原生多模態推理的潛力,我們才剛剛觸及冰山一角。



      圖 8:三個涌現信號概覽

      信號一:未見視覺操作 —— 模型自主習得了 8 種新技能

      訓練數據中只包含四類基礎視覺操作(拼圖可視化、路徑繪制、邊界框標注、區域高亮),但測試時模型自發展現了 8 種從未見過的操作如放大(zoom-in)、圖像修復(inpainting)等。



      圖 9:模型涌現的未見視覺操作示例

      最典型的例子:面對「這個燈籠椒是紅色還是黃色?」這個問題,模型自動生成了一張放大圖來辨認顏色的細微差異,完全模仿了人類湊近觀察的認知策略,而這種操作在訓練數據中從未出現。在某些基準上,這類涌現操作占到了所有視覺生成的10% 以上。

      研究團隊分析了其來源機制:預訓練賦予了原始的視覺操作能力,而交錯推理微調激活了這些能力在推理場景中的目的性運用。

      信號二:自主模式切換 ——「這道題不需要視覺輔助」

      盡管只用交錯推理數據訓練,模型在5.3%的測試案例中「自主切換」為純文字推理。這不是隨機行為:在切換的樣本上準確率達到81.25%,比堅持交錯推理高出 7.29 個百分點。

      模型學會了判斷「這道題需不需要視覺輔助」,像人類一樣靈活協調語言和視覺,而非機械執行固定流程。



      圖 10:自主模式切換案例與統計

      信號三:協同解空間探索 —— 多樣性驅動更好的測試時擴展

      在 Best-of-N 采樣下,交錯推理一致優于單模態推理,且分布偏移越大優勢越明顯。在最具挑戰的 BLINK-J 上,交錯推理從 65.33% 提升到 73.33%(+8.0%),而純視覺推理反而下降 2.0%。

      原因在于:單模態推理鏈局限于單一表示空間,而交錯推理同時在文字和圖像空間中探索,天然產生更「多樣化」的推理軌跡,覆蓋更廣的解空間。



      圖 11:Best-of-N 測試時擴展對比

      涌現屬性的進一步驗證

      上述三個涌現信號是否只是個別任務上的偶然?在更廣泛的域外基準上,研究團隊進一步驗證了它們的穩健性。

      測試時擴展的表現因任務類型而異:在推理密集型任務(如 VStar)上,性能隨采樣數 N 單調提升(+5.89%@N=8);而在感知主導型任務(如 BLINK-J)上呈現 U 形曲線,需要更大的采樣量才能逃離局部最優。



      圖 12:不同任務類型的測試時擴展趨勢

      此外,當模型被允許在不同推理模式間靈活切換時,模式多樣性本身進一步放大了測試時擴展的收益,為未來更高效的多模態擴展提供了方向。



      圖 13:模式多樣性對測試時擴展的增益

      邊界在哪里?

      ThinkMorph 同時討論了這種推理方式的邊界條件。在圖表分析中,關鍵信息本身就是文字(標簽、數值),純文字推理反而略優(+1.88%);但在需要精確視覺定位的任務上(如 MMVP),交錯推理優勢明顯(+6.33%)。簡單說:需要持續「看」的任務,交錯推理最優;一眼就能提取關鍵信息的任務,文字推理更高效。



      圖 14:交錯推理的邊界條件分析

      總結:原生多模態推理的未來

      ThinkMorph 仍是「原生多模態推理」的一場初步探索,但它已經證明,文字與圖像一旦在統一架構中共同演化,就會涌現出訓練數據從未覆蓋的新能力,并學會自主判斷何時該看、何時該想。

      如果說當下的推理增強是在語言空間里把推理擰到極致,而 ThinkMorph 暗示下一次范式級突破可能不在更長的文本鏈條里,而在視覺與語言「交錯協作」的原生推理里。跨過第一道門檻之后,等待被釋放的是一種構建智能的全新默認方式。讓多模態成為默認的思考方式,而這才剛剛開始。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英超保級反轉!熱刺1-0新帥首勝,西漢姆2-1絕殺,降級熱門2選1

      英超保級反轉!熱刺1-0新帥首勝,西漢姆2-1絕殺,降級熱門2選1

      體育知多少
      2026-04-26 00:09:25
      妻子手機半夜收到“父親”信息,丈夫替妻子回復:他不在家,快來

      妻子手機半夜收到“父親”信息,丈夫替妻子回復:他不在家,快來

      惟來
      2026-04-25 13:01:13
      普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

      普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

      裝修秀
      2026-04-20 10:50:03
      65歲黃宏現狀曝光,住北京普通小區,由外孫女照顧,看起來狀態不錯

      65歲黃宏現狀曝光,住北京普通小區,由外孫女照顧,看起來狀態不錯

      娛樂的硬糖吖
      2026-04-24 16:58:00
      董事長涉嫌強-J!涉及兩家上市公司

      董事長涉嫌強-J!涉及兩家上市公司

      挖掘機007
      2026-04-26 09:45:24
      這個角度的楊冪是不是更美

      這個角度的楊冪是不是更美

      小椰的奶奶
      2026-04-25 18:29:09
      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      阿訊說天下
      2026-04-18 14:53:39
      宋喆直播賣棗笑塌全網!百萬流量零成交,滿屏王寶強彈幕扎心到爆

      宋喆直播賣棗笑塌全網!百萬流量零成交,滿屏王寶強彈幕扎心到爆

      誮惜顏a
      2026-01-13 01:12:10
      怒了!國安球迷:蒙哥馬利下課,知道大廠為何35歲以上的不要了吧

      怒了!國安球迷:蒙哥馬利下課,知道大廠為何35歲以上的不要了吧

      足球大腕
      2026-04-25 23:21:55
      孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

      孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

      古希臘掌管松餅的神
      2026-04-25 11:24:56
      汪小菲學乖了,馬筱梅期待的隆重百日宴可能要泡湯了

      汪小菲學乖了,馬筱梅期待的隆重百日宴可能要泡湯了

      觀察鑒娛
      2026-04-26 13:21:24
      西安普通人存款天花板曝光,看完瞬間破防

      西安普通人存款天花板曝光,看完瞬間破防

      叮當當科技
      2026-04-26 11:19:36
      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      火山詩話
      2026-04-23 16:46:58
      又胖了!萊昂諾爾公主訓練照曝光,腹部脂肪堆積,大腿粗壯有力

      又胖了!萊昂諾爾公主訓練照曝光,腹部脂肪堆積,大腿粗壯有力

      凡知
      2026-04-26 09:48:23
      艾倫回應批評:亨德利一派胡言!2位前冠軍被淘汰,8強已出3席

      艾倫回應批評:亨德利一派胡言!2位前冠軍被淘汰,8強已出3席

      排球黃金眼
      2026-04-26 09:06:24
      四年暴跌120億,微信是怎么“殺死”口香糖行業的?

      四年暴跌120億,微信是怎么“殺死”口香糖行業的?

      流蘇晚晴
      2026-04-19 20:34:47
      深圳機場廁所登上熱搜!網友質疑便池精準顯示,是否靠攝像頭監控

      深圳機場廁所登上熱搜!網友質疑便池精準顯示,是否靠攝像頭監控

      火山詩話
      2026-04-25 07:22:32
      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      洞見小能手
      2026-04-24 10:21:16
      解放軍96小時后準時收兵,中日開戰結局六字可述

      解放軍96小時后準時收兵,中日開戰結局六字可述

      少女心盜夢賊
      2026-04-26 09:59:33
      德爾加多面臨挖角!魯媒:不去青島,或準備追隨恩師,加盟豪門

      德爾加多面臨挖角!魯媒:不去青島,或準備追隨恩師,加盟豪門

      建哥說體育
      2026-04-26 09:35:53
      2026-04-26 14:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12855文章數 142636關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

      頭條要聞

      特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      數碼
      健康
      親子
      旅游
      軍事航空

      數碼要聞

      小米截至2025年底全球授權專利超4.5萬項 智能座艙專利中國第一

      干細胞如何讓燒燙傷皮膚"再生"?

      親子要聞

      孩子會旺媽媽的6個特點

      旅游要聞

      下一站|一天體驗越南三大特色

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 2020久久香蕉国产线看观看| 亚洲av色在线播放一区| 成年男女免费视频在线观看不卡| 亚洲乱亚洲乱少妇无码| 成人免费A级毛片无码片2022 | 国产成人夜色高潮福利影视| 青青操国产| 风流老熟女一区二区三区| 久久人妻少妇嫩草av无码专区| 日韩国产色色网| 人妻中出无码一区二区三区 | 国产无遮挡猛进猛出免费| 成年大片免费视频观看| 久久九精品视频| 乱人伦中文无码视频在线观看 | 亚洲精品色午夜无码专区日韩| 亚洲人成网站18禁止一区| 国产激情无码一区二区app| 99999久久久久久亚洲| 人妻无码久久精品| 成人亚洲欧美成αⅴ人在线观看| 欧美激情在线播放| 亚洲九九九| 四虎亚洲国产成人久久精品| 免费人成网上在线观看网址| 久久这里都是精品二| 97免费人妻在线视频| 野花社区www高清视频| 欧美精品videosex极品| 亚洲国精产品一二二线| 韩色区| 久久一本日韩精品中文字幕屁孩| 好男人社区www在线观看| 渑池县| 鲁大师在线视频播放免费观看 | 美女裸体十八禁免费网站| 欧美性生交XXXXX久久久| 丰满岳乱妇一区二区三区| www.99| 中文字幕无码精品亚洲资源网久久 | 亚洲夜夜欢一区二区三区|