網易首頁 > 網易號 > 正文申請入駐

多模態推理新范式ThinkMorph ，文字與圖像在統一架構共同演化

2026-03-10 16:02:54　來源: 機器之心Pro

河北舉報

分享至

NUS、ZJU、UW、Stanford、CUHK 聯合提出「ThinkMorph」，主張讓文字與圖像在統一架構里「原生協作」、「共同演化」，而不是像當下大多數多模態模型那樣，看完圖像就閉上眼睛，后續完全靠文字鏈條推進。僅用 2.4 萬條數據微調 7B 統一模型，視覺推理平均提升34.74%，多項任務比肩甚至超越GPT-4o和Gemini 2.5 Flash。更重要的是，模型涌現出未被訓練覆蓋的視覺操作能力與自主模式切換，顯示出多模態推理走向「原生智能」或許正在跨過第一道門檻。

論文標題：ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
論文（arXiv）: https://arxiv.org/abs/2510.27492
代碼：https://github.com/ThinkMorph/ThinkMorph
主頁（全開源）：https://thinkmorph.github.io/

為什么需要「原生」多模態推理？

人類解決復雜問題時，「視覺思維」和「邏輯思維」是無縫切換的：看到一道幾何題，我們會在腦中構建空間圖景，同時用邏輯推演約束條件；走迷宮時，我們一邊在視覺上追蹤路徑，一邊在語言層面排除死胡同。兩種思維模態彼此交織、互相推進，這是人類認知的基本方式。

圖 1：人類認知中視覺與語言思維的自然協同

然而，當前主流的多模態大模型并非如此。圖像只在輸入階段被 “看見” 一次，之后無論是思維鏈還是強化學習，提升的都是語言層面的推理。換言之，模型「看了一眼」之后就閉上了眼睛，純靠文字完成后續所有思考。

一種思路是調用外部視覺工具來間接彌補，但天花板有限。ThinkMorph 走的是更徹底的路：「原生多模態推理（Unified Multimodal Reasoning）」：模型可以在推理的任何階段自主生成中間圖像來輔助思考，再用文字分析圖像、推進邏輯，形成交替演進的推理鏈。整個過程在同一個統一模型中完成，不依賴任何外部工具或多階段流水線。

圖 2：工具增強 vs 原生多模態推理

這與人類的認知方式高度一致：我們解決視覺問題時，也是在「看」和「想」之間自然切換，而不是看一眼就閉上眼睛純靠語言推演。ThinkMorph 讓模型第一次具備了這種能力。

核心設計：互補而非同構

ThinkMorph 的核心理念：文字與圖像在推理中應提供互補信息，共同演化，而非同構復制。

圖 3：文字與圖像互補協作，逐步推進推理過程

文字負責抽象分析和邏輯驗證（「這塊碎片左側有棕色紋理，應在第三行第一列」），圖像負責空間可視化和細節呈現（生成重排后的拼圖效果圖、標注邊界框、繪制路徑），兩者互相推動，逐步逼近答案。

圖 4：四類視覺推理任務的交錯推理實現

基于統一多模態模型Bagel-7B，研究團隊構建了約24K條高質量交錯推理訓練數據，覆蓋四類視覺推理任務

圖 5：四類視覺推理訓練任務

原生多模態推理有多強，又能走多遠？

在同一個基座模型上，研究團隊分別微調了純文字、純視覺和交錯「三種推理模式」進行對比。結果很清晰：交錯推理在視覺密集型任務上全面領先。文字與圖像在推理中確實能互補協作，而非簡單相加。

圖 6：三種推理模式的性能對比

更關鍵的是「泛化能力」。在全部 24K 數據聯合訓練后，ThinkMorph 在9 個基準上相比基礎模型平均提升 20.74%，其中包括多個從未見過的域外任務。盡管只有 7B 參數，它已可以與大規模模型比肩：在 BLINK-J 上超越 Qwen2.5-VL-72B 超過 10 個百分點，在 SAT 空間推理上領先 GPT-4o 24.67 個百分點，在 MMVP 上匹配 Gemini 2.5 Flash。

這不只是規模的勝利，而是訓練策略的勝利：交錯推理讓生成與理解相互強化，用更少的數據撬動了更強的視覺推理能力。

圖 7：ThinkMorph 在 9 個基準上的泛化表現

不止于性能：原生多模態推理的潛力遠超想象

如果 ThinkMorph 只是「性能更好」，它可能只是又一篇刷榜論文。但比數字更重要的，是這個初步探索中涌現出的一系列積極信號。它們暗示：原生多模態推理的潛力，我們才剛剛觸及冰山一角。

圖 8：三個涌現信號概覽

信號一：未見視覺操作 —— 模型自主習得了 8 種新技能

訓練數據中只包含四類基礎視覺操作（拼圖可視化、路徑繪制、邊界框標注、區域高亮），但測試時模型自發展現了 8 種從未見過的操作如放大（zoom-in）、圖像修復（inpainting）等。

圖 9：模型涌現的未見視覺操作示例

最典型的例子：面對「這個燈籠椒是紅色還是黃色？」這個問題，模型自動生成了一張放大圖來辨認顏色的細微差異，完全模仿了人類湊近觀察的認知策略，而這種操作在訓練數據中從未出現。在某些基準上，這類涌現操作占到了所有視覺生成的10% 以上。

研究團隊分析了其來源機制：預訓練賦予了原始的視覺操作能力，而交錯推理微調激活了這些能力在推理場景中的目的性運用。

信號二：自主模式切換 ——「這道題不需要視覺輔助」

盡管只用交錯推理數據訓練，模型在5.3%的測試案例中「自主切換」為純文字推理。這不是隨機行為：在切換的樣本上準確率達到81.25%，比堅持交錯推理高出 7.29 個百分點。

模型學會了判斷「這道題需不需要視覺輔助」，像人類一樣靈活協調語言和視覺，而非機械執行固定流程。

圖 10：自主模式切換案例與統計

信號三：協同解空間探索 —— 多樣性驅動更好的測試時擴展

在 Best-of-N 采樣下，交錯推理一致優于單模態推理，且分布偏移越大優勢越明顯。在最具挑戰的 BLINK-J 上，交錯推理從 65.33% 提升到 73.33%（+8.0%），而純視覺推理反而下降 2.0%。

原因在于：單模態推理鏈局限于單一表示空間，而交錯推理同時在文字和圖像空間中探索，天然產生更「多樣化」的推理軌跡，覆蓋更廣的解空間。

圖 11：Best-of-N 測試時擴展對比

涌現屬性的進一步驗證

上述三個涌現信號是否只是個別任務上的偶然？在更廣泛的域外基準上，研究團隊進一步驗證了它們的穩健性。

測試時擴展的表現因任務類型而異：在推理密集型任務（如 VStar）上，性能隨采樣數 N 單調提升（+5.89%@N=8）；而在感知主導型任務（如 BLINK-J）上呈現 U 形曲線，需要更大的采樣量才能逃離局部最優。

圖 12：不同任務類型的測試時擴展趨勢

此外，當模型被允許在不同推理模式間靈活切換時，模式多樣性本身進一步放大了測試時擴展的收益，為未來更高效的多模態擴展提供了方向。

圖 13：模式多樣性對測試時擴展的增益

邊界在哪里？

ThinkMorph 同時討論了這種推理方式的邊界條件。在圖表分析中，關鍵信息本身就是文字（標簽、數值），純文字推理反而略優（+1.88%）；但在需要精確視覺定位的任務上（如 MMVP），交錯推理優勢明顯（+6.33%）。簡單說：需要持續「看」的任務，交錯推理最優；一眼就能提取關鍵信息的任務，文字推理更高效。

圖 14：交錯推理的邊界條件分析

總結：原生多模態推理的未來

ThinkMorph 仍是「原生多模態推理」的一場初步探索，但它已經證明，文字與圖像一旦在統一架構中共同演化，就會涌現出訓練數據從未覆蓋的新能力，并學會自主判斷何時該看、何時該想。

如果說當下的推理增強是在語言空間里把推理擰到極致，而 ThinkMorph 暗示下一次范式級突破可能不在更長的文本鏈條里，而在視覺與語言「交錯協作」的原生推理里。跨過第一道門檻之后，等待被釋放的是一種構建智能的全新默認方式。讓多模態成為默認的思考方式，而這才剛剛開始。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.