![]()
大家是否有這樣的感覺?給定幾張場景中拍攝的圖片,往往能夠在腦海中想象出這個場景的三維布局,然而當前的多模態大模型還停留于純文本或者 2D 視覺的推理表示,限制了圖像中隱含幾何結構的表達能力。
為此,清華大學聯合美團研究團隊推出 3DThinker—— 首個 3D 版的「think with image」!
![]()
- 論文地址:https://arxiv.org/pdf/2510.18632
- 代碼地址:https://github.com/zhangquanchen/3DThinker
接下來,就來看看 3DThinker 是如何做的。
從「think with image」到「think with 3D」
多模態大模型的推理能力提升一直以來是研究的重點和熱點。人類往往能夠根據幾張拍攝的 RGB 圖像中推斷空間關系,而當前多模態大模型在空間理解任務上表現較弱。背后的核心原因在于多模態大模型缺乏對圖像中幾何信息的提取能力。
為解決此問題,之前的方法可以分為兩類:
- 依賴純文本或二維視覺線索的強推理(例如進行認知圖的推理),這類方法往往依賴于繁瑣的數據標注;
- 通過輸入增強(例如引入深度圖、點云等先驗信息),這類方法往往依賴于外部工具調用,不是內蘊的模型能力,且推理存在負擔。
![]()
而 3DThinker 提出了一種全新的思路,在無需 3D 標注(例如點云)、無需外部工具的情況下,讓模型在推理過程中內蘊地「想象」三維場景。
具體來說,該框架讓模型在生成推理鏈時,自動插入一段緊湊的隱變量,作為其腦內構建的三維場景表征,這段生成的表征通過蒸餾 3D 基礎模型(VGGT)來獲得。
核心思路:二段式學習用 3D 思考
3DThinker 提出了雙階段的訓練策略來完成潛空間對齊,包括:(i) 監督訓練過程中,將預訓練的 3D 特征蒸餾進入模型推理路徑,實現模型從二維數據的幾何信息提取,而不依賴于任何先驗;(ii) 強化訓練過程中,在保持 3D latent 穩定的同時,僅僅依賴結果信號優化整個采樣軌跡,從而實現模型的能力飛躍。
![]()
S1:以 3D 基礎模型為指導,建立模型推理行為
在一階段的監督訓練中,首先構造了攜帶 3D special token 的 cot 數據,基于該數據進行監督訓練,訓練過程中,3DThinker 將對所有 special token 所對應的 3D latent(last layer hidden state)通過 projetor 映射到 VGGT 的潛空間,并將兩者的對齊作為第一項損失函數:
![]()
其中,projector 基于堆疊 6 層 MLP 實現三次特征維度映射,具體框圖如下:
![]()
而第二項損失函數是除去 special token 后的文本交叉熵損失:
![]()
其中,第一項損失函數在于保證 3D latent 的表征對齊;第二項在于保證自然語言的連貫性嵌入。
S2:以結果信號為基礎,優化含 3D 意象的軌跡
在一階段后,已經初步實現了模型 think with 3D 的表征對齊;接下來,基于強化學習,在只有結果信號的情況下,優化整條采樣軌跡,包括其中的 3D latent。
具體來說,3DThinker 設計了一個 3D latent 對齊的獎勵:
![]()
也就是說,3DThinker 會提取自回歸生成的 3D latent,并于 VGGT 特征保持一致性,從而保證 RL 采樣過程中不丟失幾何表達。
另一方面,3DThinker 也參照先前方法的 outcome-based RL 保持了結果的二值化獎勵以及格式獎勵,最后基于 GRPO 進行優化。
提升到新高度的結果
論文在多個空間理解的 BMK 上驗證了 3DThinker 的效果。
方法首先在 MindCube 的 10K 數據上構造了帶有 3D special token 的推理鏈數據,并基于兩個階段進行訓練,下表報告了訓練后的模型效果,在 MindCube-Tiny 上,針對不同尺寸的模型,相比 base 整體提升了 51.8% 到 108.8%;在 Ego3D-Bench 上,則提升了 18.1% 到 36.9%。
![]()
以 Qwen2.5-VL-3B 基礎模型為例,在監督訓練上,模型相比需要 CGMap 標注的訓練超過了+ 1.9 pp(62.7 vs. 60.8);加入強化學習后,3DThinker 也獲得了+ 4.5 pp(75.2 vs. 70.7) 的提升,彰顯了 3DThinker 訓練方法的有效性。
![]()
另一方面,以自制的大規模訓練數據為基礎,模型進一步在更多全面的測試基準上進行了評估。
以 Qwen2.5-VL-3B 為例,該方法相比之前的 SOTA+10.8 pp(49.6->60.4);以 Qwen2.5-VL-7B 為例,該方法相比之前的 SOTA+16.3pp(48.4->64.7)。結果顯示,3DThinker 提升到一個新的水位,在各類基準上均出現了顯著提升的跡象。
![]()
可解釋性
3DThinker 的另一個顯著特征在于某種程度上具備可解釋性。
這意味著,3D latent 通過設計的 projector 可以直接恢復出 3D 表示,從而使模型推理不再完全「開黑盒」。有趣的是,3DThinker 觀察到,和 prompt 高度相關的區域點云密度往往更高。
![]()
從「看圖說話」到「看圖想空間」,3DThinker 打開了 VLM 推理一種新的思路。
3DThinker 巧妙之處,在于它找到了一條「無監督蒸餾」的路徑:不需要昂貴的 3D 標注數據,也不依賴外部深度傳感器,而是讓模型在推理過程中自發「腦補」出三維場景。
這種「思維即幾何」的設計哲學,某種程度上復刻了人類的空間認知本能。當 3D 想象與具身智能結合,當空間推理可以實時反饋修正,或許正在接近一個能真正「看懂」物理世界的 AI。
作者簡介
本文第一作者為陳樟權,清華大學數據科學和信息技術博士在讀。研究方向為多模態大語言模型推理、強化學習、三維視覺。在 CVPR、ICCV、ICLR 等人工智能頂級會議或期刊上發表論文近 10 篇。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.