<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR 2026|清華聯合美團推出3DThinker,首個用3D意象思考的工作

      0
      分享至



      大家是否有這樣的感覺?給定幾張場景中拍攝的圖片,往往能夠在腦海中想象出這個場景的三維布局,然而當前的多模態大模型還停留于純文本或者 2D 視覺的推理表示,限制了圖像中隱含幾何結構的表達能力。

      為此,清華大學聯合美團研究團隊推出 3DThinker—— 首個 3D 版的「think with image」!



      • 論文地址:https://arxiv.org/pdf/2510.18632
      • 代碼地址:https://github.com/zhangquanchen/3DThinker

      接下來,就來看看 3DThinker 是如何做的。

      從「think with image」到「think with 3D」

      多模態大模型的推理能力提升一直以來是研究的重點和熱點。人類往往能夠根據幾張拍攝的 RGB 圖像中推斷空間關系,而當前多模態大模型在空間理解任務上表現較弱。背后的核心原因在于多模態大模型缺乏對圖像中幾何信息的提取能力。

      為解決此問題,之前的方法可以分為兩類:

      1. 依賴純文本或二維視覺線索的強推理(例如進行認知圖的推理),這類方法往往依賴于繁瑣的數據標注;
      2. 通過輸入增強(例如引入深度圖、點云等先驗信息),這類方法往往依賴于外部工具調用,不是內蘊的模型能力,且推理存在負擔。



      而 3DThinker 提出了一種全新的思路,在無需 3D 標注(例如點云)、無需外部工具的情況下,讓模型在推理過程中內蘊地「想象」三維場景。

      具體來說,該框架讓模型在生成推理鏈時,自動插入一段緊湊的隱變量,作為其腦內構建的三維場景表征,這段生成的表征通過蒸餾 3D 基礎模型(VGGT)來獲得。

      核心思路:二段式學習用 3D 思考

      3DThinker 提出了雙階段的訓練策略來完成潛空間對齊,包括:(i) 監督訓練過程中,將預訓練的 3D 特征蒸餾進入模型推理路徑,實現模型從二維數據的幾何信息提取,而不依賴于任何先驗;(ii) 強化訓練過程中,在保持 3D latent 穩定的同時,僅僅依賴結果信號優化整個采樣軌跡,從而實現模型的能力飛躍。



      S1:以 3D 基礎模型為指導,建立模型推理行為

      在一階段的監督訓練中,首先構造了攜帶 3D special token 的 cot 數據,基于該數據進行監督訓練,訓練過程中,3DThinker 將對所有 special token 所對應的 3D latent(last layer hidden state)通過 projetor 映射到 VGGT 的潛空間,并將兩者的對齊作為第一項損失函數:



      其中,projector 基于堆疊 6 層 MLP 實現三次特征維度映射,具體框圖如下:



      而第二項損失函數是除去 special token 后的文本交叉熵損失:



      其中,第一項損失函數在于保證 3D latent 的表征對齊;第二項在于保證自然語言的連貫性嵌入。

      S2:以結果信號為基礎,優化含 3D 意象的軌跡

      在一階段后,已經初步實現了模型 think with 3D 的表征對齊;接下來,基于強化學習,在只有結果信號的情況下,優化整條采樣軌跡,包括其中的 3D latent。

      具體來說,3DThinker 設計了一個 3D latent 對齊的獎勵:



      也就是說,3DThinker 會提取自回歸生成的 3D latent,并于 VGGT 特征保持一致性,從而保證 RL 采樣過程中不丟失幾何表達。

      另一方面,3DThinker 也參照先前方法的 outcome-based RL 保持了結果的二值化獎勵以及格式獎勵,最后基于 GRPO 進行優化。

      提升到新高度的結果

      論文在多個空間理解的 BMK 上驗證了 3DThinker 的效果。

      方法首先在 MindCube 的 10K 數據上構造了帶有 3D special token 的推理鏈數據,并基于兩個階段進行訓練,下表報告了訓練后的模型效果,在 MindCube-Tiny 上,針對不同尺寸的模型,相比 base 整體提升了 51.8% 到 108.8%;在 Ego3D-Bench 上,則提升了 18.1% 到 36.9%。



      以 Qwen2.5-VL-3B 基礎模型為例,在監督訓練上,模型相比需要 CGMap 標注的訓練超過了+ 1.9 pp(62.7 vs. 60.8);加入強化學習后,3DThinker 也獲得了+ 4.5 pp(75.2 vs. 70.7) 的提升,彰顯了 3DThinker 訓練方法的有效性。



      另一方面,以自制的大規模訓練數據為基礎,模型進一步在更多全面的測試基準上進行了評估。

      以 Qwen2.5-VL-3B 為例,該方法相比之前的 SOTA+10.8 pp(49.6->60.4);以 Qwen2.5-VL-7B 為例,該方法相比之前的 SOTA+16.3pp(48.4->64.7)。結果顯示,3DThinker 提升到一個新的水位,在各類基準上均出現了顯著提升的跡象。



      可解釋性

      3DThinker 的另一個顯著特征在于某種程度上具備可解釋性。

      這意味著,3D latent 通過設計的 projector 可以直接恢復出 3D 表示,從而使模型推理不再完全「開黑盒」。有趣的是,3DThinker 觀察到,和 prompt 高度相關的區域點云密度往往更高。



      從「看圖說話」到「看圖想空間」,3DThinker 打開了 VLM 推理一種新的思路。

      3DThinker 巧妙之處,在于它找到了一條「無監督蒸餾」的路徑:不需要昂貴的 3D 標注數據,也不依賴外部深度傳感器,而是讓模型在推理過程中自發「腦補」出三維場景。

      這種「思維即幾何」的設計哲學,某種程度上復刻了人類的空間認知本能。當 3D 想象與具身智能結合,當空間推理可以實時反饋修正,或許正在接近一個能真正「看懂」物理世界的 AI。

      作者簡介

      本文第一作者為陳樟權,清華大學數據科學和信息技術博士在讀。研究方向為多模態大語言模型推理、強化學習、三維視覺。在 CVPR、ICCV、ICLR 等人工智能頂級會議或期刊上發表論文近 10 篇。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      攤牌了!離婚14年董潔潘粵明公開“認愛”,這一次尹姝貽輸得徹底

      攤牌了!離婚14年董潔潘粵明公開“認愛”,這一次尹姝貽輸得徹底

      查爾菲的筆記
      2026-03-09 14:00:17
      伊朗女足已乘機回國!登機時擁抱痛哭 至少1人拒離開+2人最終留守

      伊朗女足已乘機回國!登機時擁抱痛哭 至少1人拒離開+2人最終留守

      我愛英超
      2026-03-10 21:10:58
      43罰狂刷83分超科比!阿德巴約的歷史第二,為何被罵籃球恥辱?

      43罰狂刷83分超科比!阿德巴約的歷史第二,為何被罵籃球恥辱?

      仰臥撐FTUer
      2026-03-11 11:19:06
      亞馬遜數據中心被炸,直擊美國中東經濟命脈,這下打到七寸了

      亞馬遜數據中心被炸,直擊美國中東經濟命脈,這下打到七寸了

      王新喜
      2026-03-11 09:37:33
      WTI原油期貨日內轉跌 此前漲超6%

      WTI原油期貨日內轉跌 此前漲超6%

      證券時報
      2026-03-11 19:00:07
      美專家猛然發現:中國早就準備好,一旦沖突,先廢掉美軍最強戰力

      美專家猛然發現:中國早就準備好,一旦沖突,先廢掉美軍最強戰力

      涵豆說娛
      2026-03-10 12:09:41
      女子飛上海看病被拒載,登機口被攔崩潰直跺腳,地勤稱可賠400元

      女子飛上海看病被拒載,登機口被攔崩潰直跺腳,地勤稱可賠400元

      攬星河的筆記
      2026-03-11 17:32:58
      世預賽第1場:中國女籃半場領先馬里隊6分!韓旭9分,楊舒予9分

      世預賽第1場:中國女籃半場領先馬里隊6分!韓旭9分,楊舒予9分

      足球評論qs
      2026-03-11 20:13:45
      1989年鞏俐掛歷露腋毛,網友:女人的頭發越濃密越美,為什么腋毛不許外露,不正常

      1989年鞏俐掛歷露腋毛,網友:女人的頭發越濃密越美,為什么腋毛不許外露,不正常

      冒泡泡的魚兒
      2026-03-10 06:57:15
      如何才能一輩子遠離腦梗?記好這5個不花錢的方法,養出健康血管

      如何才能一輩子遠離腦梗?記好這5個不花錢的方法,養出健康血管

      藥師方健
      2026-01-28 21:51:09
      北京遛鳥風潮為何徹底消失:不是沒人玩了,是時代把它徹底淘汰了

      北京遛鳥風潮為何徹底消失:不是沒人玩了,是時代把它徹底淘汰了

      朗威談星座
      2026-03-10 11:00:35
      16歲以下青少年能否使用社交網絡?全國人大代表田軒建議平臺默認開啟青少年模式

      16歲以下青少年能否使用社交網絡?全國人大代表田軒建議平臺默認開啟青少年模式

      界面新聞
      2026-03-11 19:06:52
      妻子將180萬新房轉贈她弟,我直接斷房貸,她和她弟收催款單互打

      妻子將180萬新房轉贈她弟,我直接斷房貸,她和她弟收催款單互打

      曉艾故事匯
      2025-11-11 21:18:35
      子宮薄如紙、發際線后移,43歲千億兒媳徐子淇,終于還是“垮了”

      子宮薄如紙、發際線后移,43歲千億兒媳徐子淇,終于還是“垮了”

      素衣讀史
      2026-03-10 16:53:15
      穆帥是本菲卡的定海神針,現在本菲卡需要考慮,穆帥需要什么

      穆帥是本菲卡的定海神針,現在本菲卡需要考慮,穆帥需要什么

      福醬的小時光
      2026-03-11 20:13:44
      氣勢如虹!廣東完美壓制新疆,胡明軒三分建功,麥考爾首秀滿分

      氣勢如虹!廣東完美壓制新疆,胡明軒三分建功,麥考爾首秀滿分

      多特體育說
      2026-03-11 20:52:34
      華爾街拉響警報,美資巨頭爆雷,中東擬撤萬億投資,金融危機迫近

      華爾街拉響警報,美資巨頭爆雷,中東擬撤萬億投資,金融危機迫近

      霽寒飄雪
      2026-03-11 11:39:59
      尼克松晚年坦言:他很后悔當初訪華,只因毛主席識破的訪華計謀!

      尼克松晚年坦言:他很后悔當初訪華,只因毛主席識破的訪華計謀!

      冰語歷史
      2026-03-07 06:23:39
      耗資12億建世界最高佛,如今水喝不起拜不起

      耗資12億建世界最高佛,如今水喝不起拜不起

      時光流轉追夢人
      2026-02-20 13:09:13
      6部薩德連夜撤走!當著全體高層的面,李在明喊出句掏心窩子的話

      6部薩德連夜撤走!當著全體高層的面,李在明喊出句掏心窩子的話

      起喜電影
      2026-03-11 18:47:58
      2026-03-11 21:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12478文章數 142582關注度
      往期回顧 全部

      科技要聞

      騰訊"養蝦"暴漲后,百度急得在門口"裝蝦"

      頭條要聞

      美叫停以軍打擊伊朗油庫 以軍"打擊規模遠超美國預期"

      頭條要聞

      美叫停以軍打擊伊朗油庫 以軍"打擊規模遠超美國預期"

      體育要聞

      郭艾倫重傷,CBA下半賽季還能期待些什么

      娛樂要聞

      楊冪連續五年為劉詩詩慶生,劉詩詩回應

      財經要聞

      喚醒10萬億存量資金 公積金改革大潮來了

      汽車要聞

      蓮花糾偏, 馮擎峰的“收”與“守”

      態度原創

      教育
      手機
      本地
      公開課
      軍事航空

      教育要聞

      AI只能考16,高考學霸拿不了滿分…新加坡PSLE數學難度“地獄級”

      手機要聞

      澎湃OS3 300正式版內測大揭秘:新增多項功能,你的機型收到沒!

      本地新聞

      這檔韓國玄學綜藝,讓多少人看得頭皮發麻

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      朝鮮"崔賢"號驅逐艦進行戰略巡航導彈試射

      無障礙瀏覽 進入關懷版