徹底顛覆！谷歌4D世界模型來了，比SOTA快300倍！

2026-01-24 21:45:24　來源: 互聯(lián)網(wǎng)思想

廣東舉報

分享至

來源：新智元

【導(dǎo)讀】谷歌 DeepMind 發(fā)布 D4RT，徹底顛覆了動態(tài) 4D 重建范式。它拋棄了復(fù)雜的傳統(tǒng)流水線，用一個統(tǒng)一的「時空查詢」接口，同時搞定全像素追蹤、深度估計與相機(jī)位姿。不僅精度屠榜，速度更比現(xiàn)有 SOTA 快出 300 倍。這是具身智能與自動駕駛以及 AR 的新基石，AI 終于能像人類一樣，實時看懂這個流動的世界。

如果是幾年前，你問一位計算機(jī)視覺工程師：「我想把這段視頻里的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界里重建出來，并且還能隨時知道它們下一秒會去哪兒，需要多久？」

他大概會遞給你一根煙，讓你先去買幾塊頂級顯卡，然后給你畫一個由四五個不同模型拼湊起來的流程圖：先算光流，再算深度，再估相機(jī)位姿，最后還得用一晚上的時間去跑優(yōu)化，祈禱結(jié)果別崩。

但谷歌 DeepMind 剛剛發(fā)布的D4RT（Dynamic 4D Reconstruction and Tracking），試圖終結(jié)這種混亂。

這篇論文在計算機(jī)視覺領(lǐng)域扔下了一枚關(guān)于「效率革命」的重磅炸彈。

它把原本割裂的 3D 重建、相機(jī)追蹤、動態(tài)物體捕捉，統(tǒng)一成了一個極簡的「查詢」動作。

更重要的是，它的速度比現(xiàn)有SOTA技術(shù)快了 18 到 300 倍。

如果在你的認(rèn)知里，高質(zhì)量的 4D 重建還是好萊塢特效工作室里那些昂貴且緩慢的渲染農(nóng)場，耗費(fèi)漫長的時間等待生成完畢，那么 D4RT 正在把這種能力變成一種可以塞進(jìn)機(jī)器人大腦甚至 AR 眼鏡里的實時直覺。

Demo 演示

為了理解 D4RT 到底做到了什么，我們需要先看一眼它眼中的世界。

在論文展示的演示中，最直觀的震撼來自于對「動態(tài)混亂」的駕馭能力。

想象一下這個畫面：一只天鵝在水面上劃過，或者一朵花在風(fēng)中快速綻放。

傳統(tǒng)的 3D 重建算法（比如 MegaSaM 或）處理這種場景通常是一場災(zāi)難——因為它們假設(shè)世界是靜止的，所以它們往往會在 3D 空間里留下一串「重影」，就像老式膠片重疊曝光一樣，天鵝變成了長著幾十個脖子的怪物，或者花朵直接變成了一團(tuán)無法辨認(rèn)的噪點。

但 D4RT 給出的結(jié)果極其干凈。

它不僅可以精準(zhǔn)還原天鵝的 3D 形態(tài)，還完美剝離了相機(jī)的運(yùn)動和天鵝自身的運(yùn)動。

在它的視野里，時間變成了一個可以隨意拖動的滑塊。

更令人印象深刻的是它的全像素追蹤能力。

你可以點擊視頻中花瓣上的任意一個像素，D4RT 就能畫出這個點在過去和未來的完整 3D 軌跡，哪怕這個點在中間幾幀被蜜蜂遮擋了，或者跑到了畫面之外，模型依然能根據(jù)上下文「腦補(bǔ)」出它的去向。

這種視覺效果給人的感覺是：AI 不再是在一幀幀地「看」視頻，而是把整段視頻吞下去，在大腦里生成了一個完整的、流動的全息全景圖，然后你可以隨意從任何角度、任何時間去檢視它。

模型能力對比圖

拆解「神話」

是真的快，還是文字游戲？

科技公司發(fā)論文，數(shù)據(jù)通常都很漂亮。

作為觀察者，我們需要剝離 PR 濾鏡，看看數(shù)據(jù)背后的定語。

谷歌聲稱 D4RT 比之前的 SOTA 快了300 倍，處理一分鐘的視頻只需要 5 秒鐘。

這是真的嗎？

答案是：在特定維度上，是真的。

這里的「300倍」指的是吞吐量，具體來說是「在保持相同幀率（FPS）的前提下，模型能同時追蹤多少條 3D 軌跡」。

數(shù)據(jù)對比：在 24 FPS 的標(biāo)準(zhǔn)電影幀率下，之前的強(qiáng)者 SpatialTrackerV2 只能同時追蹤84條軌跡，再多就卡了；而 D4RT 可以輕松處理1570條。如果是和 DELTA 這種更慢的模型比，那就是314 倍的差距。

實際意義：這意味著之前的技術(shù)可能只能盯著畫面里的主角（比如一個人），而 D4RT 可以同時盯著背景里走動的路人、飄落的樹葉和遠(yuǎn)處的車流——即所謂的「全像素級感知」。

它比同類技術(shù)強(qiáng)在哪兒？

目前市面上的 4D 重建技術(shù)主要分兩派：

「拼裝派」（如 MegaSaM）：把深度估計、光流、分割等多個現(xiàn)成模型串起來。雖然效果不錯，但不僅慢，而且一旦一個環(huán)節(jié)出錯（比如光流飄了），后面全完。

「多頭派」（如 VGGT）：雖然是一個大模型，但為了輸出不同的任務(wù)（深度、位姿、點云），需要掛載不同的解碼頭，結(jié)構(gòu)臃腫。

D4RT 的牛，在于它做到了架構(gòu)層面的統(tǒng)一。

它不需要為深度單獨(dú)做一個解碼器，也不需要為位姿單獨(dú)做一個。

它只用同一個接口解決所有問題。

有沒有代價？當(dāng)然有。

D4RT 的「快」主要體現(xiàn)在推理階段。

在訓(xùn)練階段，它依然是一個龐然大物。它的編碼器使用了 ViT-g，擁有10 億參數(shù)，并且需要在 64 個 TPU 芯片上訓(xùn)練兩天。

這絕不是普通開發(fā)者在自家車庫里能復(fù)現(xiàn)的玩具，它是典型的「大廠重武器」。

技術(shù)解碼

把 4D 重建變成「搜索引擎」

那么，D4RT 到底是怎么做到的？

論文的核心邏輯可以用一句話概括：先全局「閱讀」視頻，再按需「搜索」答案。

不再逐幀解碼，而是「全局記憶」

傳統(tǒng)的視頻處理往往是線性的，處理第 10 幀時可能已經(jīng)「忘」了第 1 幀的細(xì)節(jié)。

D4RT 的第一步是使用一個巨大的 Transformer 編碼器（Encoder），把整段視頻壓縮成一個全局場景表征（Global Scene Representation, F）。

你可以把這個F想象成 AI 對這段視頻形成的「長期記憶」。

一旦這個記憶生成了，原本龐大的視頻數(shù)據(jù)就被濃縮在了這里。

「哪里不會點哪里」的查詢機(jī)制

這是 D4RT 最天才的設(shè)計。它發(fā)明了一種通用的查詢（Query）語言。

當(dāng) AI 想要知道某個像素的信息時，它會向解碼器（Decoder）發(fā)送一個查詢 q：

這個公式翻譯成人話就是：

「請告訴我：在這一幀圖像上坐標(biāo)為的那個點，它在這個時間時刻，如果從這個相機(jī)的視角看過去，它的 3D 坐標(biāo)在哪里？」

如果你想生成深度圖：就問「現(xiàn)在這個點在現(xiàn)在的相機(jī)里多遠(yuǎn)？」（讓）。
如果你想做軌跡追蹤：就問「這個點在第 1 幀、第 2 幀……第 N 幀都在哪？」（固定，改變）。
如果你想重建點云：就問「視頻里所有點在同一時刻的世界坐標(biāo)在哪？」（把所有點都映射到同一個）。

并行計算的藝術(shù)

因為每一個查詢（Query）都是獨(dú)立的，D4RT 不需要像穿針引線一樣按順序計算。

它可以一次性扔出幾萬個問題，利用 GPU/TPU 的并行能力同時算出答案。

這就是為什么它能比別人快 300 倍的根本原因：它把一個復(fù)雜的串行幾何問題，變成了一個大規(guī)模并行的搜索問題。

關(guān)鍵的「作弊」技巧：9x9 Patch

論文作者還發(fā)現(xiàn)了一個有趣的細(xì)節(jié)：如果只告訴解碼器坐標(biāo)點，AI 有時候會「臉盲」，分不清紋理相似的區(qū)域。

于是，他們在查詢時順便把那個像素點周圍9x9的小方塊圖像（RGB Patch）也喂給了模型。

這就像是你讓人在人群中找人，光給個坐標(biāo)不行，還得給他一張那個人臉部的特寫照片。

消融實驗證明，這個小小的設(shè)計極大地提升了重建的銳度和細(xì)節(jié)。

產(chǎn)業(yè)影響

谷歌的野心與具身智能的眼睛

D4RT 的出現(xiàn)，對谷歌現(xiàn)有的業(yè)務(wù)版圖和未來的 AI 戰(zhàn)略有著極強(qiáng)的互補(bǔ)性。

具身智能與自動駕駛的最后一塊拼圖

現(xiàn)在的機(jī)器人之所以笨，很大程度上是因為它們「看不懂」動態(tài)環(huán)境。

一個掃地機(jī)器人能避開沙發(fā)，但很難預(yù)判一只正在跑過來的貓。

D4RT 提供的實時、密集、動態(tài)的 4D 感知，正是機(jī)器人急需的技能。

它能讓機(jī)器人理解：那個東西不僅現(xiàn)在在那里，而且下一秒它會出現(xiàn)在我左邊。

對于自動駕駛而言，這種對動態(tài)物體（如行人、車輛）的像素級軌跡預(yù)測，是提升安全性的關(guān)鍵。

增強(qiáng)現(xiàn)實（AR）的基石

谷歌一直在 AR 領(lǐng)域?qū)ふ彝黄瓶冢◤漠?dāng)年的谷歌眼鏡，到現(xiàn)在的 Project Astra）。

要在眼鏡端實現(xiàn)逼真的 AR，必須要有極低延遲的場景理解。

D4RT 展示的高效推理能力（尤其是在移動端芯片上的潛力），讓「實時把虛擬怪獸藏在真實沙發(fā)后面」變得在工程上可行。

對普通人的影響

視頻編輯的「魔法化」

對于普通用戶，這項技術(shù)最快落地的場景可能是手機(jī)相冊和視頻編輯軟件。

想象一下，你拍了一段孩子踢球的視頻。

有了 D4RT，你可以像在《黑客帝國》里一樣，在視頻播放過程中隨意旋轉(zhuǎn)視角（盡管你拍攝時并沒有移動），或者輕易地把路人從復(fù)雜的背景中「扣」掉，甚至改變視頻中光源的方向。

這是 D4RT 這種 4D 重建技術(shù)成熟后的應(yīng)用之一。

結(jié)語

D4RT 讓我們看到了一種新的可能性：AI 對世界的理解，正在從二維的「圖像識別」跨越到四維的「時空洞察」。

它告訴我們，要看清這個流動的世界，關(guān)鍵不在于每一幀都看得多仔細(xì)，而在于如何建立一個能夠隨時回應(yīng)疑問的全局記憶。

在AI的眼中，過去并沒有消逝，未來也不再不可捉摸，它們只是同一個四維坐標(biāo)系里，等待被查詢的兩個不同參數(shù)而已。

參考資料：

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

為偉大思想而生！

AI+時代，互聯(lián)網(wǎng)思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.