<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      徹底顛覆!谷歌4D世界模型來了,比SOTA快300倍!

      0
      分享至


      來源:新智元

      【導(dǎo)讀】谷歌 DeepMind 發(fā)布 D4RT,徹底顛覆了動態(tài) 4D 重建范式。它拋棄了復(fù)雜的傳統(tǒng)流水線,用一個統(tǒng)一的「時空查詢」接口,同時搞定全像素追蹤、深度估計與相機(jī)位姿。不僅精度屠榜,速度更比現(xiàn)有 SOTA 快出 300 倍。這是具身智能與自動駕駛以及 AR 的新基石,AI 終于能像人類一樣,實時看懂這個流動的世界。

      如果是幾年前,你問一位計算機(jī)視覺工程師:「我想把這段視頻里的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界里重建出來,并且還能隨時知道它們下一秒會去哪兒,需要多久?」

      他大概會遞給你一根煙,讓你先去買幾塊頂級顯卡,然后給你畫一個由四五個不同模型拼湊起來的流程圖:先算光流,再算深度,再估相機(jī)位姿,最后還得用一晚上的時間去跑優(yōu)化,祈禱結(jié)果別崩。

      但谷歌 DeepMind 剛剛發(fā)布的D4RT(Dynamic 4D Reconstruction and Tracking),試圖終結(jié)這種混亂。


      這篇論文在計算機(jī)視覺領(lǐng)域扔下了一枚關(guān)于「效率革命」的重磅炸彈。

      它把原本割裂的 3D 重建、相機(jī)追蹤、動態(tài)物體捕捉,統(tǒng)一成了一個極簡的「查詢」動作。


      更重要的是,它的速度比現(xiàn)有SOTA技術(shù)快了 18 到 300 倍


      如果在你的認(rèn)知里,高質(zhì)量的 4D 重建還是好萊塢特效工作室里那些昂貴且緩慢的渲染農(nóng)場,耗費(fèi)漫長的時間等待生成完畢,那么 D4RT 正在把這種能力變成一種可以塞進(jìn)機(jī)器人大腦甚至 AR 眼鏡里的實時直覺。

      Demo 演示

      為了理解 D4RT 到底做到了什么,我們需要先看一眼它眼中的世界。

      在論文展示的演示中,最直觀的震撼來自于對「動態(tài)混亂」的駕馭能力。

      想象一下這個畫面:一只天鵝在水面上劃過,或者一朵花在風(fēng)中快速綻放。

      傳統(tǒng)的 3D 重建算法(比如 MegaSaM 或 )處理這種場景通常是一場災(zāi)難——因為它們假設(shè)世界是靜止的,所以它們往往會在 3D 空間里留下一串「重影」,就像老式膠片重疊曝光一樣,天鵝變成了長著幾十個脖子的怪物,或者花朵直接變成了一團(tuán)無法辨認(rèn)的噪點。

      但 D4RT 給出的結(jié)果極其干凈。

      它不僅可以精準(zhǔn)還原天鵝的 3D 形態(tài),還完美剝離了相機(jī)的運(yùn)動和天鵝自身的運(yùn)動。

      在它的視野里,時間變成了一個可以隨意拖動的滑塊。


      更令人印象深刻的是它的全像素追蹤能力。

      你可以點擊視頻中花瓣上的任意一個像素,D4RT 就能畫出這個點在過去和未來的完整 3D 軌跡,哪怕這個點在中間幾幀被蜜蜂遮擋了,或者跑到了畫面之外,模型依然能根據(jù)上下文「腦補(bǔ)」出它的去向。


      這種視覺效果給人的感覺是:AI 不再是在一幀幀地「看」視頻,而是把整段視頻吞下去,在大腦里生成了一個完整的、流動的全息全景圖,然后你可以隨意從任何角度、任何時間去檢視它。


      模型能力對比圖

      拆解「神話」

      是真的快,還是文字游戲?

      科技公司發(fā)論文,數(shù)據(jù)通常都很漂亮。

      作為觀察者,我們需要剝離 PR 濾鏡,看看數(shù)據(jù)背后的定語。

      谷歌聲稱 D4RT 比之前的 SOTA 快了300 倍,處理一分鐘的視頻只需要 5 秒鐘。

      這是真的嗎?

      答案是:在特定維度上,是真的。

      這里的「300倍」指的是吞吐量,具體來說是「在保持相同幀率(FPS)的前提下,模型能同時追蹤多少條 3D 軌跡」。

      • 數(shù)據(jù)對比:在 24 FPS 的標(biāo)準(zhǔn)電影幀率下,之前的強(qiáng)者 SpatialTrackerV2 只能同時追蹤84條軌跡,再多就卡了;而 D4RT 可以輕松處理1570條。如果是和 DELTA 這種更慢的模型比,那就是314 倍的差距。


      • 實際意義:這意味著之前的技術(shù)可能只能盯著畫面里的主角(比如一個人),而 D4RT 可以同時盯著背景里走動的路人、飄落的樹葉和遠(yuǎn)處的車流——即所謂的「全像素級感知」。

      它比同類技術(shù)強(qiáng)在哪兒?

      目前市面上的 4D 重建技術(shù)主要分兩派:

      1. 「拼裝派」(如 MegaSaM):把深度估計、光流、分割等多個現(xiàn)成模型串起來。雖然效果不錯,但不僅慢,而且一旦一個環(huán)節(jié)出錯(比如光流飄了),后面全完。

      1. 「多頭派」(如 VGGT):雖然是一個大模型,但為了輸出不同的任務(wù)(深度、位姿、點云),需要掛載不同的解碼頭,結(jié)構(gòu)臃腫。

      D4RT 的牛,在于它做到了架構(gòu)層面的統(tǒng)一

      它不需要為深度單獨(dú)做一個解碼器,也不需要為位姿單獨(dú)做一個。

      它只用同一個接口解決所有問題。


      有沒有代價?當(dāng)然有。

      D4RT 的「快」主要體現(xiàn)在推理階段。

      在訓(xùn)練階段,它依然是一個龐然大物。它的編碼器使用了 ViT-g,擁有10 億參數(shù),并且需要在 64 個 TPU 芯片上訓(xùn)練兩天。

      這絕不是普通開發(fā)者在自家車庫里能復(fù)現(xiàn)的玩具,它是典型的「大廠重武器」。

      技術(shù)解碼

      把 4D 重建變成「搜索引擎」

      那么,D4RT 到底是怎么做到的?

      論文的核心邏輯可以用一句話概括:先全局「閱讀」視頻,再按需「搜索」答案。

      不再逐幀解碼,而是「全局記憶」

      傳統(tǒng)的視頻處理往往是線性的,處理第 10 幀時可能已經(jīng)「忘」了第 1 幀的細(xì)節(jié)。

      D4RT 的第一步是使用一個巨大的 Transformer 編碼器(Encoder),把整段視頻壓縮成一個全局場景表征(Global Scene Representation, F)

      你可以把這個F想象成 AI 對這段視頻形成的「長期記憶」。

      一旦這個記憶生成了,原本龐大的視頻數(shù)據(jù)就被濃縮在了這里。

      「哪里不會點哪里」的查詢機(jī)制

      這是 D4RT 最天才的設(shè)計。它發(fā)明了一種通用的查詢(Query)語言。

      當(dāng) AI 想要知道某個像素的信息時,它會向解碼器(Decoder)發(fā)送一個查詢 q:

      這個公式翻譯成人話就是:

      請告訴我:在這一幀圖像上坐標(biāo)為的那個點,它在這個時間時刻,如果從這個相機(jī)的視角看過去,它的 3D 坐標(biāo)在哪里?」

      • 如果你想生成深度圖:就問「現(xiàn)在這個點在現(xiàn)在的相機(jī)里多遠(yuǎn)?」(讓 )。

      • 如果你想做軌跡追蹤:就問「這個點在第 1 幀、第 2 幀……第 N 幀都在哪?」(固定 ,改變 )。


      • 如果你想重建點云:就問「視頻里所有點在同一時刻的世界坐標(biāo)在哪?」(把所有點都映射到同一個 )。


      并行計算的藝術(shù)

      因為每一個查詢(Query)都是獨(dú)立的,D4RT 不需要像穿針引線一樣按順序計算。

      它可以一次性扔出幾萬個問題,利用 GPU/TPU 的并行能力同時算出答案。

      這就是為什么它能比別人快 300 倍的根本原因:它把一個復(fù)雜的串行幾何問題,變成了一個大規(guī)模并行的搜索問題。

      關(guān)鍵的「作弊」技巧:9x9 Patch

      論文作者還發(fā)現(xiàn)了一個有趣的細(xì)節(jié):如果只告訴解碼器坐標(biāo)點,AI 有時候會「臉盲」,分不清紋理相似的區(qū)域。

      于是,他們在查詢時順便把那個像素點周圍9x9的小方塊圖像(RGB Patch)也喂給了模型。


      這就像是你讓人在人群中找人,光給個坐標(biāo)不行,還得給他一張那個人臉部的特寫照片。

      消融實驗證明,這個小小的設(shè)計極大地提升了重建的銳度和細(xì)節(jié)。


      產(chǎn)業(yè)影響

      谷歌的野心與具身智能的眼睛

      D4RT 的出現(xiàn),對谷歌現(xiàn)有的業(yè)務(wù)版圖和未來的 AI 戰(zhàn)略有著極強(qiáng)的互補(bǔ)性。

      具身智能與自動駕駛的最后一塊拼圖

      現(xiàn)在的機(jī)器人之所以笨,很大程度上是因為它們「看不懂」動態(tài)環(huán)境。

      一個掃地機(jī)器人能避開沙發(fā),但很難預(yù)判一只正在跑過來的貓。

      D4RT 提供的實時、密集、動態(tài)的 4D 感知,正是機(jī)器人急需的技能。

      它能讓機(jī)器人理解:那個東西不僅現(xiàn)在在那里,而且下一秒它會出現(xiàn)在我左邊。

      對于自動駕駛而言,這種對動態(tài)物體(如行人、車輛)的像素級軌跡預(yù)測,是提升安全性的關(guān)鍵。

      增強(qiáng)現(xiàn)實(AR)的基石

      谷歌一直在 AR 領(lǐng)域?qū)ふ彝黄瓶冢◤漠?dāng)年的谷歌眼鏡,到現(xiàn)在的 Project Astra)。

      要在眼鏡端實現(xiàn)逼真的 AR,必須要有極低延遲的場景理解。

      D4RT 展示的高效推理能力(尤其是在移動端芯片上的潛力),讓「實時把虛擬怪獸藏在真實沙發(fā)后面」變得在工程上可行。

      對普通人的影響

      視頻編輯的「魔法化」

      對于普通用戶,這項技術(shù)最快落地的場景可能是手機(jī)相冊和視頻編輯軟件。

      想象一下,你拍了一段孩子踢球的視頻。

      有了 D4RT,你可以像在《黑客帝國》里一樣,在視頻播放過程中隨意旋轉(zhuǎn)視角(盡管你拍攝時并沒有移動),或者輕易地把路人從復(fù)雜的背景中「扣」掉,甚至改變視頻中光源的方向。

      這是 D4RT 這種 4D 重建技術(shù)成熟后的應(yīng)用之一。

      結(jié)語

      D4RT 讓我們看到了一種新的可能性:AI 對世界的理解,正在從二維的「圖像識別」跨越到四維的「時空洞察」。

      它告訴我們,要看清這個流動的世界,關(guān)鍵不在于每一幀都看得多仔細(xì),而在于如何建立一個能夠隨時回應(yīng)疑問的全局記憶。

      AI的眼中,過去并沒有消逝,未來也不再不可捉摸,它們只是同一個四維坐標(biāo)系里,等待被查詢的兩個不同參數(shù)而已。

      參考資料:

      https://d4rt-paper.github.io/

      https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

      https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

      為偉大思想而生!

      AI+時代,互聯(lián)網(wǎng)思想(wanging0123),

      第一必讀自媒體

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      最高檢:用人單位未及時足額繳納社保將面臨法律制裁

      最高檢:用人單位未及時足額繳納社保將面臨法律制裁

      新華社
      2026-04-28 17:29:20
      文旅部集中整治景區(qū)擺渡車,點名龍虎山、長白山、稻城亞丁等

      文旅部集中整治景區(qū)擺渡車,點名龍虎山、長白山、稻城亞丁等

      南方都市報
      2026-04-27 16:21:12
      至少在已經(jīng)過去的25年里,中國的“財神”不是趙公明,而是WTO!

      至少在已經(jīng)過去的25年里,中國的“財神”不是趙公明,而是WTO!

      細(xì)雨中的呼喊
      2026-02-21 06:59:07
      巴黎5比4拜仁創(chuàng)下多項紀(jì)錄!破塵封17年歐冠紀(jì)錄,凱恩再創(chuàng)里程碑

      巴黎5比4拜仁創(chuàng)下多項紀(jì)錄!破塵封17年歐冠紀(jì)錄,凱恩再創(chuàng)里程碑

      夜白侃球
      2026-04-29 10:26:44
      昨天政治局會議通稿中,極具哲學(xué)高度的一句定調(diào)性表述!

      昨天政治局會議通稿中,極具哲學(xué)高度的一句定調(diào)性表述!

      識局Insight
      2026-04-29 07:17:51
      黃奇帆:房地產(chǎn)不會反彈上漲了;孟曉蘇權(quán)威定調(diào)房價上漲信號來了

      黃奇帆:房地產(chǎn)不會反彈上漲了;孟曉蘇權(quán)威定調(diào)房價上漲信號來了

      深度報
      2026-04-28 22:58:09
      人老了,存款應(yīng)該放在哪里?82歲老人做法太妙了,值得所有人學(xué)

      人老了,存款應(yīng)該放在哪里?82歲老人做法太妙了,值得所有人學(xué)

      牛鍋巴小釩
      2026-04-29 09:06:57
      28國協(xié)議達(dá)成,美信心大漲,貝森特對華放狠話:4年廢掉中國王牌

      28國協(xié)議達(dá)成,美信心大漲,貝森特對華放狠話:4年廢掉中國王牌

      興史興談
      2026-04-29 09:46:41
      原來大家都吃情緒這一套!網(wǎng)友:終于知道為啥奸臣都得寵了!

      原來大家都吃情緒這一套!網(wǎng)友:終于知道為啥奸臣都得寵了!

      夜深愛雜談
      2026-04-28 21:46:45
      德國性交易合法化,為何中國對性交易零容忍?看德國現(xiàn)狀恍然大悟

      德國性交易合法化,為何中國對性交易零容忍?看德國現(xiàn)狀恍然大悟

      談史論天地
      2026-04-24 14:30:03
      國企機(jī)關(guān)化帶來的問題已經(jīng)愈來愈嚴(yán)重,有的問題已經(jīng)病入膏肓

      國企機(jī)關(guān)化帶來的問題已經(jīng)愈來愈嚴(yán)重,有的問題已經(jīng)病入膏肓

      細(xì)說職場
      2026-04-25 22:30:20
      改了 8 元保號套餐后,移動竟每月白送我?guī)资瓽流量

      改了 8 元保號套餐后,移動竟每月白送我?guī)资瓽流量

      Thurman在昆明
      2026-04-28 18:33:16
      這跟不穿有啥區(qū)別?內(nèi)褲外露、開叉開到腰,有錢人的時尚真看不懂

      這跟不穿有啥區(qū)別?內(nèi)褲外露、開叉開到腰,有錢人的時尚真看不懂

      潮鹿逐夢
      2026-03-02 17:19:02
      丑哭了!迪奧活動上的熱巴,造型真的一言難盡,王亞飛被罵上熱搜

      丑哭了!迪奧活動上的熱巴,造型真的一言難盡,王亞飛被罵上熱搜

      阿纂看事
      2026-04-29 10:50:24
      敗北天王山!老鷹連輸2局,裁判搶戲,布倫森轟39+8,CJ低迷背鍋

      敗北天王山!老鷹連輸2局,裁判搶戲,布倫森轟39+8,CJ低迷背鍋

      老侃侃球
      2026-04-29 10:51:21
      特瓦斯:不喜歡超90分的西甲;不希望巴薩在國家德比提前奪冠

      特瓦斯:不喜歡超90分的西甲;不希望巴薩在國家德比提前奪冠

      懂球帝
      2026-04-29 06:51:04
      伊朗31省革命衛(wèi)隊開始選邊站隊!伊朗局勢明朗,特朗普贏了嗎

      伊朗31省革命衛(wèi)隊開始選邊站隊!伊朗局勢明朗,特朗普贏了嗎

      民間胡扯老哥
      2026-04-29 09:24:17
      海外被奉為核心,國內(nèi)卻無緣國家隊!中國女排遺珠真的太可惜

      海外被奉為核心,國內(nèi)卻無緣國家隊!中國女排遺珠真的太可惜

      金毛愛女排
      2026-04-29 00:00:04
      伊朗援手已到,安理會爆發(fā)激戰(zhàn),中方以1敵2,狠狠教訓(xùn)美國以色列

      伊朗援手已到,安理會爆發(fā)激戰(zhàn),中方以1敵2,狠狠教訓(xùn)美國以色列

      萬物知識圈
      2026-04-29 09:30:53
      珍寶島戰(zhàn)敗后蘇聯(lián)計劃4路侵中國,一周到北京,為何最終不敢打?

      珍寶島戰(zhàn)敗后蘇聯(lián)計劃4路侵中國,一周到北京,為何最終不敢打?

      鶴羽說個事
      2026-04-27 22:57:54
      2026-04-29 11:59:00
      互聯(lián)網(wǎng)思想 incentive-icons
      互聯(lián)網(wǎng)思想
      AI時代,互聯(lián)網(wǎng)思想觀察
      2434文章數(shù) 16907關(guān)注度
      往期回顧 全部

      科技要聞

      夭折的造富神話,逼著中國AI回去賺"慢錢"

      頭條要聞

      40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

      頭條要聞

      40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

      體育要聞

      巴黎5-4拜仁夜:身價1.55億的“足壇笑話”,成了最硬的底牌

      娛樂要聞

      單依純演唱會再唱“區(qū)區(qū)三萬天”宣戰(zhàn)

      財經(jīng)要聞

      多地藥店違規(guī)串換商品套刷醫(yī)保揭秘

      汽車要聞

      配32寸升降屏 新款別克世紀(jì)CENTURY上市53.99萬起

      態(tài)度原創(chuàng)

      本地
      房產(chǎn)
      親子
      游戲
      藝術(shù)

      本地新聞

      用青花瓷的方式,打開西溪濕地

      房產(chǎn)要聞

      紅利爆發(fā)!海南,沖到全國人口增量第4省!

      親子要聞

      四歲孩子還吃大拇指,不一定是缺少微量元素,原因藏在爸媽身上

      兩頭騙坑了兩個女友!Rookie承認(rèn)造謠小鈺

      藝術(shù)要聞

      這些女神,竟然都是攝影師切爾尼亞季耶夫的復(fù)古作品!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲色大成网站WWW永久麻豆| 少妇视频网站| 成人无码一区二区三区网站| 成人在线亚洲| 亚洲综合伊人久久大杳蕉| 欧美v亚洲v日韩v最新在线| 国产又爽又黄又无遮挡的激情视频| 亚洲中文字幕无码av永久| 久艹AV| 欧美黑人777| 国产成人A码男人的天堂国产乱| 国自产拍偷拍精品啪啪一区二区| 中国精学生妹品射精久久| 欧美内射深喉中文字幕| 色偷偷88888欧美精品久久久| 亚洲自拍另类| 中文字幕无码人妻aaa片| 福利精品| 美腿少妇资源在线网站| 日韩高清日韩一区二区三区四区 | 丝袜无码| 欧美成人精品a∨在线观看| 久久99久久99精品免视看动漫| 欧美va天堂在线电影| 做暖暖视频在线看片免费| 女人被狂躁c到高潮喷水一区二区| 五十路AV| 久久精品午夜一区二区福利| 精品国产精品国产偷麻豆| 日本三级香港三级三级人!妇久| 国产a网站| 久久久久久AV| 亚洲欧美精品午睡沙发| 99热这里只有精品国产免费免费 | 欧美成人秋霞久久aa片| 久久99国产精品久久| 一本色道久久综合无码人妻| 人妻夜夜爽天天爽一区| 国产成人综合色视频精品| 无码日韩人妻精品久久蜜桃| 国产白嫩美女在线观看|