
對話 | 唐小引 嘉賓 | 唐睿
責編 | 夢依丹
出品 | CSDN(ID:CSDNnews)
當大模型開始“看懂”空間、理解物理、做出行動,人工智能的形態正在發生一次根本性變化——從“對話系統”,走向“行動智能”。
在這條路徑上,一個詞被頻繁提起:空間智能。
如果說 LLM 讓機器擁有了像人類一樣思考的大腦,那么空間智能則試圖賦予機器像人類一樣觀察、理解并在三維世界中行動的身體與感官。
它并非憑空出現,而是扎根于計算機圖形學對幾何、材質與光照的長期積累,依托 GPU 并行計算對物理世界的高保真模擬,通過“先模擬世界,再理解智能”的路徑,逼近真實智能的邊界。
正是在這個被李飛飛等頂尖學者視為“通往 AGI 的關鍵拼圖”的領域,群核科技(酷家樂)首席科學家唐睿已經深耕多年。
從浙江大學的“求是”精神到英國巴斯大學的“跨界”洗禮,再到伴隨群核科技走過十余年的技術長征,唐睿的職業生涯本身就是一部從“圖形學渲染”走向“空間智能體”的進化史。
他曾面臨一個終極的技術命題:手握高性能計算資源,我們究竟是用它來模擬物理世界的影像,還是模擬具備智能的生命體?
![]()
左:唐睿,右:唐小引
在全球機器學校技術大會現場,唐睿在與 CSDN 《萬有引力》欄目的深度對話中,不僅給出了他的答案,更剖 析了行業深處的痛點與機遇。以下是訪談中唐睿表達的一些觀點提煉:
空間智能與具身智能的關系:服務與被服務——空間智能是具身智能(Embodied AI)的基礎設施。如果說具身智能是最終要在物理世界行動的“人”,那么空間智能就是它的“眼睛”和“訓練場”。空間智能通過生成 3D 場景和仿真數據,解決具身智能訓練數據嚴重不足的痛點;
解決“數據饑渴”的終極之道在硬件:目前行業主要依靠“正向設計”(如設計師使用軟件創作)和“合成數據”來彌補數據缺口。但唐睿認為,這仍是“從蛋里孵蛋”。真正的終極解決方案在于感知硬件的普及——當眼鏡、手機、手表都能無感采集空間數據時,數據瓶頸將被徹底打破;
2D、視頻與 3D 并非路線之爭,而是融合演進:在構建世界模型的路徑上,視頻生成(2D)與 3D 生成并非割裂。行業正在走向融合:利用 3D 的結構穩定性來解決視頻生成的“時空一致性”問題,反之利用視頻模型的多視角能力輔助 3D 重建。這是一個螺旋上升的過程;
未來預判:硬件爆點將在 24 個月內到來——AI 開發 AI 的循環已經開啟,軟件迭代速度極快。唐睿預測,空間智能的下一個真正爆點將等待硬件的突破。當每個人都能低門檻地對現實空間進行捕獲和還原時,行業將迎來質變,這個窗口期大約在兩年(24 個月)左右。
歡迎 收聽音頻播客,如有興趣觀看完整視頻,可在文末獲取
以下是對話的完整內容:
唐小引:屏幕前的小伙伴們大家好,歡迎收看《萬有引力》。今天我們來到全球機器學習技術大會的現場,特別邀請到了群核科技首席科學家唐睿老師,和大家一起深入分享他的技術人生成長,還有大家當前很關注的對于空間智能的整個思考、研究以及實踐。歡迎我的本家唐老師,可以給大家打個招呼,然后做一下自我介紹。
唐睿:大家好,我是來自群核科技的唐睿。我的主要研究領域是計算機圖形學和人工智能,也會涉及到一些具身智能、交互感知相關的工作。
唐小引:我想先理清一下概念,具身智能和空間智能,它們的關系和不同點是什么?
唐睿:我覺得空間智能在某種層面,無論是在算法還是交互層面,是服務于具身智能的。因為如果我們說人類終極的 AGI,是不僅能夠觀察、理解、思考這個世界,甚至還應該能像人類一樣去和這個世界交互。我們說的具身智能里的 AI,就是要和這個世界進行交互的。
所以,至少我們現在在做的空間智能,是關于 3D 世界,或者說包括 2D 視頻這類世界的生成方式。由于現在具身智能會考慮到數據不足的問題,所以會需要基于一些 2D 的交互視頻,或者 3D 的可交互場景,再加上仿真計算這樣的方式,去產生大量的數據,用于具身智能未來和真實物理世界交互的訓練,甚至是驗證。
![]()
從 CG 到空間智能:唐睿的技術啟蒙之路
唐小引:您可以接著談談自己的故事,是怎么從 CG 一步步走上空間智能之路的?
唐睿:其實也不能算一步步走到空間智能這一步。CG 里面會涉及到我們稱之為 Shape 或者 Geometry Analysis,也就是空間幾何的理解,它其實本身也是一種智能。當我畫出一個椅子的時候,在計算機里,如果你不告訴它這是一把椅子,那它應該如何去理解?這本身就是智能的一部分。
除此之外,CG 的另一大核心是大家玩游戲時很熟悉的“渲染”。渲染的本質是對光傳播的模擬。比如我們看到一個金屬質感的物體,是因為光源照射到一個具備特定物理屬性的表面,光線反射后進入了相機或人眼。
所以,CG 的本質到底是什么?我們董事長的博士導師——也是 CUDA 的鼻祖級人物——他們當年在美國交流時曾提出過一個終極命題:我們掌握了像 GPU 這樣高性能的并行計算能力,究竟是該用它來模擬物理世界,還是去模擬智能體?
最早在 2011 年的時候,不管是我們董事長把這個命題帶回國,還是后來創業,由于當時 AI 遠沒有現在普及,大家對智能的理解也沒那么深。所以最開始,我們選擇了前者——用并行計算去做傳統渲染,也就是“模擬物理世界”。
轉折點發生在 2017 年。
一方面,我個人博士期間研究的是 3D 人臉識別,這恰好是 CG 與機器學習(當時的概念)的交叉領域;但更重要的啟發來自于 AlphaGo。AlphaGo 給我們的震撼在于,它通過在虛擬棋盤上的仿真,利用強化學習,僅用極短的時間和算力,就模擬了人類上千年甚至更久遠的棋局演變。
這讓我們意識到“模擬智能”的時機到了。所以從 2017 年開始,我們回歸到了那個終極命題的另一面:結合群核已有的海量空間數據,開始嘗試利用并行計算去模擬空間智能,或者說去構建“空間智能體”。
![]()
跨領域的求是創新:貫穿中英的學術生涯
唐小引:好,我們不妨把視角拉得更遠一點,聊聊您的個人經歷。從國內的浙江大學,到英國的巴斯大學,再到現在投身群核科技,您能分享一下這幾個階段的心路歷程和核心收獲嗎?
唐睿:在浙江大學的時期,對我來說更像是從校園向社會的過渡——它雖然不完全是社會,但已具備了社會的某種縮影。回顧浙大時光,最大的收獲莫過于校訓中的“求是”二字。這也深刻塑造了我們現在的做事準則:無論是在做產品、解決方案,還是做基礎科研,首要原則就是遵循事實。以事實為本,去推理、去創新。
其實關于浙大,除了官方校訓,私下里大家對竺可楨老校長的“兩個問題”(你來浙大做什么?將來要做什么樣的人?)還有一個略帶戲謔的民間回答,那就是——“混、混混”。
以前大家可能覺得這是玩笑,但現在我重新審視這個字,“混”其實代表了一種發散性的思維,一種打破邊界的融合。這在本質上與校訓里的“創新”是一脈相承的。
非常巧合的是,這種思維延續到了我下一段經歷中。我在英國巴斯大學求學時,我的導師是 Darren Cosker(皇家工程院院士)。他的治學風格非常“野”,或者說非常不拘一格,核心就是跨領域(Cross-domain)。
舉個例子,我們在實驗室里做人臉識別,同時也有團隊在做肢體的數字孿生(Digital Twin)和行為學習。Darren 會極力主張將這些技術與體育、健康,甚至教育產業進行跨界結合。
大家可能知道,巴斯大學有“英國體校”之稱,很多英國奧運選手都出自這里。他們擁有一套非常科學的訓練體系,而這套體系的背后,很大程度上依賴于我們的 CG 技術——即通過對人體姿態和肌肉行為的高精度仿真來輔助訓練。
在這個過程中,我們也見證了數據價值的演變:以前我們是做大數據分析,而現在更多是通過智能數據(Intelligent Data)的方式去優化仿真模型。這種跨界研究最終催生了許多落地成果,不僅是在體育界,也包括影視表演領域,比如電影《猩球崛起》就與我們實驗室有過深度合作。
所以回過頭看,這兩段經歷非常神奇。從浙大的“求是與跨界思維”,到巴斯大學的“跨領域實踐”,它們共同構建并深刻影響了我現在的思維結構。
總結起來就是:跨領域的求是創新。
唐小引:我想進一步探討一下中英培養體系的差異。今天很巧,您和老師兩位演講嘉賓都曾在英國深造。但我之前去歐洲,與當地的 AI 從業者交流時,聽到一種聲音是覺得英國的“AI 氛圍”相對較弱。但我看著其實有很多的人是從英國接受了人工智能教育,然后回來落地生根。
唐睿:我不確定王老師具體的留學時間,但我是在 2014 年回國的。那個時間節點很有意思——2012 到 2013 年左右,AlexNet 才剛剛橫空出世,那是深度學習爆發的起點。換句話說,當時我們現在所定義的“AI”概念,還沒有被全社會廣泛認知或接受。
關于您提到的“氛圍弱”,我認為需要辯證地看。
如果從產業影響力來看,確實存在這種情況。因為中國和美國擁有全球最大的消費市場,AI 的發展不僅取決于技術,更取決于產業推廣和應用場景的規模化效應。正是這種龐大的市場需求,造就了 AI 產業應用最先在中美這兩個大市場爆發。相比之下,英國在“產業落地”的喧囂度上可能確實不如中美。
但如果從科研深度來看,英國的底蘊非常深厚。
據我所知,我的導師 Darren 目前就任職于微軟劍橋實驗室,而孕育了 AlphaGo 的 DeepMind,當時就在 UCL(倫敦大學學院)隔壁。可以說,英國匯聚了大量頂尖學者和核心算法的源頭創新。
所以,英國的“強”在于學術研究的深度,而中美的“強”更多體現在產業落地的廣度和市場的速度。這就是為什么很多在那邊接受了深層理論教育的人,最終選擇回到擁有更廣闊應用土壤的國內來發展。
![]()
十年群核路:從 IC 到技術管理者的蛻變
唐小引:我們可以接著聊聊您現在在群核所做的事情。您是怎么加入群核的?以及我看這幾年您對外分享過智能體、仿真等方向的內容。您可以講講您在群核的故事,以及不同時期的側重點。
唐睿:我怎么加入群核的?非常巧合,這是我第一份工作。這份工作干了十多年,也沒去找別的。
其實我剛去群核的時候并不知道這家公司是做什么的,我就知道有很多 GPU,這是硬件層面吸引我的地方。因 為我之前也是做偏圖形學的機器學習交叉領域,GPU 本來就能做機器學習,同時它天然就是為計算機圖形學設計的,這是硬件層面的吸引力。
我面試群核花了兩天時間。第一天是 12 月 23 號,第二天是 12 月 24 號。第二天面試到晚上 11 點多,是兩天長時間的面試。面試從和程序員一起寫代碼,到和三位創始人聊天,每位創始人都聊了兩到三個小時。我就感覺到了一種非常簡單、開放的文化。最后一天是平安夜,和 CEO 陳航聊到了十點多。
我非常詫異,我一個還沒完全畢業的小伙子去實習,跟我同齡的人已經是 CEO 了,平安夜還不回家,跟我在這聊技術,還帶我參觀 GPU 機房和集群。我是被這樣的基因或者文化吸引的。
唐小引:你有把這個問題拋給他嗎?
唐睿:問了,他說創業就是這樣的。
唐小引:這是屬于剛剛加入的故事。接著這十幾年里面,您可以分幾個階段給我們講一下。
唐睿:關于技術路線的階段——從“模擬物理”到“模擬智能體”——剛才我已經談過了。所以我想換個維度,從職業身份的轉變來聊聊:即我如何從一個個人貢獻者一步步蛻變為一名技術管理者。
這中間我踩過不少坑,也積累了很多感悟,大致可以歸納為兩個層面的挑戰。
第一個挑戰是工作習慣的重塑,尤其是從純技術向管理的過渡。做 IC 時,我只需要專注解決技術難題。但轉型做 Team Leader 后,最大的難點在于心態上很難“放下”——很難放下親手寫代碼和啃論文的執念。但現實是,你必須分出精力去把控團隊方向、進行向上溝通、了解財務狀況,甚至洞察市場動態。
在這個過程中,我養成了一個關鍵習慣:利用碎片化時間。哪怕只有半小時空檔,也要思考如何快速進入狀態。即便這半小時不足以徹底解決一個復雜問題,但你要能維持住思考的連貫性,做好上下文的銜接。
第二個挑戰,也是更深層的感悟,是我所定義的“技術責任心”。這里的“責任心”,本質上是對一線技術人員的一種保護機制。
我們在工作中經常面臨一個權衡:一線技術人員到底需不需要具備深層次的產品、技術乃至業務價值的思考?我的觀點是:如果他們具備這種視野,那是錦上添花,但如果他們暫時沒有,這絕不應成為他們的包袱,這本該是我們 Team Leader 的天職。
無論是描繪宏大的藍圖,制定長期規劃,還是設定短期的 POC(概念驗證)目標,將技術語言轉化為業務價值,這是管理者必須承擔的責任。
這標志著我從單一的“技術思維”,正式跨越到了融合“技術、產品與業務”的復合型思維模式。
唐小引:所以這十幾年最關鍵的一點是學會了怎么去做好一個技術管理。
唐睿:對,其實學會了 PUA 自己。
唐小引:這也是一個很好的技術人成長路線。當然這個我先不展開了,因為時間關系,再加上您本身現在選擇的是技術管理的路線。
唐睿:對,其實自己也還在寫一些代碼,做一些科研。
唐小引:現在還在寫代碼?
唐睿:每天會花一兩個小時看論文,利用碎片化時間去實現一些 GitHub 上新的模型。
![]()
錨定空間智能:機遇、挑戰與“3D 界的 ImageNet”
唐小引:接著我們聊聊空間智能。錨定空間智能這個方向是從什么時候開始的?節點是什么?接著,我很好奇今天看到很多以前做 CV 或者 AI 大佬都投身這個方向。這個方向為什么如此重要?當前大家看到的機會和方向是什么?面臨的問題又是什么?
唐睿:我們真正開始投身到空間智能,起點應該是 2017 年。我們開始用自己的數據去塑造一些簡單的空間智能體,比如自動設計、自動打光、自動材質編輯等。
那時候我們也是采用一種數據驅動的方式。因為我們發現自己本身已經收集了大量的數據,可以拿這些數據去驅動一個……那時候不能叫大模型,而是驅動一個輔助設計算法。在 2017 年,這個輔助設計算法又能讓我們的工具更高效、更智能,從而形成一個飛輪。當時沒意識到這是一個飛輪的概念,但現在來看,可以把它定義成一種飛輪。
唐小引:為什么是在這個時間點?當時整個業內在AlphaGo席卷之下,應該很多是往識別方向去做的。當時的一個契機是什么呢?
唐睿:當時契機還是我們意識到 AlphaGo 之所以能打敗人類圍棋高手,也是數據驅動的。當然,在強化學習里,它通過強化策略加上隨機擾動,能夠產生大量的數據,通過這種數據驅動的形式,去產生新的智能體。所以我們當時沒有完全 follow 強化學習的思路,而是 follow 了一套數據驅動的范式。
所以我們在 2018 年提出了 “3D-Internet”,2019 年,我們和中國科學技術大學的劉立剛老師團隊在頂會上提出了數據驅動范式下的戶型自動設計方案,后面也把它應用到了我們的產品里。
唐小引:我看您前面說要做 3D 界的 ImageNet。到現在實現的成果是什么樣的?
唐睿:從商業化落地來看,進展非常順利。目前市面上許多頭部做具身智能或者 3D 空間生成的團隊,都是我們開源數據集以及閉源商業化數據集的客戶。由于簽署了 NDA(保密協議),具體客戶名單不便在這里公開。
唐小引:沒關系,我們理解保密需求。您只需分享那些可以公開的技術進展即可。
唐睿:撇開商業客戶不談,從純技術和學術合作的角度來看,我們最近產出了大量成果。我們與字節跳動、Adobe、谷歌以及浙江大學等機構都有深度的論文合作,核心都是基于數據驅動的方式,去探索空間智能的不同維度。
正如我這次演講所提到的,我們正在嘗試對“3D 空間”進行解構。空間看似復雜,但拆解到最基礎的層級,核心元素其實只有三樣:幾何、物理材質和光。
以現在的熱門模型為例,像騰訊的“混元 3D”這類大模型,主要解決的是“生成空間內容”的問題,也就是幾何和材質的生成。但有了物體還不夠,這些幾何體和材質需要通過特定的布局才能組合成一個有意義的空間。
所以,我們的研究重點主要分兩塊:
第一,是空間內幾何體和材質的高質量生成;
第二,是研究空間內物體的合理擺放與布局。
在此基礎上,我們與浙江大學的合作更進一步。除了物體,我們還在研究“光的布局”——包括光線的擺放位置、照射方向。
更極客一點的探索是:我們是否能用 AI 大模型去擬合光線的物理傳播過程? 也就是用 AI 來模擬傳統物理渲染中的光照計算。
![]()
數據難題與未來圖景:室內數據采集與硬件突破
唐小引:您在演講中提到一個觀點讓我印象深刻:相比室外自動駕駛場景,室內空間的數據獲取和標注難度反而更大。我作為外行可能會覺得室內環境相對封閉應該更容易,為什么業內會有這樣的判斷?難點究竟在哪里?
唐睿:這是一個非常好的問題。我們可以對比一下室外自動駕駛的數據獲取方式。像室外數據,或者說自動駕駛行業,它的數據獲取方式,就是車上搭著攝像頭。
唐小引:它跑著跑著就有了,我經常看到。
唐睿:對,它就能收集數據了,可能你跟一個市政府、區政府簽一個許可就可以了。所以采集是一種產生數據的方式,我們稱之為逆向捕獲重建。
另一種是正向設計。像自動駕駛領域,就會拿《GTA 5》作為一個仿真場景,再讓一輛虛擬的車在《GTA 5》的世界里開,它也能夠產生數據。所以自動駕駛使用這種方式,現在的具身智能其實也一直在用這種方式。
但是,真實數據的采集,第一,它的許可很難獲取,或者在家里采集的話,會涉及到用戶隱私。當然,像埃隆·馬斯克這種不差錢的,他們做 Optimus 的時候,我記得是在德州做了一個很大的場館,每個館里都有一個機器人,還有人類操作員去給機器人下達任務,然后機器人就去做抓取或者行動,以此來產生數據。但這里面一方面是剛才提到的隱私問題。
另一方面,機器人任務可比車子復雜多了。車子操作的方式就是前后左右,它唯一的目標就是不要碰到任何東西,并且能從 A 點到 B 點。但對于機器人來說,抓一個光滑的杯子和抓一個塑料的筆,其實都是兩種任務,因為你接觸到的物理屬性、物理對象的大小和形狀都不一樣。圓形的杯子你可能是這么抓,馬克杯你可能勾住把手就行了。所以,由于任務的多樣化,會導致數據的非集中化程度非常高,成本就會出現問題。所以大家也是參照自動駕駛領域,合成數據對于具身智能來說是非常關鍵的一種數據產生范式。
唐小引:對于空間智能而言,下一步的進化形態會是什么樣的? 比如過幾年,在我的室內環境里,會發生哪些本質的升級?
唐睿:要回答機器人的升級路徑,我們得回歸本質。撇開具體的算法不談,機器人在空間中的核心鏈路一共分四步:第一是空間感知,第二是空間理解,第三是空間推理與決策,最后是空間行動。
未來的升級,也會沿著這四個維度逐層展開:
首先是“空間感知”的泛化。
感知設備正在經歷一場從“高冷”到“普及”的下沉。早期的空間掃描設備只出現在軍工、航天或博物館數字化等國家級項目中;后來下放到了工廠和新能源車上(如激光雷達);隨著硬件發展,未來空間感知設備最終會普及到每個人手里,甚至戴在眼睛上。 雖然現在大眾的目光主要聚焦在 ChatGPT、Agent 等軟件層面上,但其實硬件感知能力的進化速度是非常快的,這塊板子很快會補齊。
其次是“空間理解”的質變。
這正是我們在今年(2025 年) 3 月 GTC 大會上發布 Spatial-LM(空間語言模型) 的初衷。
它與傳統的 ChatGPT 或圖像理解模型最大的不同在于輸入數據:我們不再處理平面的文本符號或像素圖片,而是直接處理由感知設備采集的 3D 點云或 3D 高斯數據。
在這個階段,AI 的任務不再是泛泛地識別,而是要精準地感知幾何目標。比如,它不僅要知道“這是一把椅子”,還要知道“這個空間的尺寸是否允許人類通行”。它需要反饋給我們非常精準的幾何結構、顏色、光照乃至物理屬性的信息。
最后是“空間推理與交互”的智能化。
這也是我們開源 Spatial-LM 也是希望呼吁整個社區關注的方向。到了這一步,我們需要通過仿真和合成數據的方式,去產生海量的高質量交互數據。 只有這樣,我們的智能體才能真正學會如何在物理世界中順滑地行動,變得更加“聰明”。
![]()
技術路線之爭:合成數據、2D 與 3D 的融合探索
唐小引:對,仿真和合成數據。我最開始聽黃仁勛本人就在強調這個。現在因為互聯網數據耗盡的問題,在直接的 AI 軟件層面,大家也在主攻這個方向。那相應地,具身智能和空間智能也都在做這個方向,從技術挑戰上有什么不同點嗎?
唐睿:先講不同點還是相同點。我覺得技術是 Application-Driven(應用驅動)的。
唐小引:我發現這是您的理念,您在始終強調這個。
唐睿:對,因為做技術管理者需要連接技術和應用。換句話說,資源是有限的,在有限的資源下怎么樣創造最大的價值?那就必須要把前面的應用場景考慮清楚。
當我們談論“空間智能”的合成數據時,它的復雜度是隨著應用場景的需求分層級遞進的:
第一層是“視覺級”需求。
比如做家裝設計或空間渲染,它的核心訴求是“看”。只要渲染得逼真、美觀就足夠了,這是一個靜態的維度。
第二層是“游戲級”需求。
如果是手機游戲或 VR 體驗,光“看”是不夠的,還需要基礎交互。比如不能出現“穿模”——你不能直接穿過桌子或墻壁;柜門要能打開;物體要能被拿起來。但在這一層,物理屬性往往是簡化的,游戲引擎并不在乎你抓取一個物體用了多少牛頓的力,只要邏輯通順即可。
第三層,才是具身智能所需的“物理仿真級”需求,我們稱之為“Sim-Ready”。
當你需要生成數據去訓練機器人時,對物理屬性和交互準確度的要求會呈指數級上升。機器人需要知道物體的摩擦力、質量分布、形變屬性等。
所以,我們的工作也是層層遞進的:
首先構建一個靜態場景;
然后通過數據增強賦予其物理屬性,使其變成動態的可交互場景;
最終達到“Sim-Ready”的標準,即可以直接用于物理仿真訓練的場景。
目前,我們團隊的前沿研究正在主攻“Sim-Ready”方向,而我們的核心業務則更多聚焦在空間設計應用層面。
最后補充一點,雖然物理仿真的合成數據對具身智能至關重要,但這并非全部。空間智能主要解決的是“數據短缺”和“空間理解”的問題,充當了機器人的“訓練場”和“眼睛”。 但具身智能作為一個集大成的領域,還面臨著機械硬件、電路、電池能源等硬科技的挑戰。在我看來,具身智能和太空探索一樣,都是人類技術的終極形態之一。
唐小引:您認為終極目標是具身智能,而非空間智能?就是說我們對于 AGI 的探索,終極目標是落在具身智能上嗎?
唐睿:我覺得是在具身智能上。如果我自己來定義一個 AGI,那它一定就是跟人一樣。如果這個 AGI 只在屏幕空間里,那它可能會考慮到空間智能這些事情。但真正走進物理世界,具身智能是和屏幕空間對應的物理世界里的 AI,那它可能更高級。
唐小引:我看到當前具身智能在構建世界模型,空間智能也在做。有一個觀點說,空間智能是構建世界模型的前提,然后通過世界模型才能到達 AGI。您對這個邏輯有什么看法?或者可以分享一下您的觀點。
唐睿:我的觀點是,這還是一個對 AGI 的定義問題。如果這個 AGI 是在屏幕空間里和人類對話的,那他不需要空間智能。但如果他需要在屏幕空間里去創造 3D 世界,甚至像具身智能一樣走出屏幕空間,那空間智能或者說世界模型就非 常關鍵了。
提到世界模型和空間智能的關系,我覺得目前業界其實并沒有一個統一的標準定義。
如果我們將世界模型定義為“能夠預測世界的下一個狀態”或者“能夠創造一個新世界”的能力,那么鑒于人類本身是三維生物,構建世界模型的路徑自然分化為兩派:一派是基于視頻生成,另一派是基于 3D 結構構造。當然,這兩者的基座往往都離不開大語言模型。
值得注意的是,這兩條技術路線并非割裂,而在互相借鑒與融合。
首先是“視頻輔助 3D”:
比如我們在做前饋式的高斯生成時,如果初始輸入只有一張單圖,要重建出高質量的 3D 高斯體,必須先有多視角的圖像信息。這時,我們就會借用 Video Diffusion 模型,先生成多視角的視頻幀作為中間素材,再喂給 3D 算法進行重建。
反過來是“3D 反哺視頻”:
大家發現純視頻模型有一個致命弱點:當時間線拉長后,視頻內容的一致性很難維持。比如你在視頻里向前走了一段路再回頭,原來的物體可能變樣甚至消失了。
為了解決這個問題,大家開始引入 3D 概念。嘗試將 3D 表征或 3D 隱空間作為中間媒介。利用 3D 天然的結構穩定性,來強制約束視頻生成過程,確保其在空間和時間維度上保持高度一致。
所以,這并不是 誰是誰的前提,更像是一個螺旋上升、互為支撐的過程。
唐小引:我聽到對于空間智能技術路線的爭議,比如大家提到的空間一致性,以及視頻生成和 3D 場景生成的路線之爭。您是 3D 這條路線的支持者是吧?
唐睿:也不能算,我兩個都在做。
唐小引:都會用,所以是融合派。
唐睿:是。其實不管我們做 2D 的 Diffusion,還是做 Video Diffusion,大家會發現你要把分辨率拉大,或者把視頻的長度拉長,顯存就不夠了。我們做 3D 的時候也會出現這個問題。所以它其實還是一個資源限制導致我們現在必須以一種融合的方式去進行。
未來如果 GPU 顯存無限大,或者我們有一種新的、不是 Transformer 這樣的算法,甚至我稱之為一種 3D 的……如果我們定義一個 3D 的 Killer concept 出現,那可能原來的基礎算法就翻篇了。就像以前大家做圖像會用 CNN,當然 CNN 在某些領域還非常好用,但是當 Transformer 出現以后,原來大家用 CNN 甚至 RNN 的很多方法,其實真的已經翻篇了。大家為什么現在還在融合,或者說為什么還在探索,其實也是在找一個 Killer concept 。
唐小引:那圍繞空間智能還有哪些技術路線的爭議嗎?我發現大家的各種討論都還蠻有意思的。
唐睿:圍繞空間智能,我覺得不存在爭議,因為現在大家還在一條船上探索。
唐小引:那在探索中有什么共識和非共識嗎?在技術這個維度上。
唐睿:共識是數據都缺少。非共識,我覺得也不能叫非共識,因為這個領域還是比較前沿的,你會發現還有很多論文在做,這里面 還有很多探索空間。當一個領域不怎么出現新論文時,可 能已經去泡沫化了。現在這 里面還有泡沫,就說明還有很多事情有價值,不管是商業價值還是技術探索價值,還能去做。
唐小引:您剛才說的都缺數據,這是痛點。那相應地有什么解決方案?這些方案因為本身也在摸索,有什么是可行的,有什么是可能是各執己見的?
唐睿:可行的方案,我覺得就是早上說的正向設計和逆向設計的方式。正向設計讓設計師通過設計軟件去創作一個 3D 空間或物體,它的成本和代價還是比較高的。我們的做法是,因為我們有室內空間設計這個業務,設計師在我們平臺去創造空間的時候,它不僅僅是為 AI 訓練產生價值,它最主要、最直接的價值是服務于空間設計、空間展示、空間交互這樣的需求。所以那部分價值已經在市場上浮現出來,設計師也能夠通過這個獲得回報。
我們所以有這個數據,但我個人覺得從數據的角度來說,它不是一個最高效的產生數據的方式。最高效的方式應該是,就像我們戴手表或者用手機的時候,你在日常生活的每一個行為、每一個動作,都能產生數據,那才是解決數據問題的最終之道。所以我們也在跟不同的硬件去生態合作。
所以,至少在空間智能領域,我們是不會去忽視硬件發展的。當我的眼鏡、手機甚至手表都能采集空間數據時,這可能是解決空間數據不足的最終解決方案。這是我的一個認知。至于分歧,如果說技術上有分歧,那就是把 2D Diffusion 和3D Diffusion 哪個作為中間媒介來做。你用不同的中間媒介,比如 3D 作為中間媒介,那視頻就是最終的成品;如果你說 2D 作為中間媒介,那 3D 就是最終的成品。
![]()
開源的力量:共建空間智能生態
唐小引:可以再談談開源。群核在開源方面做了很多,可以講講嗎?比如您和公司管理層對于開源策略的思考,以及群核開源策略的演進。
唐睿:我們也有點照貓畫虎,硅谷這邊很流行開源文化。從我做技術的角度,如果不談技術國界和邊界,我們最希望的是開源。當然也要從商業化的角度去思考,因為現在至少在世界模型或者空間智能這個角度,還沒有一個核心概念出現。在這種情況下,我們選擇把數據和模型開源出去,本質上是拋磚引玉,希望能集結整個社區的智慧,共同探索和定義這個領域的未來標準。
另一個角度,開源和我們服務的生態定位有關。打個比方,我們的三維空間數據,大家也會拿來去訓練 Embodied AI,也會訓練 3D 世界模型。那以 Embodied AI 為例,我們會發現在市場上,全球角度來說,真正能夠去訓練機器人對空間理解、空間交互的團隊是非常少的。但是又有很多小型團隊希望參與到這個游戲里面來。
這就是我們為什么去開源 Spatial-LM 這樣一個空間理解模型的意義。你可能自己沒辦法去訓練一個這樣的模型,但是我把 API 做好,甚至我把我們已經訓練好的模型先放出來,然后你自己有一些數據以后,也能夠在我的模型基礎上去微調出一個符合你業務場景的模型,讓更多的人參與到這個游戲里面來。這是我們在空間理解這塊做的。就像空間生成,其實我們也會在年底的時候發布一個跟空間生成相關的大模型出來。
也是同樣的邏輯,并非一定要技術人員才能創業。我們希望更多的產品經理也能夠跳出來用起來,然后把商業模式……因為其實在 AI 時代,技術很關鍵,但是另外,對產品的定義、對用戶的定義,以及用戶數據和模型的飛輪,其實也是一個 AI 企業,尤其是 AI 初創企業,能夠成功的關鍵。
唐小引:最后總結一下。從空間智能的技術發展上來看,比如數據、算力、模型這些方面,在接下來的一段時間(可以是短期或長期),還會有哪些關鍵的突破?這是技術發展。然后相應地體現到人,回歸到人身上。
現在我理解空間智能開始被越來越多的開發者知道,這可能核心得益于比如群核是杭州六小龍之一,比如李飛飛這位知名的 AI 學者也在投身這個方向。但很多人可能剛從陌生到逐漸了解,您有哪些思考和建議,可以分享給希望投身空間智能領域的人?
唐睿:這很難說。在前 AI 時代,或者說再往前一兩年,都是人在開發 AI,現在你已經能夠看到……就像 xAI 他們已經在做的一些事情,包括我覺得這可能也是 CSDN 在致力研究的一些事情,就是 AI 真的是在參與到 AI 的開發過程里面去了。所以當這個循環轉起來以后,AI 的發展技術是非常可怕的。
當然,提到空間智能它的突破點,我覺得等硬件。
從軟件的角度說,AI 已經能開發 AI 了。算力不由我們決定,我們搞不了芯片。然后從數據的角度來說,如果要產生一個爆點,這個爆點一定是在我們對現實的創作,或者說我們創作 3D 空間的方式上。原來創作 3D 空間的方式,剛才提到只能是設計師去設計。當每個人都可以對空間進行捕獲、進行還原的時候,它會是一個爆點。這個爆點我覺得應該兩年,可能 24 個月。
第二個問題其實這也是我們團隊里搞科研時會定義的一個態度。一個思維態度是Be Critical, Be Creative,就是用批判和創造性的態度去看問題。另外,在能力角度,不能光想,想法本身不值錢,你一定要去做實現。
所以做空間智能的時候,可能也跟我自身的經歷有關,我做過圖形學。圖形學里面我們不光是像 CV 里看到這個東西是藍色就是藍色,當我這個燈換成一個紅色的光時,它照下來就是紫色了。所以把這種批判和創造性的理念放到多個領域里面去,會有很大的幫助。
唐小引:所以我理解還是思維上的轉變。
唐睿:其實也不是,咱們科研工作者都得持續地保持這樣一種,說白了就是進取的態度。
唐小引: 好的,謝謝唐老師為我們帶來的精彩分享。謝謝大家,下次再見。( 投稿或尋求報道:zhanghy@csdn.net )
↓想要觀看完整視頻的小伙伴可戳~
關于《萬有引力》:
這是由 CSDN &《新程序員》執行總編唐小引主理的對話欄目。技術趨勢多變,一不留神總擔心錯過。正在發生的技術事件,對于我們開發者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術真相。
欄目定位:一檔面向開發者群體,聚焦解讀技術真相的對話欄目。
視頻觀看平臺:CSDN 視頻號、CSDN 網站 & App
多形式:文章、視頻、音頻都會有,持續關注 CSDN 公眾號都可獲取,歡迎大家關注!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.