![]()
單打獨斗已觸及天花板,是時候團結力量推進世界模型了。
作者丨齊鋮湧
編輯丨林覺民
![]()
“世界模型”是今年超級熱門的話題和方向,但整體來看相關研究尚處于起步階段,共識尚未形成。
在12月13日舉行的第八屆GAIR全球人工智能與機器人大會“世界模型”圓桌上,浙江大學研究員彭思達、騰訊ARC Lab高級研究員胡文博、中山大學計算機學院青年研究員,拓元智慧首席科學家王廣潤博士、香港中文大學(深圳)助理教授韓曉光、西湖大學助理教授修宇亮齊聚一堂。
五位年輕的學者在清華大學智能產(chǎn)業(yè)研究院(AIR)助理教授,智源學者(BAAI Scholar)趙昊的主持下,圍繞著世界模型、數(shù)字人重建,新技術范式展望等展開了一場非常輕松但嚴肅的學術圓桌。
以下是具體內(nèi)容,AI科技評論做了不改變原意的編輯和整理。
01
關于世界模型,哪些技術突破值得期待?
趙昊:感謝各位。世界模型無疑是未來幾年最重要的技術方向之一。今天我們聊得會比較技術。先從彭老師開始,彭老師剛才介紹了Match Anything和Detector Free的Structure from Motion工作,我自己在用它們解決一些反光嚴重場景的重建,位姿估計問題,無論傳統(tǒng)方法還是VGGT等都不奏效。您認為,未來純粹的、前饋式的匹配方法會徹底取代現(xiàn)有方案,還是最終會走向融合?
彭思達:這取決于具體問題。在觀測足夠稠密的情況下,現(xiàn)有的COLMAP等方法已經(jīng)足夠精確;但在稀疏視角下,就必須依賴VGGT這類方法。目前VGGT的精度還有提升空間。我的一個觀點是,我們不僅要看算法進步,也要關注硬件發(fā)展。比如20年前的IMU精度很差,現(xiàn)在則很準。我們完全可以將IMU、激光雷達等其他傳感器信息融合進來,不必局限于純視覺的VGGT。
趙昊:有道理。另一個方向是運動估計,最近arXiv上也有很多新工作,效果超過了SpatialTrackerV2。您覺得這個領域發(fā)展到什么程度了?明年(2026年)會被徹底解決嗎?
彭思達:肯定不會被解決,這領域才剛剛開始,精度還遠遠不夠。但最近有一個重大突破,就是谷歌DeepMind團隊的新工作 D4RT。這個工作非常優(yōu)雅,它摒棄了以往基于特征相關性進行迭代優(yōu)化的主流范式,而是將整段視頻編碼為一組全局Token,然后可以直接查詢時空中任意點的信息。這是一個巨大的突破,我相信接下來會有一系列改進。明年不會是終點,而會是一個蓬勃發(fā)展期,可能到2027年才會逐漸收斂。
趙昊:所以總結一下,我大膽預測,基于查詢的幾何基礎模型會成為2026年的一個主題。不僅是D4RT,像修老師的Human3R也是查詢式的。我個人賭2026年幾何基礎模型會走向基于查詢的范式。彭老師,您2026年想bet什么方向?
彭思達:我賭自監(jiān)督學習能有重大突破。現(xiàn)有的自監(jiān)督學習大多集中在語義和二維層面,缺乏面向空間智能的自監(jiān)督學習。我希望谷歌、DeepMind這些擁有龐大資源的研究機構能在這方面做出成果,讓我們也能用上。
趙昊:我持類似觀點。這也是為什么當年自監(jiān)督深度估計研究了很久卻不太成功,現(xiàn)在轉向了模仿學習。我在想,明年是不是該把自監(jiān)督深度估計重新?lián)炱饋恚糜趲缀位A模型的后訓練?
趙昊:接下來問問胡老師。2026年您bet什么方向?今年我們看到了你們的一系列4D AIGC工作和我們的Light-X這種5D AIGC工作,今天看了VerseCrafter之后,我覺得又增加了一個物體運動的維度。我們內(nèi)部一直在探討“6D AIGC”是什么,還有哪些可控維度?您的研究思路是怎樣的?
胡文博:我們之前的一系列工作,屬于韓老師總結的技術路線中的第三類——將3D信息注入擴散模型。但未來一年,我們可能不會繼續(xù)沿著這條路線深入了。我認為它的上限可能不夠高,因為重建技術無論發(fā)展多快,總存在瑕疵,難以達到完美真值的級別。因此,我們想探索一條全新的、上限更高的路線來融入3D信息,但目標依然是構建世界模型。我個人肯定會賭世界模型這個方向。
特別是今年8月Google DeepMind發(fā)布的Genie 3,對我們這些領域內(nèi)的人來說非常震撼。我認為它可能達到了大語言模型中GPT-3的級別,雖然離ChatGPT還有距離,但已經(jīng)非常驚人。
彭思達:我有個問題,現(xiàn)在的世界模型或者說視頻世界模型,學到的特征對于空間感知和理解似乎沒什么用。這與“建模三維空間”的初衷有些矛盾。您認為這里缺失了什么?
胡文博:首先,我想對這個前提打個問號。它對于空間智能是否有用,我并不確定。但一些證據(jù)表明,從圖像或視頻擴散模型出發(fā),用少量數(shù)據(jù)就能微調(diào)出幾何估計模型,這可能說明它是有用的。不過,我更想說的是,我們對世界模型的定義和要求是什么?如果我們要求它精確理解3D空間,那可能需要探索。但我更認同韓老師的定義,我想做的是一個給個人用的世界模型,讓人們能體驗未知的、他人的或虛構的世界。
這件事本身就很有意義。人類感知世界最主要的方式就是視覺,眼睛接收的就是視頻信號。如果我們能在視頻模態(tài)上實現(xiàn)優(yōu)秀的探索、交互,并且其物理規(guī)則符合現(xiàn)實(或自定義),那將非常有價值。至于它對空間智能是否有幫助,我暫時存疑。
彭思達:你剛才說的讓我想到一個應用,也許可以叫“魔法相冊”。現(xiàn)在的相冊只是靜態(tài)記錄,未來能否按一個按鈕,就讓照片里的內(nèi)容動起來,而且每次動得都不一樣?比如記錄孩子的成長,這絕對是剛需。
胡文博:這更像是讓圖像動起來。但對我來說,世界模型更吸引人的場景是:打開任意一張照片,你都能“進入”那個場景進行探索,與其中的物體交互,并且你的交互和更改能被永久保存,下次可以繼續(xù)。這更像是一個活的世界。
趙昊:看來我們形成了兩個初步共識:一是基于查詢的基礎模型是趨勢;二是當前3D范式存在上限,需要自監(jiān)督等新范式來突破。
趙昊:接下來請王老師分享一下,您對2026年有什么樣的展望或bet?
王廣潤:我先接續(xù)剛才的話題。世界模型有什么用?在我看來,一個核心應用在具身智能和VLA領域。簡單來說,輸入圖像,輸出未來的動作序列,這些動作本質(zhì)包含了3D坐標向量。所以,VLA任務在我看來,也包含著預測未來的3D點云(可能是只有一個點的點云)。我認為世界模型可能是一個可泛化的、快速進行3D重建與預測的引擎。對于明年,我的期待是能看到 Physical Intelligence的“π 1”版本 發(fā)布,并希望其中包含更多對世界模型的建模。這是我對明年的一大期待。
趙昊:一個靈魂拷問:為什么π0還沒有接入深度圖或點云預測?這很讓人期待。
王廣潤:VLA領域目前主要缺的是數(shù)據(jù)。有種觀點認為未來只需堆數(shù)據(jù)即可。但要訓練您說的那種模型,需要大量特定的3D標注數(shù)據(jù),采集非常困難。
02
“可交互性是世界模型的關鍵”
“數(shù)字人如何提供情緒價值”
趙昊:謝謝王老師。最后請韓老師。第二次聽您的演講,我在想我們是否可以把“3D對于可解釋性和安全性至關重要”這個觀點理論化,聯(lián)合國內(nèi)外學界寫一篇立場論文?
韓曉光:說實話,我雖然激情澎湃地講3D, partly是因為我沒有足夠資源去做視頻模型。我看到很多做3D的人轉向了視頻模型,包括文博也說3D看不到性能盡頭了。我講3D的重要性,也是想“煽動”大家繼續(xù)深耕3D領域,這樣我才有安全感。
關于2026年要做什么,我認為可交互性是世界模型的關鍵。我個人更偏向于做仿真環(huán)境中的可交互,比如生成一把剪刀,機器人拿起來真的能用;生成一個物體,可以被拆卸或操作。這是我主要想做的方向。
修宇亮:我一直在思考數(shù)字人領域中一個長期以來被忽略,但又很有趣的點。無論是做具身智能還是3D,大家最終都落腳到機器人能干活。但人與人交往,除了“有用”,“快樂”也是很重更要的一個維度,而一個人給另一個人帶來的快樂,往往不是對方給自己干了多少活,而是對方給我提供了多少情緒價值。
如果2026年有什么新方向,我特別想探索如何讓數(shù)字人提供情緒價值的問題。這很綜合,涉及音容笑貌、舉手投足。拿做飯舉例,做飯的快樂不僅在于炒菜本身,更在于一家人坐在一起享用時的愉悅的反饋。物理層面的問題,操作、抓取、移動,在不久的將來,會隨著智能水平的提升、硬件的迭代、運營上ROI 的打平,一個接一個落地,那么之后呢?溫飽之后,人很自然就有更高的精神上的追求。落實到數(shù)字人,我們需要將語音、語調(diào)、表情、動作等多模態(tài)統(tǒng)一協(xié)調(diào),形成一種能打動人心的整體感覺。就像趙昊老師做的靈巧臉的demo,技術上是領先的,但目前仍有恐怖谷效應,無法有效傳遞情緒價值。所以我認為可以先在數(shù)字世界中探索如何讓數(shù)字人的多種感官傳遞都“活靈活現(xiàn)”起來,形成協(xié)調(diào)一致的感覺,最終目標是讓人產(chǎn)生情感共鳴。
大模型也是如此。比如最近很火的那個 prompt:
我是一名智力低下的研究生,毫無基礎,我將在明天組會上做ppt文獻匯報,請你解讀一下這篇文獻,讓我能達到徹底看到這篇文獻的效果,注意我是智障!!!一定要幫我講明白,最好是翻譯出來,因為我對英語一竅不通,我只會中文,你要先給我規(guī)劃一下怎么向你提問最合適,一步步引導我看懂這篇文獻,并完成最終的ppt匯報稿
如果問這個話的是一個真人,那么理想的交互應該是什么樣子呢,他應該先說,“你已經(jīng)考上研究生了,你的智力已經(jīng)是極優(yōu)異的那一撮了,我想你只是需要一種更落地的對論文的解釋,這篇論文是關于……”,先給予情緒支持,再解決問題。這是人機交互中很重要的一點,這是我從我老婆身上學到的,一種比我之前三下五除二的溝通方式,更宜人的一種溝通方式。
趙昊:如果我們研究情緒價值,學術界面臨的最大問題是如何量化評估。沒有基準測試。我們明年是否可以先著手定義一些基準?就像MMMU對于多模態(tài)理解那樣。
修宇亮:這確實是個難題。情緒非常個人化。但并非無法量化,例如脫口秀可以用“罐頭笑聲”標記笑點。我們可以定義何時引發(fā)了何種情緒,盡管要建立一個普適、有說服力的基準非常困難。這可能需要新的技術手段。
趙昊:另一個問題:為什么3D數(shù)字人的發(fā)展似乎比通用3D物體慢?是數(shù)據(jù)問題嗎?難道不能用Trellis那樣的技術范式大幅提升精度嗎?
修宇亮:數(shù)據(jù)不足是一個問題。但更根本的是,數(shù)字人有一個“恐怖谷”效應:通用3D物體做到90%逼真度可能就很好了,甚至如果依賴于深度相機或者雷達感知,通用物體的操作,都未必需要紋理信息,但數(shù)字人這個領域,從誕生第一天,“保真度”就是毋庸置疑的事情,而且容錯率極低,做不到99分或100分,就是0分。人臉或者動作只要有一點點假,有一點點僵硬,就會令人不適。這也是為什么許多公司轉向卡通風格——預期管理更容易。卡通擬人化,比數(shù)字人擬真化,技術要求低很多,從用戶的角度,也會更容易接受。擬真數(shù)字人需要極高的技術門檻和資金投入,短期內(nèi)難突破。
韓曉光:我補充一點,除了真實感,動態(tài)驅動也是巨大挑戰(zhàn)。一個靜態(tài)的3D數(shù)字人用處有限(除了3D打印),必須讓它動起來。而讓物體或人動起來,并且動得自然,目前都很難。
03
視頻生成模型是否面臨范式天花板?
情緒價值的本質(zhì)是語言,還是外觀?
彭思達:我有個問題給宇亮。您認為情緒價值的本質(zhì)是研究語言,還是外觀?如果要排序,哪個優(yōu)先級更高?
修宇亮:這不是非此即彼的問題。但如果排序,我認為語言(包括語調(diào))本身可能更重要,其次是表情和體態(tài)。即使遮住臉或綁住手,我們也能通過語言傳達大量情緒,你如果有聽過氣泡音的深夜電臺主播,你就知道我在說什么。
彭思達:接著一個更技術的問題:當前視頻生成模型是否也面臨范式天花板?例如圖像生成,StableDiffusion曾如火如荼,但如今被Nano Banana等基于語言-圖像統(tǒng)一建模的新范式超越。現(xiàn)在似乎還沒有論文很好地將視頻與文本/語言在高層語義上進行統(tǒng)一建模。要讓你設想的數(shù)字人有“靈魂”,必然需要這種深度融合。您怎么看?
修宇亮:現(xiàn)在確實有一些視頻模型能根據(jù)音頻生成口型,但還不是真正的“形神兼?zhèn)洹薄_@種靈魂感往往體現(xiàn)在高頻細節(jié)上,比如微表情、語調(diào)的微妙變化,這些細節(jié)在像素層面可能都難以捕捉,在損失函數(shù)中也作用忽微,你看《建國大業(yè)》里面,老蔣聽到李宗仁當選總統(tǒng)的時候的那個微表情變化,這樣像素級的情感傳遞,能用 AI 準確生成嗎?建模這種極致的逼真度本身就是最后一公里的巨大挑戰(zhàn)。
韓曉光:關于情緒價值,我甚至覺得,有時不提供具體形象可能更好。越具體、越真實,有時越會限制想象力。一個未知形象但聲音溫柔的角色,可能給人更多想象空間和情緒價值。
修宇亮:情緒價值常常來自“反差感”和“預期違背”,而這與當前大模型“準確預測下一個詞”的訓練目標是相反的,語言模型是要準確預測下一個詞是什么,但脫口秀的工作邏輯不是這樣,要更高一級,他得在知道下一個詞最可能是什么的前提下,給出一個最不可能但又合理的輸出,這就是脫口秀的預期違背。如何讓以“捕捉人類直覺”聞名的大模型,去學習生成這種“反直覺但細想想又很合理”的內(nèi)容,是我感興趣的,我甚至認為幽默本身,就是人類智能的一種體現(xiàn),人類就是在預期違背中,去忤逆去突破,打破成見形成集體對事物全新的認知,脫口秀演員和科學家,本質(zhì)上是一類人。
趙昊:這或許是個好方向,比如讓數(shù)字人講脫口秀。另外,回到統(tǒng)一生成與理解的問題,像Nano Banana那樣的工作,將其擴展到視頻需要多少計算資源?
彭思達:這需要一些基礎算法,比如視頻的Tokenization目前可能都沒做得很好。視頻理解和生成的需求也不同,一個可能需要處理一小時長視頻,另一個可能只生成5-10秒。如果Tokenization問題沒解決好,以目前的規(guī)模,上萬張GPU卡可能是起步。
趙昊:視頻的Tokenizer正是我2026年想賭的方向之一。最后,我正式向在座的各位,以及產(chǎn)業(yè)界、學術界的朋友發(fā)出倡議:我們是否可以共同建立一個世界模型的技術聯(lián)盟或發(fā)布一份倡議書? 當前單打獨斗似乎已觸及天花板,是時候團結力量,共同推進真正的世界模型了。
今天的討論就到這里,感謝各位!
未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.