網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

頭號(hào)玩家照進(jìn)現(xiàn)實(shí)！NTU發(fā)布世界模型交互新范式，攻克主動(dòng)操作難題

2026-04-14 12:32:45　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】南洋理工大學(xué)MMLab團(tuán)隊(duì)推出Hand2World，讓AI世界模型真正「伸手」互動(dòng)。只需在空中比劃手勢(shì)，模型就能生成逼真第一人稱交互視頻，實(shí)時(shí)響應(yīng)調(diào)整。它摒棄舊有遮擋誤導(dǎo)，用3D手部結(jié)構(gòu)與射線編碼解耦手與頭運(yùn)動(dòng)，首次實(shí)現(xiàn)閉環(huán)持續(xù)交互。基于單目視頻全自動(dòng)標(biāo)注，為AR、機(jī)器人交互鋪路。世界模型不再只是「看」，而是能「觸」。

Sora能生成逼真的視覺世界，Genie 3能讓你在3D場(chǎng)景中自由探索——但你始終只能「看」，沒法伸手進(jìn)去抓一下桌上的杯子。

當(dāng)下的世界模型已經(jīng)擁有了「眼睛」和「腿」——能感知環(huán)境、能移動(dòng)視角，卻始終缺少一雙「手」。

能看能動(dòng)但不能交互，是世界模型從被動(dòng)觀察邁向主動(dòng)操控的最后一道坎。而人類與物理世界交互的最原生接口，就是手勢(shì)。

南洋理工大學(xué)MMLab團(tuán)隊(duì)提出了Hand2World[1]——給一張場(chǎng)景照片，用戶只需在空中做出手勢(shì)動(dòng)作，AI 就能生成手伸進(jìn)場(chǎng)景里抓杯子、翻書、開盒子的逼真第一人稱視頻。而且這不是一次性生成：用戶可以邊看生成結(jié)果邊調(diào)整手勢(shì)，模型實(shí)時(shí)跟進(jìn)——形成真正的閉環(huán)交互。

論文地址：https://arxiv.org/abs/2602.09600

項(xiàng)目主頁(yè)：https://hand2world.github.io

為什么現(xiàn)有方法搞不定？

想象你訓(xùn)練了一個(gè) AI，讓它看了上萬(wàn)段人手抓杯子的視頻。現(xiàn)在給它一只在空氣中揮舞的手——它就無(wú)所適從了。因?yàn)橛?xùn)練數(shù)據(jù)里手永遠(yuǎn)被杯子、書本擋著一半，AI 從沒見過「完整的手」長(zhǎng)什么樣。結(jié)果面對(duì)完整手形，它反而憑空生出了不存在的遮擋物。

這就是所有基于 2D 手部 mask 方法的致命傷——訓(xùn)練時(shí)看到的是殘缺的手，推理時(shí)卻收到完整的手，分布直接錯(cuò)配。下圖清楚地展示了這一點(diǎn)：上排訓(xùn)練場(chǎng)景中 mask 被物體截?cái)啵屡艖{空手勢(shì)中 mask 完整，現(xiàn)有方法（如 CosHand）因此產(chǎn)生嚴(yán)重偽影。

mask分布錯(cuò)配 vs Hand2World的遮擋不變條件信號(hào)

雪上加霜的是，第一人稱視頻中手部運(yùn)動(dòng)和佩戴者的頭部轉(zhuǎn)動(dòng)在畫面上完全糾纏——模型分不清「是手在動(dòng)還是頭在動(dòng)」，背景就會(huì)跟著手一起漂移。

近期也有工作嘗試推進(jìn)第一人稱世界模型——如PlayerOne[2]通過第一人稱與第三人稱相機(jī)同步配對(duì)來建模自我運(yùn)動(dòng)，取得了重要進(jìn)展。

但這一路線既限制了數(shù)據(jù)的可擴(kuò)展性，也使實(shí)際應(yīng)用受限。能否僅從單目視頻出發(fā)，同時(shí)解決上述所有問題？這正是Hand2World的研究出發(fā)點(diǎn)。

Hand2World怎么做到的？

方法流程圖

讓模型「看見」完整的手

Hand2World徹底拋棄了2D mask。它從單目視頻中恢復(fù)完整的 3D 手部 mesh（MANO 模型），投影到圖像平面，渲染為「填充輪廓 + 線框疊層」的復(fù)合信號(hào)。無(wú)論手是否被物體遮擋，這個(gè)控制信號(hào)的格式始終一致。

關(guān)鍵 insight：遮擋關(guān)系不是硬編碼在輸入信號(hào)里的，而是交給生成模型根據(jù)場(chǎng)景上下文自行推斷。線框疊層還能在手掌朝向相機(jī)、手指相互遮擋時(shí)提供額外的關(guān)節(jié)結(jié)構(gòu)信息——這是純輪廓做不到的。

分清「手在動(dòng)」還是「頭在動(dòng)」

移除相機(jī)建模模塊后，F(xiàn)VD從218直接飆到815——背景開始跟著手一起漂移。

Hand2World 用逐像素的 Plücker 射線嵌入顯式編碼相機(jī)運(yùn)動(dòng)，通過一個(gè)輕量級(jí)adapter以加法方式注入擴(kuò)散模型。這一招將手部關(guān)節(jié)運(yùn)動(dòng)和頭部自運(yùn)動(dòng)徹底解耦。

相機(jī)控制消融對(duì)比。無(wú)相機(jī)條件時(shí)（上排）背景嚴(yán)重漂移，加入Plücker射線后（中排）與真實(shí)視頻（下排）高度一致。

閉環(huán)交互，無(wú)限續(xù)寫

Hand2World將雙向擴(kuò)散教師模型蒸餾為因果自回歸生成器，通過 KV cache 維持時(shí)序連貫，支持流式輸出。這使得整個(gè)系統(tǒng)形成閉環(huán)——用戶邊看邊調(diào)整手勢(shì)，模型持續(xù)響應(yīng)，交互可以無(wú)限進(jìn)行下去。

實(shí)驗(yàn)結(jié)果

三個(gè)數(shù)據(jù)集全面領(lǐng)先

在ARCTIC、HOT3D、HOI4D三個(gè)第一人稱交互數(shù)據(jù)集上均取得最優(yōu)結(jié)果。以 ARCTIC 為例：

FVD：908 →218（降幅76%）
相機(jī)軌跡誤差：0.13 →0.07（降幅42%）
DINO 語(yǔ)義相似度：0.80 →0.88
深度一致性：Depth-ERR 從 22.51 降至16.14

蒸餾后的Hand2World-AR性能接近教師模型（FVD 232），單卡A100達(dá)8.9FPS。

具身智能的數(shù)據(jù)飛輪：全自動(dòng)單目標(biāo)注

Hand2World 的訓(xùn)練數(shù)據(jù)從哪來？與 PlayerOne等依賴多目同步采集的方案不同，團(tuán)隊(duì)開發(fā)了一套全自動(dòng)的單目標(biāo)注流水線——不需要多目相機(jī)陣列，不需要人工標(biāo)注，直接從普通的第一人稱視頻中自動(dòng)提取手部 mesh、相機(jī)軌跡和訓(xùn)練數(shù)據(jù)對(duì)。這意味著任何一段現(xiàn)成的 egocentric 視頻都可以被轉(zhuǎn)化為訓(xùn)練信號(hào)——為具身智能的大規(guī)模數(shù)據(jù)收集提供了真正可擴(kuò)展的方案。

從「看見世界」到「觸碰世界」

作為將手勢(shì)交互引入世界模型的一次初步嘗試，Hand2World 構(gòu)建了一套從數(shù)據(jù)標(biāo)注到閉環(huán)生成的完整系統(tǒng)。在視頻生成能力快速提升的當(dāng)下，這套系統(tǒng)有望應(yīng)用于 AR/MR 眼鏡手勢(shì)交互、機(jī)器人手-物交互數(shù)據(jù)合成、以及從單張照片構(gòu)建可交互虛擬環(huán)境。

當(dāng)世界模型不再只是被動(dòng)地生成畫面，而是能響應(yīng)用戶的每一個(gè)手勢(shì)并持續(xù)演化——從「看見世界」到「觸碰世界」的距離，或許比我們想象的更近。

參考資料：

[1] Wang et al., "Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures," arXiv:2602.09600, 2026.

[2] Tu et al., "PlayerOne: Egocentric World Simulator," Advances in Neural Information Processing Systems (NeurIPS), 2025.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.