![]()
當前的視頻大模型發展迅速,但在面對復雜的空間移動和物理規律時,依然 “看不懂” 物體如何運動。
它們或許能描述視頻中發生了什么,但如果你問它:“紅色的車是在藍色車轉彎之前還是之后通過路口的?” 或者 “那個皮球的拋物線軌跡最高點在哪里?”,很多模型就開始 “胡言亂語” 了。
究其根本,在于高質量運動數據的極度匱乏。現有的數據集要么規模太小,要么依賴昂貴的人工標注,難以支撐模型去學習真實世界中細粒度的物理運動。
針對這一痛點,來自MIT、NVIDIA、UC Berkeley等機構的研究者提出了FoundationMotion:一套完全不依賴人工標注的自動化數據管線。
令人驚訝的是,僅靠這套管線生成的數據微調后,15B 參數的視頻模型竟在運動理解任務上,超越了 Gemini-2.5 Flash 以及 72B 參數的開源大模型:NVILA-Video-15B: 90.6% on AV-Car benchmark, Gemini-2.5-Flash: 84.1%,Qwen-2.5-VL-72B: 83.3%
![]()
- 項目主頁: https://yulugan.com/projects/FoundationMotion.html
- 論文: https://arxiv.org/abs/2512.10927
- 代碼: https://github.com/Wolfv0/FoundationMotion
視頻模型的 “物理盲” 危機
2024 年至今,被認為是視頻生成模型的爆發期。從 OpenAI 的 Sora 到各類國產模型,AI 已經能夠生成極其逼真的動態畫面。然而,在華麗的像素背后,一個長期被忽視的問題逐漸暴露出來:
這些模型并不真正理解物體的運動。
例如,在測試中研究人員發現:
- 它們可以生成高速行駛的賽車,卻難以判斷剎車究竟是發生在碰撞之前還是之后;
- 它們能描繪復雜的街景,卻常常搞錯行人的移動方向與相對位置關系。
比如我們上傳一段一輛汽車在夜間行駛,變道,超過了前方車輛的視頻給 Gemini 3 Pro Preview,問 “What is the primary driving behavior demonstrated by the ego vehicle in the video?”


Gemini 3 Pro Preview 的回答是這輛車正在它的車道上行駛,完全沒有理解這個視頻最主要的運動:變道與超車。
正如心理學家 Barbara Tversky 在《Mind in Motion》中所指出的:空間與運動是人類理解世界的基礎。而這一能力,恰恰是當前視頻模型最薄弱的部分。
![]()
問題的根源在于數據。現有視頻數據要么只包含靜態描述(如 “一只狗在草地上”),要么高度依賴昂貴、難以擴展的人工標注,使得大規模、細粒度的 “運動理解” 數據幾乎無法獲得。
FoundationMotion
一座全自動的 “運動數據工廠”
為了解決這一瓶頸,研究團隊提出了 FoundationMotion——一套端到端、無需人工參與的自動化數據生成系統。
它的工作流程可以被形象地拆解為四步:
![]()
1 & 2. 預處理 & 先把 “運動” 精確地抓出來
首先,使用成熟的目標檢測與跟蹤模型,對視頻進行逐幀分析,將人、車輛、手部、機械臂等關鍵物體轉化為連續的時空軌跡(Trajectories)。
- 輸入: 任何視頻。
- 輸出: 每個物體在視頻中的精確運動坐標。
2. 把軌跡 “講給” 語言模型聽
僅有數字坐標對語言模型來說過于抽象,FoundationMotion 采用了多模態融合策略:
- 將軌跡轉化為結構化的文本描述;
- 同時將視頻幀與軌跡信息作為 Prompt 輸入。
這相當于為模型提供了一份 “運動說明書”,讓它不僅看到畫面,還能結合坐標理解物體究竟是如何移動的。
3. 讓模型生成標注與問題
研究團隊利用 GPT-4o-mini,在軌跡與視頻的基礎上,自動生成兩類高質量數據:
- 精細化運動描述:包含速度變化、方向、終止位置等細節;
- 多維度運動理解問答:覆蓋動作識別、時序關系、動作 - 物體關聯、空間位置以及重復計數等關鍵能力。
最終,團隊基于 InternVid 構建了約50 萬條高質量運動理解數據,形成了 FoundationMotion 數據集。
數據樣例:
小模型,擊敗大模型
在實驗環節,研究人員使用 FoundationMotion 生成的數據微調了多個開源視頻模型,包括 NVILA-Video-15B 與 Qwen2.5-7B。
結果顯示,高質量數據帶來的提升是巨大的:
- 越級挑戰: 微調后的 7B/15B 模型在多個運動理解基準上,超越了 Gemini-2.5 Flash 與 Qwen2.5-VL-72B。
- 純數據驅動: 這一提升不依賴額外的模型結構設計或復雜的推理策略,完全歸功于數據的質量。
- 強泛化性: 在自動駕駛、機器人操作、日常活動等不同領域均具備良好表現。
- 無損通用能力: 在增強物理感知的同時,并未損害模型原本的通用視頻理解能力。
通向 “物理 AI” 的關鍵一步
FoundationMotion 的意義遠不止于刷榜。
在自動駕駛與機器人領域,“理解物體如何運動” 直接關系到系統的安全與決策能力。
FoundationMotion 提供了一條低成本、可擴展的路徑,讓 AI 能夠通過觀看海量視頻,逐步建立對物理世界的直覺。這套管線未來可廣泛用于:
- 視覺語言模型(VLM)
- 視覺 - 語言 - 動作模型(VLA)
- 世界模型(World Models)
這被認為是構建真正的具身智能(Embodied AI)的基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.