<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR 2026 | 字節世界模型新作,僅靠視覺學習真實世界知識

      0
      分享至



      視覺世界模型 “VideoWorld 2” 由豆包大模型團隊與北京交通大學聯合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模態模型,VideoWorld 系列工作在業界首次實現無需依賴語言模型,即可認知世界。

      現有的模型大多依賴語言或標簽數據學習知識。然而,語言并不能捕捉真實世界中的所有知識。例如,復雜的動態變化、空間關系以及背后的物理規律等,難以通過語言清晰表達。

      正如李飛飛教授所說, “幼兒可以不依靠語言理解真實世界”,VideoWorld 系列 僅通過 “視覺信息”,即瀏覽視頻數據,就能讓機器掌握推理、規劃和決策等復雜能力。在新作 VideoWorld 2 中,模型進一步擴展到真實場景,能夠僅瀏覽視頻,掌握長達 1 分鐘的復雜手工制作任務,并已入選頂級會議 CVPR 2026

      AI 可以直接從視頻中學習真實世界中的復雜技能嗎?就像人類可以僅靠瀏覽視頻學習折紙、搭樂高積木等技巧。

      豆包大模型團隊與北京交通大學聯合提出了 VideoWorld 2,一種通用視覺世界模型,旨在不依賴語言模型,僅靠瀏覽視頻,掌握復雜、長時序的真實世界知識。

      正如李飛飛教授在其演講中所言,視覺能力的出現引發了寒武紀生命大爆發,進而推動了智能的飛躍式發展。VideoWorld 2 通過研究使 AI 直接從真實視頻中學習復雜任務知識,探索了 AI 智能的邊界。

      VideoWorld 2 揭示了直接從真實視頻中學習的關鍵在于解耦關鍵動作和無關視覺細節,并據此提出一種動態增強型潛動態模型,將真實世界視頻中的復雜外觀與任務核心動作解耦,顯著提升復雜長時序任務的學習效率和效果。

      僅通過瀏覽教程視頻,VideoWorld 2 即可完成諸如折紙和搭積木等長達一分鐘的復雜手工制作任務。這些任務涉及當前 AI 難以掌握的細粒度操作與長程規劃能力。VideoWorld 2 的成功率遠高于目前最先進的技術(例如 Sora 2、Veo 3 和 Wan 2.2),成功率提升超過 70%,而后者幾乎無法完成這樣的復雜任務。此外,它還能將這些技能遷移至多種未見場景,并實現跨環境的多任務機器人操控。

      團隊認為,盡管面向真實世界中的視頻知識學習與技能泛化仍存在很大挑戰, VideoWorld 2 有潛力從視頻數據中學習更多樣和復雜的任務技能。

      目前,該項目論文被 CVPR 2026 錄用,代碼與模型已開源,歡迎體驗交流。



      • 論文鏈接:https://arxiv.org/abs/2602.10102
      • 項目主頁:https://maverickren.github.io/VideoWorld2.github.io/
      • X 鏈接:https://x.com/XiaojieJin/status/2021469936363991162?s=20

      現有 AI 難以從真實世界視頻中學習知識

      面向本次研究,團隊構建了兩個實驗環境:視頻手工制作和視頻機器人操控。

      其中,手工制作視頻包含多種場景下的精細動作與環境變化,如紙張的不規則形變、視角切換與遮擋等。同時,這些視頻時長達分鐘級別,包含多個連續的操作步驟。相比娛樂向視頻,手工制作可以作為一個評估模型復雜知識學習能力的理想測試環境。

      同時,團隊還選取了機器人任務,以考察模型在理解控制規則和規劃任務方面的能力。

      在模型訓練環節,團隊要求模型 “觀看” 教程視頻數據,以此得到一個可以根據過往觀測,預測未來畫面的視頻生成器。

      在測試階段,團隊要求模型在新的環境下,生成訓練集中展示的任務技巧,并轉換為準確連貫的視頻。對于需要具體動作輸出的任務,模型可以在瀏覽大量視頻后,額外訓練一個輕量的動作預測頭,充分發揮從視頻中預先學習的知識。

      團隊首先測試了主流的視頻生成模型,如 Sora2,Veo3 和 Wan2.2 等。如下圖右側所示,這些模型雖然善于生成精美的畫面,但是全部無法生成完整準確的折紙任務。

      團隊又測試了系列工作中的初代模型 VideoWorld。 VideoWorld 主要為模擬場景下的視頻知識學習設計,如視頻圍棋和模擬機器人操控,外觀與動作均較簡單。雖然 VideoWorld 的任務成功率更高,但輸出仍包含大量錯誤的動作。



      團隊將這歸因于 —— 模型難以充分解耦嵌入在視覺變化中的任務核心動作,過擬合到了無關細節。例如,相機的抖動,光影變化與無關外觀細節。這種過擬合會降低長距離生成的穩定性與準確性。

      相反,人類可以輕松地從復雜的外觀變化中提取關鍵的任務動態。

      增強視覺動態解耦能力,提升視頻學習效果

      根據上述觀測,團隊提出 VideoWorld 2,旨在通過顯示的增強對外觀與動作信息的解耦,提升知識學習的魯棒性。

      為此,VideoWorld 2 引入了一個動態增強型潛動態模型(dLDM, dynamic-enhanced Latent Dynamic Model), 可提取視頻中的任務核心動作并壓縮為緊湊的潛在編碼,提高模型的知識學習效果。

      dLDM 包含一個 MAGVITv2 風格的編碼器 - 解碼器結構以及一個預訓練的視頻生成模型(VDM, Video Diffusion Model)。編解碼器將未來的視頻變化壓縮為緊湊的潛在編碼,VDM 則負責將潛在編碼渲染為視頻。

      對于一個視頻片段,編碼器先以因果方式提取每幀特征圖,并定義了一組注意力模塊和對應可學習向量。每個向量通過注意力機制捕捉第一幀至后續固定幀的動態變化信息,然后通過 FSQ 量化。其中,量化器作為信息篩選器,防止模型簡單記憶后續幀原始內容,而非壓縮關鍵動態信息。

      接下來,這些潛在編碼會作為 VDM 的條件輸入,以因果交叉注意力的形式與 VDM 進行交互,基于去噪擴散方式被渲染回視頻。

      由于 VDM 具有豐富的外觀先驗知識,潛在編碼可以僅關注緊湊的、可泛化的動作信息,而不過擬合至無關外觀細節。

      初代 VideoWorld 中僅使用編碼器 - 解碼器結構來壓縮視頻變化,并重建視頻。由于解碼器結構不包含外觀先驗知識,其重建優化目標易為擾潛在編碼引入環境噪聲,難以充分解耦真實環境下的復雜外觀與任務動作信息。

      通過將 VDM 作為外觀渲染器,VideoWorld 2 實現了緊湊且魯棒的視覺表示,可以捕捉復雜、長距離視覺序列中的核心動態信息,這對于真實世界中的推理規劃任務至關重要。

      同時,團隊并未完全摒棄原始的解碼器結構,仍要求其利用首幀特征圖與幀間視覺變化編碼來重建后續幀,并阻斷了該過程向潛在編碼的梯度回傳。由于梯度被截斷,解碼器的重建任務不會干擾潛在編碼的學習;同時,其重建的粗粒度視頻動態可作為輔助信息輸入 VDM,從而穩定訓練,使 VDM 能夠專注于外觀渲染,無需從零開始學習任務動態信息。

      下圖為 dLDM 的模型架構:



      通過引入 dLDM,在無需任何文本描述的情況下,VideoWorld 2 即可以在各種環境下完成長達一分鐘以上的連貫折紙、搭積木等手工制作任務,并可以應用至機器人操控場景。

      從更多視頻中學習,提取通用技能

      針對 dLDM 視頻學習效果的原因,團隊進行了以下分析,并發現 dLDM 可以從大量真實世界視頻中提取相似的運動模式

      下圖展示了 dLDM 在大量真實世界視頻上訓練后,對潛在空間中距離相近編碼所屬視頻片段的可視化結果。

      可以看出,這些編碼表達了相同的運動模式(如不同方向的位移、折紙中的通用動作等)。盡管它們所處的環境和實體各不相同,但在潛在空間中具有相似的表達,這極大程度上有助于模型學習可泛化的策略。



      進一步地,團隊對潛在編碼進行了 UMAP 可視化(見下圖),其中每個數據點代表一個潛在編碼。

      UMAP 作為一種主流的降維算法,能夠將高維數據映射至低維空間,從而直觀展示模型的特征表征能力。圖中點的物理距離越近,表明其在原始高維空間中的相似度越高。

      團隊可視化了在 CALVIN 和 BRIDGE 兩個環境中學習到的潛在編碼。盡管這兩個環境外觀差異顯著(前者為仿真環境,后者為真實世界視頻),但它們具有相似的動作空間(如機械臂的定向位移)。

      如下圖所示,左側為 VideoWorld 2 提取的潛在編碼,右側為前作 VideoWorld 的結果。對比可見,對于跨環境的相似機械臂運動,VideoWorld 2 在潛在空間中呈現出更顯著的聚類趨勢,其表現明顯優于 VideoWorld。這表明模型能夠更好地提取跨場景的共性,掌握更具泛化性的策略知識。



      團隊認為,視覺能力是自然界中生物智能實現跨越式演化的重要推動力。對于 AI 而言,從視覺中學習和理解真實世界知識,或許是邁向更高階智能的重要途徑。

      未來,團隊將致力于從視覺中學習和理解真實世界的復雜知識結構,構建能夠自主感知、推理與行動的更強大的通用智能體。

      作者介紹:



      任中偉:VideoWorld 項目核心成員,北京交通大學計算機學院博士生。目前在字節跳動大模型團隊實習,期間在 CVPR 頂級會議上發表多篇論文,并受邀擔任了 CVPR,ICCV 等多個頂級會議審稿人。研究方向包括多模態感知與推理、世界模型、視頻生成等。



      靳瀟杰:VideoWorld 系列項目負責人,現任北京交通大學計算機學院教授 / 博導,國家高層次青年人才,曾任字節跳動美國研究院創始成員和技術負責人。研究方向為多模態智能、世界模型、高效深度學習等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      9歲湖北女孩在埃及飚英語霸氣維權,爸爸:她5歲開始跨國游學,會靈活應對突發情況

      9歲湖北女孩在埃及飚英語霸氣維權,爸爸:她5歲開始跨國游學,會靈活應對突發情況

      瀟湘晨報
      2026-03-10 18:22:25
      智譜午后漲幅擴大至20%

      智譜午后漲幅擴大至20%

      每日經濟新聞
      2026-03-10 14:18:05
      突發3大利好,17個智能電網股集體漲停,超級主力掃貨電網

      突發3大利好,17個智能電網股集體漲停,超級主力掃貨電網

      鵬哥投研
      2026-03-10 08:01:38
      普京樂了,澤連斯基懵了,都沒料到,擊垮烏克蘭的,竟會是伊朗

      普京樂了,澤連斯基懵了,都沒料到,擊垮烏克蘭的,竟會是伊朗

      荷蘭豆愛健康
      2026-03-10 15:35:10
      丑橘是轉基因水果?專家直言:這幾種水果,再便宜也不要買!

      丑橘是轉基因水果?專家直言:這幾種水果,再便宜也不要買!

      愛下廚的阿椅
      2026-03-09 11:55:24
      大齡演員別裝嫩!39歲毛林林給28歲張凌赫演媽,打臉多少扮嫩女星

      大齡演員別裝嫩!39歲毛林林給28歲張凌赫演媽,打臉多少扮嫩女星

      八斗小先生
      2026-03-10 09:59:27
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      暴雪,大雨,沙塵暴!較強冷空氣來襲

      暴雪,大雨,沙塵暴!較強冷空氣來襲

      新浪財經
      2026-03-10 19:53:22
      四川省合江縣疾病預防控制中心原副主任毛曉琴被“雙開”

      四川省合江縣疾病預防控制中心原副主任毛曉琴被“雙開”

      瀟湘晨報
      2026-03-10 21:11:18
      柳某、王某等4人被西安警方查獲

      柳某、王某等4人被西安警方查獲

      91.6陜西交通廣播
      2026-03-10 08:09:25
      財政壓力的下半場:退休人員占比近四成,才是硬賬

      財政壓力的下半場:退休人員占比近四成,才是硬賬

      超先聲
      2026-01-09 16:45:39
      臺灣統一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

      臺灣統一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

      抽象派大師
      2025-12-20 16:56:28
      18核干掉96核!蘋果M5 Max完虐AMD旗艦撕裂者9995WX

      18核干掉96核!蘋果M5 Max完虐AMD旗艦撕裂者9995WX

      快科技
      2026-03-08 14:53:19
      美媒“實錘”推翻特朗普言論,美以矛盾盡顯無遺

      美媒“實錘”推翻特朗普言論,美以矛盾盡顯無遺

      新民周刊
      2026-03-10 09:10:23
      全紅嬋官宣個人全球代言,披肩長發造型亮相廣告片,大方又可愛

      全紅嬋官宣個人全球代言,披肩長發造型亮相廣告片,大方又可愛

      米修體育
      2026-03-10 12:59:58
      Mac版QClaw開放下載:可用微信登錄,默認使用國產大模型

      Mac版QClaw開放下載:可用微信登錄,默認使用國產大模型

      識礁Farsight
      2026-03-10 10:27:14
      36歲張含韻近況曝光!春節一周胖6斤,如今和“五竹叔”戀情穩定

      36歲張含韻近況曝光!春節一周胖6斤,如今和“五竹叔”戀情穩定

      代軍哥哥談娛樂
      2026-03-09 14:17:39
      公共走廊被爆改成廚衛后續:官方發聲力挺,鄰居翻臉,好消息傳來

      公共走廊被爆改成廚衛后續:官方發聲力挺,鄰居翻臉,好消息傳來

      觀察鑒娛
      2026-03-09 09:54:58
      “女兒生病就好了,為什么是兒子?”寶媽逆天發言,遭全網抨擊!

      “女兒生病就好了,為什么是兒子?”寶媽逆天發言,遭全網抨擊!

      知曉科普
      2026-03-10 11:47:07
      周濤衣領都開到這了誰還頂的住

      周濤衣領都開到這了誰還頂的住

      王二哥老搞笑
      2026-03-09 09:10:29
      2026-03-10 22:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      房產
      游戲
      教育
      家居
      公開課

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      PS5驚喜免費暢玩老3A!《紅色沙漠》發售前先來這個

      教育要聞

      考不上好大學,就去挖金礦?這條務實路徑,正在讓山東專科生成為香餑餑

      家居要聞

      自然肌理 溫度質感婚房

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版