<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LeCun預言成真?這有一份通往AGI的硬核路線圖:從BERT到Genie

      0
      分享至

      非羊 整理自 凹非寺量子位 | 公眾號 QbitAI

      從OpenAI的Sora到Google DeepMind的Genie,2025年無疑是世界模型(World Model)的爆發之年。

      然而,繁榮的背后是概念的混戰:世界模型究竟是什么?是強化學習里用來訓練Agent的環境模擬器?是看過所有YouTube視頻的預測模型?還是一個能生成無限3D資產的圖形引擎?

      近日,一篇題為《From Masks to Worlds: A Hitchhiker’s Guide to World Models》的論文在arXiv上引發關注。來自MeissonFlow Research、Georgia Tech、UCLA和UC Merced的聯合研究團隊提出了一份通往AGI的“建造指南”。



      與羅列數百篇論文的傳統綜述不同,作者團隊在文中專注于如何構建真正的世界模型,作者團隊指出:正如LeCun所言,通往真正世界模型(World Model)的道路可能并非自回歸,而是一條由“掩碼(Masking)”鋪就的窄路。

      從BERT到MAE/MaskGIT,再到如今的Genie-3與離散擴散(Discrete Diffusion)模型,Masking正在統一不同模態之間的表征。

      論文認為,從早期的掩碼預訓練(Masked Modeling)出發,經過統一架構與可交互式閉環,并通過設計持久的記憶系統,是構建真正的世界模型最有希望的技術路徑。

      這份“指南”將World Model的演進劃分為五個階段,并用一張全景圖串聯起了從BERT到Genie-3的十年AI進化史。本文將深度拆解這份“世界模型建造指南”,看Masking如何從一個預訓練Trick,一步步進化為統治多模態世界的終極法則。



      正本清源:世界模型不是模型,而是一個“系統”

      在討論技術路線之前,論文首先清理了地基:到底什么是World Model?

      行業內目前的共識往往是破碎的。有人認為它是一個視頻生成器(如Sora),有人認為它是一個交互環境(如Genie)

      但這篇論文認為,真正的世界模型(True World Model)不能是一個單體的黑盒,它需要是一個由三大核心子系統合成的有機整體:

      1. 生成系統(Generative Heart,$G$):這是造夢的引擎。它不僅要預測下一幀,還要模擬世界狀態的演化(Dynamics)、將隱變量映射為觀測(Observation),并預測任務相關的回報(Reward)。它是世界的物理法則載體。

      2. 交互系統(Interactive Loop,$F,C$):這是讓世界“活”起來的關鍵。世界不能只是一部放映的電影,它必須包含推斷器(Inference Filter)來理解現狀,以及策略(Policy)來做出行動。沒有這個閉環,Sora再逼真也只是視頻,不是模擬器。

      3. 記憶系統(Memory System,$M$):這是對抗熵增的防線。它負責通過循環狀態更新,確保世界在時間軸上的持久連貫。沒有記憶,世界就是一連串破碎的幻覺。



      基于這個嚴格的定義,作者繪制了一張跨越五大階段的進化路線圖,將過去十年的AI進展精準歸位。

      而貫穿這五個階段的靈魂線索,正是Masking



      Stage I:Masking范式——被低估的“創世法則”

      為什么是Mask(掩碼)

      在大多數人的認知里,Masking僅僅是BERT時代用來做“完形填空”的預訓練技巧。但論文在Stage I部分提出了一個極其深刻的洞察:Masking不僅僅是技巧,它是跨模態通用的“生成原則”,更是優于自回歸的“創世法則”。

      語言:從填空到“動態去噪”

      在NLP領域,BERT確立了“雙向上下文感知”的優勢,但長期以來,生成任務一直被GPT系列的“從左到右”自回歸(AR)統治。

      然而,變局正在發生。

      論文重點提及了Discrete Diffusion(離散擴散)的崛起。

      以Google的Gemini Diffusion和Inception Labs的Mercury為例,這些模型不再是簡單的一次性填空,而是將Masking進化為一種迭代去噪(Iterative Denoising)過程。

      • 它們將固定比例的掩碼替換為帶時間索引的噪聲調度。
      • 模型學會了從完全的混沌(全Mask)中,一步步“雕刻”出清晰的文本。

      這些工業級系統證明,這種動態掩碼范式在生成質量和推理速度上已經可以比肩甚至超越傳統的自回歸基線。

      視覺:并行生成的王者

      在視覺領域,Masking的統治力更加穩固。

      表征學習MAE(Masked Autoencoders)證明了我們只需要看高比例遮擋的像素就能重構整張圖片,這種高比例遮擋迫使模型學到了極強的語義表征。

      高效生成MaskGITMUSE是這一領域的里程碑。它們利用Masked Generative Transformers(MGT)實現了并行解碼。相比于逐像素生成的AR模型或計算沉重的連續擴散模型,Masking范式在保持高保真度的同時,帶來了極致的效率。

      最新的Meissonic更是證明,Masked Generative Transformers(MGT)可以在高分辨率文生圖任務上,與最頂級的Diffusion模型掰手腕。



      △ Figure 1由Meissonic生成的圖像

      多模態的普適性

      VideoMAE的時空管道掩碼,到wav2vec 2.0的音頻掩碼,再到Point-BERT的3D點云掩碼,Masking證明了自己是能統一所有數據形態的通用語言。

      論文總結道:Stage I確立了“Mask-Infill-Generalize(遮擋-補全-泛化)”作為構建世界模型的地基。

      Stage II:統一架構——Masking讓圖文“同頻共振”

      地基打好后,下一步是架構的統一。目前的AI領域雖然號稱多模態,但往往是“拼湊”的:用LLM處理文本,用Diffusion處理圖像,中間用膠水層粘起來。

      Stage II的目標是Unified Models(統一模型)用同一個Backbone(骨干),在同一個Paradigm(范式)下,處理和生成所有模態。

      但在如何實現“統一”的路徑上,論文清晰地梳理出了兩大陣營的博弈:Language-Prior(語言先驗)Visual-Prior(視覺先驗)



      1.語言先驗建模(Language-Prior Modeling)

      這是目前最主流的路徑,即“將視覺任務納入語言模型框架”。但在這一陣營內部,正發生著一場范式迭代:

      主流:Autoregressive(AR)路線:

      這是Emu3、Chameleon、VILA-U等模型的選擇。它們沿用了GPT式的Next-Token Prediction,試圖用自回歸邏輯統一一切。

      局限:雖然邏輯推理強,但在視覺生成上,自回歸的“單向性”往往難以處理圖像的全局結構。

      突圍:Mask-based(Discrete Diffusion)路線:

      這是論文重點標注的“新貴分支”。以MMaDA、Lumina-DiMOO和LaviDa-O為代表。

      • 核心創新:它們雖然堅持“語言優先”,但拋棄了自回歸,轉而采用Mask-based(掩碼)/Discrete Diffusion(離散擴散)范式。
      • 這意味著,它們在保持語言理解能力的同時,利用Masking的雙向注意力機制來提升視覺生成的質量。這被作者視為Masking范式在語言建模內部的一次勝利。



      2.視覺先驗建模(Visual-Prior Modeling):從看見到讀寫

      另一條路則是從視覺模型出發,反向兼容文本。

      • 基于潛在擴散模型(Latent Diffusion)UniDiffuser
      • 基于掩碼圖像建模(MIM)Muddit



      盡管AR-based模型目前聲量巨大,但Lumina-DiMOOMuddit等工作證明,這種架構不僅能理解圖文,還能在雙向上下文中實現更精細的生成控制,這才是真正能讓“語言邏輯”與“視覺生成”完美兼容的那個最大公約數。

      Stage III:交互式生成——Masking驅動的“模擬器”

      這是World Model真正開始變得有趣的時刻。當模型不再只是預測下一幀,而是開始響應用戶的Action(動作)時,它就從“放映機”變成了“模擬器”。

      這就是Stage III:Interactive Generative Models。從這一階段開始,作者不再局限于Masking范式,這是因為這階段開始Masking范式相關的工作還比較少。

      從GameGAN到Genie

      GameGAN:早期的嘗試,用GAN模仿《吃豆人》,雖然能玩,但泛化性有限。

      • Genie-1:
      • DeepMind的突破之作。它從互聯網視頻中無監督地學習“潛在動作(Latent Actions)”。Genie-1的核心正是基于MaskGIT的離散掩碼生成架構。它通過預測被Mask掉的未來幀,學會了物理規律。



      • Genie-2:
      • 將能力擴展到了準3D空間,引入了更強的對象恒常性。
      • Genie-3:
      • 這是目前的SOTA。它實現了720p分辨率、24fps幀率的實時交互,并能維持分鐘級的連貫游玩。



      為什么Masking對交互至關重要?

      在實時交互場景下,效率就是一切。Mask-based架構(如MaskGIT、Muse)并行解碼能力,使得Genie等模型能夠在極短時間內生成高質量的下一幀,從而閉合“感知-行動”的低延遲回路。

      相比之下,傳統的自回歸視頻生成模型(逐Token預測)在實時性上往往捉襟見肘。

      論文還提到了GameNGenMatrix-Game等基于擴散的實時引擎,它們共同證明了:要造一個可玩的世界,Masking/Diffusion范式是目前最有希望的路線之一。

      然而,盡管Genie-3看起來很美,但它依然患有嚴重的“健忘癥”。玩了幾分鐘后,場景可能會莫名其妙地漂移,之前建好的房子可能回頭就不見了。這引出了下一階段的挑戰。

      Stage IV:記憶與一致性——對抗世界的崩塌

      如果你在《我的世界》里造了一座塔,關掉游戲明天再來,它必須還在那里。

      這就是Stage IV要解決的核心問題:Memory & Consistency(記憶與一致性)

      論文指出,目前的視頻生成模型(包括Genie)大多依賴隱式的KV Cache或有限的Context Window。

      這種機制在長程推理中極其脆弱,容易導致“災難性遺忘(Catastrophic Forgetting)”和“狀態漂移(State Drift)”

      沒有記憶,世界模型只能是“反應式”的,而非“持久”的。為了解決這個問題,論文梳理了三類解決方案:

      1. 外部化記憶(Externalized Memory):像RAG(檢索增強生成)MemGPT那樣,給模型外掛一個可讀寫的硬盤。這讓知識變得可編輯、可追溯。

      2. 架構級持久化(Extending Capacity):僅僅拉長Context Window是不夠的。論文探討了Mamba這類線性時間狀態空間模型(SSM)以及Ring Attention等技術,試圖從架構底層實現“無限上下文”,讓模型能讀完一整本書或玩一整天游戲而不“斷片”。

      3.一致性治理(Regulating Consistency):這是最難的一點。針對視頻生成中的漂移,論文提到了FramePack、Mixture of Contexts(MoC)以及VMem。這些技術試圖利用顯式的3D結構或稀疏注意力,為流動的像素世界打上穩固的“時空樁”。



      “一致性不是把上下文拉長就能解決的。它需要明確的記憶策略——記住什么、遺忘什么、如何更新?!?/p>

      Stage V:終極形態——從“模擬器”到“科學儀器”

      當生成系統(Masking驅動)、交互系統(實時響應)和記憶系統(持久一致)完美融合,我們將跨越一道門檻,進入Stage V:True World Models(真正的世界模型)

      此時模型將涌現出三大本質特征:

      1. Persistence(持久性):世界擁有獨立的時間軸,歷史獨立于單次會話存在。世界在你離開后,依然在演化。
      2. Agency(主體性):世界中棲息著多智能體(Agents),它們擁有目標、記憶和社交關系,而非簡單的NPC。
      3. Emergence(涌現性):宏觀的社會規律、經濟周期、文明沖突,從微觀的主體交互中自然涌現,而非腳本預設。



      三大終極難題

      要到達這里,論文列出了橫亙在研究員面前的三座大山:

      • The Coherence Problem(連貫性/評估難題):當世界是自生成的,誰來定義什么是“真”?我們需要新的評估體系來衡量一個虛構世界的邏輯自洽性。
      • The Compression Problem(壓縮/擴展難題):歷史是無限增長的。世界模型必須學會像人類一樣“抽象記憶”,只保留因果相關的狀態,丟棄噪聲,否則計算量將導致系統崩潰。
      • The Alignment Problem(對齊/安全難題):這比對齊一個ChatGPT難上平方倍。我們不僅要對齊世界的“物理法則”(生成器),還要對齊這個世界里涌現出的億萬智能體社會的“社會動態”。

      我們為什么需要研究世界模型?

      為什么要費盡心機,沿著Masking這條窄路構建一個True World Model?

      這篇論文在結尾給出了一個極具浪漫色彩的答案:我們建造世界,不是為了逃避現實,而是為了理解現實。

      一旦跨越了Stage V的門檻,World Model將從娛樂工具升級為“科學儀器(Scientific Instrument)”。

      經濟學家可以在其中運行會導致現實崩潰的貨幣政策實驗;社會學家可以在其中觀察文明的演化與衰亡;認知科學家可以在其中探尋意識誕生的瞬間。



      從BERT的第一個[MASK]標簽,到未來那個生生不息的數字宇宙,Masking范式始終貫穿其中。

      對于所有致力于構建AGI的研究者來說,這篇論文提供了一個至關重要的視角:回頭看看Masking吧,通往未來的地圖,也許就藏在那些被遮住的Token里。

      參考資料
      論文標題:From Masks to Worlds: A Hitchhiker’s Guide to World Models
      論文鏈接:https://arxiv.org/abs/2510.20668
      相關項目:https://github.com/M-E-AGI-Lab/Awesome-World-Models

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國人均一個的“作弊神器”!老外崩潰了...

      中國人均一個的“作弊神器”!老外崩潰了...

      毛豆論道
      2025-12-31 19:03:49
      為什么大家都不提中國空間站了?沒臉提,跟國際空間站差距太大。

      為什么大家都不提中國空間站了?沒臉提,跟國際空間站差距太大。

      南權先生
      2025-12-31 16:00:50
      2026國補大調整!這些舊家電身價暴漲,別再當廢品賣了

      2026國補大調整!這些舊家電身價暴漲,別再當廢品賣了

      老特有話說
      2025-12-31 23:25:58
      美日印澳在北京會談,共謀反華?不到24小時,莫迪政府找中國對表

      美日印澳在北京會談,共謀反華?不到24小時,莫迪政府找中國對表

      南宮一二
      2026-01-01 12:38:41
      小麥不要了!稀土不給了!那船油還扣嗎?

      小麥不要了!稀土不給了!那船油還扣嗎?

      安安說
      2026-01-01 14:28:39
      28國罕見統一戰線,為臺撐腰叫板大陸!臺軍撂狠話:我們守得??!

      28國罕見統一戰線,為臺撐腰叫板大陸!臺軍撂狠話:我們守得?。?/a>

      老謝談史
      2025-12-31 15:54:12
      31分的大敗+徐杰傷退,讓朱芳雨和杜鋒看清差距,換外援才能解決

      31分的大敗+徐杰傷退,讓朱芳雨和杜鋒看清差距,換外援才能解決

      宏遠小師哥
      2026-01-01 22:21:27
      邵佳一霸氣!4任主帥不敢用的人,被他招入國足,鄭智被替換

      邵佳一霸氣!4任主帥不敢用的人,被他招入國足,鄭智被替換

      何老師呀
      2026-01-01 15:12:31
      蔡磊致漸凍癥病友新年公開信:歷史已經被改寫,將抗爭到最后一刻

      蔡磊致漸凍癥病友新年公開信:歷史已經被改寫,將抗爭到最后一刻

      澎湃新聞
      2026-01-01 15:36:32
      4位同學退休3年病倒兩個后,我發現:沒特殊經濟困難,還是躺平好

      4位同學退休3年病倒兩個后,我發現:沒特殊經濟困難,還是躺平好

      小馬達情感故事
      2026-01-01 14:30:03
      爆降2000元!華為mate旗艦:1月1日,正式官降

      爆降2000元!華為mate旗艦:1月1日,正式官降

      科技堡壘
      2026-01-01 11:23:49
      當“蔚小理”跌出頭部:2026車企淘汰賽全面加速

      當“蔚小理”跌出頭部:2026車企淘汰賽全面加速

      首席商業評論
      2026-01-01 12:12:00
      中方反制不到 24 小時,美國務院宣布反對,甩出三句話不可理喻

      中方反制不到 24 小時,美國務院宣布反對,甩出三句話不可理喻

      議紀史
      2025-12-31 21:00:03
      上海這里大概有一億人!凌晨3點,200人同時打車,貨拉拉都顯示"高峰"

      上海這里大概有一億人!凌晨3點,200人同時打車,貨拉拉都顯示"高峰"

      瀟湘晨報
      2026-01-01 16:34:29
      頂不住了伊朗經濟崩盤或引發巨大變革

      頂不住了伊朗經濟崩盤或引發巨大變革

      海子侃生活
      2026-01-01 10:10:11
      衛冕冠軍廣廈34分大勝天津豪取7連勝 詹姆斯22+7趙巖昊19分

      衛冕冠軍廣廈34分大勝天津豪取7連勝 詹姆斯22+7趙巖昊19分

      醉臥浮生
      2026-01-01 21:14:58
      讓人眼紅!上海一寶媽曬出21.96萬生育津貼,直呼產后抑郁都沒了

      讓人眼紅!上海一寶媽曬出21.96萬生育津貼,直呼產后抑郁都沒了

      火山詩話
      2026-01-01 17:38:23
      50年代我國“小匈牙利事件”:縣政府遭圍攻,傳聞上頭只給5%指標

      50年代我國“小匈牙利事件”:縣政府遭圍攻,傳聞上頭只給5%指標

      審度
      2025-12-31 18:58:48
      電影《尋秦記》首映禮,雪梨現身親了古天樂一口,“項少龍”哭笑不得:果然是雅夫人;他倆還曾是楊過與李莫愁

      電影《尋秦記》首映禮,雪梨現身親了古天樂一口,“項少龍”哭笑不得:果然是雅夫人;他倆還曾是楊過與李莫愁

      極目新聞
      2025-12-31 22:28:59
      廣東男籃31分慘敗北京,賽后揪出表現最差者

      廣東男籃31分慘敗北京,賽后揪出表現最差者

      譚顳愛搞笑
      2026-01-01 22:21:16
      2026-01-01 22:40:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11957文章數 176355關注度
      往期回顧 全部

      科技要聞

      特斯拉Model 3車主首度全程自駕橫穿美國

      頭條要聞

      滬漂外國網紅包丟了報警 警察到現場后發現"神秘字條"

      頭條要聞

      滬漂外國網紅包丟了報警 警察到現場后發現"神秘字條"

      體育要聞

      2026,這些英超紀錄可能會被打破

      娛樂要聞

      跑調風波越演越烈!沈佳潤被網友喊話

      財經要聞

      巴菲特「身退,權還在」

      汽車要聞

      一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創新高

      態度原創

      游戲
      健康
      教育
      手機
      時尚

      飛燕群島新動作射擊IP公布 設定在民國時期、斧頭幫

      元旦舉家出行,注意防流感

      教育要聞

      有些孩子,上了初中就掉線了

      手機要聞

      REDMI Note 15 系列新春版開售,本月新機蓄勢待發

      2025年,記住她們的名字!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: jizz日| 性大毛片视频| 国内自拍小视频在线看| 亚洲区视频| 镇原县| 少妇的丰满3中文字幕| 日韩中文人妻无码不卡| 亚洲色最新高清AV网站| www.91国产| 色无码日韩无码精品| 亚洲乱码日产精品bd在线看| 亚洲国产成人精品女人久久久| jizz日本大全| 柏乡县| 成年入口无限观看免费完整大片 | 东京热av无码电影一区二区| 精品一区二区三区三区| 青青久草| 美女裸体十八禁免费网站| 亚洲性爱AV| 国产av一区二区三区| 滕州市| 又爽又黄又无遮挡的视频| 亚洲性爱视频网站| 亚洲91页| 欧洲无码成人| 国产精品毛片无遮挡高清| 免费无码av片在线观看播放| 熟女中文字幕在线| 天天色欲综合| 国产真实露脸乱子伦| 中文字幕久久精品波多野结| 男人天堂2024手机在线| 人妻无码综合| 性猛交ⅹxxx富婆视频| 欧美视频精品免费覌看| 91亚洲精品国偷拍自产在线观看| 丰满人妻一区二区三区视频54| 无码粉嫩虎白一线天在线观看| 日韩欧美一卡2卡3卡4卡无卡免费2020| 亚洲熟女食品|