<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智源多模態大模型登Nature,生成式人工智能路線統一到自回歸

      0
      分享至


      來源:智源研究院

      2026年1月28日,智源多模態大模型成果"Multimodal learning with next-token prediction for large multimodal models(通過預測下一個詞元進行多模態學習的多模態大模型)"上線國際頂級學術期刊Nature,預計2月12日紙質版正式刊發,這是我國科研機構主導的大模型成果首次在Nature正刊發表

      2018年以來,GPT采用 “預測下一個詞元(Next-token prediction,NTP)”的自回歸路線,實現了語言大模型重大突破,開啟了生成式人工智能浪潮。


      而多模態模型主要依賴對比學習、擴散模型等專門路線,自回歸路線是否可以作為通用路線統一多模態?一直是未解之謎。智源這項成果表明,只采用自回歸路線,就可以統一多模態學習,訓練出優秀的原生多模態大模型,對于確立自回歸成為生成式人工智能統一路線具有重大意義。


      https://www.nature.com/articles/s41586-025-10041-x

      Nature編輯點評這項研究:Emu3 僅基于預測下一個詞元(Next-token prediction),實現了大規模文本、圖像和視頻的統一學習,其在生成與感知任務上的性能可與使用專門路線相當,這一成果對構建可擴展、統一的多模態智能系統具有重要意義

      在后續迭代的Emu3.5版本,確實證明了這一范式的可拓展性,并達成預測下一個狀態(Next-state prediction)的能力躍遷,獲得可泛化的世界建模能力。

      從語言到多模態:

      “預測下一個詞元”的潛力與未解之問

      “預測下一個詞元”徹底改變了語言模型,促成了如 ChatGPT等突破性成果,并引發了關于通用人工智能(AGI)早期跡象的討論。然而,其在多模態學習中的潛力一直不甚明朗。

      在多模態模型領域,視覺生成長期以來由結構復雜的擴散模型主導,而視覺語言感知則主要由組合式方法引領 ,這些方法通常將CLIP編碼器與大語言模型(LLMs)結合。盡管已有一些嘗試試圖統一生成與感知(如Emu和Chameleon),但這些工作要么簡單將LLM與擴散模型拼接在一起,要么在性能效果上不及那些針對生成或感知任務精心設計的專用方法。這就留下了一個根本性的科學問題:單一的預測下一個詞元框架是否能夠作為通用的多模態學習范式?

      Emu3:

      以單一框架統一多模態生成與感知

      就此,智源提出了Emu3,基于“預測下一個詞元”的全新多模態模型,將圖像、文本和視頻統一離散化到同一個表示空間中,并從零開始,在多模態序列混合數據上聯合訓練一個單一的 Transformer。這一架構證明了僅憑“預測下一個詞元”,就能夠同時支持高水平的生成能力與理解能力,并且在同一統一架構下,自然地擴展到機器人操作以及多模態交錯等生成任務。此外,研究團隊還做了大量消融實驗和分析,驗證了多模態學習的規模定律(Scaling law)、統一離散化的高效性、以及解碼器架構的有效性。


      Emu3 架構圖

      實驗顯示,Emu3在生成與感知任務上的整體表現可與多種成熟的任務專用模型相媲美:在文生圖任務中,其效果達到擴散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預測視頻序列,實現基于因果的視頻生成與延展,展現出對物理世界中環境、人類與動物行為的初步模擬能力。

      從模型到范式:

      Emu3對多模態學習的啟示

      不同于 Sora 的擴散式視頻生成,Emu3采用純自回歸方式逐詞元(token) 生成視頻,能夠在給定上下文下進行視頻延展與未來預測,并在文本引導下生成高保真視頻。此外,Emu3 還可拓展至視覺語言交錯生成,例如圖文并茂的菜譜生成;也可拓展至視覺語言動作建模,如機器人操作VLA等,進一步體現了“預測下一個詞元”的通用性。

      智源研究團隊對相關研究的多項關鍵技術與模型進行了開源,以推動該方向的持續研究。其中包括一個穩定且通用的視覺分詞器(tokenizer),可將圖像與視頻高效轉換為離散詞元來表示。同時,研究通過大規模消融實驗系統分析了多項關鍵技術的設計選擇,例如:分詞器(tokenizer)碼本尺寸、初始化策略、多模態dropout機制以及損失權重配置等,揭示了多模態自回歸模型在訓練過程中的動態特性。研究還驗證了自回歸路線高度通用性:直接偏好優化(DPO)方法可無縫應用于自回歸視覺生成任務,使模型能夠更好地對齊人類偏好。

      研究有力表明了預測下一個詞元可作為多模態模型的核心范式突破語言模型的邊界,在多種多模態任務中展現了強勁性能。通過簡化復雜的模型設計、聚焦統一詞元,該方法在訓練與推理階段均展現出顯著的可擴展性,為統一多模態學習奠定了堅實基礎,有望推動原生多模態助手、世界模型以及具身智能等方向的發展。

      在此研究基礎上,悟界·Emu3.5進一步通過大規模長時序視頻訓練,學習時空與因果關系,展現出隨模型與數據規模增長而提升的物理世界建模能力,并觀察到多模態能力隨規模擴展而涌現的趨勢,實現了“預測下一個狀態”的范式升級。

      堅持原始創新:

      智源持續引領大模型技術演進

      悟界·Emu研究成果的發表,不僅是國際學術界對智源研究團隊工作的認可,更是對人工智能原創技術路線的肯定。Emu 系列模型自 2022 年啟動研發以來,圍繞“原生多模態”這一核心技術主線持續迭代,每一個版本都在關鍵能力與方法論上實現了實質性突破。

      • 2022年6月,系統布局多模態大模型的研發。

      • 2023年7月,發布并開源首個版本,成為最早打通多模態輸入到多模態輸出的統一多模態模型,創新性提出統一多模態學習框架并大規模引入視頻數據,初步實現多模態自回歸預測。

      • 2023年12月,發布Emu2,通過大規模自回歸生成式多模態預訓練,展現出可泛化的多模態上下文學習能力,可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務,是當時開源最大的生成式多模態模型

      • 2024年10月,發布Emu3,該模型只基于預測下一個詞元,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。

      • 2025年10月,推出原生多模態世界模型Emu3.5,實現從 “預測下一個詞元” 到 “預測下一個狀態” 的能力躍遷,從長視頻數據中學習世界演化規律,提出多模態 Scaling 新范式

      自 2020年啟動“悟道”大模型研究以來,智源持續聚焦大模型的原始創新與長期技術路徑探索。2025年6月,智源發布新一代大模型系列“悟界”,旨在構建人工智能從數字世界邁向物理世界的關鍵能力,及物理世界的人工智能基座模型。這其中包括:Emu 系列多模態世界模型、RoboBrain跨本體具身大腦、數字孿生心臟、Brainμ 腦科學多模態基礎模型以及OpenComplex全原子生命模型等,構建起覆蓋宏觀具身智能、介觀生命系統到微觀構象動力學的多層次技術基座。FlagOS開源系統軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。

      成立七年來,智源聚焦人工智能技術前沿,挑戰最基礎的問題和最關鍵的難題,推進大模型技術不斷演進。隨著Emu等研究成果發表于Nature等國際頂級期刊,智源將繼續圍繞智能與物理世界的深層關聯,推進面向下一代人工智能的科研創新。

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蕭美娘乳白寫真合集(2)

      蕭美娘乳白寫真合集(2)

      情感大頭說說
      2026-01-24 15:26:40
      金門炮戰三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      金門炮戰三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      混沌錄
      2026-01-28 22:49:07
      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯賽

      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯賽

      懂球帝
      2026-01-31 11:53:20
      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      漫川舟船
      2026-01-31 11:55:19
      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      簡史檔案館
      2026-01-30 11:05:03
      海南省市場監督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      海南省市場監督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      界面新聞
      2026-01-31 12:07:18
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      李云飛Afey
      2026-01-20 11:43:34
      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      素衣讀史
      2026-01-28 17:22:30
      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      漢史趣聞
      2025-11-08 09:27:32
      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      梅亭談
      2026-01-31 10:26:10
      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯動火爆歐洲!

      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯動火爆歐洲!

      羅納爾說個球
      2026-01-31 00:37:39
      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      帶你感受人間冷暖
      2026-01-25 00:20:06
      春節前到賬!4億黨費發放,5類黨員符合條件就有

      春節前到賬!4億黨費發放,5類黨員符合條件就有

      夜深愛雜談
      2026-01-30 22:30:02
      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發布會

      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發布會

      懂球帝
      2026-01-31 09:57:12
      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南語學習平臺
      2026-01-31 09:27:28
      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      極目新聞
      2026-01-30 19:08:19
      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      懂球帝
      2026-01-31 00:06:23
      廣東提前一輪無緣常規賽第一

      廣東提前一輪無緣常規賽第一

      刺猬籃球
      2026-01-31 11:45:16
      華為宣布:最高降4000元!此前蘋果開啟大降價

      華為宣布:最高降4000元!此前蘋果開啟大降價

      每日經濟新聞
      2026-01-29 18:19:05
      兒子帶女友回家,女友頭發把媽媽嚇一跳,網友:這就是自我的代價

      兒子帶女友回家,女友頭發把媽媽嚇一跳,網友:這就是自我的代價

      丫頭舫
      2026-01-30 15:51:49
      2026-01-31 12:39:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4511文章數 37400關注度
      往期回顧 全部

      科技要聞

      中國車企和特斯拉的下一戰,戰場已定

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      成龍入駐小紅書,懟臉近照沒有老年斑

      財經要聞

      白銀,暴跌!黃金,40年最大跌幅!

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發布 V8混動加持

      態度原創

      旅游
      親子
      健康
      公開課
      軍事航空

      旅游要聞

      明光黃寨草原:風吹草低見“新景”

      親子要聞

      生完孩子后,她腋下長出第三個胸??跟其他倆同步變化,理論上也能喂奶...

      耳石癥分類型,癥狀大不同

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      轟-6k在黃巖島戰備警巡示意圖公布

      無障礙瀏覽 進入關懷版