![]()
來源:智源研究院
2026年1月28日,智源多模態大模型成果"Multimodal learning with next-token prediction for large multimodal models(通過預測下一個詞元進行多模態學習的多模態大模型)"上線國際頂級學術期刊Nature,預計2月12日紙質版正式刊發,這是我國科研機構主導的大模型成果首次在Nature正刊發表。
2018年以來,GPT采用 “預測下一個詞元(Next-token prediction,NTP)”的自回歸路線,實現了語言大模型重大突破,開啟了生成式人工智能浪潮。
而多模態模型主要依賴對比學習、擴散模型等專門路線,自回歸路線是否可以作為通用路線統一多模態?一直是未解之謎。智源這項成果表明,只采用自回歸路線,就可以統一多模態學習,訓練出優秀的原生多模態大模型,對于確立自回歸成為生成式人工智能統一路線具有重大意義。
![]()
https://www.nature.com/articles/s41586-025-10041-x
Nature編輯點評這項研究:Emu3 僅基于預測下一個詞元(Next-token prediction),實現了大規模文本、圖像和視頻的統一學習,其在生成與感知任務上的性能可與使用專門路線相當,這一成果對構建可擴展、統一的多模態智能系統具有重要意義。
在后續迭代的Emu3.5版本,確實證明了這一范式的可拓展性,并達成預測下一個狀態(Next-state prediction)的能力躍遷,獲得可泛化的世界建模能力。
從語言到多模態:
“預測下一個詞元”的潛力與未解之問
“預測下一個詞元”徹底改變了語言模型,促成了如 ChatGPT等突破性成果,并引發了關于通用人工智能(AGI)早期跡象的討論。然而,其在多模態學習中的潛力一直不甚明朗。
在多模態模型領域,視覺生成長期以來由結構復雜的擴散模型主導,而視覺語言感知則主要由組合式方法引領 ,這些方法通常將CLIP編碼器與大語言模型(LLMs)結合。盡管已有一些嘗試試圖統一生成與感知(如Emu和Chameleon),但這些工作要么簡單將LLM與擴散模型拼接在一起,要么在性能效果上不及那些針對生成或感知任務精心設計的專用方法。這就留下了一個根本性的科學問題:單一的預測下一個詞元框架是否能夠作為通用的多模態學習范式?
Emu3:
以單一框架統一多模態生成與感知
就此,智源提出了Emu3,基于“預測下一個詞元”的全新多模態模型,將圖像、文本和視頻統一離散化到同一個表示空間中,并從零開始,在多模態序列混合數據上聯合訓練一個單一的 Transformer。這一架構證明了僅憑“預測下一個詞元”,就能夠同時支持高水平的生成能力與理解能力,并且在同一統一架構下,自然地擴展到機器人操作以及多模態交錯等生成任務。此外,研究團隊還做了大量消融實驗和分析,驗證了多模態學習的規模定律(Scaling law)、統一離散化的高效性、以及解碼器架構的有效性。
![]()
Emu3 架構圖
實驗顯示,Emu3在生成與感知任務上的整體表現可與多種成熟的任務專用模型相媲美:在文生圖任務中,其效果達到擴散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預測視頻序列,實現基于因果的視頻生成與延展,展現出對物理世界中環境、人類與動物行為的初步模擬能力。
從模型到范式:
Emu3對多模態學習的啟示
不同于 Sora 的擴散式視頻生成,Emu3采用純自回歸方式逐詞元(token) 生成視頻,能夠在給定上下文下進行視頻延展與未來預測,并在文本引導下生成高保真視頻。此外,Emu3 還可拓展至視覺語言交錯生成,例如圖文并茂的菜譜生成;也可拓展至視覺語言動作建模,如機器人操作VLA等,進一步體現了“預測下一個詞元”的通用性。
智源研究團隊對相關研究的多項關鍵技術與模型進行了開源,以推動該方向的持續研究。其中包括一個穩定且通用的視覺分詞器(tokenizer),可將圖像與視頻高效轉換為離散詞元來表示。同時,研究通過大規模消融實驗系統分析了多項關鍵技術的設計選擇,例如:分詞器(tokenizer)碼本尺寸、初始化策略、多模態dropout機制以及損失權重配置等,揭示了多模態自回歸模型在訓練過程中的動態特性。研究還驗證了自回歸路線高度通用性:直接偏好優化(DPO)方法可無縫應用于自回歸視覺生成任務,使模型能夠更好地對齊人類偏好。
研究有力表明了預測下一個詞元可作為多模態模型的核心范式,突破語言模型的邊界,在多種多模態任務中展現了強勁性能。通過簡化復雜的模型設計、聚焦統一詞元,該方法在訓練與推理階段均展現出顯著的可擴展性,為統一多模態學習奠定了堅實基礎,有望推動原生多模態助手、世界模型以及具身智能等方向的發展。
在此研究基礎上,悟界·Emu3.5進一步通過大規模長時序視頻訓練,學習時空與因果關系,展現出隨模型與數據規模增長而提升的物理世界建模能力,并觀察到多模態能力隨規模擴展而涌現的趨勢,實現了“預測下一個狀態”的范式升級。
堅持原始創新:
智源持續引領大模型技術演進
悟界·Emu研究成果的發表,不僅是國際學術界對智源研究團隊工作的認可,更是對人工智能原創技術路線的肯定。Emu 系列模型自 2022 年啟動研發以來,圍繞“原生多模態”這一核心技術主線持續迭代,每一個版本都在關鍵能力與方法論上實現了實質性突破。
2022年6月,系統布局多模態大模型的研發。
2023年7月,發布并開源首個版本,成為最早打通多模態輸入到多模態輸出的統一多模態模型,創新性提出統一多模態學習框架并大規模引入視頻數據,初步實現多模態自回歸預測。
2023年12月,發布Emu2,通過大規模自回歸生成式多模態預訓練,展現出可泛化的多模態上下文學習能力,可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務,是當時開源最大的生成式多模態模型。
2024年10月,發布Emu3,該模型只基于預測下一個詞元,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。
2025年10月,推出原生多模態世界模型Emu3.5,實現從 “預測下一個詞元” 到 “預測下一個狀態” 的能力躍遷,從長視頻數據中學習世界演化規律,提出多模態 Scaling 新范式。
自 2020年啟動“悟道”大模型研究以來,智源持續聚焦大模型的原始創新與長期技術路徑探索。2025年6月,智源發布新一代大模型系列“悟界”,旨在構建人工智能從數字世界邁向物理世界的關鍵能力,及物理世界的人工智能基座模型。這其中包括:Emu 系列多模態世界模型、RoboBrain跨本體具身大腦、數字孿生心臟、Brainμ 腦科學多模態基礎模型以及OpenComplex全原子生命模型等,構建起覆蓋宏觀具身智能、介觀生命系統到微觀構象動力學的多層次技術基座。FlagOS開源系統軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。
成立七年來,智源聚焦人工智能技術前沿,挑戰最基礎的問題和最關鍵的難題,推進大模型技術不斷演進。隨著Emu等研究成果發表于Nature等國際頂級期刊,智源將繼續圍繞智能與物理世界的深層關聯,推進面向下一代人工智能的科研創新。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.