![]()
再次刷新世界模型天花板。
![]()
世界模型賽道又卷出了新高度。
今天,北京智源人工智能研究院(BAAI)發(fā)布大規(guī)模多模態(tài)世界模型“悟界·Emu3.5”,它不僅能以驚人的逼真度模擬復(fù)雜的動(dòng)態(tài)物理世界,還揭示了“多模態(tài)Scaling范式”的存在。
話不多說(shuō),讓我們先看效果。
?世界探索
?具身操作
?視覺(jué)指導(dǎo)
輸入Prompt “如何制作蝦仁芹菜餃子”,模型輸出從原料、拌餡兒、包餃子、煮餃子到最后上菜的過(guò)程,按步驟、有邏輯、符合事實(shí),而且圖像生動(dòng)逼真。
![]()
?視覺(jué)故事
?圖像編輯和生成
從OpenAI 的Sora到Goolge DeepMind 的Genie,從Yann LeCun的JEPA到李飛飛團(tuán)隊(duì)的Marble,巨頭菁英們紛紛入局,已經(jīng)充分證明了世界模型的潛力。
然而,當(dāng)視覺(jué)的“逼真度”趨于極限,一個(gè)更根本的問(wèn)題浮出水面:
是否存在一條統(tǒng)一、簡(jiǎn)潔且可規(guī)模化擴(kuò)展的路徑,從第一性原理出發(fā),讓模型從海量的多模態(tài)數(shù)據(jù)中,自主學(xué)習(xí)到世界運(yùn)行的內(nèi)在因果與規(guī)律,讓模型真正(以自己的方式)掌握我們這個(gè)物理世界運(yùn)行的根本規(guī)律?
這正是智源研究院想要回答的問(wèn)題。
01
悟界·Emu3.5:大道至簡(jiǎn)與規(guī)模化的力量
2024年10月,智源發(fā)布了原生多模態(tài)世界模型“悟界·Emu3”,該模型基于單個(gè)Transformer模型進(jìn)行“下一個(gè)token預(yù)測(cè)”,無(wú)需擴(kuò)散模型或組合方法,實(shí)現(xiàn)了圖像、文本、視頻的大一統(tǒng)。模型一經(jīng)上線便在技術(shù)社區(qū)引發(fā)熱議。
不過(guò),Emu3的成功也引出了更多值得探討的議題——模型如何高效學(xué)習(xí)長(zhǎng)視頻?如何實(shí)現(xiàn)通用的多模態(tài)交互?如何在萬(wàn)億乃至更多 token 下高效推理?
Emu3.5繼承并深化了Emu3的技術(shù)哲學(xué):基于一個(gè)極其簡(jiǎn)單、統(tǒng)一的自回歸預(yù)測(cè)目標(biāo)“下一狀態(tài)預(yù)測(cè)(Next-State Prediction,NSP)”,加上一個(gè)足夠通用的模型架構(gòu),并在海量的多模態(tài)數(shù)據(jù)上充分訓(xùn)練。
而答案,也自動(dòng)涌現(xiàn)。
1.原生多模態(tài)統(tǒng)一架構(gòu)
悟界·Emu3.5是一個(gè)單一的34B 稠密Transformer模型。不同模態(tài)的信息,從輸入端開(kāi)始便被統(tǒng)一編碼為離散的Token序列。整個(gè)處理過(guò)程都是在一個(gè)端到端的、自回歸框架內(nèi)原生完成,實(shí)現(xiàn)了真正的模態(tài)統(tǒng)一。
2.“預(yù)測(cè)下一狀態(tài)”的單一目標(biāo)
Emu3.5的訓(xùn)練目標(biāo)只有一個(gè):預(yù)測(cè)交錯(cuò)的視覺(jué)-語(yǔ)言序列下一個(gè)最有可能的狀態(tài)(State)。這個(gè)目標(biāo)看似簡(jiǎn)單,卻迫使模型學(xué)會(huì)洞察現(xiàn)實(shí)世界如何運(yùn)行。正如 LLM通過(guò)預(yù)測(cè)“下一個(gè)token”來(lái)學(xué)習(xí)人類語(yǔ)言,Emu3.5 通過(guò)預(yù)測(cè)“下一個(gè)狀態(tài)”,學(xué)會(huì)了動(dòng)態(tài)物理世界的“語(yǔ)法”。
3.超 10 萬(wàn)億 Token 的多模態(tài)數(shù)據(jù)集
智源Emu團(tuán)隊(duì)構(gòu)建了一個(gè)超過(guò) 10 萬(wàn)億 token 的多模態(tài)數(shù)據(jù)集。其中,最關(guān)鍵的組成部分是訓(xùn)練時(shí)長(zhǎng)總計(jì)約 790 年的視頻,以及這些視頻對(duì)應(yīng)的語(yǔ)音轉(zhuǎn)錄文本,兩者合在一起構(gòu)成了視頻-文本交錯(cuò)數(shù)據(jù)(Video-Text Interleaved Data)。
通過(guò)將視頻幀與其對(duì)應(yīng)的語(yǔ)音轉(zhuǎn)錄文本交錯(cuò)排列進(jìn)行訓(xùn)練,模型能沉浸式地接觸到時(shí)空、物理、因果等世界信息。
4.首次揭示多模態(tài)Scaling范式
Emu3.5的技術(shù)報(bào)告指出,隨著預(yù)訓(xùn)練計(jì)算量的持續(xù)增加,模型在分布外(Out-of-Distribution,OOD)的全新任務(wù)上的錯(cuò)誤率呈現(xiàn)出可預(yù)測(cè)的、平滑的下降曲線。這意味著模型學(xué)到的世界知識(shí),能夠穩(wěn)定地泛化至訓(xùn)練數(shù)據(jù)之外的未知領(lǐng)域。
![]()
悟界·Emu3.5 的優(yōu)化過(guò)程平滑穩(wěn)定,并在多個(gè)驗(yàn)證集上展現(xiàn)出強(qiáng)大且一致的泛化表現(xiàn)
從 Emu3 到 Emu3.5,模型規(guī)模從 8B 增加到 34B,視頻數(shù)據(jù)訓(xùn)練量從 15 年擴(kuò)展至 790 年,研究人員觀察到一系列核心指標(biāo),包括時(shí)序一致性、跨模態(tài)語(yǔ)義推理、具身交互規(guī)劃等核心指標(biāo),均有了顯著提升。
這一發(fā)現(xiàn)的重要性,不亞于當(dāng)年GPT-3論文揭示語(yǔ)言模型Scaling Law的情景。
Scaling Law之所以重要,在于進(jìn)步是可預(yù)測(cè)的,不再需要“撞大運(yùn)”式地調(diào)整模型結(jié)構(gòu)或訓(xùn)練技巧,只要持續(xù)增加投入,模型的性能就會(huì)穩(wěn)定提升。
對(duì)于企業(yè)和研究機(jī)構(gòu)而言,多模態(tài)Scaling范式的存在,意味著世界模型的研究也能夠從“煉金術(shù)”時(shí)代進(jìn)入“工程學(xué)”時(shí)代。
如果投入產(chǎn)出比是可計(jì)算的,無(wú)疑會(huì)極大地增強(qiáng)整個(gè)行業(yè)對(duì)大規(guī)模投入世界模型研發(fā)的信心。
02
開(kāi)啟多模態(tài)世界模型的新時(shí)代
世界模型之所以成為必爭(zhēng)之地,在于其戰(zhàn)略意義:誰(shuí)掌握了最強(qiáng)的世界模型,誰(shuí)就掌握了通往通用機(jī)器人、L5自動(dòng)駕駛乃至AGI的鑰匙。
Emu3.5提出的“原生多模態(tài)+單一自回歸”的技術(shù)范式,以及其所揭示的多模態(tài)Scaling范式,為整個(gè)領(lǐng)域提供了一條清晰的進(jìn)化路線。
這也預(yù)示著,接下來(lái)的世界模型競(jìng)賽,將不再僅僅是生成視頻的質(zhì)量比拼,而是模型規(guī)模、數(shù)據(jù)規(guī)模、對(duì)物理世界理解深度等等的全方位的競(jìng)爭(zhēng)。
我們正站在一個(gè)新時(shí)代的門檻上。智源悟界·Emu3.5,或?qū)⒊蔀橥苿?dòng)機(jī)器從認(rèn)知到行動(dòng)、從虛擬走向現(xiàn)實(shí)的那座關(guān)鍵里程碑。
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.