<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      對話智源研究院:多模態世界模型如何實現“大一統”?

      0
      分享至



      文|魏琳華

      編|王一粟

      從去年10月發布全球首個原生多模態世界模型悟界·Emu3,到如今推出全面升級的悟界·Emu3.5,智源研究院用一年時間,找到了更多具備開創性的新解法。

      10月30日,在悟界·Emu系列技術交流會上,智源發布Emu3.5被定義為“多模態世界模型”,與專注于內容(如視頻)“生成”的模型不同,其核心在于“理解、預測與規劃”,它不僅能生成對未來的預測,更致力于構建一個關于世界如何運作的內在模型。

      Emu3.5的架構設計證明了一條更簡潔、更具擴展性的技術路徑是可行的。

      此前,和路徑相對確定的大語言模型相比,圍繞多模態大模型領域還存在種種問題。比如采用自回歸架構還是基于擴散模型的架構,業內仍然沒有給出一個確切的答案。

      雖然自回歸架構雖然在統一性上有優勢,但在生成效率上常受逐步解碼限制;相比之下,擴散模型目前應用范圍廣,但受限于推理步數與長時一致性,隨著模型規模提升,在推理成本與時長可擴展性上會遇到瓶頸。

      智源發布的Emu3.5模型采用了單一的自回歸Transformer架構。為了解決生成效率的問題,Emu3.5通過創新的”離散擴散自適應”(DiDA)技術,將自回歸模型的生成效率提升近20倍,使其在速度上能夠媲美頂尖的擴散模型。

      “通過Emu3,我們驗證了自回歸架構實現多模態理解與生成大一統的可行性,Emu3.5則開啟了多模態Scaling的新時代?!敝窃囱芯吭涸洪L王仲遠說。

      相比Emu3,Emu3.5的訓練規模有了質的飛躍:模型參數從80億擴展到340億,累計視頻訓練時長從15年增加到790年。更重要的是,Emu3.5首次實現了多模態領域的大規模強化學習,這為多模態模型的Scalingup指明了方向。



      實際測試中, Emu3.5的表現超越了眾多知名閉源模型,達到SOTA效果。官方表示,Emu3.5在圖像生成和編輯任務上取得了與Gemini 2.5 Flash Image(Nano Banana)相媲美的性能,并在系列圖文交錯生成任務中展現出更優異的結果。



      在交流會現場,研究團隊展示了Emu3.5在具身操作、世界探索、視覺指導等多個場景的應用能力。從眾多測試結果來看,它能夠做到類似Genie 3的場景交互、支持圖片編輯修改等操作。



      Emu3.5的意義不僅在于技術突破,更在于為具身智能的發展提供了全新的可能性。

      交流會上,智源研究院表示,Emu3.5為具身智能提供了堅實的世界模型支撐,推動具身智能從數據稀缺和規劃瓶頸向更可靠、泛化的方向演進。傳統機器人往往局限于預設指令或特定場景數據,Emu3.5的價值在于數據生成、高級任務規劃和泛化推理能力,推動具身智能向更“智能”的方向發展。

      長坡厚雪,智源研究院在原生多模態領域邁出了重要的一步,但如何解決模型遺忘等等問題,還需要更多探索。

      談及發展的下一步,王仲遠和模型團隊負責人王鑫龍回應光錐智能,希望接下來進一步擴大模型參數。

      “當前Emu3.5的參數是34B,語言模型現在都已經到萬億級別。”王仲遠說,“如果有更大的參數,投入更多的算力,我們相信基于Emu3.5架構的這樣一個多模態世界模型能力還會有躍升。”

      以下為溝通會問答環節實錄(經光錐智能編輯整理)。

      受訪者嘉賓為:

      智源研究院院長王仲遠

      智源研究院多模態大模型團隊技術負責人王鑫龍

      Q: 剛才我們提到了Emu3.5可以應用在具身智能領域,請問我們的模型有沒有已經和機器人領域的一些機構或企業有過合作?

      A:智源研究院自己就在研發RoboBrain系列的具身大模型,這些模型已經在跟國內非常廣泛的具身機器人公司合作,包括不限于星海圖、星動際元、樂聚、宇樹科技等。

      Emu3.5具備進一步提升具身智能基座模型的能力,包括探索新的具身智能技術路線的可能性。我們已經開始做了一些初步嘗試,例如剛才展示的,能夠預測機械臂操作所需的數據,這些數據原來可能需要真機采集,現在我們可以非常精準地生成大量數據。

      過往真機采集數據可能在固定場景,但現在通過世界模型能力,它能夠泛化到沒見過的場景。在沒見過場景下,別的模型可能是0,但用上Emu3.5它可以直接達到70%。這是我們的一個方向,現在也在進一步擴大規模,把真機各種場景都去嘗試一下。

      Q: 關于模型效率的問題,前段時間李飛飛的項目說一塊GPU可以搞定推理,想問問我們效率怎么樣?

      A:首先,行業內各種模型都在進行推理優化,隨著模型的發展,甚至會出現推理效率的“新摩爾定律”,即成本不斷降低,性能無損。這是各家廠商和科研機構都在努力的方向。

      對于Emu3.5,我們最大的貢獻是在自回歸架構上實現了近乎并行的多Token生成,且實現性能無損。由此,我們首次用包含離散Token的自回歸架構,在圖像生成上與主流擴散式方法相媲美,我們的開源模型比肩閉源的圖像生成能力。

      對于效率方面,我們還是比較有信心。原來原生多模態的成本極高,我們現在的這套技術一次20倍的加速,可以說是把原生多模態的成本砍下來了。

      Q: 對于世界模型和機器人的商業化路徑,目前咱們探索出哪些可行的方向?比如說Emu3.5與藥房機器人的結合,這些案例能否復制到更多行業?

      A:未來這些都是可以的。我們的悟界EMU系列(多模態世界大模型)和悟界RoboBrain系列(具身大小腦模型),都會快速推動具身智能向更多的場景,實現能力上的泛化。

      就像剛才所介紹的,現在做具身智能,很多時候真機只能采集到具體場景有限的數據。通過Emu3.5,它可以產生泛化的數據,這能夠極大地提高具身模型,包括具身機器人、機械臂在實際場景中處理泛化性的能力,自然而然就會推動整個具身更快進入一些真實的場景中。

      Q: 數據采集和數據缺失是一個痛點,另外一個痛點在沒見過場景執行的準度和任務度,我們整個模型在數據的執行精度和任務度上能完成什么樣復雜的動作呢?

      A:Emu3.5具備在具身智能上做Next-State Prediction(下一個狀態預測)的能力,在時序推理與行動預測上更接近人類大腦的處理方式。

      我們認知到其實整個具身智能行業現在面臨著非常多的挑戰,包括:硬件本體不成熟、數據缺乏、模型能力不強、應用場景比較弱。因此,盡管具身智能有多種范式,在實際發展中仍會遇到大量問題。Emu3.5有望成為具身智能的基座模型,但這中間還有大量的工作需要去做。

      具身智能更大的關鍵不在“具身”,而在“智能”。 智能并不會因僅有硬件而自然產生,我們希望第一步先把智能基礎打牢,讓模型能夠泛化到未見過的場景,現在已經有一些喜人的進展。比如在一些想象的場景中,“把火星上的宇航員救起來”,或者生成“疊衣服”這類可能包含數十步的復雜操作,且是在任意場景中完成——這些數據往往難以真實采集(實驗場景中大部分疊衣服都在干凈的臺面上完成)。但是現在有了基礎模型能力之后,可以支持各種場景、各種任務,顯著釋放智能的想象空間與可用性。

      Q:咱們說預訓練模型的時候,采用大規模長視頻數據, 這個數據做了什么特別的處理嗎?直覺來講大家可能會想到長視頻的數據,為什么當時大家沒有這么做?現在你們做具備了什么樣的條件?

      A:用長視頻數據來學習,一直都是多模態大模型,尤其是原生多模態大模型努力的一個方向。全球范圍內確實有一些科研團隊,包括一些企業機構在嘗試做這件事情,但是它的挑戰非常大。

      剛剛王鑫龍在展示我們Loss曲線的時候強調“Loss下降非常穩定”,要實現這一點,背后涉及一系列挑戰,包括數據應該怎么設計,初期數據的配比,包括到底選用什么樣的視頻等等,這些都是過去幾年時間我們集中攻關的。

      Emu3.5是去年3月份正式立項,整個科研團隊在反復試錯中持續突破,遇到了一個又一個新的挑戰,攻克了一個又一個難關。到今天我們能夠非常自豪地說:在自回歸這條路線上,我們生成的效果和速度可以媲美Diffusion方法,并且有更好的上限空間。智源研究院真的走出了一條新的大模型的路。我們也期待這條路后續成為主流的路。

      登珠穆朗瑪峰,南坡和北坡也許都可以登峰,我們希望我們走的是大家認可的一條路,我們也會把我們的基座模型開源,期待生態共同拓展。

      關于長視頻,我們一直在推進。核心的問題在于:到底用什么架構才能夠支撐有效的Scaling up。受益于此前EMU系列的一些研究,現在在我們的自回歸架構下可以非常方便地把長視頻學進去,能實現大規模的預訓練和大規模的多模態RL。從訓練視角看,判斷一個架構是否可擴展,關鍵在于能否同時滿足“可進行大規模預訓練”和“可進行大規模RL”,現在很多架構要么只能滿足一個,要么兩個都不滿足,現在Emu3.5現在兩者均已打通,這是訓練的角度。從推理的角度,長視頻推理需要有更高效的加速方案,只有技術創新到位,才能把數據真正“學進去”,把能力體現出來。

      Q:前不久我們跟大模型研發人士交流,討論到最近幾個月模型差距在拉大,您怎么看?從您研發的世界模型視角,咱們智源處于什么情況?

      A:謹代表個人觀點。我們要正視國內大模型和全世界最先進的大模型,一直都處在你追我趕的階段。比如說今年年初DeepSeek的發布,讓我們能夠至少在語言模型上,開始有了一個追趕甚至接近的情況。

      關于“差距拉大”的討論,一方面從已公開的模型與開源結果對比來看,當前階段確有差距有拉大的現象。在9月底的時候,我們公布了一個對60多款推理大模型的評測報告,結果顯示國際最先進的模型較目前多數國產的模型仍保持明顯的領先。另一方面,我相信國內各家科研機構和公司,也一定會在包括像語言模型,后訓練及推理模型上有很多新的模型還在訓練當中,后續進展值得期待。

      就智源自身而言,我們悟界·Emu3.5開啟了多模態世界大模型的新時代,某種程度上可以證明中國科研機構,在堅持默默無聞地做一些原始的科研創新。在當前階段,EMU系列在其所定位的方向與能力上已取得具有國際競爭力的進展,并在若干維度達到國際領先水平。

      Q: 現在文字類和視頻類的模型發展速度很快,多模態其實比較慢,您感覺在技術側,包括各個方面它限制性的因素還有哪一些?

      A:因為技術路線沒有收斂,與我們對于整個行業技術路線的判斷一致,市面上很多方案仍是將多模態理解和多模態生成割裂開來,采用組合式管線處理。比如以大語言模型為核心學語言,再以DiT等模塊處理多模態。這樣會帶來一系列問題,包括跨模塊協同成本、端到端優化困難,以及“遺忘/記憶”的問題長期未被很好地解決,上述因素共同限制了多模態系統的效率與可擴展性。

      我們認為悟界·Emu3.5代表了一條可擴展的多模態智能路徑。我們有理由相信,通過這項探索,我們正在逐步厘清通向真正意義上通用智能的技術路線。

      Q:在大規模預訓練的時候, 我們在訓練模型的什么能力?我們建立了怎樣的獎勵機制?或者說怎么樣進階它的下一個能力?

      A:我之前舉過一個例子,今年春節期間,我觀察到一個兩歲的小女孩學會串糖葫蘆,沒有大人教她,她是怎么學會的呢?她刷短視頻,特別喜歡看一位吃糖果的小姐姐,每天反復看,她從視頻中學習,視頻里面涵蓋了大量的真實世界物理動態信息,包括各種聲音、語言、圖像等,視頻是目前最容易獲取、可用來做“世界模型”預訓練的關鍵數據。

      這個小女孩在現實世界中嘗試:她自己撕糖果紙,第一次失敗了,但她沒放棄,又從不同的角度去嘗試,最終她吃到了糖果,得到了獎勵,類似強化學習過程。人類也是在大量的感知,比如通過視頻,通過真實世界交互在不斷地學習。學習的過程中又通過交互,通過強化學習反饋習得到了能力。對于小女孩來講她吃到了糖果,對于足球運動員來講是這樣射門更容易成功,這就是學習。

      對應到模型,第一性原理同樣是在真實世界數據上做大規模的Pretrain,以及在具體任務重通過強化學習優化策略,將其內化為自己的能力。這也是我們將Emu3.5的路線稱為“第一性原理”的原因之一:在多模態世界模型上,以“大規模預訓練+大規模多模態強化學習”為核心的技術范式與路線。

      從學習階段來說,預訓練主要在學世界知識與泛化能力,我覺得泛化性也是評價智能的一個重要標準,不泛化就談不上智能。當前主流的人機交互方式是Chat,但是Chat并不是原生多模態的,多模態原生到底應該用什么樣的交互形式,過去并不清晰。假如說以后有了智能眼鏡,做菜的時候你不會跟它聊天,而是邊做邊得到下一步指導(下一步應該拿土豆,應該怎么切),這更多是一種指導式交互。這類原生多模態交互與大規模世界知識的泛化能力相結合,構成了我們追求的目標:既具備廣泛的世界知識與泛化性,又具備高效、自然的多模態協同與交互。

      Q:我們選擇了統一的自回歸架構,但在多模態世界中,仍有很多問題需要處理。在您看來,接下來最重要、最需要解決的方向是什么?

      A:擴大規模,我們現在沒有足夠的資源。擴大規??赡苁亲蠲黠@的一條路。我們已將范式指明,后續提升關鍵在兩方面:數據、Infra。之前范式是不確定的,大家不知道往哪個方向去做。我們現在有了一個明確的Scaling方向,接下來是如何把數據,比如把所有的視頻數據全部用起來,二是Infra,支持更大規模的預訓練與強化學習,需要更高效的訓練系統與推理加速,且在多模態上算力需求更高,還有存儲。這些都需要去提升。

      我們認為Emu3.5一個很重要的貢獻是提出并驗證了多模態Scaling的可行范式,它是第三種Scaling up的方式。在語言模型上現在確實遇到了各種各樣發展的瓶頸。我們很幸運在多模態上找到了有可能Scaling的方式。。大量長短視頻平臺與網站擁有的私有視頻數據,若在合規前提下用于訓練,有望進一步提升模型能力。

      另外一塊是參數和算力。如果把模型規模拓展到比如說70B,300B,乃至于語言模型的萬億規模,在既有范式有效的前提下,參數與算力的提升有望帶來能力躍升。我們希望,也呼吁行業里擁有大規模算力的企業機構,能夠跟智源合作,我們一起嘗試探索更大規模的多模態世界模型,也歡迎投資方在合規與可持續的框架下共同投入資源。謝謝!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      市場監管總局:嚴厲打擊 直播帶貨和食品、藥品等 重點領域的虛假宣傳等違法行為

      市場監管總局:嚴厲打擊 直播帶貨和食品、藥品等 重點領域的虛假宣傳等違法行為

      每日經濟新聞
      2025-12-12 18:50:16
      明明同一人,演完《大生意人》演《風與潮》,反差大到差點沒認出

      明明同一人,演完《大生意人》演《風與潮》,反差大到差點沒認出

      娛君墜星河
      2025-12-13 18:22:45
      廣東珠海一校花美出圈了,貌美迷人,美的無可挑剔,高級滿滿

      廣東珠海一?;莱鋈α?,貌美迷人,美的無可挑剔,高級滿滿

      草莓解說體育
      2025-12-13 15:02:36
      退休人員注意!未來養老金調整或許不是劫富濟貧,而是?;?!

      阿纂看事
      2025-12-12 11:41:21

      情況非常特殊:越南派軍艦穿越臺灣海峽,對華示威,結果如何?

      情況非常特殊:越南派軍艦穿越臺灣海峽,對華示威,結果如何?

      阿柒的訊
      2025-12-13 06:02:58
      湖人遭打擊!里夫斯左小腿輕微拉傷 至少缺陣一周最快打快船復出

      湖人遭打擊!里夫斯左小腿輕微拉傷 至少缺陣一周最快打快船復出

      羅說NBA
      2025-12-13 08:08:14
      趙本山兒子請客吃砂鍋,趙一楠染一頭黃發,宋曉峰喝到臉泛紅

      趙本山兒子請客吃砂鍋,趙一楠染一頭黃發,宋曉峰喝到臉泛紅

      李橑在北漂
      2025-12-08 08:22:30
      張柏芝大兒子深圳雪場滑雪,近照曝光顏值爆表!完美遺傳謝霆鋒

      張柏芝大兒子深圳雪場滑雪,近照曝光顏值爆表!完美遺傳謝霆鋒

      慢歌輕步謠
      2025-12-13 17:14:49
      1955年授銜主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

      1955年授銜主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

      宅家伍菇涼
      2025-12-07 10:00:04
      美軍喊話臺灣:一旦解放軍動手,只要撐住1個月,美軍就能登陸

      美軍喊話臺灣:一旦解放軍動手,只要撐住1個月,美軍就能登陸

      阿傖說事
      2025-12-08 07:12:07
      22屆三大內線班切羅、霍姆格倫和小史密斯本賽季表現,各有千秋!

      22屆三大內線班切羅、霍姆格倫和小史密斯本賽季表現,各有千秋!

      田先生籃球
      2025-12-12 08:47:42
      肖精華被查!

      肖精華被查!

      中國基金報
      2025-12-12 20:55:56
      授予上將與晉升上將,有什么區別?

      授予上將與晉升上將,有什么區別?

      袁老師說歷史
      2025-12-13 15:13:17
      冷空氣來襲!山西省大風降溫,出行請注意保暖防滑~~

      冷空氣來襲!山西省大風降溫,出行請注意保暖防滑~~

      黃河新聞網呂梁頻道
      2025-12-13 11:22:33
      泰王凌晨緊急批準!阿努廷這次真被逼急了,佩通坦反應讓人意外

      泰王凌晨緊急批準!阿努廷這次真被逼急了,佩通坦反應讓人意外

      墜入二次元的海洋
      2025-12-13 11:09:30
      “最快護士” 張水華:拔出蘿卜帶出泥,跌落神壇只在一夜之間!

      “最快護士” 張水華:拔出蘿卜帶出泥,跌落神壇只在一夜之間!

      帶你逛體壇
      2025-12-13 12:03:46
      降3400元!三星S25 Edge已崩盤

      降3400元!三星S25 Edge已崩盤

      手機評測室
      2025-12-13 11:48:39
      49歲李湘胖成汽油桶!走路肥肉都在打顫,熱愛吃甜食網友擔心她三高

      49歲李湘胖成汽油桶!走路肥肉都在打顫,熱愛吃甜食網友擔心她三高

      瞎說娛樂
      2025-10-25 12:47:19
      天下要大亂了,美國公布最新戰略:為了中國,特朗普決心放棄世界

      天下要大亂了,美國公布最新戰略:為了中國,特朗普決心放棄世界

      近史博覽
      2025-12-12 11:18:54
      馬拉多納生涯總共踢了678場球,同場次和梅羅、貝利比數據如何?

      馬拉多納生涯總共踢了678場球,同場次和梅羅、貝利比數據如何?

      仰臥撐FTUer
      2025-12-13 18:09:04
      2025-12-13 19:43:00
      光錐智能 incentive-icons
      光錐智能
      來這里,看千行百業的數字化、智能化。
      876文章數 138關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      美媒揭五角大樓密件:美國已無力"保臺"

      頭條要聞

      美媒揭五角大樓密件:美國已無力"保臺"

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      數碼
      親子
      教育
      家居
      公開課

      數碼要聞

      Naya推Connect模塊化機械鍵盤,自由組合小鍵盤、軌跡球、觸控板

      親子要聞

      干預抽動的三種方式做好這點最重要

      教育要聞

      孩子早戀怎樣教育才是正確的方法

      家居要聞

      溫潤質感 打造干凈空間

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人性生交大片免费| 3P视频网站视频网站视频网站在线播放| xxx日韩| 久久午夜无码鲁丝片午夜精品| 欧美性白人极品hd| 人妻无码熟妇乱又伦精品视频| 欧美人与zoxxxx另类| 亚洲制服丝袜| 东京热av无码一区二区 | 小罗莉精品HD| 亚洲黄色成人网站| 亚州脚交| 永久免费无码av网站在线观看| 欧洲美熟女乱又伦av影片| 国产永久免费高清在线观看| 国产在线你懂| 人人网aV| 无码gogo大胆啪啪艺术| 欧美亚洲另类制服卡通动漫| 丝袜人妻| 一级7777| 国产av一区二区三区日韩| 一区二区三区四区五区自拍| 松下纱荣子被c到高潮下不了床 | 国产成人免费ā片在线观看| 亚洲午夜成人片| 色国产视频| 人人干干| 亚洲v欧美v日韩v国产v| 亚洲AV电影在线观看| 亚洲中文字幕无线| 99在线国产视频| 欧美性猛交xxxx黑人猛交| 免费a级毛片18以上观看精品 | 久久99亚洲网美利坚合众国| 国语自产少妇精品视频蜜桃| 狼友看片| 亚洲天堂中文字幕| 国产伦精品免编号公布| 国内自拍av在线免费| 久久99久久99精品免观看吃奶网|