![]()
![]()
雙足不是唯一答案!機(jī)器人長什么樣,看場景。
作者 |江宇
編輯 |漠影
機(jī)器人前瞻11月20日報(bào)道,在今天舉行的2025智源具身Open Day上,智源研究院系統(tǒng)性公開了其在具身智能方向的最新研究進(jìn)展,并舉辦了圍繞行業(yè)核心問題的圓桌討論。
在現(xiàn)場,圓桌討論從“世界模型是不是實(shí)現(xiàn)具身智能的關(guān)鍵”展開,隨后延伸到“具身智能需不需要自己的統(tǒng)一架構(gòu)、要不要有一套‘具身版Transformer’”。在數(shù)據(jù)層面,嘉賓們又討論了在數(shù)據(jù)又重要又難的前提下,真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)和視頻數(shù)據(jù)該怎么組合使用。
第二場圓桌則進(jìn)一步提出“人形機(jī)器人是不是具身智能的最終形態(tài)、硬件是不是現(xiàn)在最大的瓶頸”的問題。
大咖云集的圓桌討論把業(yè)內(nèi)當(dāng)下關(guān)鍵與現(xiàn)實(shí)的議題都擺上了桌面。許多嘉賓在多個(gè)核心問題上給出了清晰、直接的判斷,分歧與共識交織出現(xiàn)。
01.
智源的全棧布局:
從世界模型到跨本體“具身大腦”
在開場演講中,智源研究院院長王仲遠(yuǎn)系統(tǒng)介紹了過去一年在具身智能方向的多項(xiàng)關(guān)鍵進(jìn)展,他將其概括為兩條主線:世界模型的突破與具身大腦全棧體系的成型。
![]()
首先,智源發(fā)布了原生多模態(tài)世界模型Emu3.5。相較上一代Emu3,新模型將訓(xùn)練數(shù)據(jù)從15年視頻擴(kuò)展至790年,將參數(shù)規(guī)模從8B提升至34B,并引入自研DiDA技術(shù),使視頻、圖像生成速度提升至與Diffusion、DiT類模型相當(dāng)。
王仲遠(yuǎn)認(rèn)為,Emu3.5從海量視頻中學(xué)習(xí),不再是語言主導(dǎo)的“下一個(gè)Token預(yù)測”,而是面向具身智能所需的“下一時(shí)空狀態(tài)預(yù)測”。
其次,他介紹了智源正在構(gòu)建的跨異構(gòu)本體具身智能體系,包括RoboBrain(具身大腦)、RoboOS(跨本體操作系統(tǒng))與基于VLA的 RoboBrain-X0。這些模型已在多款不同形態(tài)的機(jī)器人本體上部署,能夠完成導(dǎo)覽、導(dǎo)購到復(fù)雜交互任務(wù)。
此外,智源也展示了在全身控制等方向的能力。宇樹G1機(jī)器人在其控制框架BAAI Thor的加持下,完成拖動1.4噸汽車的實(shí)驗(yàn)。
![]()
王仲遠(yuǎn)認(rèn)為,行業(yè)仍未到“具身版ChatGPT”的時(shí)刻,但路徑已逐漸清晰:以世界模型作為基座,以跨本體的“具身大腦”作為接口層,通過大規(guī)模數(shù)據(jù)平臺與評測體系推動模型、硬件與場景的共同演化。
02.
四個(gè)被反復(fù)提到的要素:
模型、架構(gòu)、數(shù)據(jù)與硬件
1、世界模型是不是具身智能的關(guān)鍵?
在第一場面向“具身模型”的圓桌中,各位大咖討論首先從“世界模型的作用”展開。
智源研究院院長王仲遠(yuǎn)談到,“如果世界模型只是視頻生成,那不一定能成為具身智能的基座。”
![]()
▲智源研究院院長王仲遠(yuǎn)
北京大學(xué)助理教授,銀河通用創(chuàng)始人及首席技術(shù)官王鶴也強(qiáng)調(diào),直接讓機(jī)器人“學(xué)人類的視頻生成模型”并不成立。機(jī)器人真正需要的,是一種能根據(jù)自身形態(tài)與目標(biāo)去預(yù)測下一步狀態(tài)的世界模型,而這類模型必須建立在大量屬于機(jī)器人的數(shù)據(jù)之上。
![]()
▲北京大學(xué)助理教授,銀河通用創(chuàng)始人及首席技術(shù)官王鶴
2、具身智能要不要統(tǒng)一到一套架構(gòu)?“具身版Transformer”會不會出現(xiàn)?
招商局集團(tuán)AI首席科學(xué)家張家興提出,具身智能未來不會繼續(xù)沿用當(dāng)下“大模型的語言中心范式(language-first)”,而更需要一套“先行動、再視覺、最后語言”的具身原生結(jié)構(gòu),真正以行動與感知為核心,而非脫胎于LLM路線。
![]()
▲招商局集團(tuán)AI首席科學(xué)家張家興
王鶴也提及,“機(jī)器人智能是閉環(huán)的,而不是一問一答,動作是連續(xù)的,現(xiàn)有模型并不天然適配”。
另外,智元機(jī)器人首席科學(xué)家羅劍嵐談到,具身智能的最終“大模型”一定不是單體模型,而是系統(tǒng):“真正有效的不是一個(gè)模型,而是VLA+世界模型+RL的閉環(huán)。”
![]()
▲智元機(jī)器人首席科學(xué)家羅劍嵐
3、數(shù)據(jù)從哪里來?真實(shí)、仿真、視頻數(shù)據(jù)如何抉擇?
現(xiàn)場,多位嘉賓強(qiáng)調(diào)真實(shí)數(shù)據(jù)的重要性,認(rèn)為機(jī)器人必須在真實(shí)場景中學(xué)習(xí)三件事:真實(shí)性、多樣性和規(guī)模化。
王鶴認(rèn)為,仿真是當(dāng)前更現(xiàn)實(shí)的突破口。他談到,許多底層控制能力本質(zhì)上依賴大量強(qiáng)化學(xué)習(xí),而這些訓(xùn)練在真實(shí)世界幾乎無法完成。無論是人形機(jī)器人的行走、跳躍等全身控制,還是靈巧手的手內(nèi)操作,幾乎都需要在模擬器中完成,“真實(shí)世界只能做非常少的微調(diào)”。
王仲遠(yuǎn)則強(qiáng)調(diào)視頻數(shù)據(jù)的價(jià)值。他認(rèn)為,視頻是最容易大規(guī)模獲取、又最接近真實(shí)世界的關(guān)鍵數(shù)據(jù)形式。他把這一過程類比為孩子認(rèn)識世界:小朋友可以先從大量視頻中理解外界,再通過真實(shí)交互不斷校正和提升技能,“具身智能的訓(xùn)練邏輯也是類似的”。
而加速進(jìn)化創(chuàng)始人兼CEO程昊認(rèn)為,“真實(shí)與仿真會形成螺旋上升,先落地、再采真實(shí)、回仿真擴(kuò)覆蓋,再回真實(shí)驗(yàn)證。”隨著階段不同、任務(wù)不同,真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)和視頻數(shù)據(jù)都會被用到,“哪個(gè)階段哪類數(shù)據(jù)好用,就先用哪類”。
![]()
▲加速進(jìn)化創(chuàng)始人兼CEO程昊
4、如果有100億,你會怎么花?
在這場圓桌的最后,主持人拋出一個(gè)較為直接的問題:如果手上有100億元推進(jìn)具身智能,你會怎么花?
多位嘉賓給出了直截了當(dāng)?shù)拇鸢福性谌齻€(gè)關(guān)鍵詞:人才、算力、數(shù)據(jù)引擎。
自變量創(chuàng)始人兼CEO王潛認(rèn)為,第一優(yōu)先級永遠(yuǎn)是“把能吸納的頂尖人才都吸納過來”,其次才是算力和數(shù)據(jù)投入。
![]()
▲自變量創(chuàng)始人兼CEO王潛
程昊則稱“100億其實(shí)不夠”,真正重要的是用愿景與長期進(jìn)展吸引全球科研人才。
另一類觀點(diǎn)則將重點(diǎn)放在基礎(chǔ)設(shè)施上。星海圖聯(lián)合創(chuàng)始人趙行提出要打造“覆蓋物理世界、能持續(xù)數(shù)字化現(xiàn)實(shí)的最大data engine”。
![]()
▲清華大學(xué)助理教授、星海圖聯(lián)合創(chuàng)始人趙行
張家興談到模型層面的投入,希望這筆錢能用來打造“屬于具身智能的模型”,并推動能夠進(jìn)行大規(guī)模預(yù)訓(xùn)練、具備長期演化能力的模型體系。
5、人形機(jī)器人是最終形態(tài)嗎?模型與硬件誰定義誰?
在第二場硬件方向的圓桌討論了一個(gè)產(chǎn)業(yè)界長期爭論的問題:人形機(jī)器人是不是具身智能的最終形態(tài)、硬件是不是現(xiàn)在最大的瓶頸?
在“模型定義硬件還是硬件定義模型”的問題上,多位嘉賓給達(dá)成了共識:兩者都不是,真正的決定要素是場景。
星源智創(chuàng)始人兼CEO劉東認(rèn)為,具身智能體系應(yīng)拆成分層結(jié)構(gòu):上層的大模型可以跨不同機(jī)器人本體復(fù)用,但在貼近執(zhí)行的小腦層,模型必須隨硬件結(jié)構(gòu)細(xì)調(diào),“同一個(gè)模型部署到不同本體上未必最優(yōu),比較好的效果往往來自貼著本體調(diào)出來的版本”。
北京人形機(jī)器人創(chuàng)新中心CTO唐劍給出的判斷更為直接:“模型不定義硬件,硬件也不定義模型,場景定義硬件。”他強(qiáng)調(diào),不可能指望一種統(tǒng)一形態(tài)解決所有問題,模型能解鎖場景,但真正決定機(jī)器人長什么樣的是具體的落地任務(wù)。
03.
結(jié)語:具身智能距離真正跑通
還有硬仗要打
無論是圍繞“世界模型能否成為基座”的判斷,還是對于“統(tǒng)一架構(gòu)、數(shù)據(jù)、形態(tài)”的分歧,本次開放日給出一個(gè)清晰信號:行業(yè)積極尋找“跑通閉環(huán)”的機(jī)會。
能否在真實(shí)業(yè)務(wù)中形成閉環(huán),能否讓模型、硬件和規(guī)模落地共同“進(jìn)化”,能否訓(xùn)練出屬于具身智能的世界模型,正在行業(yè)的“新難題”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.