網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

100億都不夠燒！機(jī)器人公司CEO們給出新判斷：具身智能不能再照搬LLM

2025-11-20 23:32:45　來源: 機(jī)器人前瞻

北京舉報(bào)

分享至

雙足不是唯一答案！機(jī)器人長什么樣，看場景。

作者 |江宇

編輯 |漠影

機(jī)器人前瞻11月20日報(bào)道，在今天舉行的2025智源具身Open Day上，智源研究院系統(tǒng)性公開了其在具身智能方向的最新研究進(jìn)展，并舉辦了圍繞行業(yè)核心問題的圓桌討論。

在現(xiàn)場，圓桌討論從“世界模型是不是實(shí)現(xiàn)具身智能的關(guān)鍵”展開，隨后延伸到“具身智能需不需要自己的統(tǒng)一架構(gòu)、要不要有一套‘具身版Transformer’”。在數(shù)據(jù)層面，嘉賓們又討論了在數(shù)據(jù)又重要又難的前提下，真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)和視頻數(shù)據(jù)該怎么組合使用。

第二場圓桌則進(jìn)一步提出“人形機(jī)器人是不是具身智能的最終形態(tài)、硬件是不是現(xiàn)在最大的瓶頸”的問題。

大咖云集的圓桌討論把業(yè)內(nèi)當(dāng)下關(guān)鍵與現(xiàn)實(shí)的議題都擺上了桌面。許多嘉賓在多個(gè)核心問題上給出了清晰、直接的判斷，分歧與共識交織出現(xiàn)。

01.

智源的全棧布局：

從世界模型到跨本體“具身大腦”

在開場演講中，智源研究院院長王仲遠(yuǎn)系統(tǒng)介紹了過去一年在具身智能方向的多項(xiàng)關(guān)鍵進(jìn)展，他將其概括為兩條主線：世界模型的突破與具身大腦全棧體系的成型。

首先，智源發(fā)布了原生多模態(tài)世界模型Emu3.5。相較上一代Emu3，新模型將訓(xùn)練數(shù)據(jù)從15年視頻擴(kuò)展至790年，將參數(shù)規(guī)模從8B提升至34B，并引入自研DiDA技術(shù)，使視頻、圖像生成速度提升至與Diffusion、DiT類模型相當(dāng)。

王仲遠(yuǎn)認(rèn)為，Emu3.5從海量視頻中學(xué)習(xí)，不再是語言主導(dǎo)的“下一個(gè)Token預(yù)測”，而是面向具身智能所需的“下一時(shí)空狀態(tài)預(yù)測”。

其次，他介紹了智源正在構(gòu)建的跨異構(gòu)本體具身智能體系，包括RoboBrain（具身大腦）、RoboOS（跨本體操作系統(tǒng)）與基于VLA的 RoboBrain-X0。這些模型已在多款不同形態(tài)的機(jī)器人本體上部署，能夠完成導(dǎo)覽、導(dǎo)購到復(fù)雜交互任務(wù)。

此外，智源也展示了在全身控制等方向的能力。宇樹G1機(jī)器人在其控制框架BAAI Thor的加持下，完成拖動1.4噸汽車的實(shí)驗(yàn)。

王仲遠(yuǎn)認(rèn)為，行業(yè)仍未到“具身版ChatGPT”的時(shí)刻，但路徑已逐漸清晰：以世界模型作為基座，以跨本體的“具身大腦”作為接口層，通過大規(guī)模數(shù)據(jù)平臺與評測體系推動模型、硬件與場景的共同演化。

02.

四個(gè)被反復(fù)提到的要素：

模型、架構(gòu)、數(shù)據(jù)與硬件

1、世界模型是不是具身智能的關(guān)鍵？

在第一場面向“具身模型”的圓桌中，各位大咖討論首先從“世界模型的作用”展開。

智源研究院院長王仲遠(yuǎn)談到，“如果世界模型只是視頻生成，那不一定能成為具身智能的基座。”

▲智源研究院院長王仲遠(yuǎn)

北京大學(xué)助理教授，銀河通用創(chuàng)始人及首席技術(shù)官王鶴也強(qiáng)調(diào)，直接讓機(jī)器人“學(xué)人類的視頻生成模型”并不成立。機(jī)器人真正需要的，是一種能根據(jù)自身形態(tài)與目標(biāo)去預(yù)測下一步狀態(tài)的世界模型，而這類模型必須建立在大量屬于機(jī)器人的數(shù)據(jù)之上。

▲北京大學(xué)助理教授，銀河通用創(chuàng)始人及首席技術(shù)官王鶴

2、具身智能要不要統(tǒng)一到一套架構(gòu)？“具身版Transformer”會不會出現(xiàn)？

招商局集團(tuán)AI首席科學(xué)家張家興提出，具身智能未來不會繼續(xù)沿用當(dāng)下“大模型的語言中心范式（language-first）”，而更需要一套“先行動、再視覺、最后語言”的具身原生結(jié)構(gòu)，真正以行動與感知為核心，而非脫胎于LLM路線。

▲招商局集團(tuán)AI首席科學(xué)家張家興

王鶴也提及，“機(jī)器人智能是閉環(huán)的，而不是一問一答，動作是連續(xù)的，現(xiàn)有模型并不天然適配”。

另外，智元機(jī)器人首席科學(xué)家羅劍嵐談到，具身智能的最終“大模型”一定不是單體模型，而是系統(tǒng)：“真正有效的不是一個(gè)模型，而是VLA+世界模型+RL的閉環(huán)。”

▲智元機(jī)器人首席科學(xué)家羅劍嵐

3、數(shù)據(jù)從哪里來？真實(shí)、仿真、視頻數(shù)據(jù)如何抉擇？

現(xiàn)場，多位嘉賓強(qiáng)調(diào)真實(shí)數(shù)據(jù)的重要性，認(rèn)為機(jī)器人必須在真實(shí)場景中學(xué)習(xí)三件事：真實(shí)性、多樣性和規(guī)模化。

王鶴認(rèn)為，仿真是當(dāng)前更現(xiàn)實(shí)的突破口。他談到，許多底層控制能力本質(zhì)上依賴大量強(qiáng)化學(xué)習(xí)，而這些訓(xùn)練在真實(shí)世界幾乎無法完成。無論是人形機(jī)器人的行走、跳躍等全身控制，還是靈巧手的手內(nèi)操作，幾乎都需要在模擬器中完成，“真實(shí)世界只能做非常少的微調(diào)”。

王仲遠(yuǎn)則強(qiáng)調(diào)視頻數(shù)據(jù)的價(jià)值。他認(rèn)為，視頻是最容易大規(guī)模獲取、又最接近真實(shí)世界的關(guān)鍵數(shù)據(jù)形式。他把這一過程類比為孩子認(rèn)識世界：小朋友可以先從大量視頻中理解外界，再通過真實(shí)交互不斷校正和提升技能，“具身智能的訓(xùn)練邏輯也是類似的”。

而加速進(jìn)化創(chuàng)始人兼CEO程昊認(rèn)為，“真實(shí)與仿真會形成螺旋上升，先落地、再采真實(shí)、回仿真擴(kuò)覆蓋，再回真實(shí)驗(yàn)證。”隨著階段不同、任務(wù)不同，真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)和視頻數(shù)據(jù)都會被用到，“哪個(gè)階段哪類數(shù)據(jù)好用，就先用哪類”。

▲加速進(jìn)化創(chuàng)始人兼CEO程昊

4、如果有100億，你會怎么花？

在這場圓桌的最后，主持人拋出一個(gè)較為直接的問題：如果手上有100億元推進(jìn)具身智能，你會怎么花？

多位嘉賓給出了直截了當(dāng)?shù)拇鸢福性谌齻€(gè)關(guān)鍵詞：人才、算力、數(shù)據(jù)引擎。

自變量創(chuàng)始人兼CEO王潛認(rèn)為，第一優(yōu)先級永遠(yuǎn)是“把能吸納的頂尖人才都吸納過來”，其次才是算力和數(shù)據(jù)投入。

▲自變量創(chuàng)始人兼CEO王潛

程昊則稱“100億其實(shí)不夠”，真正重要的是用愿景與長期進(jìn)展吸引全球科研人才。

另一類觀點(diǎn)則將重點(diǎn)放在基礎(chǔ)設(shè)施上。星海圖聯(lián)合創(chuàng)始人趙行提出要打造“覆蓋物理世界、能持續(xù)數(shù)字化現(xiàn)實(shí)的最大data engine”。

▲清華大學(xué)助理教授、星海圖聯(lián)合創(chuàng)始人趙行

張家興談到模型層面的投入，希望這筆錢能用來打造“屬于具身智能的模型”，并推動能夠進(jìn)行大規(guī)模預(yù)訓(xùn)練、具備長期演化能力的模型體系。

5、人形機(jī)器人是最終形態(tài)嗎？模型與硬件誰定義誰？

在第二場硬件方向的圓桌討論了一個(gè)產(chǎn)業(yè)界長期爭論的問題：人形機(jī)器人是不是具身智能的最終形態(tài)、硬件是不是現(xiàn)在最大的瓶頸？

在“模型定義硬件還是硬件定義模型”的問題上，多位嘉賓給達(dá)成了共識：兩者都不是，真正的決定要素是場景。

星源智創(chuàng)始人兼CEO劉東認(rèn)為，具身智能體系應(yīng)拆成分層結(jié)構(gòu)：上層的大模型可以跨不同機(jī)器人本體復(fù)用，但在貼近執(zhí)行的小腦層，模型必須隨硬件結(jié)構(gòu)細(xì)調(diào)，“同一個(gè)模型部署到不同本體上未必最優(yōu)，比較好的效果往往來自貼著本體調(diào)出來的版本”。

北京人形機(jī)器人創(chuàng)新中心CTO唐劍給出的判斷更為直接：“模型不定義硬件，硬件也不定義模型，場景定義硬件。”他強(qiáng)調(diào)，不可能指望一種統(tǒng)一形態(tài)解決所有問題，模型能解鎖場景，但真正決定機(jī)器人長什么樣的是具體的落地任務(wù)。

03.

結(jié)語：具身智能距離真正跑通

還有硬仗要打

無論是圍繞“世界模型能否成為基座”的判斷，還是對于“統(tǒng)一架構(gòu)、數(shù)據(jù)、形態(tài)”的分歧，本次開放日給出一個(gè)清晰信號：行業(yè)積極尋找“跑通閉環(huán)”的機(jī)會。

能否在真實(shí)業(yè)務(wù)中形成閉環(huán)，能否讓模型、硬件和規(guī)模落地共同“進(jìn)化”，能否訓(xùn)練出屬于具身智能的世界模型，正在行業(yè)的“新難題”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.