文|富充
編輯|蘇建勛
2026年,具身智能會(huì)有怎樣的分化?北京大學(xué)計(jì)算機(jī)學(xué)院副教授、“智在無界”創(chuàng)始人盧宗青向我們拋出一個(gè)判斷:
“軟硬分化。”
軟,是模型大腦,硬,是機(jī)器人本體;分化,是不同的公司各有所長(zhǎng),各司其職。
“智在無界”所在的北京鼎好大廈,是個(gè)被智源研究院、零一萬物、銀河通用等一眾明星AI機(jī)構(gòu)坐擁的大樓。在這里,人工智能的非共識(shí),每天都在發(fā)生。
盧宗青的觀點(diǎn)也和具身行業(yè)發(fā)展現(xiàn)狀大相徑庭。如今,獲得高估值的具身創(chuàng)業(yè)公司,不論是已成為“獨(dú)角獸”的智元機(jī)器人、銀河通用,還是融資勢(shì)頭強(qiáng)勁的星動(dòng)紀(jì)元、星海圖,都在執(zhí)著地追求一件事:軟硬一體,做全棧。
盡管如此,盧宗青與他于2025年創(chuàng)立的“智在無界”,還是選擇“逆勢(shì)”做一家模型公司,只研發(fā)機(jī)器人大腦,并不涉足硬件制造。
智能涌現(xiàn)獨(dú)家獲悉,智在無界已于近日完成天使輪,融資金額為數(shù)千萬元,由拉卡拉旗下考拉基金領(lǐng)投,領(lǐng)航新界、靈心巧手跟投,老股東聯(lián)想之星和星連資本持續(xù)加注。
“具身行業(yè)對(duì)‘純軟’這件事,有比較大的偏見,國(guó)內(nèi)是這樣,國(guó)外也是,”盧宗青的態(tài)度單刀直入。他舉了個(gè)例子,軟硬都做的美國(guó)具身智能創(chuàng)業(yè)公司Figure,比只做具身模型的Physical Intelligence估值要高上數(shù)倍。
不過,2026開年發(fā)生在美國(guó)機(jī)器人圈的一筆大交易,為“一級(jí)市場(chǎng)重新定價(jià)具身模型公司”這件事開了個(gè)好頭:1月14日,機(jī)器人模型初創(chuàng)企業(yè)Skild AI完成14億美元C輪融資、估值翻了三倍后達(dá)到超 140億美元,成為2026年機(jī)器人行業(yè)最早誕生的千億獨(dú)角獸。
這筆交易把問題擺到臺(tái)面上:如果模型公司做出不同本體、任務(wù)通用的大腦,具身智能企業(yè)是不是沒必要把整條技術(shù)棧都背在自己身上?
智在無界想證明的正是這一點(diǎn)——做跨品牌、跨形態(tài)的具身智能模型。
目前,公司已推出靈巧手操作模型Being-H系列,可以控制雙足機(jī)器人移動(dòng)和操作的模型Being-M正在研發(fā)中。最新發(fā)布的Being-H0.5模型已能夠控制30種不同機(jī)器人;因?yàn)榻?jīng)過推理優(yōu)化,端側(cè)部署在英偉達(dá)Orin-NX等常用機(jī)器人小型芯片上,也可以實(shí)時(shí)跑起來。
目前,公司客戶已包括PND、靈心巧手等硬件公司。PND近日與智在無界聯(lián)合發(fā)布的Adam-U Ultra機(jī)器人,就是“軟硬協(xié)作”的典型故事。
接入Being-H后,PND高自由度機(jī)器人可以“開箱即用”整理桌面、分揀掃碼等通用技能;再配合智在無界的增值服務(wù)Being-Dex做少量數(shù)據(jù)的后訓(xùn)練,數(shù)小時(shí)就能學(xué)會(huì)新任務(wù)。
實(shí)現(xiàn)上述能力的核心,在于超3萬小時(shí)預(yù)訓(xùn)練數(shù)據(jù)——盧宗青介紹,這已是當(dāng)前全球規(guī)模最大的具身智能模型訓(xùn)練數(shù)據(jù)集。這背后,是一套獨(dú)特的 “人類動(dòng)作視頻” 方案。
(《智能涌現(xiàn)》注:此處“最大”特指用于具身智能模型預(yù)訓(xùn)練的數(shù)據(jù)集。)
這套方案可以在人類正常工作生活中,通過頭戴攝像頭,錄制第一視角的手部動(dòng)作視頻,因此數(shù)據(jù)規(guī)模大、成本低,更能完整記錄人類復(fù)雜操作。相比之下,多數(shù)全棧公司依賴的“遙操作采集”模式,則因需人工操控特定機(jī)器人,存在成本高、規(guī)模小、數(shù)據(jù)與硬件深度綁定的局限。
![]()
△頭戴攝像頭可以在不干擾操作者正常工作的情況下,錄制第一視角的手部動(dòng)作視頻,圖片:采訪人提供
2023年底,盧宗青就開始使用該數(shù)據(jù)思路做模型訓(xùn)練。他記得,當(dāng)時(shí)這一方案并未引起太大反響,業(yè)界還是以仿真和真機(jī)數(shù)據(jù)為主。但2025年起,包括特斯拉Optimus在內(nèi),更多機(jī)器人公司開始采用人類視頻數(shù)據(jù)方案。
盧宗青判斷,2026年行業(yè)內(nèi)會(huì)有更多公司認(rèn)清“軟硬分化”的價(jià)值。原因在于背后一筆經(jīng)濟(jì)賬:純自研一個(gè)具身模型,算上買卡、招人等成本,年開銷高達(dá)數(shù)千萬甚至上億;相比之下,外采一臺(tái)機(jī)器人“大腦”的一次性成本只需幾萬元。
在他看來,“軟硬一體”因?yàn)椴季秩娑芤患?jí)市場(chǎng)青睞,但現(xiàn)實(shí)是技術(shù)棧太長(zhǎng)——做模型和做硬件本就是兩套能力體系,一家公司很難兩頭都做深。
過去一年里,也因此出現(xiàn)一些“為了全棧而全棧”的公司:套殼VLA、做出看似能干活的Demo,拿到了融資,卻無法在真實(shí)場(chǎng)景里落地賺錢,或因模型套殼被曝光而遭到技術(shù)能力的質(zhì)疑。這促使更多創(chuàng)業(yè)者開始審視全棧路線的難度與性價(jià)比。
“我不想把資源分散在不擅長(zhǎng)的硬件上。”盧宗青說,技術(shù)還沒收斂,探索更要保持輕量,這也是他選擇死磕“大腦”的原因。
![]()
△ 盧宗青,圖片:采訪人提供
以下為《智能涌現(xiàn)》與盧宗青的訪談,內(nèi)容經(jīng)作者整理:
具身模型與本體,分工將會(huì)更明確
智能涌現(xiàn):國(guó)內(nèi)頭部具身企業(yè)還是以“軟硬一體”為主,智在無界只做模型,會(huì)在融資時(shí)遇到困難嗎?你怎么看這個(gè)情況?
盧宗青:智在無界正式開始運(yùn)營(yíng)是在2025年5月,當(dāng)時(shí)純模型的路線想要融資還是不容易的。其實(shí)美國(guó)市場(chǎng)的情況也類似,軟硬都做的Figure會(huì)比只做具身模型的Physical Intelligence估值要高。
(作者注:2025年9月,F(xiàn)igure估值約為390億美元;2025年11月,Physical Intelligence估值約為56億美元。)
我認(rèn)為原因是,具身是一個(gè)全新的行業(yè),最初大家也不知道未來的產(chǎn)業(yè)鏈的形式會(huì)是怎樣的,所以早期投資人更愿意把錢投給什么都做的企業(yè)。
但估值只是暫時(shí)的,它從本質(zhì)上不代表公司的業(yè)務(wù)會(huì)做好。我想要做的是OpenAI那樣的企業(yè),一開始更偏向科研,能第一個(gè)做出“ChatGPT”,然后開展商業(yè)。
智能涌現(xiàn):怎么才算“公司業(yè)務(wù)做好”?或者說,一個(gè)好的具身大腦模型,核心解決什么問題?
盧宗青: 我認(rèn)為是通過預(yù)訓(xùn)練模型,為機(jī)器人賦予一種基礎(chǔ)的“運(yùn)動(dòng)與操作基因”。
人雖然不像馬、鹿等動(dòng)物,一生下來就有很強(qiáng)的運(yùn)動(dòng)水平,但人類的基因賦予了我們較好的運(yùn)動(dòng)能力,通過后天的訓(xùn)練可以激發(fā)出來。機(jī)器人也是一樣,預(yù)訓(xùn)練模型相當(dāng)于賦予了機(jī)器人“開箱即用”的初步運(yùn)動(dòng)能力。
智在無界也會(huì)基于具體任務(wù),到不同的機(jī)器人本體上做后訓(xùn)練,如果預(yù)訓(xùn)練的大腦模型能力強(qiáng),那后訓(xùn)練加部署的環(huán)節(jié)里,大概30分鐘就能讓機(jī)器人學(xué)會(huì)一個(gè)新任務(wù)。
智能涌現(xiàn):但估值高會(huì)帶來更多資金的儲(chǔ)備,所以可以做更多技術(shù)上的探索,這在技術(shù)沒收斂的階段能否加大“做好模型業(yè)務(wù)”的概率?
盧宗青:但估值高了也會(huì)有惡性循環(huán),企業(yè)可能會(huì)去嘗試各種技術(shù)和商業(yè)化的路線。投了各種各樣的錢,但沒做出成果。至少,估值和業(yè)務(wù)成敗不是絕對(duì)的關(guān)系。
智能涌現(xiàn):所以現(xiàn)在能感受到一級(jí)市場(chǎng)的變化嗎?你認(rèn)為原因是什么?
盧宗青:現(xiàn)在可以看到具身模型公司的估值越來越貴了。
原因是,從業(yè)務(wù)層面來看,現(xiàn)在很多機(jī)器人本體公司會(huì)來找我們合作。大家算過“自研模型能不能賺錢”這筆賬之后,逐漸意識(shí)到,具身智能本體公司做不做模型本質(zhì)上是個(gè)商業(yè)行為。我認(rèn)為行業(yè)會(huì)越來越走向軟硬分化的形態(tài)。
智能涌現(xiàn):從算賬的角度來看,訓(xùn)一個(gè)好的具身模型,一年要花幾千萬至一億元?
盧宗青:對(duì)。一個(gè)模型大概需要10個(gè)人,年薪就要2000萬元。算力也很貴,如果是100臺(tái)機(jī)器,每臺(tái)機(jī)器8張卡,用A800的卡,每個(gè)月需要大概300萬元;如果H200的卡,每個(gè)月的成本就要900萬元了(包括存儲(chǔ))。
這還沒有算數(shù)據(jù)和其他的成本。現(xiàn)在最便宜的第一視角視頻數(shù)據(jù),大概是幾十元一小時(shí);動(dòng)捕數(shù)據(jù)大概在幾百元一小時(shí)。
智能涌現(xiàn):智在無界現(xiàn)在的付費(fèi)模式是什么,為什么說比企業(yè)自研要便宜?一個(gè)硬件廠商,會(huì)不會(huì)擔(dān)心軟硬分化以后,自己因?yàn)闆]有軟的能力,而被模型公司“坐地起價(jià)”?
盧宗青:現(xiàn)在收費(fèi)是一臺(tái)機(jī)器人,部署要花一筆一次性的License費(fèi)用,在幾萬-十萬元,對(duì)于出貨量不多的公司來說還是小于自研成本的,此外我們還有根據(jù)數(shù)據(jù)量收費(fèi)的后訓(xùn)練服務(wù)Being-Dex。
當(dāng)本體企業(yè)出貨量達(dá)到一定程度的時(shí)候,可以有類似Saas年包的付費(fèi)方式。到時(shí)候,模型公司也會(huì)有多家,大家有競(jìng)爭(zhēng),本體廠商就不怕某一家“坐地起價(jià)”。
智能涌現(xiàn):如果技術(shù)收斂了,不再用花那么多的成本搞研發(fā)了,本體公司會(huì)不會(huì)自己就把模型的業(yè)務(wù)做了,這樣會(huì)對(duì)純模型公司的生意造成威脅嗎?
盧宗青:如果真到了技術(shù)收斂、一個(gè)通用模型能做很多事情的階段,機(jī)器人會(huì)進(jìn)入家庭。那時(shí)我反而認(rèn)為模型公司的市場(chǎng)會(huì)更大,甚至可以做 To C。
屆時(shí)可能會(huì)出現(xiàn)像微軟那樣的大軟件公司;也可能像華為那樣同時(shí)具備軟硬產(chǎn)品。到了那個(gè)階段,我們也可能通過 OEM去做真正的機(jī)器人產(chǎn)品。
![]()
△Being-H模型控制的PND機(jī)器人正在給快遞掃碼,圖片:采訪人提供
2027年,100萬小時(shí)數(shù)據(jù)量涌現(xiàn)模型能力質(zhì)變
智能涌現(xiàn):你此前一直從事的是計(jì)算機(jī)領(lǐng)域的研究,怎么開始和具身智能交叉的?
盧宗青:2023年,我通過多模態(tài)大語(yǔ)言模型去玩開放世界游戲《荒野大鏢客2》,但發(fā)現(xiàn)模型的任務(wù)理解和動(dòng)作完成能都十分有限。我當(dāng)時(shí)意識(shí)到,模型交互能力弱,根本瓶頸在于缺乏對(duì)視覺和空間的理解,要提升這一點(diǎn),與真實(shí)世界的交互數(shù)據(jù)必不可少。
這成為我最初投入具身智能模型研究的契機(jī)。
智能涌現(xiàn):你說智在無界正式創(chuàng)立后不久,就利用2025年暑假去好幾家工廠調(diào)研具身智能落地情況。發(fā)現(xiàn)了行業(yè)怎樣的問題或者現(xiàn)狀嗎?
盧宗青:印證了之前的判斷,就是現(xiàn)階段的具身智能遠(yuǎn)遠(yuǎn)沒到可以落地真干活的水平,核心卡點(diǎn)在泛化性。
比如,束線整理、精密組裝這類動(dòng)作非標(biāo)且復(fù)雜的工序上,具身智能“獨(dú)立自主完成工作”的能力仍然有限。行業(yè)對(duì)外講的“工業(yè)場(chǎng)景落地”,大部分還停留在演示或短周期的POC(概念驗(yàn)證)里。
智能涌現(xiàn):原因是什么?
盧宗青:原因一部分在硬件,缺穩(wěn)定好用的高自由度靈巧手;靈巧手也缺觸覺,這意味著接觸點(diǎn)等等重要的力反饋信息是缺失的。
另一部分原因在模型,過去業(yè)內(nèi)更多用二指夾爪,行業(yè)還沒研發(fā)出真正能干活的靈巧手模型。
智能涌現(xiàn):你早于業(yè)界共識(shí)提出采用人的視頻做預(yù)訓(xùn)練數(shù)據(jù)。智在無界發(fā)布的第一個(gè)模型時(shí),業(yè)內(nèi)反饋如何?
盧宗青:2025年七八月份,我們做出了第一個(gè)靈巧手模型 Being-H0,業(yè)內(nèi)反饋還不錯(cuò)。英偉達(dá)總部也專門派人過來,了解這個(gè)模型在算力方面的細(xì)節(jié)。
當(dāng)時(shí)大家普遍覺得這是個(gè)新思路,那時(shí)候業(yè)內(nèi)主要還是在用以機(jī)器人為主體采集的數(shù)據(jù)。我們是第一個(gè)采用大規(guī)模人類視頻數(shù)據(jù)做模型預(yù)訓(xùn)練的,Being-H0用了大約100萬條第一人稱視角下、人手操作的視頻。
智能涌現(xiàn):你從2023年底開始用人類視頻數(shù)據(jù)的技術(shù)路線訓(xùn)練具身模型,行業(yè)去年也是緊鑼密鼓地迭代各種技術(shù)方案,但為什么至今還是沒做出一個(gè)泛化性好、真能干活的具身模型?
盧宗青:我們?cè)诰呱砟P偷挠?xùn)練上花了大約兩年時(shí)間。過去的問題中,最本質(zhì)的有兩點(diǎn),一是在于數(shù)據(jù)不夠多;二是模型訓(xùn)練還缺乏很好的范式。
智能涌現(xiàn):具身智能要具備泛化能力,多大量級(jí)的數(shù)據(jù)才夠?
盧宗青:我們目前積累的數(shù)據(jù)在四五萬小時(shí)左右,包含第一人稱視頻和一部分機(jī)器人真機(jī)數(shù)據(jù)。
我認(rèn)為,數(shù)據(jù)規(guī)模可能需要達(dá)到100萬小時(shí)量級(jí),才更有可能讓機(jī)器人能夠快速學(xué)會(huì)復(fù)雜的新任務(wù),具備真正的泛化能力,從而在產(chǎn)線上實(shí)際用起來。這個(gè)量級(jí)大概在2027年可以達(dá)到。
另外,數(shù)據(jù)來源不能只局限于單一或少數(shù)場(chǎng)景。我們收集數(shù)據(jù)時(shí),會(huì)注重多樣性,不同場(chǎng)景、不同任務(wù)的數(shù)據(jù)都在持續(xù)積累。
智能涌現(xiàn):之前做了一兩年,才積累了四五萬小時(shí)的視頻,如何在2027年就把量堆到100萬小時(shí)?
盧宗青:過去視頻量級(jí)一直只有四五萬小時(shí),原因是當(dāng)時(shí)技術(shù)路線還沒轉(zhuǎn)到“人的視頻”,所以很少有人系統(tǒng)地做這件事。
我們?cè)缙诘臄?shù)據(jù)一部分來自互聯(lián)網(wǎng),比如用GoPro拍的第一視角;也有我們自己采集的,包括第一人稱視頻,以及用動(dòng)捕設(shè)備捕捉的動(dòng)作數(shù)據(jù)。
現(xiàn)在行業(yè)對(duì)視頻訓(xùn)練數(shù)據(jù)的需求起來了,最近也出現(xiàn)了不少專門生產(chǎn)視頻數(shù)據(jù)的創(chuàng)業(yè)公司。我們這邊還有合作工廠提供數(shù)據(jù),比如工人頭戴攝像頭工作時(shí)拍攝的手部數(shù)據(jù)。
智能涌現(xiàn):你說,從方法論來看,訓(xùn)練的大框架其實(shí)都差不多,真正的差異在細(xì)節(jié)和工程上,智在無界是怎么做的?
盧宗青:智在無界在“預(yù)訓(xùn)練-后訓(xùn)練”雙層框架中,先在預(yù)訓(xùn)練階段通過大量人類視頻讓模型模仿人類,理解視覺、文本,輸出人類動(dòng)作。
在后訓(xùn)練階段,將預(yù)訓(xùn)練中基于二維畫面學(xué)到的信息,與物理空間對(duì)齊,轉(zhuǎn)成可以在物理世界中驅(qū)動(dòng)機(jī)器人的控制信號(hào),適配不同本體。
在這些環(huán)節(jié)中,我們做了一些細(xì)節(jié)的工程工作。比如,數(shù)據(jù)處理上,我們建立了一套自動(dòng)化的數(shù)據(jù)處理工作流,整個(gè)過程基本無需人工干預(yù)。系統(tǒng)會(huì)自動(dòng)爬取網(wǎng)絡(luò)上的視頻,調(diào)用模型標(biāo)注視頻動(dòng)作的文字描述,再將視頻中有用的片段截取出來。另外,我們還通過給視頻中的關(guān)節(jié)進(jìn)行標(biāo)注,讓不同來源、不同角度、不同清晰度的視頻里的二維動(dòng)作畫面,都能統(tǒng)一進(jìn)同一個(gè)3D空間里,最終整理成可直接用于訓(xùn)練的“視頻-文字描述-動(dòng)作”數(shù)據(jù)對(duì)。
后訓(xùn)練階段,我們會(huì)更積極地探索多模態(tài)的融合,比如加入觸覺帶來的力反饋,補(bǔ)充模型學(xué)習(xí)需要的重要信息。
智能涌現(xiàn):除了靈巧手大模型,聽說智在無界即將發(fā)布一個(gè)適用于雙足人形全身的大模型,這個(gè)可以先大概介紹一下嗎?
盧宗青:這是我們做的多模態(tài)移動(dòng)操作模型,Being-M 系列。它的數(shù)據(jù)會(huì)復(fù)雜一些,同一個(gè)動(dòng)作,既包括第一和第三人稱視頻,也包括動(dòng)捕數(shù)據(jù),它們是對(duì)齊的。
我們?cè)陬A(yù)訓(xùn)練階段,先用模型把第三人稱視頻中人的姿態(tài)提取出來,再給這個(gè)動(dòng)作配上文本標(biāo)注。目前我們用大約1500萬個(gè)“文本 + 動(dòng)作”配對(duì)訓(xùn)練它,再配合人的第一視角視頻,相當(dāng)于把視覺模態(tài)也加進(jìn)來。
舉例來說,像“走路繞過面前障礙物”這種動(dòng)作,我們既有全身動(dòng)作和文字描述,也有人眼睛看到的第一視角視覺數(shù)據(jù)。把這些加在一起,就可以生成對(duì)應(yīng)的動(dòng)作序列;再用我們的動(dòng)作跟隨模型 Being-W,控制機(jī)器人去跟隨剛才模型生成的動(dòng)作序列。
![]()
△Being-H模型控制的機(jī)器人正在將不同形狀的零件進(jìn)行分揀歸納,圖片:采訪人提供
套殼做Demo挺常見,但解決不了實(shí)際問題
智能涌現(xiàn):所以我們現(xiàn)在距離理想中能獨(dú)立工作、能泛化的具身模型還有多遠(yuǎn)?
盧宗青:我要是能判斷還有多遠(yuǎn)就好了(笑)。但我們?cè)?026年1月推出的Being-H0.5靈巧手模型,會(huì)比半年前推出的Being-H0在泛化性以及跨本體性能上有非常高的提升。
智能涌現(xiàn):那你認(rèn)為模型能力產(chǎn)生質(zhì)變,是會(huì)突然涌現(xiàn)還是循序漸進(jìn)的過程?
盧宗青:不會(huì)是循序漸進(jìn)的。可能會(huì)基于方法上的變化,或者是模型層面的變化。但從科研角度來看的話,不會(huì)是一成不變堅(jiān)持做(現(xiàn)在的方法)就能做出來的。
智能涌現(xiàn):新發(fā)布的Being-H0.5模型,表現(xiàn)如何?
盧宗青:Being-H0.5的預(yù)訓(xùn)練除了包含大量視頻數(shù)據(jù),也采用了來自30種不同構(gòu)型本體的真機(jī)數(shù)據(jù),實(shí)現(xiàn)了跨本體的大規(guī)模數(shù)據(jù)融合。
模型訓(xùn)練完成后,可以同時(shí)部署5個(gè)不同本體。其中讓我覺得驚艷的瞬間是,用宇樹 G1 采集的快遞掃碼分揀任務(wù)數(shù)據(jù)訓(xùn)出來的模型,首次上機(jī)就能直接讓PND的Adam-U成功執(zhí)行同一個(gè)任務(wù)。
而且Being-H 0.5具備很高的端側(cè)部署速度,在常見的小型算力板Orin-NX上,能達(dá)到模型動(dòng)作生成與機(jī)器人運(yùn)動(dòng)實(shí)時(shí)進(jìn)行。
智能涌現(xiàn):泛化性這件事如何評(píng)定?具身模型現(xiàn)在有比較公認(rèn)的Benchmark嗎?
盧宗青:其實(shí)我們說的就是任務(wù)的成功率。現(xiàn)在業(yè)內(nèi)有一些Benchmark,比如LIBERO、RoboCasa,不過具身的Benchmark還在迭代。
智能涌現(xiàn):叫Being-H 0.5會(huì)和PI 0.5有關(guān)嗎?
盧宗青:無關(guān),只是我們認(rèn)為現(xiàn)在模型能力還在0.5的階段。
市面上確實(shí)有一些號(hào)稱自研模型的公司,其實(shí)是套殼PI 0.5的具身模型,只是在后訓(xùn)練時(shí)加了一些數(shù)據(jù)而已。但我們不是。我們除了VL基座模型,剩下都是自己訓(xùn)的。
智能涌現(xiàn):現(xiàn)實(shí)很骨感,看Demo卻讓很多人誤以為機(jī)器人已經(jīng)可以做很多事了,聽說Demo的拍攝也有很多“技巧”?
盧宗青:Demo的坑還是挺多的。比如沒有特殊說明自主操作的情況下,有些Demo里的任務(wù)可能是遙操控制的。
智能涌現(xiàn):所以其實(shí)落地在工廠里真干活還是不容易的?
盧宗青:對(duì),如果眼下就能落地干活,其實(shí)就不會(huì)建那么多數(shù)采工廠,收集那么大量的數(shù)據(jù)做訓(xùn)練了。
智能涌現(xiàn):最后討論一下當(dāng)下的熱點(diǎn)方向“世界模型”吧。很多人認(rèn)為這個(gè)技術(shù)會(huì)在2026年解決具身泛化性的問題,你似乎有不同看法?
盧宗青:我對(duì)“世界模型”這個(gè)說法一直比較謹(jǐn)慎,現(xiàn)在世界模型的定義很混亂。
如果它只是用來在訓(xùn)練過程中提供一些合成數(shù)據(jù)、生成訓(xùn)練數(shù)據(jù),這當(dāng)然可以,最多就是做一個(gè)“數(shù)據(jù)生成器”。
但如果最后講的故事,是把它部署到機(jī)器人上直接控制操作,那就會(huì)變得極其復(fù)雜、極其消耗算力。因?yàn)樗枰褭C(jī)器人每一步Action都考慮進(jìn)去,生成一條軌跡,還要預(yù)測(cè)大量可能發(fā)生的情況。
用它來控制機(jī)器人還是非常有難度的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.