![]()
出品 | 網易科技《態度AGI》對話
作者 | 崔玉賢
編輯 | 丁廣勝
當ChatGPT憑借互聯網海量文本數據實現智能涌現時,機器人卻困于物理世界數據采集的“高成本泥潭”。
“通過真實數據的方式,在當前階段想要啟動具身智能的Scaling Law是沒有希望的。”跨維智能創始人賈奎在與網易科技等對話中直言道。
數據不夠用,數據不好用,具身智能的數據荒已經成為行業的共識。針對此問題,行業逐漸形成兩大派系:真機派與仿真派。
跨維智能、英偉達、銀河通用等選擇的是仿真路線。 近日,跨維智能宣布同步開源自主研發的由EmbodiChain自動訓練的VLA基座模型和幾個具體任務examples的VLA模型。
據了解,EmbodiChain作為開源的、面向具身智能的“生成式數據引擎”,驗證了一條全新的路徑:機器人可以完全依靠100% 合成數據(所謂在虛擬世界中做夢)習得技能,并在真實世界中零樣本(Zero-Shot)完美執行。
為什么機器人還沒有ChatGPT聰明?
“具身智能的智能與大語言模型的智能是兩種不同的智能。”賈奎一語指出兩者的根本差異。大語言模型的成功依賴于互聯網上無窮無盡的文本數據,遵循著著名的Scaling Law。然而,當這一范式試圖遷移到具身智能領域時,卻面臨著物理世界的冷峻現實。
傳統機器人學習需要采集真實數據,這一過程存在三大痛點:成本高昂,采集真實數據需要人遙控機器人,耗時耗力;效率低下,物理世界無法加速,且存在安全風險;數據孤島,只有極少數巨頭公司有能力組建龐大的采集團隊。
賈奎用無人駕駛作對比解釋了數據稀缺的深層原因:“為什么無人駕駛反倒真實數據能夠很多?因為我們每天都在開著車做各種各樣的事情。而具身智能領域,除了工廠、物流倉里面有機械臂外,我們生活的世界里面沒有機器人。”
所以,面對這一困境,跨維智能選擇了生成式仿真的技術路徑。賈奎強調:“成熟的基礎物理仿真技術是可以達到毫米級精度的,工廠里可能要求到亞毫米級。具身智能缺的不是底層的仿真技術,而是如何將物理仿真形成的任務場景到各種虛擬傳感器產生的數據,到模型訓練,再到本體部署,能夠高效自動化地連接起來。”
仿真數據如何在真實世界中零樣本完美執行?
EmbodiChain作為開源的、面向具身智能的“生成式數據引擎”,驗證了一條全新路徑:機器人可以完全依靠100%合成數據習得技能,并在真實世界中零樣本完美執行。
EmbodiChain的核心突破體現在三個“不需要”:不需要真實數據采集,證明了VLA模型可以100%使用合成數據訓練;不需要繁瑣的人工調優,模型在仿真中訓練完后可直接部署到真機使用;不需要專業建模工程師,能夠根據文本描述自動生成場景和任務,實現全流程自動化。
賈奎特別強調了100%合成數據的重要性:“各個公司走的技術路線,無論是說95%的合成,5%的真實,哪怕是0.1%,這都是評判其是否真正基于生成式數據的非常關鍵的指標。如果你的技術路徑所形成的產品,擺脫不了真實數據的話,那意味著任何一個場景、任何一個機器人都要去部署進去任務,都要去采數據,那么成本就無法控制。”
EmbodiChain構建了完整的“Real2Sim2Real”數據飛輪流程。Real2Sim模塊將有限的真實交互數據,借助高保真仿真與自動化數據編輯技術,在仿真引擎中建立規模化、多樣性豐富且可訓練的環境和任務。Sim Data Scaling階段基于少量的“種子”場景,實現百萬級規模的高多樣性數據擴增。Sim2Real階段則展現出顯著的零樣本虛實遷移能力。
據介紹,在商業化層面,跨維智能已經建立了清晰的落地路徑。賈奎教授透露:“2025年實現了億級營收,從22年到24年都按照超過double的增速在增加。26年預計相比25年會有3到4倍的增長。”這一增長主要來自于公司在泛智能制造和商業服務兩大業務板塊的持續擴張。
賈奎強調:“我們前期就是嚴格按照ROI的方式在做我們的產品,因為你不嚴格按照ROI,東西根本就賣不出去。”公司為此設定了明確的標準:“整套系統的售價不能超過在這個位置上一個工人18個月的工資。”
跨維智能成立于2021年6月,是一家專注于具身智能和人形機器人的科技企業。其核心團隊由全球Top 2%頂尖科學家賈奎領銜。目前公司產品已經應用于50+細分行業,落地1000+項目。
![]()
以下為網易科技等與跨維智能CEO賈奎溝通的內容(略有刪減):
靠真實數據集采達到ChatGPT時刻是沒有希望的
提問:機器人還沒有像ChatGPT那樣聰明,一個非常重要的原因是數據,目前具身智能領域在數據集采方面處于怎樣的一個狀態?
賈奎:具身智能的智能與大語言模型的智能是兩種不同的智能。這就導致了現在大語言模型的ChatGPT時刻與具身智能是不同的發展階段。前者更多的是建立在知識上的能力,具身智能學的是智能體在三維物理世界中基于感知行動的智能。這就需要其數據從一開始就是多模態的,從視覺到力覺到觸覺、語言等,是三維的,而且需要物理精確性。
雖然我們期望大模型所帶來的scaling law能夠延伸到具身智能,但由于先天不足(不能延伸),(這也是)具身智能到現在一直有新的技術范式在涌現的根本原因。
提問:根據模型訓練數據的不同有幾條路線,有真機數據派、仿真派、視頻學習派,跨維智能的仿真派的優勢在哪里?仿真技術物理精度上限是在哪里?在哪些任務當中存在盲區?
賈奎:真實數據的方式在當前階段或者當前條件下,基本上沒有。靠真實數據采集到達ChatGPT時刻是沒有希望的。
很大的原因是因為社會上沒有大量存在的機器人在做各種事情,除了工廠、物流的機械臂外,我們生活的世界里沒有機器人。
對比一下,為什么無人駕駛反倒真實數據能夠很多的原因是,我們每天都在開著車做各種各樣的事情,把傳感器裝到車上,人開著車就可以形成數據,訓練模型。
生成式仿真的方式,就是通過生成式AI從文本的生成到圖像的生成到視頻的生成再到3D的生成,可以建立這樣的數據技術范式,把數據采集獲取變成算力問題,這樣的話才能真正實現具身智能所期待的智能涌現,或者精確一點,是其所需的泛化性、通用性。
只有通過生成式AI的方式才能生成多樣的可泛化的支撐,可泛化的數據。如果還是需要真機去采的話,永遠都不能實現。另外,即使真機去采,在這個實驗室里集采的數據,在另外一個房間就有可能有大量的GAP。
具身智能機器人的任務本質上在生活場景中基本上要求的都是毫米級的,工廠里可能要求到亞毫米級,成熟的底層物理仿真技術是可以更精確的。因此,具身智能缺的不是底層的仿真技術,而是怎么樣才能夠將物理仿真形成的任務場景到各種虛擬傳感器產生的數據,到模型訓練,再到本體的部署,能夠高效自動化的方式將鏈路連起來。
所以,這也是為什么具身智能引擎與物理仿真不是一件事情,但底層的仿真技術是足以支撐的。
提問:UMI的數據集采方式目前挺受關注的,如何看待這種技術路線?
賈奎:UMI是非常短暫的中間態,它要求人拿著夾爪去采數據,而且要求人拿夾爪跟機器人的夾爪是一模一樣的。
提問:同樣都是走仿真路線,但有些廠商在其宣傳語里會提到他們用了少部分的真機數據做強化學習或者說是對齊,但跨維智能為什么可以使用100%的仿真數據呢?
賈奎:我們非常強調最后一用公里、最后一米的事。各個公司走的技術路線,無論是說95%的合成,5%的真實;或者說99%的合成數據,1%的真實;哪怕是0.1%,這都是評判其是否真正的基于生成式數據的非常關鍵的指標。
舉個例子,如果用生成的數據做預訓練,最后,還用真機數據做了最后的Fine Training,那之前的東西到底起了多大作用?如果你的技術路徑所形成的產品,擺脫不了真實數據的話,那意味著任何一個場景,任何一個的機器人都要去部署進去任務;都要去采數據,那么成本就無法控制,就無法用這種技術范式形成的產品去進行競爭。
2026年:人形機器人商業服務元年
提問:2026年具身智能行業發展的關鍵詞是什么?
賈奎:從技術角度講,關鍵詞是基于生成式仿真的世界模型或者簡單點世界模型。但我們更強調的是世界模型2.0,因為純粹基于視頻生成的世界模型是不行的。從商業層面講,應該是人形機器人的商業服務元年。
提問:您如何看待具身智能泡沫?
賈奎:具身智能包括人形機器人肯定不只是存在泡沫的問題。其實大家都是預期,希望它發展更快些。但當你脫離了技術、產品、業務本身的發展邏輯時候,就會出現泡沫。
我們是在2021年底開始成立和運行的,我們其實并不是在風口,或者說并不是迎著風口做的這家公司。我們從開始到現在,底層技術、產品理念,商業都是非常務實的,嚴格按照ROI來設計我們的產品和技術路徑的。
提問:2026年世界模型是個主線,您認為目前世界模型處于怎樣的發展階段,什么時候會有突破?
賈奎:比較純的3D物理的世界模型,仍然受制于原生數據問題。
其實我們剛才聊文本、圖像、視頻和3D都是雞生蛋,蛋生雞的問題,沒有數據,沒有原生數據,就做不出模型,做不出生成式的模型;有了原生模型,大到一定程度,就可以產生多種多樣的數據。
如果用正確的技術方式去解耦的話,突破點其實來的不會那么晚。
嚴格遵守ROI 已實現億級年營收
提問:EmbodiChain是開源的,這種開源的策略和商業化變現之間怎么平衡,開源的生態建設對我們長期的護城河有怎樣的意義?
賈奎:EmbodiChain是我們基于生成式仿真的世界模型,或者可以通俗的叫它世界模型2.0,是非常基礎的基建第一步。這樣的開源工作是對行業、學術的推廣,帶有一定的學術性能;另外,它也是我們構建整個具身智能機器人生態的抓手。
從開源本身坦白來講,我們開源的更多是理念、學術、工具鏈的東西,如果真的要通過它順出一個模型到真機上,還有不少的Know-how才能達到產品級。
提問:跨維智能客戶還是很多樣化的,有汽車廠商、智能家電廠商等,在產品落地過程中,客戶關注的關鍵指標有哪些,我們了解到制造業很關注ROI,這個有沒有可量化的數據分享?
賈奎:我們為什么落地了這么多東西,是因為我們非常聚焦。其實我們做的是通用的技術和通用的產品,整個產品的能力在圍繞機器人的靈巧操作、靈巧做作業操作。不管是商業服務、工廠還是商店,其實要做的事情非常多。我們主要還是做靈巧作業之類的事情,比如柔性分揀、柔性裝配。
所以,我們前期就是嚴格按照ROI的方式在做我們的產品,因為你不嚴格按照ROI東西根本就賣不出去。
我們最一開始做這些事情的時候,具身智能風口還沒有來,因此我們要打動客戶,就必須以高性價比來提供我們的產品,必須嚴格按照ROI來計算,我們提供的產品是否真正產生了價值,或者增量價值。
比如,整套系統的售價不能超過在這個位置上一個工人18個月的工資。
提問:2025年營收是否方便透露?
賈奎:2025年實現了億級營收,不是訂單,是營收。從22年、23年到24年我們基本上是按照Double的增速在增加。26年應該會是25年的3-4倍。
提問:3-4倍的增長主要來自哪里?
賈奎:主要兩大板塊:泛智能制造和商業服務。泛智能制造我們是2倍的增速增加;商業服務是我們的第二增長曲線。商業服務其實是賣我們自己的本體包括大腦都是耦合在一起的。
