文|富充
編輯|蘇建勛
具身智能正在等待自己的“ChatGPT時刻”。但關于這個時刻的具體定義,業內還充滿非共識。
近日,原力靈機的技術開放日圓桌論壇上,5位AI界的一線產、學、研從業者把這個問題攤開,各自發表了見解。他們分別是:
清華大學電子工程系長聘教授汪玉
北京智源人工智能研究院院長王仲遠
階躍星辰創始人&CEO 姜大昕
星海圖創始人&CEO 高繼揚
原力靈機聯合創始人&CEO 唐文斌
階躍星辰創始人&CEO姜大昕首先提出“ChatGPT時刻”的定義標準,是“零樣本泛化”——即使給出從未見過的指令,AI也能回答問題完成任務——這正是大語言模型所展現的能力。
但姜大昕旋即指出,因為具身智能的泛化要涉及場景、任務、操作物體等更多維度,所以機器人要達到這個標準還十分困難。
作為機器人創企的CEO,高繼揚進一步解釋了具身智能商業化落地的難點:大語言模型可以“模型即產品”,終端是手機電腦、渠道是互聯網傳播;具身智能卻必須穿過更長的產業鏈——整機、供應鏈、真機數據、線下交付,缺一不可。
基于以上種種待解決的問題,原力靈機聯合創始人&CEO 唐文斌,給出了一個眼下更可抵達的“具身智能ChatGPT時刻”:先在一個限定場景,閉環解決其中所有的問題,且算過來ROI的賬。
他的理由很簡單,ChatGPT時刻讓人們看到語言模型作為工具的可用性;要產生這種變化,具身智能也得從玩具和研究項目,變身為一個有用的事物。
也因此,這場圓桌就“具身智能眼下的發展方向”達成了初步共識:在追求更強泛化之前,先把一個垂類場景跑通,讓機器人在實際干活中滾出真機數據飛輪,再用數據反哺模型與系統迭代。
這個思路,也解釋了本次圓桌論壇主辦方原力靈機的路徑選擇:在數據飛輪轉動之前,要現有能評測真機效果的統一標尺,因此在發布自家模型與本體之前,原力靈機先聯合HuggingFace推出真機評測Benchmark“RoboChallenge”。
原力靈機成立于2025年3月,創始人唐文斌為原曠視科技聯創,公司主創團隊中還包括多位前曠視科技核心成員。成立不到一年,原力靈機已累計融資近10億元,股東中包括阿里巴巴、蔚來資本、聯想創投等機構。
2月10日,這家受到資本市場青睞的創企“交卷”成立以來首個模型DM0,以2.4B參數量登頂RoboChallenge榜首。當然,質疑也隨之而來——“發起評測的人,是否也能當選手”?對于先于模型發布Benchmark的考量、真機評測的重要性,以及業內的發問,唐文斌在圓桌論壇上也一一做出回應。
以下為本次圓桌對話內容,經作者整理:
![]()
△圓桌論壇嘉賓,圖片:原力靈機
主持人:從全球的范圍來看,我們的具身智能的模型有哪些主流的技術路線,我們現在處在一個什么樣的階段?
王仲遠:在具身智能火熱的背后,我看到蠻多隱憂。雖然硬件本身的進步很快,但是在連續穩定工作、安全性、電池等等方面,還有一系列的問題要解決。
在模型方面,雖然過去一年發布過一系列的具身模型,但我們覺得還遠沒有到具身的ChatGPT時刻。尤其當具身智能模型和硬件,在真機部署之后,我們發現離真正希望的大規模應用還是有比較大的Gap。
目前,具身模型的技術路線仍然整體處于發展中,大家經常討論的有分模塊式的比如VLM加控制,或者端到端的VLA,包括現在在研究上非常火熱的世界模型等。但這些我認為都還遠沒有到可以非常自豪地說具身智能已經得到徹底突破的階段。
所以很有可能我們接下來會看到的情況是,通過VLA+強化學習,把一個一個場景解決好。先干起活,在真機中積累更多的數據,形成數據的閉環,最后再來解決泛化性的問題。
汪玉:我做硬件多一點,包括算力、框架、邊緣、基礎設施。從我的角度來看,現在的機器人應用,雖然已經有很大進步,但還是局限在一個工作臺上。基本上真要把大小腦配合起來完成一個再稍微長一點的任務,稍微跨多個模態之后(就比較難了)。
我們組里會討論到底具身干活得干到什么程度,比如說收拾屋子的任務,這不只是疊一個衣服,而是(機器人)要去看整個屋子的狀態,琢磨應該收拾成什么樣,然后開始一點點去干。干到最后把整個屋子收拾干凈了,這是一個很難的問題。
當然模型肯定需要有突破,但我也在琢磨,如果完成這么復雜的任務情況下,屋子本身會不會也要發生變化。我是硬件出身,因此有時候會想在建這個屋子的時候,建筑是不是應該要適配到有機器人的未來生活,畢竟原來只適配人的生活。就跟車路協同一樣,我們也可以有幫助機器人的基礎設施。
主持人:汪老師講的是我們下一代住宅標準也許要把機器人維度加進去。既然談到了基礎設施層面,汪老師怎么看現在具身智能領域里,國內和硅谷的優劣勢?
汪玉:美國在模型、數據等層面,更早地開始做了一些事情,有了一些應用上的投入和突破。但是真的到落地這個層面,我還是堅信中國可以很快地跟上,特別是現在中國在具身這個維度已經有比美國更強的投入了。
有很多人說具身是泡沫,我個人是覺得好不容易有一個方向,中國投入的強度比美國大,我覺得這可能是好事。因為中國的整個產業鏈、供應鏈是完整的。如果把應用開放得再多一點,在模型和應用層面的投入再加大,是有可能比美國在具身領域有更快的突破。
此外,中國現在我覺得學術界和產業界的聯動慢慢變多了,就像我自己坐在這里。其實是產業界碰到的問題后,回頭會跟研究機構再形成聯動,而不是老師們坐在屋子里面看論文做研究。這樣的聯動線,我個人覺得這一點是和美國慢慢一致了,就是產學研在一起去推動具身這個方向。
主持人:觀察到一個現象,前兩天被譽為美國春晚的“超級碗”,上面有很多LLM(的宣傳)。但是我們國家的春晚,要上臺基本都是機器人。仲遠院長對這個話題有沒有想要表達的?
王仲遠:我分享聽到的兩個小故事吧。
第一個是一位投資人告訴我的小故事,美國那邊的具身智能投資人,經常會看創業團隊里面有沒有華人,美國投資人認為有華人才能確保這家創企搞的具身智能有可能成功。
另外一個小故事,是我們自己在做具身智能模型迭代的時候,一個很痛苦的點在于硬件會經常損壞。硬件損壞了之后,一來一回,經常一修就得兩個禮拜。但是我們聽說美國那邊的機器人硬件一壞得修三個月,瞬間我們的心態就平衡很多。
所以一方面可以看到中國確實在制造業上有優勢,這是我們做具身智能方面的一個優勢。另外,整個行業依然處在早期,大家都處在快速發展和迭代的階段,所以遠沒有到分出誰優誰劣。
主持人:聊過了美國具身創業的“含華量”指標。從整個AI行業來看,很重要的里程碑叫“ChatGPT時刻”。所以大家認為“具身智能的ChatGPT時刻”是怎樣的?階躍星辰的姜大昕總,您對于“ChatGPT時刻”應該有更深的感悟和體悟?
姜大昕:先說怎么定義“ChatGPT時刻”,我覺得最具標志性的就是“零樣本”。零樣本地去做泛化,給它任何一條指令,即使以前沒有見過,AI可以回答出問題。這是和原來的自然語言處理是完全不一樣的,也是為什么“ChatGPT時刻”讓大家覺得非常興奮。
但如果對比自然語言和具身只能,我覺得“具身智能的ChatGPT時刻”會更加困難一些。
首先,從問題的定義本身,具身的泛化我覺得可以從不同維度去定義。泛化的維度不一樣,導致對于“具身智能的ChatGPT時刻”這件事情,不同人之間會存在非共識。
第一個維度是場景的泛化,比如,它是封閉場景、半封閉場景還是全開放場景;第二個維度是任務,導航任務、抓取任務還是家務;第三個維度是目標的泛化,即使是一個簡單的抓取動作,抓取的對象也分為鋼鐵、柔性。
其次,我覺得從技術角度來看,具身智能牽扯到計算機視覺,但在一些非常根本性的問題上,大家沒有形成一個共識。比如,視覺究竟怎么編碼,怎么做自監督的預訓練,比如說在3D空間里面怎么做推理,我覺得這些事情可能未來還是需要一些突破,然后才能夠到ChatGPT時刻。
主持人:對于“具身智能的ChatGPT時刻”而言,定義是很關鍵的,所以做具體具身智能的兩位嘉賓,怎么定義具身智能的ChatGPT時刻?
高繼揚:我覺得這個問題特別值得討論。我覺得我們可能有一個更底層的問題,就是具身智能和語言模型這兩個產業,雖然底層都是來源于AI技術的創新突破,但是具體到產業里面去看,二者還挺不一樣的。
具身智能從技術的產生到產品的規劃,再到商業落地,鏈條更長。整體涉及到上下游的零部件供應鏈和數據,而且具身智能的數據之前是沒有的。然后要做算法。再之后,還會發現渠道和終端跟大語言模型也不一樣,大語言模型的終端是手機、電腦,渠道是社交媒體的傳播。
所以你會發現在整個產業鏈條里面,大語言模型最稀缺、也是唯一缺的一環就是模型本身。所以模型即產品,模型好了,整個商業化、產業化的鏈條都開始具備了。
而具身智能,在剛才說的這幾環里面,供應鏈、零部件都很不成熟。沒有整機,也就沒有好的真機數據。具身智能的終端就是機器人本身,這也涉及到要做線下渠道。
回到剛才的問題,對于“具身智能的ChatGPT時刻”定義,我認為如果從業務產線的角度來說,應該是我們真的看到了它在某些限定范圍內具備商業價值的這么一個時刻。
2026年我覺得會是發生變化的一年,因為整機和供應鏈經過過去兩年的準備,發生了很多變化。數據我們也有很多,在模型、算法層面、后訓練上的強化學習,預訓練上的VLA以及最近的World Model(世界模型)引入,都給我們整個預訓練的泛化性和后訓練的成功率提了很多新的變化。
所以我覺得今年是應用要閉環的一年。去年2025年上半年,我們明顯看到智能的發展有所起步,2025年下半年智能明顯加速,關鍵指標我們可以參考開源社區里的開源模型數量。
2026年會是智能爆發的一年,爆發的結果一定在某些應用領域形成應用的外溢,而且同時配合了供應鏈和整機。尤其是中國,顯著比美國強得多,周期剛才提到了快5到10倍,成本低5到10倍。
唐文斌:我覺得姜大昕講的“ChatGPT時刻”要求蠻高的,這已經是AGI時刻了。今天我們想想ChatGPT給我們帶來最大的震撼是什么,我們曾經把它當成一個玩具,但是在那一刻,我們認為它是一個工具,它變成一個可用的東西。
所以我心中“具身智能ChatGPT時刻”的定義,是它變得有用、可信賴的時刻。這還是回到我們公司的使命想去做的事情。
我們對有用的定義非常簡單,它可以在限定場景,但要真正閉環解決所有的問題,要能夠在ROI上面算明白,算明白ROI才能使得它能夠被批量化應用。
滿足這樣一個有用的定義情況下,我們才真正把一個玩具,或者說一個研究項目變成了一個工具,這個時候我認為就是“具身智能的ChatGPT”時刻。我覺得現在模型的能力進展確實非常大,所以這并不是很遠。
當然ChatGPT時刻之后,還有DeepSeek時刻,也就是說它什么時候能夠出圈。今天具身智能機器人可以在倉庫、工廠里打螺絲,但我覺得老百姓并不能感知到,也許DeepSeek時刻可能是說全民都有感覺。今天如何能夠從工業物流走向商用、走向To C,這個時刻還要再晚一些,但我覺得也不會太遠。
主持人:在曠視時期,原力靈機的主創團隊經歷了AI的1.0時代,現在到了具身智能的時期,你們并不是在一開始放出一個模型,而是先把RoboChallenge這樣一個Benchmark放出來。所以是怎么思考這個問題的?
唐文斌:模型是一個產物,它的結果,模型、算法、架構、數據都在變化。當下其實整個技術架構是非常缺失的,不管是數據,還是仲遠院長講到的好用的硬件,以及評測標準。
今天的整個具身智能行業,我們所有做算法的人都知道,如果你不知道怎么評測它,你肯定沒有辦法讓它進步。今天,我們能用的評測標準可能有LIBERO、SimplerEnv、RoboTwin,它們的規模很小。很多Benchmark都已經被差不多刷爆了,但99點幾分是代表當前真實的能力嗎?顯然不是。
所以我們覺得非常需要來自物理世界、基于物理世界真實的、大規模的、真機的評測,才能夠引導我們能夠更好向前。
原力靈機內部花了很多力氣在我們的具身框架Dexbotic上做整個基礎設施的建設,是希望把一些東西放出來,能對行業做一些貢獻。我們雖然是RoboChallenge的發起方,但是包括仲遠院長、高繼揚、清華汪老師等等,大家都一起在做這個測評,是希望行業里的更多人加入一起推動這個評測。
主持人:今天在座的嘉賓也有多位是RoboChallenge的合作方。星海圖作為第一批加入的企業,給RoboChallenge捐贈了硬件,這個思考是什么?
高繼揚:但是真正面向應用的、落地的具身評測標準,一定是需要真機的。
我覺得ChatGTP或者語言模型的整個發展,完全是商業需求拉動的,Agentic、Coding、ChatBot這三大垂類有巨量的需求在拉動。
我們回頭看具身智能,未來也會形成垂類的概念,垂類一定是來自真實需求,這些真實需求要落到真機的評測里面,才能夠給我們做研發的企業,還有包括未來的需求方形成比較公允迭代的環境。
很多時候AI還是實驗科學,它有一定的原理、數學做支撐,但最終很多事還是要試出來。“試”就要有反饋,反饋就要有評測。決定一個公司,一個組織,包括AI和其他的,很重要的一個指標就是它的迭代效率,所以我們想盡一切辦法提高這個迭代效率,反饋的質量,這是為什么當時師兄提到說想做RoboChallenge時,我特別認可、特別支持。
因為我們在公司內部有自己的一套Benchmark,大家可能10個場景不斷去迭代。我覺得我們也應該能夠有一套整個行業、整個業界,都能夠普適的標準,甚至可以讓學界參與進來,能夠更好把產業界和學術界聯動起來。
主持人:RoboChallenge有非常強的重要性,但是一開始出現的形式稍微有點怪。像是成績好的學生,自己出了測試題,然后自己去考試。汪老師怎么評價學生的這種行為?(編者注:此處指原力靈機既是Benchmark評測標準的發起方,自己也作為企業參與評測并取得了較好成績)
汪玉:我覺得未來學習的模式可能會變,不一定是老師教的,可能學生就是自己學的。這也是我們最近跟學校里面的同事在討論,未來大學的發展可能真的不是老師教課,老師可能就是來考個試,但是考題的靈感可以來自于學生們,這個沒有任何問題。
回過頭說,其實現在北京做了一個很好的事情,就是做亦莊的機器人比賽,我們有兩會一賽,有馬拉松、機器人大會和運動會。原來更多考驗本體能力,現在慢慢再加一些跟智能相關的檢測。
但是這樣的方式往往是低頻的,每年可能就那么一次、兩次。所以能不能做一個平時可以隨時去測的真機測試,并且以相對公允的環境、試驗場景,這個我還是非常喜歡的一種方式。
把這種高頻的、線上的,或者說不管在什么地方都可以做這件事情,成為現實,我覺得這個能力還是非常值得繼續推進的。
現在其實有十幾位“好學生”(參與方)一起去共建這樣一個RoboChallenge的平臺,這個平臺每個人內心都是公益的邏輯,在這樣一個環境里面去競賽。
什么時候能夠以一個更加公益的形態呈現,可能也是我們可以繼續商議的。本來公益組織的建設就需要很多時間。但是從發起到高頻次真實世界的評測,到大家一起貢獻所有不同的場景,包括產業界、做機器人的、學術界一起定義這些場景,再往后怎么做一個全開源的生態。這一套起來以后對于整個行業是一個巨大的推動,所以我覺得這事還是非常值得去繼續努力的。
唐文斌:我想插個話,確實我們在探討這樣一個事情,因為我們在這次DM0模型發布的時候,我們自己內部有一個小糾結。因為RoboChallenge是我們和Hugginface一起發布的,雖然有很多同行的參與,但畢竟我們還是發起方。所以,原力靈機自己到底應不應該提交自己發的模型,到底應不應該放這個成績,我們內部糾結了一陣子,展開了很激烈的討論,有不同的意見。
汪玉:OpenAI自己也有Benchmark,他們測完以后自己也發結果,這個我覺得不矛盾。
唐文斌:因為OpenAI也是這么干的,我們自己心里也淡然了。這次我們對團隊提的要求開源一定要做的非常徹底,我們要保證大家下載了我們的code、DM0模型、Dexbotic(開發框架),直接去RoboChallenge提交就能拿到現在的分,這是我們在這個事情上這是一個很公開的事情,大家大大方方做就好了。
主持人:我們最后再來說一些預言性的問題。面向2026年,在具身智能領域,大家最期待看到的情況,或者能解決的任務,會是什么?
汪玉:還是從電子系角度來說,我真的希望能形成一套云邊端配合的體系,能夠改變建筑,去構建面向機器和人共生環境的基礎設施。這套方案我覺得今年可能有一個雛形出來,大家再一塊去討論。
王仲遠:雖然我對硬件、模型都有很多的期待,但可能我對2026年最期待的反而是在標準上。
因為我覺得現在不管是硬件的標準、數據的標準,包括模型輸出的標準,整個生態非常碎片化,所以我蠻期待2026年在標準上能夠有一些突破,它有可能極大促進整個產業的發展。
因為智源一起參與了RoboChallenge,我印象很深,當時和文斌交流的時候也說到數據大家各采各的數據,連格式、代碼很多都是不一致的,所以這就直接導致了很多時候模型也很難被重復驗證,坦白說我們嘗試下載和驗證近期國內外發的很多的模型,最后我們部署起來都很挺費勁的,這里面有很多東西就是因為大家的標準沒有統一。
2026年的時候,智源因為也在人形和具身的標委會里,很大概率我們會牽頭做具身智能的標準。
姜大昕:剛才聽了文斌的分享很受啟發,如果真的在任何場景、任何任務、任何目標上能夠實現零樣本的泛化,那就是“AGI時刻”了。
2026年我最期待原力靈機和階躍星辰能夠合作,實現文斌所說的ChatGPT時刻:能用、可靠的完成任務。
文斌如果覺得這個任務沒有足夠的挑戰,那咱們上半年實現ChatGPT時刻,下半年實現DeepSeek時刻。
高繼揚:我覺得還是期待2026年真的能夠在生產力端看到一條明確的增長路徑。然后,在兩年之內能夠有單一場景,形成比如上萬臺這樣的出貨,我覺得這是整個行業都迫切需要的。
唐文斌:我的目標比高繼揚小一點,我希望看到在一個場景,有一千臺持續運行。
這里面我想說一下持續運行是最關鍵的事情,而且不要場景很多,不是靠加法做起來的,一個場景里面一千臺持續運行,某種程度上就是我們今天已經走通了一個場景的規模化的閉環,我覺得2026年有機會。
封面來源|AI生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.