2 月 10 日,原力靈機在北京中關村展示中心舉辦發布會,以“具身原生”為主題,一舉發布了三大核心產品:全球首個具身原生大模型 DM0、具身原生開發框架 Dexbotic 2.0、以及具身原生應用量產工作流 DFOL。
“2026 年不是具身智能的元年,而是具身原生的元年。”原力靈機CEO唐文斌在現場表示:“過去大家在爭論用哪個大模型來改,我們直接跳出這個問題——為什么要改?為什么不從第一行代碼就為機器人而寫?”
會上,來自產學研領域的多位專家,其中包括清華大學電子工程系長聘教授汪玉、北京智源人工智能研究院院長王仲遠、階躍星辰創始人兼CEO姜大昕、星海圖創始人兼CEO高繼揚、原力靈機聯合創始人兼CEO唐文斌,還圍繞具身智能展開了一場深入的圓桌對話。
全球首個具身原生大模型 DM0發布
“今天,我們要的不僅僅是一個能在機器人上運行的大模型,而是一個從智能本質和形成機制上都根植于物理交互的新AI范式。”唐文斌表示,基于此,原力靈機在業內首次提出“具身原生”概念:具身智能從誕生之初就需立足真實世界,聚焦“復雜環境中精準完成人類任務”,并發布全球首個具身大模型 DM0。
![]()
DM0 具有兩大優勢:一是從0開始訓練的具身原生大模型,聯合階躍星辰聯合訓練,除了深度融合多模態互聯網信息外,還涵蓋駕駛行為數據、機器人操作、導航等具身場景特有的多傳感數據。二是 DM0 沒有把模型限制在單一硬件或特定場景,而是在預訓練階段系統混合抓取、導航、全身控制三類核心任務,并覆蓋 UR、Franka、ARX、UMI、Aloha、R1-Lite、Realman、DOS-W1 等8種差異顯著的機型,獲得強跨機型的泛化與遷移能力。
據介紹,DM0 僅 2.4B 參數量,卻實現了業內最高的智能密度,尤其在精細操作場景中表現突出。不同于市面上多數 VLA 模型僅有 224-384 像素的輸入分辨率,DM0 專屬 768×768 高分辨率設計,實時推理延遲僅 60ms,在工業級精細作業中表現優異。DM0還首創廣義動作解鎖復雜任務,并構建空間推理思維鏈,把環境感知、任務理解、運動規劃與精細執行串成閉環,使模型能夠在復雜真實場景中穩定完成高精度操作,實現機器人的動作不局限在手上,拍照和發送指令一樣行。
在 RoboChallage 真機評測中,DM0 獲得單任務與多任務雙項第一,目前位居榜單全球第一。為推動產業協同,原力靈機宣布DM0全面開源,開發者可在消費級顯卡上便捷微調、二次開發,助力科研工作者搭建專屬應用、訓練自有模型及產品。
![]()
DM0之外,原力靈機還在當天發布了全球首個具身原生開發框架Dexbotic 2.0。原力靈機合伙人汪天才表示,"PyTorch讓每個研究者都能快速驗證想法,Dexbotic 2.0要做的是同樣的事——讓每個開發者都能用樂高式的方式搭建自己的具身應用。"
相比去年發布的1.0版本,Dexbotic2.0實現了具身原生的全面升級,具備五大核心優勢:模塊化架構,將具身智能系統拆成三塊可自由組合的“樂高模塊”,V(Vision encoder)、L(LLM)、A(Action Expert)模可以獨立升級、替換和混搭,便于快速試驗新模型,并適配不同硬件和任務場景。
同時全面支持多源數據混合訓練,用同一套訓練過程,讓模型同步學會“看懂世界”和“動手操作”;此外,Dexbotic 2.0還實現統一具身操作與導航、統一模仿學習與強化學習、標準化具身開發全流程,從“數據—訓練—評測—硬件”四個環節形成閉環。
目前,Dexbotic 2.0已經服務數十家機構,包括清華、北大、普林斯頓、帝國理工等知名企業,以及騰訊、北京具身智能機器人創新中心等知名企業,覆蓋超千位研發者。原力靈機還宣布聯合清華大學、無問芯穹,共同宣布打造具身智能的 PyTorch,Dexbotic 2.0與強化學習框架 RLinf 達成戰略合作,旨在降低開發門檻,讓研究者與開發者專注于算法創新與場景突破。
在夯實具身原生技術底座、打造基礎設施降低開發門檻的基礎上,原力靈機進一步推動機器人走進工廠,實現具身規模化場景落地,原力靈機發布具身應用量產工作流 DFOL(Distributed Field Online Learning),核心是通過“硬件通用+模型智能”的模式,使機器人既能保持較高效率與確定性,又擁有接近人類的靈活性和適應性。
DFOL 關鍵創新在于數據回流機制:現場產生的訓練片段(episode)與負樣本塊(negative chunk)實時回傳云端,形成“云端訓練-現場執行-數據回流-模型更新”的持續進化閉環,使系統能夠在真實工作環境中不斷自我改進,實現柔性生產力的持續優化。這不僅是一次技術升級,更是創造真實商業價值的關鍵一躍,有利于打破非標自動化與人工的邊界,推動物理智能真正走向規模化和普惠化。
圓桌直擊:具身智能的ChatGPT 時刻還有多遠?
會上,來自產學研領域的多位專家圍繞具身智能展開了一場深入的圓桌對話,以下為對話實錄:
![]()
主持人:量子位聯合創始人兼總編輯 李根
圓桌嘉賓:
清華大學電子工程系長聘教授 汪玉
北京智源人工智能研究院院長 王仲遠
階躍星辰創始人&CEO 姜大昕
星海圖創始人&CEO 高繼揚
原力靈機聯合創始人&CEO 唐文斌
李根:今天我們圓桌的設置非常有講究,我們有學、研、產、模型大腦、行動的身體,作為最開篇的,我還是想要請汪玉教授和仲遠院長,從寬泛的范圍,全球的范圍看看我們現在具身智能的模型主要有哪些主流的技術路線,現在處在一個什么樣的階段,我們先請汪教授來說。
王仲遠:其實現在整個具身智能就像剛才李老師講的,特別的火熱,但是在火熱的背后,我看到蠻多隱憂。一方面我們講硬件確實進步很快,從前年能走路,到去年能跑起來,到現在能跑的比較穩。包括剛才在現場看到我們現在連干活也開始又快又穩了,這是硬件本身的進步。但是實際上包括它連續穩定性的工作、安全性、電池等等還有一系列的問題要解決。在模型上,雖然模型過去這一年,包括智源研究院也發布了一系列的像RoboBrain、RoboBrain-X0這樣一系列的具身模型,但我們覺得還遠沒有到具身的ChatGPT時刻,尤其當具身智能的模型和硬件真機部署之后,我們發現離真正我們希望的大規模應用還是有比較大的gap,模型的技術路線整體處于發展的路線,比如說大家經常討論的有分模塊式的,比如說我們叫VLM加上控制VLA,或者純端到端的VLA,包括現在在研究上非常火熱的世界模型,我們也都在進行一些探索。但這些我認為都還遠沒有到我們可以非常自豪的說具身已經得到徹底突破的階段,所以這里面很有可能我們接下來會看到的情況是在一個一個真實的場景,通過剛才原力靈機講的VLA+強化學習把一個一個場景解決好,先干起活,再真機中積累更多的數據,形成數據的閉環,最后再來解決泛化性的問題,這是對技術路線我個人的一點理解。
李根:謝謝王院長,汪玉教授有什么補充嗎?
汪玉:我做硬件的東西多一點,做算力、框架、邊緣、基礎設施,所以從我的角度來看,現在的機器人應用,包括剛才的視頻,雖然已經有很大進步,但還是局限在一個工作臺上。基本上真的把大小腦配合起來完成一個再稍微長一點的任務,稍微跨多個模態,真的跨多個模態之后,在樓里面走一走邊走邊干活,每次我們組里討論到底具身得干到什么程度,說能幫我收拾個屋子,這件事情不只是疊一個衣服了,你要去看整個屋子的狀態,琢磨應該收拾成什么樣,然后開始一點點去干,干到最后這個屋子收拾干凈了,這是一個很難的問題。當然模型肯定需要有突破,但是我也在琢磨如果完成這么復雜的任務情況下,比如說這個屋子本身會不會也要發生變化,因為我們做硬件的,有時候想在建這個屋子的時候這個樓是不是應該要適配到這個機器人未來在這個里面的生活,因為原來只適配人的生活,所以從基礎設施的層面我覺得還有很多事情可以幫助、協助機器人的大腦,能夠持續進步。
所以一方面在訓練的維度,剛才說強化學習的角度,能有更多的進步。另外一個維度,從整個這樣一個物理環境和機器交互的過程中,你怎么樣讓物理環境讓這個機器更容易感知,去解決問題。現在我們很多時候假設這個物理世界對機器需要跟人完全一樣,用人100%的能力感知世界完成任務,但機器并不需要干這些事情。我們也有很多幫助的設施,就跟車路協同一樣,是不是可以從這個角度再去促進機器的發展。這是從我們做硬件角度的思考。
李根:汪老師講的太有意思了,我們下一代住宅標準也要把機器人維度加進去,汪老師其實我也很好奇,因為具身智能之所以這么受關注,是因為它是相對是AI下一個前沿,對于這個前沿而言,大家都在討論說我們這一代的中國的創業者,可能會有一些新的機會,您剛才也談到了基礎設施層面,基建層面的,您怎么看現在在具身的維度里,現在國內和硅谷,中國和美國的優劣勢?
汪玉:你說到我的痛處了,我好久沒有去美國了,但是看到也有很多朋友在美國跟我們講。其實美國我覺得還是在模型的這些事情上,包括數據的層面,他們更早地開始做了一些事情,然后有一些應用上的投入和突破。但是真的到落地這個層面,我還是堅信中國可以很快地跟上,特別是現在中國在具身這個維度已經有比美國更強的投入了,有很多人說這是泡沫,我個人覺得好不容易有一個方向,中國投入的強度比美國大,所以這個事情是不是好事?我覺得可能是好事,因為在中國整個產業鏈、供應鏈完整的,能夠把應用開放的再多一點,如果在模型和應用層面的投入再加大,是有可能能夠比美國在具身這個層面有更快的突破。這是我個人從宏觀的角度來看的一個問題。
第二,中國現在我覺得學術界和產業界的聯動慢慢變多了,包括我自己坐在這里,其實是產業界碰到的問題最后回頭會跟仲遠研究院,包括拓撲研究院跟北大、清華以及一批老師們能夠形成聯動,而不是老師們坐在屋子里面看paper去做事情,所以這樣一條聯動線,我個人覺得和美國慢慢一致了,就是產學研真的在一起去推動具身這個方向。
李根:您講到投入和關注度確實有直接的展現,前兩天美國的超級碗被譽為美國的春晚,它上面全是LLM,但是我們國家馬上到春晚基本都是機器人,仲遠院長對這個話題有沒有想要表達的?因為我們智源是一個國際的視野。
王仲遠:我分享兩個小故事吧,也是聽到的小故事。美國那邊一方面做具身智能,其實他們的創業團隊經常投資人會看這個團隊里面有沒有華人,所以有華人的話才能確保他們搞的具身智能有可能成功,所以這是一個投資人告訴我的小故事。
另外一個小故事,我們自己在做模型,包括具身智能迭代的時候,一個很痛苦的點是硬件也經常損壞,損壞了之后,我們經常一修就得兩個禮拜,一來一回,但是我們聽說美國那邊他們的機器人硬件一壞得有三個月,瞬間我們的心態就平衡很多。所以一方面可以看到中國確實在制造業上的優勢,這是我們做具身智能方面的一個優勢。另外一塊證明了整個行業依然處在早期,大家都處在快速發展和迭代的階段,所以遠沒有到誰優誰劣、誰領先、誰落后,本質上大家還在不斷推動整個行業和產業的發展。
李根:您剛才講的AI要看“含華量”,更進一步做模型或者做具身還得看“含華量。很重要的里程碑和很重要檢驗的時刻叫ChatGPT時刻,它帶來了我們LLM,當時大家因為看見而相信的這么一個瞬間。
我接下來的問題特別想探討我們具身智能的ChatGPT時刻是一個什么樣的時刻,它什么時候到來,我們請階躍星辰的姜大昕總,對于ChatGPT時刻,您應該有更深的感悟和體悟?
姜大昕:對,ChatGPT時刻確實影響很深刻,怎么把它定義成一個ChatGPT時刻?我覺得一個標志性的東西就是零樣本,零樣本地去做泛化,給它任何一條指令,即使以前沒有見過,它可以回答出問題,這是和原來的自然語言處理是完全不一樣的,這是為什么ChatGPT時刻大家覺得非常興奮。
如果對比自然語言和具身,我覺得具身智能的ChatGPT時刻會更加困難一些,我覺得從兩個角度來看,第一從問題的定義本身,具身的泛化我覺得可以從不同維度去定義,一個是場景的泛化,它是封閉場景、半封閉場景還是全開放場景。
第二個維度是從任務,導航任務、抓取任務還是做一個家務這樣不同的任務泛化。
第三個是目標的泛化,即使是一個簡單的抓取動作,你抓取的對象是鋼鐵、柔性還是別的,所以這個泛化的維度不一樣,導致我們究竟在哪個維度上定義ChatGPT時刻,這件事情不同的人會有不同的看法,所以這是我覺得第一次還沒有形成共識的地方。
第二個,我覺得具身智能從它的技術角度來看,牽扯到計算機視覺,我原來是做自然語言處理的,自然語言處理開始深度學習剛起來的時候是一直被視覺打壓的,因為像深度學習的網絡都是從視覺開始,所以我們搞NLP的人是很憋屈的。直到到了17年出了Transformer以后,我們終于翻身了,Transformer是來自NLP,現在一統江湖,所有的模態用的都是Transformer這樣一個架構。
但是你會看到Transformer出來以后,NLP一路狂奔,解決了一個自監督的問題,所以能夠海量做預訓練,所以它能夠把互聯網的知識做一個壓縮,形成一個自己內部的視覺,然后進一步又經過RL的范式,現在可以做推理,甚至做非常復雜任務,編碼的任務、真實用戶環境當中做一些任務Agent的任務,所以它已經走過了很長的路。
返過頭我們再看視覺,覺得一些非常根本性的問題,大家沒有形成一個共識,比如這個視覺究竟怎么編碼,怎么做自監督的預訓練,比如說在3D空間里面怎么做推理,我覺得這些事情可能未來還是需要一些Breakroom(音)然后才能夠到ChatGPT時刻。
李根:您提了一個非常關鍵的問題,對于具身的ChatGPT時刻定義是很關鍵的,很重要的,我想問一下做具體具身智能的兩位嘉賓,先問高繼揚,怎么定義具身智能的ChatGPT時刻,咱們不說比文斌他們先到,比美國的同行先到,你是怎么想的?
高繼揚:我覺得這個問題特別值得討論,首先我覺得我們可能有一個更底層的問題,就是具身智能和語言模型這兩個產業,從產業層面的區別是什么。我覺得這兩個還挺不一樣的,但是底層都是因為AI技術的創新突破,使得這個產業從無到有。但是具體而言到這個產業里面去看,我們發現具身智能從技術的產生到產品的規劃,再到商業落地,它鏈條更長,涉及到上下游的零部件供應鏈,涉及到數據,這個數據之前也沒有,然后才是算法,算法完了之后發現渠道和終端跟大語言模型不一樣,大語言模型的終端是手機、電腦,渠道是社交媒體的傳播。
所以你會發現在整個產業鏈條里面,大語言模型最稀缺的哪一環,也是唯一缺的這一環就是模型產品,所以模型即產品,模型好了,整個商業化、產業化的鏈條馬上都具備了。
回頭我們看具身智能,在剛才說的這幾環里面,供應鏈、零部件其實很不成熟,在這波浪潮來之前,參與到這個行業里面的很多供應商都是規模很小的狀態,自身的產品可靠性、一致性問題都很多。當然我覺得這不是他們的問題,是整個產業的問題。然后沒有整機就沒有好的數據,剛才范浩強和天才反復談到真機數據這件事。
當然又涉及到渠道,渠道是線下的問題,終端就是機器人本身,你會發現在這幾個最終對于產業能夠成功的要素里面,算法很重要,但是算法似乎是傳播周期更短的,因為整機供應鏈傳播周期是12到18個月,你要建立客戶渠道的周期大概6到12個月,做數據的周期更長,你得有了整機之后才做。
你會發現算法我們有很好的開源社區,整個CV界包括NLP、語言模型,有特別好的分享精神,包括原力靈機和我們在內,做了很多開源的工作。會發現在整個產業鏈條里面,算法這一環的傳播周期是較短的,第一梯隊的公司是2到3個月。
回到剛才的問題,對于具身智能的ChatGPT時刻,剛才姜大昕總提到ChatGPT時刻定義為零樣本泛化,如果從業務產線的角度來說,ChatGPT時刻是我們真的看到了它在某些限定范圍內具備商業價值的這么一個時刻,我們發現它要具備的要素更多。
但是所有這些要素我們看到,我特別同意范浩強剛才PPT里一點,2026年我覺得會是發生變化的一年,因為整機和供應鏈經過過去兩年的準備,發生了很多變化。數據我們也有很多,在模型、算法層面、后訓練上的強化學習,預訓練上的VLA以及最近的World Model引入,都給我們整個預訓練的泛化性和后訓練的成功率提了很多新的變化。
所以我覺得今年是應用要閉環的一年,去年25年上半年,我們明顯看到智能是一個起步,25年下半年智能明顯加速,關鍵指標我們看開源社區里的開源模型數量。26年是智能爆發,爆發的結果一定在某些應用領域形成應用的外溢,而且同時配合了供應鏈和整機。尤其是中國,顯著比美國強得多,周期剛才提到了快5到10倍,成本低5到10倍,所以我覺得今年會是發生變化的一年。
李根:文斌怎么看具身的ChatGPT這個問題?
唐文斌:我覺得姜大昕講的ChatGPT時刻要求蠻高的,這已經是AGI時刻了。今天我們想想ChatGPT給我們帶來最大的震撼是什么,我們曾經把它當成一個玩具,但是在那一刻,我們認為它是一個工具,它變成一個可用的東西。所以我心中ChatGPT時刻的定義,是它變得有用、可信賴,還是回到我們公司的使命想去做的事情。
我們對有用的定義非常簡單,它可以在限定場景,但它要真正閉環解決所有的問題,要能夠在ROI上面算明白,算明白才能使得它能夠被批量化應用,滿足這樣一個有用的定義情況下,我們真正把一個玩具,把RoboChallenge的項目變成了一個工具,這個時候我認為就是這個ChatGPT的時刻。而且我覺得包括現在模型的能力進展確實非常大,所以我覺得這并不是很遠。
當然ChatGPT時刻,還有DeepSeek時刻,還有一點是說它什么時候能夠出圈,今天在倉庫、工廠里打螺絲,可能打的我們閉環了之后,但我覺得老百姓并不能感知到,也許DeepSeek時刻可能是說全民都有感覺,這個產品來到我們的身邊,今天如何能夠從工業物流走向商用、走向TOC,這個時刻還要再晚一些,今天我們對它的錯誤容忍度體驗要求更多,我覺得也不會才遠。
李根:你們自己經歷了1.0的洗禮,在追逐具身的過程當中,你們第一槍不是放出的一個模型,剛才大家講到模型、算法很重要,你們一開始先把RoboChallenge這么一個事放出來了,我不知道你是怎么想的,或者你們怎么思考這個問題的?
唐文斌:模型是一個產物,是一個結果,模型、算法、架構、數據都在變化我們很重要的一點,我們真的需要變成一種組織能力,能夠快速形成我們的模型,所以我們今天整個的技術架構是非常缺失的,不管是數據,包括仲遠院長講到一個好用的硬件,我們今天從訓練推理、整個鏈條上缺的東西非常多,評測也缺。
比如今天整個具身智能行業,我們所有做算法的人都知道,如果你不知道怎么評測它,你肯定沒有辦法讓它進步。我們今天整個行業里面的評測標準是什么呢?似乎沒有一個好的標準,今天可能有LIBERO、SimplerEnv、RoboTwin規模很小,很多Benchmark都已經被差不多刷爆了,99點幾分是代表當前真實的能力嗎?顯然不是,所以我們覺得非常需要來自物理世界、基于物理世界真實的、大規模的、真機的評測,才能夠引導我們能夠更好向前。我們內部花了很多力氣Dexbotic上整個基礎設施的建設,我們希望把一些東西放出來對行業做一些貢獻,也希望行業里的更多人跟我們合作。今天像RoboChallenge不是我們一家在做,所以我們作為一個發起方,仲遠院長、高繼揚這邊,包括清華王老師這邊,我們都一起在打造,希望能夠有一個Benchmark能夠指引大家如何向前。
李根:因為我們具身的ChatGPT時刻不知道,我們更多的AI之所以被看到的Physical AI Next時刻,就是要依賴RoboChallenge這樣一個評測的標準,我們今天在座的嘉賓也是我們RoboChallenge的合作方,你們是第一批加入的,捐贈了硬件,我不知道你的思考是什么?
高繼揚:我特別同意文斌師兄剛才談到的,整個行業,我覺得之前做具身智能這件事的,做機器人AI Robot的,學術界為主,學術界看這個問題的視角,我覺得是受了很多限制,資源上各方面都受了很多限制,所以用LIBERO各種各樣仿真的東西去做一些評測,但是真正面向應用的、落地的,一定是需要真機的。
我覺得今天我們去看GTP或者語言模型整個發展,我覺得完全是商業需求拉動的,三大垂類 Agentic、Coding、ChatBot,我覺得這三個垂類有巨量的需求在拉動。
我們回頭看具身智能,未來也會形成垂類的概念,垂類來自真實需求一定是來自真實需求,這些真實需求需要落到真機的評測里面,才能夠給我們做研發的企業,還有包括未來有需求方,大家有一個比較公允迭代的環境。很多時候AI還是實驗科學,它有一定的原理、數學做支撐,但最終很多事還是要試出來,試這個東西就要有反饋,反饋就要有評測。
我們看決定一個公司,一個組織,包括AI和其他的,很重要的一個指標就是它的迭代效率,所以我們想盡一切辦法提高這個迭代效率,反饋的質量,這是為什么當時師兄提到說想做一個RoboChallenge,我是特別認可、特別支持。因為我們在公司內部有自己的一套Benchmark,大家可能10個場景不斷去迭代,我覺得我們也應該能夠有一套整個行業,整個業界,都能夠普視,甚至可以讓學界參與進來,能夠更好把產業界和學術界聯動起來的這么一個Benchmark。
李根:確實RoboChallenge我想以后一定會被載入具身中國或者全球的發展史冊,但是一開始出現的形式稍微有點怪,兩個特別好的學生,出了一道測試題,自己去考試這樣。我們也請汪老師評價一下學生的這種行為,您是怎么看的?
汪玉:在深層次一點,我覺得未來學習的模式可能會變,不一定是老師教的,可能學生就是自己學的,這也是我們最近跟學校里面的同事在討論,未來大學的發展可能真的不是老師教課,老師可能就是來考個試,但是考題的靈感可以來自于學生們,這個沒有任何問題。
回過頭說,其實現在北京做了一個很好的事情,就是做亦莊的機器人比賽,我們有兩會一賽,有馬拉松、機器人大會和運動會。但是原來做的更多偏本體能力,現在慢慢再加一些跟智能相關的事情。所以如果是這種大規模的比賽一定能檢驗,而且我們可以在里面加一些賽道去評測,包括仲遠這邊也在往這個方向去努力。
但是這樣的方式往往是低頻的,每年可能就那么一次、兩次,但是能不能做一個平時可以隨時做的,隨時去測,背后有一波人幫你,把相對公允的這樣一套環境,把一些試驗場景在一個地方用真機的形態,這個我還是非常喜歡的一種方式。然后把這種高頻的、線上的,或者說不管在什么地方都可以做這件事情,成為現實,我覺得這個能力還是非常值得繼續推進的。
從形態上來說,我希望未來,我跟文斌也在商量,未來這個事情應該還是屬于(科賓飛)會更好一點,因為公司嘛,每一個公司都有自己商業上的追求,但是我相信現在這兩位“學生”,或者已經不止兩位了,有十幾位大家一起去共建這樣一個RoboChallenge的平臺,這個平臺每個人內心都是公益的邏輯,在這樣一個環境里面去競賽。
什么時候能夠以一個更加公益的形態呈現,可能也是我們可以繼續商議的。最開始公益組織的建設就需要很多時間,大家發起,發起以后要把這個東西落到某個事情上面,我覺得可能是未來做的一件事情。但是從發起到高頻次真實世界的評測,到大家一起貢獻所有不同的場景,包括產業界、做機器人的、學術界一起定義這些場景,再往后怎么做一個全開源的生態,從底層的,今天發布了底層的開源框架,有開源硬件,我們也有開源的數據,再有開源的應用和評測,這一套起來以后對于整個行業是一個巨大的推動,所以我覺得這事還是非常值得去繼續努力的。
李根:這也是推動我們自己更快抵達具身ChatGPT時刻一個很重要的基礎工作。
唐文斌:我想插個話,確實我們在探討這樣一個事情,因為我們在這次DM0模型發布的時候,我們自己內部有一個小糾結,就說RoboChallenge是我們和hugginface一起發布的,雖然有很多同行的參與,但畢竟我們還是發起方,我們自己到底發的模型應不應該提交,到底應不應該放這個成績,我們內部糾結了一陣子,展開了很激烈的討論,有不同的意見。
汪玉:OpenAI自己也有,它自己也發,這個我覺得不矛盾。
唐文斌:因為OpenAI也是這么干的,我們自己心里也淡然了。這次我們對團隊提的要求開源一定要做的非常徹底,我們要保證大家下載了我們的code、DM0、Dexbotic,直接去RoboChallenge提交就能拿到現在的分,這是我們在這個事情上這是一個很公開的事情,大家大大方方做就好了。
李根:最后,面向26年,在具身智能這個領域,您最想期待看到的一個非常具體的事情,它解決的任務,您期待是什么?
汪玉:還是從電子系角度來說,我真的希望能形成一套云邊端配合的體系,能夠改變這個樓的裝修,以及以后所有建筑和基礎設施的能力,去構建面向機器和人共生環境的基礎設施,這套方案我覺得今年可能有一個雛形出來,大家再一塊去討論。
李根:仲遠院長。
王仲遠:這個問題非常好,因為強調的是最期待的,雖然我對硬件、模型都有很多的期待,但可能我對26年最期待的反而是在標準上,因為我覺得現在不管是硬件的標準、數據的標準,包括模型輸出的標準,整個生態非常碎片化,所以我蠻期待26年在標準上能夠有一些突破,它有可能極大促進整個產業的發展。
李根:有沒有具體實現的目標?
王仲遠:因為我們智源一起參與了RoboChallenge,我印象很深,當時和文斌交流的時候也說到數據大家各采各的數據,連格式、代碼很多都是不一致的,所以這就直接導致了很多時候模型也很難被重復驗證,坦白說我們嘗試下載和驗證近期國內外發的很多的模型,最后我們部署起來都很挺費勁的,所以我很期待我們的DM0很快下載,也試一試,這里面有很多東西就是因為大家的標準沒有統一。
在26年的時候,智源因為也在人形和具身的標委會里,很大概率我們會牽頭做具身智能的標準,當然整個人形機器人標委會會有其他的一些事情,但我們想具身智能這塊集合大家的共識,一起定義具身智能模型上輸出的標準,希望能夠為整個產業做點貢獻。
李根:有沒有期待?
姜大昕:剛才聽了文斌的分享很受啟發,如果真的在任何場景、任何任務、任何目標上能夠實現零樣本的泛化,那就是AGI時刻的。26年我最期待原力靈機和階躍星辰能夠合作,實現文斌所說的ChatGPT時刻,能用、可靠的完成任務。文斌如果覺得這個任務沒有足夠的挑戰,上半年實現ChatGPT時刻,下半年實現DeepSeek時刻。
李根:您那個OKR定的非常具體,高繼揚有沒有期待具體的事情?
高繼揚:我覺得還是期待26年真的能夠在生產力端看到一條明確的增長路徑,然后在兩年之內能夠有單一場景,比如說上萬臺這樣的出貨,我覺得這是整個行業都迫切需要的。
李根:也定了一個非常具體的目標。
唐文斌:我的目標比高繼揚小一點,我覺得一個場景,一臺千持續運行,這里面我想說一下持續運行是最關鍵的事情,而且不要場景很多,不是靠加法做起來的,一個場景里面一千臺持續運行,某種程度上就是我們今天已經走通了一個場景的規模化的閉環,我覺得26年有機會。
李根:謝謝文斌。今天時間的關系,我們可能還有很多的問題沒有辦法繼續討論。我覺得可以達成一個小的總結,首先在具身的發展過程中雖然還處在初期,但是我們跟美國的差距并不大,美國的腦子可能稍微好一些,現在中國的身體稍微強壯一些,像文斌說的,我們以前體育的底子好一些,供應鏈各方面會多一些。另外一個方面,我們在場景的豐富性上,以及量產、速度上會更有優勢一點,所以我們也是有機會能夠更快率先抵達具身智能的ChatGPT時刻,或者我們等到具身智能實現這個時刻的時候,或者我們用星海圖時刻、原力靈機時刻,如果沒有來的以后,我們再加進去,期待這個時刻來自我們中國公司。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.