![]()
讓機器人像人一樣,快速學習并適應各類新場景,觸達更廣闊的市場。
機器人,被視為下一個萬億級智能終端。但為何有數十年歷史的機器人產業,其市場規模至今遠未達到預期?其核心原因,在于現有機器人大多只能適配一個場景、一個任務,極大地限制了其規模化應用的可能。
在第18屆創業邦年會暨創業邦100未來獨角獸大會上,星動紀元創始人陳建宇給出了破局路徑:打造“上限更高、更通用的機器人”——讓機器人像人一樣有聰明的大腦和好用的身體,能夠快速學習并適應各類新場景。這樣才能使得機器人觸達更廣闊的市場。
以下是陳建宇在大會上的演講實錄,由創業邦整理。
![]()
打造通用機器人,
成為下一個智能終端
現在行業已經形成共識,機器人未來一定可以催生出萬億級的市場。
首先,機器人可以產生非常巨大的生產力,而整個生產力和勞動力加起來,可以達到所有GDP一半的體量;同時機器人會成為未來繼個人電腦、手機、智能汽車之后的下一個智能終端。
怎樣打造?非常重要的點是需要打造上限更高、更通用的機器人。機器人的歷史很長,不管工業還是生活,我們已經看到各類各樣的機器人在落地,但是現在機器人的總量和市場遠小于預期,非常重要的點是現在機器人比較專業化,一款機器人只能適配基本一種場景和一個任務,要做新的場景和任務,要重新研發整個硬件和軟件,讓機器人的大腦和身體協同發展。
我們希望做相對通用的機器人,希望它像人一樣,通用適配到各類場景,這樣才能最終達到想要的市場。圍繞這樣的目標,我們專注于這方面的研發,并且在人形機器人全身靈巧操作的軟硬一體、全棧自研上實現階段性進展和突破。
我們研發了比較通用的人形機器人,具備雙靈巧手和雙足形態,并且所有軟件,包括通用端到端的具身大腦、小腦運控模型,再到硬件本體、零部件、關節、電機和靈巧手,都是一體化自主研發。
![]()
星動STAR1在工廠車間大顯身手
不同形態通用的機器人本體,搭載具身模型,又可以用到各種各樣不同的場景里。因為模型是通用的設計,所以跟具體某個場景無關,沒有針對任何場景做任何特定的設計,我們需要的是數據反饋。現在也在幾個重要的場景下,形成大腦本體+場景數據的反饋,在商業化落地的同時,也在持續增強模型的能力。
![]()
具身模型的三次進化,
走向自我學習
我們非常重視具身模型的創新研究,可以總結為三個階段:基于VLM的分頻VLA模型、融合世界模型的VLA模型、融合強化學習的VLA模型。
首先是基于“VLM的分頻VLA”,這是現代比較主流的范式。在全球范圍內,我們是這條路線最早的提出者、實現者。在2024年發表了相應論文Hirt,是全球首個完整的機器人VLA模型。
我們首次提出Action形態,可以實現端到端的訓練,使模型達到比較好的柔順性和運行的速度。僅通過視覺的輸入,每秒鐘就可以完成數十次從感知到決策和規劃的閉環。
例如,在抓取藥盒的任務中,機器人可以從雜亂的物品里找到藥盒,同時雙臂協同進行掃碼動作。即使在距離較遠的地方,機器人也會自動調整姿態,最終實現相應的效果。
![]()
剛才提到的方法是基于VLM的VLA模型,仍然有缺陷和不足。因此,我們通過技術改進,來到第二階段的“世界模型”。
為什么要進行改進?此前的方法純粹是在模仿人類的動作。人類怎么做,機器人就模仿怎么做。這樣使得機器人的動作傾向于條件反射式,沒有自己的思考。而且,這種方法要依賴大規模數據,如果超脫數據范圍之外,行為就比較難以呈現。
人類之所以會思考,是因為能在腦內構建世界模型,這是對物理世界的常識性認知,對各種各樣的場景有快速的預判。比如,一瓶水在桌子的邊緣,會擔心稍不注意掉下去,把杯子摔碎;如果開車到入口,可能會預判沖出來一輛車或者行人,造成一些交通事故。
因為有了預判,就知道在開車的時候,在入口要減速或者停下避免危險,知道杯子在桌子邊緣,可能想要伸手或者往里面推。有了這樣的世界模型能力,可以幫助你更好進行預判和更好進行舉一反三的能力,這種能力在此前模型是沒有的。
除此之外,世界模型還可以做對未來準確的預判和預測,可以幫助你更好進行行為決策。
圍繞這樣的思想,我們也做了系列工作,包括2025年發表論文,把大規模的互聯網視頻數據加入進來做預訓練,大大增強了它的泛化性能。
2025年11月,我們跟Physical Intelligence的聯合創始人一起聯合發表論文。Physical Intelligence是全球公認的最好的一家具身大腦公司,我們跟他們一起,聯合做了關于世界模型的工作Ctrl-world,發現通過引入世界模型,可以在他們當時最先進的模型上、下游任務再提升45%的性能。
這個具身模型,能夠通過觀察真實世界場景,預測接下來機械臂的驅動軌跡,以及與物體交互所產生的細膩物理效果。比如,當機械臂夾起毛巾時,模型不僅預測了手臂的動作,還模擬出了毛巾因被抓取而產生的褶皺和形態變化。
這種非常復雜細膩的物理細節,它也能夠捕捉的非常精準,幾乎看不出來與真實物理現象的區別,這樣的能力幫助我們做各種各樣的行為操作,這些是最后訓出來的模型結果。
最后是第三階段,基于“強化學習”模型,機器人自主強化、自主探索試錯,自己增強性能。這里是有一個端到端的神經網絡,持續不斷地去做推理,并且頻率非常高,一秒鐘有幾十赫茲,實現感知到最后控制的閉環。
![]()
讓技術創造真實價值
有了聰明的“大腦”,還需要一副強大的“身體”來配合。
在硬件層面,我們完全自主研發了核心部件包括靈巧手、電機、減速器、驅動器等。基于這些技術,我們形成了一系列的產品矩陣,讓我們的技術有了具體的形態。
首先是我們的雙足人形機器人星動L7,它身高1.7米,擁有55個自由度。它是跳高、跳遠世界紀錄的保持者、同時還擁有雙臂靈巧操作能力,完成各種復雜的任務,做到手腳協同。
![]()
雙足人形機器人星動L7
其次,我們還有針對服務場景設計的輪式機器人星動Q5。它的外形設計得比較纖細、優美,同樣具備七自由度的雙臂和五指靈巧手,可以靈活地完成下蹲拾取物品等精細操作。
我們的機器人之所以已經能在真實場景干活,得益于我們自研的通用靈巧手。它采用全直驅方案,響應速度快,每秒鐘能點擊鼠標10次;同時力量強,單手能拎起25公斤的重物;精度也高,能夠穩穩捏起一塊豆腐。并且,我們還讓它具備了出色的抗沖擊性,以適應真實的工業環境。
我們深知,再好的技術,如果不能落地,那就沒有意義。在商業化方面,我們采取雙線并行策略。
一方面,我們面向終端場景,直接提供從模型、硬件到軟件的全套解決方案。我們已經在工業、物流等場景成功落地,與順豐、海爾、聯想等合作。這種模式最大的好處是,我們可以通過這些真實場景獲得寶貴的數據反饋,這些數據又會反過來持續優化我們模型的能力,形成一個良性的飛輪。
另一方面,我們也把在開發過程中的工具鏈,以API的形式,提供給其他的企業和高校用戶。我們很清楚,單靠我們自己不可能覆蓋所有的應用場景。通過開放工具,我們可以賦能更多的合作伙伴,大家一起來探索和定義機器人的未來。目前,全球市值Top10的科技巨頭中,已經有9家成為了我們的客戶,這也從側面印證了我們技術工具的價值。
以上是我的分享,謝謝!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.