12月18日,大曉機器人正式發(fā)布行業(yè)首創(chuàng)的ACE具身研發(fā)范式、首個開源且商業(yè)應用的開悟世界模型3.0(Kairos 3.0)、讓具身本體擁有自主空間智能的具身超級大腦模組A1。
![]()
01
具身智能:從“以機器為中心”轉向“以人為中心”的研發(fā)
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大曉機器人董事長王曉剛表示,“以人為中心(Human-centric)”的ACE范式根本性地革新了具身智能研發(fā)路徑,并且開悟世界模型3.0為機器人裝上“超級大腦”。
“以機器為中心”的研發(fā)范式,其根本局限在于將機器人本體及其硬件參數(shù)置于研發(fā)流程的核心,本質上是用極高的資源消耗,換取有限且僵化的“智能”。
ACE研發(fā)范式顛覆傳統(tǒng)邏輯,將人類與物理世界的互動規(guī)律作為核心研究起點,以環(huán)境式數(shù)據(jù)采集為引擎,構建了一套從“環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的全鏈路技術體系。環(huán)境式數(shù)據(jù)采集可實現(xiàn)一年千萬小時的數(shù)據(jù)收集,開悟世界模型3.0則不斷放大真實數(shù)據(jù)價值,使其達到上億小時數(shù)據(jù)規(guī)模的效果。
王曉剛說:“世界模型的數(shù)據(jù)采集分為幾個層次,不是一上來就采用人的行為數(shù)據(jù),而是在底層注入了很多物理規(guī)律。模型里有思維鏈。當讓機器人擺放字母時,如果沒有理解物理規(guī)律,它們是擺放不了的,這也是以往VLA(視覺語言對齊)訓練方法的短板。”
ACE范式核心技術之一是環(huán)境式數(shù)據(jù)采集技術,通過跨視角多模態(tài)設備,融合視覺、觸覺、語音、力學規(guī)律等多維度數(shù)據(jù),以物理級建模與全場景覆蓋的創(chuàng)新設計,為具身智能模型訓練提供“人—物—場”全要素精準數(shù)據(jù)支撐。
環(huán)境式數(shù)據(jù)采集技術以人為中心構建全要素采集體系,整合第一視角與第三視角視頻、力觸覺信息、運動軌跡、語音等多模態(tài)數(shù)據(jù),構建基于物理基礎的3D資產(chǎn)庫,全面覆蓋具身模型訓練所需的各類交互信息,實現(xiàn)了多視角協(xié)同、長程任務覆蓋與全維度信息捕捉的跨越式升級。
![]()
王曉剛表示:“相較于遙操數(shù)據(jù)采集或仿真數(shù)據(jù),環(huán)境式數(shù)據(jù)采集的成本顯著降低。”在硬件成本方面,遙操模式需購置幾十萬臺機器人設備,而環(huán)境式采集采用AI眼鏡等現(xiàn)有傳感器,無須額外投入高價機器人;且隨著規(guī)模化應用推進,傳感器成本會進一步下降,原因在于當前機器人尚未形成規(guī)模化,成本難以降低。在人力成本方面,遙操采集需專門雇傭人員在實驗室操作,環(huán)境式采集則可在正常工作、生活場景中開展,工作人員佩戴設備即可一邊完成本職工作一邊采集數(shù)據(jù),無須額外投入人力,效率實現(xiàn)數(shù)倍提升。
這種低成本模式具備極強的可復制性,例如在閃購倉場景中,工作人員正常工作即可同步采集數(shù)據(jù),這也是數(shù)據(jù)規(guī)模能從10萬小時快速提升兩個數(shù)量級至1000萬小時的關鍵原因,類比特斯拉通過量產(chǎn)車輛,讓司機邊開車邊反饋數(shù)據(jù),無須專門組建采集車隊,就能實現(xiàn)大規(guī)模數(shù)據(jù)積累。
環(huán)境式采集的數(shù)據(jù)質量核心優(yōu)勢在于“真實性與場景完整性”——數(shù)據(jù)源于真實工作生活場景,能完整還原實際操作中的各類細節(jié)與變量,避免了仿真數(shù)據(jù)的理想化偏差和遙操數(shù)據(jù)的場景局限性。盡管未給出具體百分比提升,但從應用價值來看,真實場景數(shù)據(jù)更能反映實際需求,為模型訓練提供更精準、更可靠的支撐,其質量優(yōu)勢遠非人工設計的仿真數(shù)據(jù)或局限于實驗室的遙操數(shù)據(jù)可比。
02
開悟世界模型3.0的開源策略
作為首個“多模態(tài)理解—生成—預測”的世界模型,開悟世界模型3.0通過視覺、3D軌跡、觸覺、摩擦力等多維度信息輸入,深度理解真實世界的物理規(guī)律與人類行為的底層邏輯,讓模型能形成“知其然,知其所以然”的思維鏈。
![]()
基于多模態(tài)信息的深度融合,模型可生成長時動態(tài)交互場景視頻,在場景內(nèi)實現(xiàn)各元素精準可控;并具備跨本體一鍵生成、多本體泛化、預測萬千演化路徑等特性,為具身智能提供高保真、可泛化的虛擬訓練環(huán)境。
![]()
基于上述優(yōu)勢,大曉機器人打造了開悟具身智能世界模型產(chǎn)品平臺,并于12月18日正式發(fā)布。開悟具身智能世界模型產(chǎn)品平臺集成“文生世界、像驅世界、跡塑世界”等多模態(tài)生成能力,內(nèi)置支持11大類、54細類,累計328個標簽,覆蓋115個垂類具身場景,開發(fā)者只需輸入簡單指令,就能快速生成可視化的任務模擬內(nèi)容,并可一鍵分享,大幅降低具身智能的開發(fā)門檻。
王曉剛介紹,世界模型3.0實行“云服務產(chǎn)品+開源生態(tài)”雙軌模式。在云服務平臺上,用戶可通過網(wǎng)頁訪問,創(chuàng)作、分享視頻、機械臂參數(shù)等各類機器人相關數(shù)據(jù),形成“創(chuàng)作—共享”的生態(tài)閉環(huán)。平臺通過提供算力、存儲等服務實現(xiàn)商業(yè)化變現(xiàn),憑借成熟的產(chǎn)品化設計,吸引有數(shù)據(jù)創(chuàng)作、共享需求的用戶付費使用。
開源則是通過生態(tài)共建反哺商業(yè)化。通過降低適配門檻,方便開發(fā)者進行軟硬件適配,助力技術快速普及,同時收集更多用戶反饋,推動模型快速迭代。當前國產(chǎn)化芯片成為主流趨勢,開源模型能吸引芯片廠商適配,模型影響力越大,對芯片公司的價值越高,進而形成“模型—芯片”的協(xié)同生態(tài),提升自身行業(yè)話語權;開源還能吸引更多用戶參與數(shù)據(jù)創(chuàng)作,用戶上傳的初始照片、任務指令等數(shù)據(jù),為世界模型提供豐富的場景素材,解決數(shù)據(jù)“無中生有”的問題,進一步強化模型核心競爭力。
這種模式既通過云服務實現(xiàn)短期商業(yè)化收益,又借助開源構建長期生態(tài)壁壘,實現(xiàn)了商業(yè)價值與技術影響力的雙贏。
開源的重要性對芯片公司同樣重要。王曉剛提到,大曉機器人跟不同芯片公司合作時,因為各公司的頂層架構軟件都不一樣,形成了很大壁壘。“如果大家能夠基于開源的影響力,一起開發(fā)、聯(lián)合優(yōu)化,效率會大大提升,壁壘會降低很多。”
03
機器人產(chǎn)業(yè)發(fā)展尚在早期,有期待但要依規(guī)律而行
王曉剛坦言,目前機器人的開發(fā)處于行業(yè)發(fā)展初期,雖然產(chǎn)品形態(tài)相對明確,但市場規(guī)模仍較為有限,有在企業(yè)展廳做展示的,也有做研發(fā)的平臺,在起步階段,主要是起到普及作用,讓公眾了解機器人什么能做、什么不能做。“這與人工智能發(fā)展早期是一樣的。新技術推出的第一步是做POC,先拿著玩一玩,再量產(chǎn),一旦價值被驗證后就可以實現(xiàn)規(guī)模化。目前還處于用戶體驗與價值驗證的初期環(huán)節(jié)。”
在對行業(yè)現(xiàn)有機器人的拆解中,大曉機器人團隊發(fā)現(xiàn),硬件本身存在很多缺陷。比如傳感器的視野范圍狹窄,機器狗加載現(xiàn)有的傳感器,能夠看到的范圍非常窄,過馬路時不知道選擇哪一條,也看不到紅綠燈。機器狗也有跟隨的功能,視野范圍現(xiàn)在都是120°,如果超出這個范圍,機器狗就無法跟隨。大曉機器人做的是360°的UWB信號,主人往任何地方走,它都能跟上,所以硬件首先要滿足場景功能上的需求,擁有空間自主能力。
從大眾的期待來看,人們一直在期待通用型的機器人。王曉剛說:“這是漸進的過程,一個機器人能把不同領域的事情做好目前不太可能,但是在一個領域里盡可能地通用化就很了不起,能夠產(chǎn)生巨大的價值。”機器人可以在底層共享知識,比如對世界的理解、思維鏈等,世界模型的能力可以讓每個垂直領域的機器人都受益。工業(yè)機器人基于物理模型以及多年的規(guī)則積累和特定任務,可靠性高,但是通用性差一些,在一些柔性產(chǎn)線,需要機器人具備一定通用化的能力,這就是今天機器人發(fā)展的機會所在。
目前,大曉機器人的方案還會持續(xù)迭代,不斷降低成本。王曉剛說,目前還要尋找更便宜的國產(chǎn)化芯片,降低功耗,“軟硬一體的設計要跟場景緊密結合。”
04
四大關鍵要素決定機器人產(chǎn)業(yè)大規(guī)模應用時間
貝恩公司在《全球人形機器人產(chǎn)業(yè)趨勢洞察》中,將人形機器人功能的核心模塊分為以下幾部分:跟大腦決策相關的智能模塊,跟人類五官相關的感知模塊,跟物理世界外部環(huán)境交互、期望能夠實現(xiàn)高精度模擬人類動作的操控模塊以及電池動力模塊。
貝恩公司董事經(jīng)理趙天辰認為:“從技術角度,以達到人類平均水平為目標,人形機器人在智能和感知模塊還需要大概3年的時間。操控和電池模塊,需要5—10年的時間。”
在智能模塊中,利用通用人工智能大模型的機器人,基礎推理能力已經(jīng)超過人類水平,但實際場景結合任務要求和外部場景感知,實現(xiàn)低錯誤率和自主決策還是低于人類水平。在感知模塊,動態(tài)識別延遲以及跟人類物理場景互動及時性,距離人類還有差距。在操控模塊,人形機器人在關節(jié)自由度和靈活度已經(jīng)接近和超過人類水平,但在實際運動過程中,運動穩(wěn)定性、任務執(zhí)行過程中低錯誤率遠遠低于人類水平。在電池動力模塊,主流的全球頭部人形機器人單塊電池使用時間,還遠遠沒有達到期望的8小時甚至更高水平,未來在能量密度提升或換電技術上有望進一步突破。
人形機器人下一步大規(guī)模部署會發(fā)生在什么時間,什么行業(yè)?貝恩公司大中華區(qū)高科技業(yè)務主席成鑫說,取決于四個關鍵方面。
第一,投資產(chǎn)出。現(xiàn)在機器人成本較高,全球領先的型號制作成本至少在5萬美元以上,還沒有算日常維護、運營的成本,這個成本顯然是沒有競爭力的,不管放在什么環(huán)境之下。所以首先看整體研發(fā)制造的成本在何時能達到合理水平。
第二,技術成熟度。在智能、感知、操作、動力等方面,還要突破一些技術。成鑫認為,目前沒有無法逾越的技術障礙,更多是時間問題。“解決這些問題都有成本,比如操控部分,靈巧手的自由度方向有25—30個,但現(xiàn)在機器人能做到5個7個就不錯了,說明它能做的范圍還是比較有限,以此類推在智能感知領域、動力領域都有很多問題。”
第三,需求迫切性。有些行業(yè)并不一定非得要用機器人,主要還是在勞動力比較短缺、任務比較危險的領域。這樣的行業(yè)到底有多少是一個比較大的問題。現(xiàn)在很多行業(yè)業(yè)務模式也在變,未來5—10年是否像現(xiàn)在一樣還未可知。
第四,風險承受力。成鑫說:“企業(yè)能否接受機器人,還存在安全、隱私和數(shù)據(jù)問題,以及人類的自然心理問題。在護理、養(yǎng)老場景,如果護工變成機器人,大家心理上能夠接受嗎?”
上述要件都決定了機器人能不能,以及在什么時候、哪些領域進行普及。成鑫建議,看機器人產(chǎn)業(yè)發(fā)展時,可以圍繞上述四個方面去觀察。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.