![]()
機(jī)器之心編輯部
過去幾年,大模型把自然語言處理徹底重塑了。GPT 出來之前,NLP 領(lǐng)域的狀態(tài)是:每個任務(wù)一套模型,每個場景一批數(shù)據(jù),每個公司一條流水線,互不通用,邊界清晰。GPT 之后,這套邏輯被一個預(yù)訓(xùn)練底座 + 任務(wù)微調(diào)的范式整個替換掉了。
機(jī)器人行業(yè)今天的處境,像極了 2019 年的 NLP。
不同廠商的不同形態(tài)機(jī)器人,用著各自獨(dú)立的動作表示體系,數(shù)據(jù)互不兼容,模型無法復(fù)用。做一個新場景,基本上要從頭搭一套…… 當(dāng)模型與數(shù)據(jù)被深度綁定在特定形態(tài)和特定場景中,機(jī)器人所展現(xiàn)出的能力往往更像是一種精心調(diào)校的表演,而不是可以遷移、可以泛化的通用技能。
一個只能在特定場景跳舞的機(jī)器人,和一個可以在真實(shí)生活幫你占座的機(jī)器人,你會選哪個?
近日,阿里巴巴集團(tuán)旗下高德的 ABot 系列具身基座模型的發(fā)布,終于讓行業(yè)看到了機(jī)器人進(jìn)入開放世界的可能。
ABot 系列包括兩款基座模型:ABot-M0、ABot-N0前者負(fù)責(zé)機(jī)器人的「手」(操作),后者負(fù)責(zé)機(jī)器人的「腿」(導(dǎo)航)
這兩款模型各自在其領(lǐng)域補(bǔ)齊了行業(yè)能力缺口,ABot-M0 讓不同形態(tài)的機(jī)器人都能基于統(tǒng)一底座完成精細(xì)操作,ABot-N0 則讓機(jī)器人首次具備在真實(shí)開放環(huán)境中執(zhí)行長程復(fù)雜任務(wù)的能力。它們在具身操作和具身導(dǎo)航做到全面 SOTA,霸榜了 10 項(xiàng)全球權(quán)威評測
但更重要的不是這些數(shù)字,而是具身智能首次在操作和導(dǎo)航兩條核心鏈路,分別擁有了統(tǒng)一底座。開發(fā)者不需要再為每個機(jī)器人、場景重做一套系統(tǒng),而是基于這兩個底座去做進(jìn)一步研究。
如果說 GPT 的出現(xiàn)讓 NLP 從任務(wù)專用模型轉(zhuǎn)向通用基座,那么 ABot 系列的發(fā)布,標(biāo)志著具身智能正在經(jīng)歷同樣的范式躍遷,從為每個機(jī)器人、每個場景定制專用系統(tǒng),轉(zhuǎn)向用統(tǒng)一模型覆蓋多樣化任務(wù)的工程級底座時代。
具身智能,為什么遲遲沒有 GPT 時刻
語言模型之所以能夠演化出一種通用能力底座,是因?yàn)樗鼈兙哂薪y(tǒng)一表示(token)、統(tǒng)一架構(gòu)(基本基于 Transformer)以及可規(guī)模化的預(yù)訓(xùn)練。從而形成可復(fù)用、可遷移、可持續(xù)進(jìn)化的能力底座。
相比之下,具身智能長期缺失的,恰恰是這種「統(tǒng)一」。過去幾年,行業(yè)始終困在幾個結(jié)構(gòu)性瓶頸之中。
首先是數(shù)據(jù)層面的差異。語言模型的訓(xùn)練數(shù)據(jù)來自互聯(lián)網(wǎng)文本,規(guī)模龐大、結(jié)構(gòu)卻很統(tǒng)一,通過統(tǒng)一的 token 表示實(shí)現(xiàn)規(guī)模化訓(xùn)練,因此可以在同一架構(gòu)上持續(xù)堆數(shù)據(jù)、堆算力。而機(jī)器人的訓(xùn)練數(shù)據(jù)則是操作軌跡、導(dǎo)航路徑和三維場景信息,這類數(shù)據(jù)采集成本高、格式各異、天然碎片化,遠(yuǎn)不像文本那樣可以直接匯聚成統(tǒng)一語料,更重要的是他們的本體還不同,機(jī)械臂、機(jī)器狗和人形機(jī)器人的數(shù)據(jù)無法通用。
本質(zhì)在于動作表示和空間建模的不統(tǒng)一。在具身領(lǐng)域,不同機(jī)器人使用不同的控制頻率、坐標(biāo)體系和動作表達(dá)方式:有的以關(guān)節(jié)角為核心,有的基于末端執(zhí)行器位姿,有的采用絕對坐標(biāo)。這些差異看似只是工程實(shí)現(xiàn)方式的不同,實(shí)際上卻決定了數(shù)據(jù)能否共享、模型能否遷移。一套模型在某種硬件形態(tài)上訓(xùn)練完成,并不意味著可以直接遷移到另一平臺,因?yàn)閯幼骺臻g本身并不兼容。
動作表示難以統(tǒng)一,使得行業(yè)即便積累了大量軌跡數(shù)據(jù),也難以整合為規(guī)模化訓(xùn)練的基礎(chǔ);與此同時,空間理解能力的不足進(jìn)一步加劇了這一問題。機(jī)器人面對的是連續(xù)、高維、動態(tài)變化的三維物理空間,它不僅要看見,還要理解空間結(jié)構(gòu)、物體關(guān)系與可行動區(qū)域。缺乏穩(wěn)定的三維語義建模能力,使模型在復(fù)雜或長程任務(wù)中容易失效,魯棒性不足。
此外,對具身來說非常重要的導(dǎo)航能力仍然高度碎片化。相比固定工位上的機(jī)械操作,移動意味著要面對動態(tài)變化的環(huán)境、隨機(jī)出現(xiàn)的干擾,以及跨場景的任務(wù)切換。無論是跨樓層送物、在商場中跟隨服務(wù),還是城市級長程導(dǎo)航,導(dǎo)航都是具身智能邁向通用行動能力的前提。
但現(xiàn)實(shí)是,很多主流方法離散且碎片:一套模型用于位置導(dǎo)航,另一套模型用于語義導(dǎo)航,缺什么再補(bǔ)充什么。每個任務(wù)都能在局部指標(biāo)上取得一定成績,卻難以形成統(tǒng)一能力框架,機(jī)器訓(xùn)練和適用也就無從談起。
也正是在這樣的背景下,我們很難看到具身智能可以像語言模型一樣擁有可復(fù)用的具身底座。
從碎片化定制到底座化復(fù)用
而高德天然具備解決這些問題的能力,地圖與位置服務(wù)多年沉淀的大規(guī)模真實(shí) 3D 場景與空間語義資產(chǎn),恰恰是具身導(dǎo)航中最稀缺的資源;而長期面向億級用戶的工程落地經(jīng)驗(yàn),則意味著它更熟悉如何把系統(tǒng)真正跑在真實(shí)環(huán)境里。
ABot-M0:先動作語言統(tǒng)一,再談復(fù)用
具身操作的核心難題,用一句話說就是:怎么讓同一套模型,駕馭形態(tài)各異的機(jī)器人,完成各種各樣的操作任務(wù)。
ABot-M0 的解法是用「動作語言統(tǒng)一」(把異構(gòu)機(jī)器人的動作轉(zhuǎn)換為統(tǒng)一表示)降低數(shù)據(jù)割裂與訓(xùn)練成本。為了實(shí)現(xiàn)這一目標(biāo),ABot-M0 從「數(shù)據(jù)統(tǒng)一 — 算法革新 — 空間感知」三個方面進(jìn)行了系統(tǒng)性重構(gòu)。
![]()
技術(shù)上,它通過統(tǒng)一坐標(biāo)系、控制頻率和增量式動作建模,把來自不同平臺的操作軌跡數(shù)據(jù)打通,并構(gòu)建了一個時長超過9500 小時包含 600 多萬條軌跡、涉及 20 多種具身形態(tài)的混合訓(xùn)練集。更關(guān)鍵的是,這套數(shù)據(jù)不是靠私有采集堆出來的,完全基于公開數(shù)據(jù),這也意味著這條路徑在原則上通用的。
此外,為了解決動作格式、坐標(biāo)系和采樣率的不一致,高德還定義了標(biāo)準(zhǔn)化的預(yù)處理流水線:
- 所有動作均轉(zhuǎn)換為末端執(zhí)行器坐標(biāo)系下的增量動作(delta actions)。
- 旋轉(zhuǎn)采用旋轉(zhuǎn)向量編碼以避免奇異性。
- 應(yīng)用「pad-to-dual」策略,在共享框架內(nèi)支持單臂和雙臂任務(wù)。
- 訓(xùn)練期間在各數(shù)據(jù)集間進(jìn)行均勻采樣,以平衡任務(wù)和具身的分布。
這種統(tǒng)一的數(shù)據(jù)基礎(chǔ)打破了數(shù)據(jù)集間的壁壘,通過對齊各來源的時空結(jié)構(gòu),實(shí)現(xiàn)了穩(wěn)健的跨具身泛化。
算法層面,ABot-M0 提出了AML(Action Manifold Learning,動作流形學(xué)習(xí))。這個方法背后有一個直覺上成立的假設(shè):真實(shí)有效的機(jī)器人動作,并不是隨機(jī)分布在所有可能的動作空間里,而是集中在一個受物理規(guī)律和任務(wù)約束共同塑造的低維流形上。在這個流形上學(xué)習(xí),比在全空間暴力搜索更高效,生成的動作序列也更符合物理規(guī)律、更穩(wěn)定。
![]()
為增強(qiáng)空間感知,ABot-M0 還引入3D 感知模塊,增強(qiáng)模型對前后、遠(yuǎn)近、遮擋等空間語義的理解,在復(fù)雜環(huán)境中實(shí)現(xiàn)更精準(zhǔn)的操作決策。
效果上,在 Libero、Libero-Plus、RoboCasa 基準(zhǔn)測試中,ABot-M0 在包含復(fù)雜任務(wù)組合與動態(tài)場景擾動的設(shè)定下,平均任務(wù)成功率均達(dá)到 SOTA。在高難度的 Libero-Plus 基準(zhǔn)上,ABot-M0 達(dá)到了80.5%的任務(wù)成功率,比此前最強(qiáng)方案 pi0提升近 30%。這個提升幅度在工程上是有意義的,從 50% 到 65% 可能只是參數(shù)調(diào)整,從 50% 到 80% 意味著系統(tǒng)性的能力躍升。
![]()
但這次發(fā)布更值得關(guān)注的,不是這個分?jǐn)?shù)本身,而是它背后隱含的工程邏輯:一旦動作表示被統(tǒng)一,數(shù)據(jù)就可以跨平臺積累,模型就可以持續(xù)進(jìn)化,部署成本就會系統(tǒng)性下降。這好比一個正向飛輪,一旦啟動,效果會越來越好。
具身智能的 「GPT」 時刻,ABot-N0 攻克具身導(dǎo)航核心難題
如果說 ABot-M0 解決的是「手」的問題,ABot-N0 要解決的是「腿」的導(dǎo)航問題,更準(zhǔn)確的說,是機(jī)器人如何在開放的真實(shí)世界里自主移動、理解環(huán)境、完成長程任務(wù)。
這個問題比操作更難,因?yàn)樗牟淮_定性更高。操作任務(wù)通常在相對受控的近場環(huán)境里,機(jī)器人面對的是相對固定和理想的物理環(huán)境;導(dǎo)航任務(wù)面對的是動態(tài)開放世界,場景會變,人會出現(xiàn),路線會動,指令需要實(shí)時拆解和調(diào)整。更關(guān)鍵的是,長程任務(wù)的失敗往往是級聯(lián)的,一個子任務(wù)失敗,如果沒有容錯機(jī)制,后續(xù)全部崩潰。
導(dǎo)航,這個屬于高德的「舒適區(qū)」,想要在具身智能上實(shí)現(xiàn)突破,遠(yuǎn)比想象的困難。
當(dāng)前行業(yè)的主流做法是任務(wù)拆分:針對不同類型的導(dǎo)航任務(wù)(物體導(dǎo)航、語言指令跟隨、社交導(dǎo)航……)分別訓(xùn)練專用模型,各自優(yōu)化。這個做法有效,但存在一個根本性的上限:專用模型無法從異構(gòu)數(shù)據(jù)中提取統(tǒng)一的物理先驗(yàn),泛化能力受限,遇到訓(xùn)練分布之外的場景就會失效。
ABot-N0 的做法是全任務(wù)一統(tǒng):在單一 VLA(視覺 - 語言 - 動作)架構(gòu)內(nèi),實(shí)現(xiàn)五大核心導(dǎo)航任務(wù)的「大一統(tǒng)」
- 點(diǎn)位導(dǎo)航(Point-Goal):精確到達(dá)度量坐標(biāo),實(shí)現(xiàn)基礎(chǔ)避障與移動;
- 目標(biāo)物導(dǎo)航(Object-Goal):在未知環(huán)境中通過語義推理搜索并定位特定物體;
- 指令跟隨(Instruction-Following):嚴(yán)密對齊復(fù)雜的長程自然語言路徑;
- POI 導(dǎo)航(POI-Goal):識別興趣點(diǎn)并精準(zhǔn)進(jìn)入物理入口,解決「最后幾米」的室內(nèi)外銜接難題;
- 行人跟隨(Person-Following):實(shí)現(xiàn)對動態(tài)目標(biāo)的實(shí)時跟蹤,賦予機(jī)器人社會化交互能力。
![]()
ABot-N0 的數(shù)據(jù)、性能、任務(wù)概覽
相比只能覆蓋部分任務(wù)類型的導(dǎo)航模型,ABot-N0 在單一模型中統(tǒng)一五類核心導(dǎo)航任務(wù),讓長程復(fù)雜任務(wù)的執(zhí)行具備了結(jié)構(gòu)上的可行性。它不再為每種任務(wù)單獨(dú)設(shè)計(jì)一套系統(tǒng),而是在同一能力框架下完成不同約束條件下的表達(dá)。
這本質(zhì)上是一個更激進(jìn)的假設(shè),機(jī)器人在世界里移動和理解空間,底層邏輯是統(tǒng)一的,不同任務(wù)只是這個統(tǒng)一能力在不同約束條件下的表達(dá),在具體執(zhí)行中,機(jī)器只需在模型的調(diào)動下拆解任務(wù),而非在任務(wù)的驅(qū)動下調(diào)動模型。
在技術(shù)實(shí)現(xiàn)上,ABot-N0 打破了傳統(tǒng)的任務(wù)隔離方法,采用層次化的「大腦 - 動作」設(shè)計(jì)哲學(xué)。
- 認(rèn)知大腦:基于預(yù)訓(xùn)練 LLM,負(fù)責(zé)深度語義理解、任務(wù)拆解與空間推理,理解「幫我看看門口有沒有快遞」這種復(fù)雜意圖。
- 動作專家:利用流匹配技術(shù)生成精確軌跡,讓機(jī)器人動作不再生硬,能夠像人類一樣在復(fù)雜環(huán)境中穩(wěn)定、柔順地穿行。
![]()
數(shù)據(jù)側(cè)是另一個重量級投入:高德構(gòu)建了約8000 個高保真 3D 場景和近 1700 萬條專家示例的導(dǎo)航數(shù)據(jù)引擎。這個規(guī)模不是隨便能堆出來的,背后是高德地圖多年積累的時空數(shù)據(jù)資產(chǎn),3D 場景建模的成本和質(zhì)量,普通機(jī)構(gòu)幾乎不可能復(fù)現(xiàn)。
![]()
評測結(jié)果是,其在 CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大權(quán)威基準(zhǔn)測試中全面刷新了紀(jì)錄。其中 SocNav 成功率提升 40.5%,HM3D-OVON 物體導(dǎo)航成功率提升 8.8%。SocNav 這個方向尤其值得關(guān)注,機(jī)器人在有人的動態(tài)環(huán)境里安全、自然地移動,是服務(wù)機(jī)器人規(guī)模化商用的必要前提,之前一直是這個領(lǐng)域的硬骨頭。
![]()
Point-Goal 任務(wù):在 CityWalker 及 SocNav 上分別進(jìn)行開環(huán)和閉環(huán)評測
但最終讓 ABot-N0 從實(shí)驗(yàn)室走向現(xiàn)實(shí)的,是那套Agentic Navigation System 框架,這是一個把讀懂指令→任務(wù)拆解→執(zhí)行→感知→記憶→決策與糾錯串成閉環(huán)的代理式系統(tǒng)。高德用全球首創(chuàng)的代理系統(tǒng)跨越了從論文到產(chǎn)品之間那道最難的墻。
高德憑什么做成這件事?
具身智能這條賽道進(jìn)入者不少,為什么是高德先跑通了?
算法是一方面,但也不全是,因?yàn)樗惴ㄊ强梢宰汾s的,SOTA 只是實(shí)時的數(shù)據(jù)表征。高德真正的護(hù)城河在于兩點(diǎn):多年的空間智能探索、大規(guī)模高質(zhì)量數(shù)據(jù)與工程化落地能力。
高德做地圖和位置服務(wù)超過 20 年。這 20 年積累的,不只是道路網(wǎng)絡(luò)數(shù)據(jù),而是大規(guī)模真實(shí)世界的 3D 場景理解能力:建筑物的空間結(jié)構(gòu)、室內(nèi)室外的語義信息、人流動線的模式…… 這些東西,恰好是具身導(dǎo)航模型最需要、也最難靠短期采集補(bǔ)上的訓(xùn)練數(shù)據(jù)。
把地圖數(shù)據(jù)資產(chǎn)脫敏轉(zhuǎn)化為具身智能的訓(xùn)練基礎(chǔ),這個轉(zhuǎn)化本身就是一種核心能力。高保真 3D 場景、專家導(dǎo)航示例,模型建立并非資本驅(qū)動,它需要多年的數(shù)據(jù)積累、場景建模工程能力,以及把這些數(shù)據(jù)組織成有效訓(xùn)練集的系統(tǒng)工程。
操作側(cè)同樣如此。ABot-M0 對 600 萬條開源軌跡數(shù)據(jù)進(jìn)行統(tǒng)一清洗與標(biāo)準(zhǔn)化,看起來是數(shù)據(jù)整合問題,實(shí)則需要對操作任務(wù)的結(jié)構(gòu)、動作表示的差異、不同機(jī)器人形態(tài)之間的映射關(guān)系有深入理解。異構(gòu)數(shù)據(jù)的統(tǒng)一,本質(zhì)上是對任務(wù)抽象能力的體現(xiàn),而不是簡單的數(shù)據(jù)拼接。
如果說數(shù)據(jù)資產(chǎn)構(gòu)成了訓(xùn)練基礎(chǔ),那么工程化能力則決定了模型能否真正落地。
ABot-N0 已實(shí)現(xiàn)在真實(shí)四足機(jī)器人平臺的部署,并在邊緣設(shè)備上實(shí)現(xiàn)高效推理與閉環(huán)控制。這意味著模型不僅能在 GPU 集群中跑通,還能在算力受限、功耗受限、延遲敏感的邊緣環(huán)境中穩(wěn)定運(yùn)行。
這一步其實(shí)非常關(guān)鍵。很多具身團(tuán)隊(duì)擅長研究范式創(chuàng)新,卻未必擅長把系統(tǒng)真正放進(jìn)真實(shí)世界。高德的基因恰恰偏向工程,億級用戶規(guī)模的地圖服務(wù),要求系統(tǒng)長期穩(wěn)定運(yùn)行。把這種工程經(jīng)驗(yàn)遷移到具身系統(tǒng)中,使得可部署、可持續(xù)運(yùn)行成為設(shè)計(jì)目標(biāo),而不是附加項(xiàng),而這也恰好解決了具身智能進(jìn)入開放物理世界的核心命題。
因此,高德的差異化并不在于某一次算法領(lǐng)先,而在于數(shù)據(jù)與工程能力體系的集中體現(xiàn)。當(dāng)空間資產(chǎn)、數(shù)據(jù)治理能力與真實(shí)部署經(jīng)驗(yàn)疊加在一起,具身底座才真正具備長期競爭力。
結(jié)語
ABot 系列的發(fā)布,或許將在 1-2 年內(nèi)帶來直接改變:統(tǒng)一數(shù)據(jù)格式和預(yù)訓(xùn)練權(quán)重,讓中小團(tuán)隊(duì)無需從零積累百萬級軌跡。過去需要 6 個月、數(shù)百萬元成本的數(shù)據(jù)采集與訓(xùn)練,現(xiàn)在可能縮短到數(shù)周、數(shù)十萬元的微調(diào)成本。
開發(fā)范式也將從「重寫整套感知 - 規(guī)劃 - 控制系統(tǒng)」轉(zhuǎn)向「基于底座模型做場景化 fine-tune」。或許一個五人小團(tuán)隊(duì),可能在幾周內(nèi)完成過去需要數(shù)十人、數(shù)月交付的定制項(xiàng)目。
更遠(yuǎn)的未來,機(jī)器人能力可能變成可組合的 API:就像今天開發(fā)者調(diào)用 GPT 生成文案、DALL-E 生成圖片、Sora 生成視頻,未來可能直接調(diào)用 ABot 完成物理世界任務(wù):「幫我整理書架」「去倉庫盤點(diǎn)庫存」「在工廠巡檢設(shè)備異常」。
當(dāng)然,硬件成本、安全驗(yàn)證、數(shù)據(jù)閉環(huán)等問題仍然存在,具身智能距離真正普及還有不短的路。但當(dāng)統(tǒng)一表示開始降低訓(xùn)練門檻,當(dāng)模型可以在真實(shí)環(huán)境中持續(xù)運(yùn)行,這個行業(yè)至少邁出了從定制工程走向通用底座的一步。
它未必是終局,但方向已經(jīng)變得更清晰了。
下附此次高德發(fā)布的兩款具身基座模型的項(xiàng)目主頁及技術(shù)報告:
- ABot-M0 項(xiàng)目主頁|https://amap-cvlab.github.io/ABot-Manipulation/
- ABot-M0 技術(shù)報告|https://github.com/amap-cvlab/ABot-Manipulation/blob/main/assets/ABot-M0_Technical_Report.pdf
- ABot-N0 項(xiàng)目主頁:https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
- ABot-N0 技術(shù)報告:https://github.com/amap-cvlab/ABot-Navigation/blob/ABot-N0/ABot-N0_Technical_Report.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.