![]()
“開放環境具身” 的高德答案。
文丨江思遠
4 月,北京亦莊的一處紅綠燈路口,一只藍色的機器狗正在原地安靜等待。
綠燈亮起,機器狗邁步,通過身上牽引繩傳導,提示身后的主人跟上——那是一位視障大學生。
這是高德四足具身機器人 “途途” 第一次公開上路。可能也是具身智能行業,第一次用這樣的方式面對公眾——不是表演,不是展示,而是一場真實的導盲檢驗,只有真實的道路、人流,和身后的視障同伴。
![]()
機器導盲,很難嗎?
當天,除了過紅綠燈,途途的腳步還引領著他的主人,完成了一系列挑戰:規避動靜態障礙,連續繞行穿越狹窄通道;實時預判、靈活避讓突然出現的干擾;穿行密集人群,自主尋找補給站等。
近兩年來,對很多人來說,具身智能最典型的畫面發生在封閉空間,或者人工預設遙控的場景里:在屋里疊衣服,彎腰提起一個杯子;或者走到空地上,沿著預先安排好的路線,完成一段展示和表演。
但它們有一個共同前提。機器人所處的環境被事先周密地整理過,背景干凈、變量有限、任務邊界清晰,偶發因素被壓到了最低。
而 “導盲” 幾乎和上面所有 “可控要素” 背離:
在一個無限開放、持續變化的世界里,機器要同時判斷空間、障礙,以及每一步的風險。人會突然停下來、自行車會斜著穿過路口、盲道被占……還有低垂下來的樹枝、臺階、積水——所有這些時刻變動的要素,都不會提前打招呼。同封閉環境的 Demo 相比,這是完全不同的難度級別。
高德工作人員在接觸視障用戶和相關機構之后,一個明顯的感受是:很多普通人默認成立的通行條件,對視障者來說并不成立。普通人把 “到達” 理解為從 A 點到 B 點;視障者面對的卻是另一套問題:這個路口能不能過?有什么?怎么過?安不安全?很多靠經驗和直覺就能完成的判斷,到了這里都變成了門檻。
對視障者來說,獨立出門是極其困難的一關;其實對機器人來說,也是如此。 “走出家門” 意味著機器要有極高的開放環境導航能力,對物理空間有持續且深入的理解,同時和人的步速配合,理解人的指令,最后還要滿足近乎苛刻的安全標準——一旦失誤,可能危及用戶人身安全。
因此對具身行業來說,導盲不是一個偏門場景,而是把問題提得更尖銳了:行,還是不行?不會給任何容錯空間,沒法靠后期剪輯回避問題,那些在實驗室里還勉強能成立的 demo ,都會在現實世界露餡。
行業里早已不缺生產出來的機器人,越來越多人開始對各種漂亮 demo 發出疑問:它到底是在理解世界,還是只是在表演一套排練過很多遍的流程?
高德挑選了一個幾乎不允許出錯的場景。就是想要驗證:具身智能,到底能不能真正融入現實世界?
一條狗的使命:全自主走向開放世界
在我們和高德具身業務負責人誠卿、具身算法負責人徐牧的交流中,他們把目前具身智能面臨的問題概括為:數據缺乏、泛化能力不足,以及模型和產品之間的斷層。
這也是具身智能和語言智能最大的不同。語言模型可以靠互聯網語料快速擴張能力邊界,哪怕有噪音和偏差,也能在海量試錯中摸索出一些穩定運行的范式;具身智能則不同,機器人和世界打交道,需要對物體、空間、動作、時間、意圖之間的復雜交互關系有深刻理解,容錯率更低,也更難標準化。
高德給 “途途” 的定義是 “開放環境全自主具身機器人”。其實拆開來看,重點不在 “具身機器人”,而在 “開放環境” 和 “全自主”。前者意味著它面對的并非一個被規劃好的空間,后者意味著它不能依賴遙控和預設路線。這兩個詞,差不多劃出了和行業內多數產品的的邊界。
根據高德官方的表述,途途有三層遞進的能力:能出門、會思考、會導盲(即能干活)。從整個行業來看,過去并沒有具身產品能夠同時做到這三點。
“能出門” 不只是能邁開腿走路。今天很多機器人已經能在室內環境里完成導航,也能在小范圍內避障;但只要走到開放環境中,各種突發隨機要素會讓一套在實驗室控制下的流暢系統,迅速崩潰。
而地圖導航一直以來長期處理的,正是 “開放” 問題:這種能力需要海量豐富、多元、精準的物理世界動靜態數據和解析能力支撐,平時不太會被當作前沿技術談論,但一旦被放到具身場景里,它的重要性就凸顯出來——機器人要能出門,它需要應對真實開放世界的各種突發狀況,更加精準無誤地抵達目的地。
“會思考” 則是更高一維度的能力。如今的很多具身系統,更像一種被觸發的執行器:收到命令,完成動作,任務隨之立刻結束。它們能做的事確實越來越多,但很少真的像在 “理解” 一個場景。
高德認為機器人在動作之前,需要先對環境、空間和用戶意圖形成一個判斷。例如用戶對機器人說 “我渴了”,那么機器人能意識到其背后的言外之意,這是一個待完成的真實需求:去哪里買水?如何規劃路線?先嘗試什么?如果失敗了怎么辦……這些問題需要成為思考鏈路的一部分。
這種鏈路和第三層 “能導盲” 緊密銜接。而 “導盲” 這一極高難度場景背后對應的,則是具身機器人在執行通用泛化任務方面的超高要求。
很多機器人都愛秀單項能力,因為這樣最直觀,也最容易做出效果。但用戶需要的從來不是單項能力,而是一整個連貫操作:從接受一個不那么精確描述的需求開始,到在環境變化中不斷修正路徑和動作,直到最后把目標完成。
這和現實世界里人的決策類似,任務幾乎從來不是一次性完成的,它總帶著偏差、意外和中途變化。
如果說 “能出門” 解決的是移動能力,“會思考” 解決的是認知水平,那么 “能導盲” 就代表更廣泛的產品場景落地。只有這三點成立,機器人才有可能從封閉場景里的展示品,變成現實生活中的實用助手。
三位一體,全棧具身智能體系
如果只把途途理解成 “另一個機器人產品”,很容易低估高德做具身智能的決心。
高德真正想展示的并不只是硬件,而是一整套把地圖導航能力、空間環境數據和機械執行操作連接起來的全棧具身技術架構——無論場景和本體形態如何變幻,其背后的架構應該是統一的。
根據他們對晚點的介紹,支撐途途的是一套名為 “ABot” 的完整具身技術架構,大體分成三層:數據與世界模型層、模型與 skill 層、Agent 操作系統層。
其中,數據是高德沉淀更深、優勢更明顯的地方。多年來,高德積累了大量物理世界數據:道路、路口、建筑、交通流等素材,以及在地圖服務中積累的各類異常反饋與糾錯數據。這些多源數據最終融合衍生出一個足夠復雜、也更接近真實世界的訓練底座——ABot-World。
作為一套可交互的世界模型,ABot-World 不僅能讓模型學到幾何軌跡,還能理解各種復雜的物理環境語義,比如 “前方是人行橫道”,或者 “左側 50 米是停車場出口”,從而成為了接近物理世界的訓練環境,機器人可以在里面反復練習。
最近在 PBench、EZSbench、WorldArena、Agibot World Challenge 等主流評測中,ABot-World 均已實現登頂。
第二層是模型層。以 ABot-NO 與 ABot-M0 為核心,其中 ABot-N0 是導航基座模型,解決的是開放環境里的移動問題;ABot-M0 則更偏向操作與執行。它們在各種評測中同樣取得了 SOTA (state-of-the-art)的表現。
在這一層里,不同模型被視為 Skill,導航、移動、操作等技能模塊:一個機器人從接受用戶指令,到導航行走,再到進入室內找到目標位置,這個過程理應是多種技能需求的混合。
再往上,是名為 ABot-Claw 的 Agent 操作系統層,也是整這套技術架構實與物理世界交互的關鍵。
模型能力再強,如果缺少一個中樞把意圖理解、空間記憶、任務拆解、工具調用、執行監控和糾錯重規劃串聯起來,系統依舊只能停留在 “有勁使不出” 的階段。ABot-Claw 就可以持續組織信息、排列能力優先級,它的規劃器以端云一體的大模型為推理引擎,甚至具備閉環反思與自我糾錯能力。
高德還提出了一個概念:Map as Memory。
傳統機器人往往只有局部感知,看到什么處理什么,視野之外的信息很快變成空白。高德的思路是,先給機器人一張持續存在的世界底圖,再把視覺、感知、動作嵌進這張底圖里,實現像人類一樣,在更長、更穩的空間記憶里做決策。
這個三層 ABot 體系,代表了高德想要建立的 “飛輪式” 具身技術路線:涵蓋數據、模型、應用三層,彼此深度咬合、互為引擎,實現 “數據驅動模型、模型服務應用、應用反哺數據”,克服數據稀缺、仿真鴻溝與技能泛化三大行業瓶頸,形成持續自我進化的完整閉環。
空間智能:從導航到具身
把具身智能放到高德自身的發展脈絡里看,這并不算一次突兀的跨界。
如果說高德過去做的,是把世界描述清楚:路在哪里,店在哪里,擁堵怎么出現,用戶該怎么走,怎么更準確地到達……具身則是把這件事再往前推一步:不僅描述世界,還要理解世界,并最終通過機器,在這個世界里自主行動。
去年,高德對外宣布 “AMAP-AI Inside” 戰略、將自身發展主題升格為 “空間智能”,導航不再只是靜態底圖和路線規劃工具,而是具備思考和推理能力的空間智能體。只是在當時,這種智能體還主要存在于手機和車機里,如今則是第一次擁有了途途這個身體,開始真正走進物理世界。
多年來,那些每天在高德地圖各終端發生的導航糾錯、定位漂移、路況變化、入口偏差,還有規模化的行為驗證與反饋,匯聚成高德對物理世界的理解。這是高德具身智能業務最深的護城河,也是其選擇的空間智能路線,想要貫徹的核心理念。
高德 CEO 郭寧說,空間智能對高德而言是 “終局”,并且不是高德選擇了空間智能,而是本身就長在了這片土壤之上。
這可能也是高德和很多具身創業公司最大的區別。后者通常是先做機器人,再想方設法補上一個 “理解世界的大腦”;高德是先握著一套現實世界數據和空間理解體系,再決定讓機器人加入其中。
很顯然,高德確實站在了一個相對稀缺的起點上:它不是從零開始認識世界的。
科技向善與通向 AGI
在采訪過程中,誠卿和徐牧都說,導盲場景是在仔細遴選后確定的。一方面是作為公益項目,填補導盲服務的巨大空缺、滿足視障者的強烈剛需。
中國有 1700 萬視障群體,而導盲犬僅有約 400 只,同時導盲犬訓練周期長,成本高,也會受生物本能和環境干擾——它們是視障者的好幫手,但可能還不是最理想的答案。而高德途途,不僅符合專業導盲犬的極高標準,還沒有情緒波動、不會疲勞生病、服役周期長且能隨著算法迭代持續進化。
另一方面,如前文中所提到,導盲可能是當下具身智能最有挑戰的切入點。高德選擇了相對務實的做法。當行業還在反復爭論什么才是最優先的產品形態(四足、輪式、人形……)時,先找到了導這個具體場景,縱深探索。
四足機器人是不是終極答案?可能對于高德來說并不重要。ABot 技術棧將會適配各種機器人產品形態,只是對于導盲來說,四足已經是一個足夠合適的載體:穩定成熟,能夠承載導盲和開放環境導航,所要求的一整套能力驗證。
途途并非又一款具身玩具。它更像高德首次嘗試將過去系統性的積累,完整交付給一具具體的 “身體”。
為 “人” 導航的智能沉淀,也正成為引導 “機器人” 走進現實世界的操作系統。
除了作為唱歌跳舞、情緒消費的娛樂產品外,機器人或許真的可以進一步融入現實世界,改善人們的生活,哪怕從局部微小的一點開始。
題圖來源:《銀翼殺手》
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.