一水 發自 凹非寺
量子位 | 公眾號 QbitAI
等等——你是說,高德也闖入具身智能賽道了。
咱品,咱細品。一個國民級導航APP,怎么就和機器人、機器狗這些鐵家伙聯系起來了。
難道說,高德也開始跟風搞噱頭了??
![]()
細一吃瓜才知道,誤會了家人們:
這件事并非噱頭,人家不僅有實打實的東西,而且成績還位列全球第一梯隊。
揭開面紗你會看到,高德這次帶來了首個面向AGI的全棧具身技術體系ABot——
AGI、全棧、具身,這幾個詞我都懂,但放在一起到底啥意思?
再一看才明白,原來這是一套讓機器人/機器狗(當然也不止這些),從炫技表演到真正走進現實世界幫大家干活的完整解決方案。
大多數行業玩家還在卷單點突破的時候,高德卻率先把數據、模型、Agent從下到上全打通了。
而且得益于地圖時代攢下的底層數據優勢,其世界模型近期在依托CVPR 2026 Video World Model Workshop舉辦的國際挑戰賽中,分數超過谷歌英偉達。ABot體系橫掃具身智能全球15項SOTA,躋身全球第一梯隊。
看到這兒,估計你和我一樣好奇:
一個做導航的,憑什么能在具身智能賽道跑到前面?
(別急,咱火速開扒gogogo)
原來不是“數據多”就行了
答案,很多人第一反應可能是“數據”。
畢竟瞟一眼高德ABot全棧具身技術體系,最底層的就是數據。
- 數據層:ABot-World可交互世界模型
- 模型層:導航基座模型ABot-N/執行基座模型ABot-M
- Agent層:機器人應用層操作系統ABot-Claw
但如果你只看到“數據”,那就錯過了高德真正的殺手锏——
它沒有停留在“數據多”,而是構建了一個“物理優先、動作可控、閉環進化”的機器人世界操作系統。
這是一個從“視覺渲染范式”向“可微分物理引擎范式”的根本性遷移。
當其他模型還在生成“看起來像”的視頻時,高德的ABot-World已經在輸出“符合物理規律”的動態變化過程。
它不只告訴你“發生了什么”,更告訴你“為什么發生”、“如果這樣做會發生什么”。
而這,才是它成為全球唯一三項指標(物理合規性/動作可控性/零樣本泛化)全面SOTA的真正原因。
所以,與其說高德贏在“數據”,不如說它贏在范式創新+系統工程+物理智能內核。
![]()
核心解決思路:可交互世界模型
具體來說,面對“如何讓機器人理解真實物理世界”這一終極挑戰,高德沒有選擇傳統的“采集→標注→訓練”路徑,而是另辟蹊徑——
它沒有去“收集數據”,而是去“重建物理世界”。
傳統方法要么靠人拍(眾包),要么靠機器跑(遙控),成本高、效率低、覆蓋窄。
而高德的答案是:
與其等待機器人在真實世界中緩慢積累經驗,不如先在高保真的數字世界中,高效、批量地生產具身智能所需的一切物理交互場景。
而這,正是高德推出的可交互世界模型ABot-World的核心使命——
構建一個可交互、可推演、可進化的機器人世界操作系統。
等等,這不就是數據合成、數據仿真那一套嗎?
繼續深挖才發現,雖然二者思路看起來相似,但底層邏輯其實不太一樣。
個人理解,合成仿真有點像“照貓畫虎”,目標是讓模擬盡可能逼近真實。
而高德恰恰相反,它不是從零去模擬真實,而是基于現成的真實世界數據,把場景還原出來拿給機器人用。
所以,哪個更精準就不用多說了吧…
說實話,對高德來講,“精密重建與理解物理世界”幾乎就是自己的看家本領——
畢竟它每天都在做的,就是把來自衛星、街景車、眾包設備的大量數據,一點點拼起來,變成一個能被機器理解和計算的數字世界。
emmm……光看文字可能還有點抽象,但轉念一想:
這不就是我最近騎行時打開高德看到的畫面嗎?
只不過以前是給人交互,現在則更往底層走——變成了可以讓機器“理解”和“交互”的訓練環境。
![]()
到這里,我已經搞懂高德ABot-World背后的原理了,但我想知道的可不止原理——
具體方法論呢??
所以我又接著扒了一下高德ABot-World的具體運作過程。
具體落地:一套雙引擎架構
先從最直觀的外觀說起,ABot-World采用的是雙引擎驅動架構:
- ABot-3DGS:物理世界的“數字孿生工廠”
- ABot-PhysWorld:因果推演的“物理思維引擎”
一開始還以為這不過是簡單的“數據生成+模型訓練”,但看完才發現,它這是一個完整的物理智能操作系統。
![]()
先說ABot-3DGS。
都工廠了,你就知道高德這是在對傳統那套“貴、慢、覆蓋不全”的數據生產方式,來了一次徹底的重拳出擊。
具體來說,它這次干了這樣一件事:
以高德積累的厘米級城市、道路、室內空間數據+真實軌跡數據為基礎,結合前沿的3DGS技術,構建可編程的數字孿生空間。
劃重點,可編程。說白了就是,現在你可以隨心所欲生產數據了。
在ABot-3DGS里,數據不再受制于采集條件——任意視角、光照、遮擋狀態都可以直接生成,機器人形態也能靈活切換,不同執行體之間的差異被抹平。
更關鍵的是,這套體系可以系統性補齊那些過去最難覆蓋的部分:
長尾交互場景(也就是機器人容易翻車的地方)。
通過大規模組合與仿真,極端情況、突發干擾都能提前構造出來,最終把覆蓋率推到99%。
就是說,模型最容易出問題的那一小撮情況,基本都被提前見過、練過了。
還有一個更關鍵的突破——
這里的“空間”不是只有幾何外觀,而是帶物理屬性的。每個物體都會被賦予質量、摩擦系數等參數,從一開始就構成一個可計算、可干預的物理環境。
啥叫可干預?其實就是通過編程改參數。
比如把一個物體的質量調大,機器人抓取時需要的力度、軌跡都會隨之改變;把地面的摩擦系數調低,同樣的動作就可能打滑失敗。
于是你發現沒,ABot-3DGS已經不是數據增強工具,而是在主動創造一個比現實更豐富、更可控、更物理一致的“訓練宇宙”。
![]()
好,現在我已經明白ABot-3DGS可以解決“數據稀缺”的問題了,但我還是不清楚其中的細節:
高德積累的那些真實時空數據,是怎么一步步變成“機器人能用的訓練材料”的?
順著網線再扒了一圈,腦海里自動浮現了這樣一句口號:一翻譯二重建三Run。
“一翻譯”是指先把數據轉成機器能讀懂的“多模態Clip”。
比如騎車經過一個路口,高德記錄下來的不只是“一張圖”,而是一整套信息——
包括路口長什么樣(圖像)、紅綠燈在哪(空間位置)、現在是紅燈還是綠燈(狀態)、你是直行還是準備轉彎(行為),甚至還包括周圍有沒有行人、車輛在動。
所有東西打包在一起就是一個Clip,而高德手里有千萬級這樣的Clip。
當機器拿到這些信息后,ABot-3DGS就能把路口、街道、商場這些地方重建出來,形成萬級規模的3D真實場景。
P.S. 看了下萬級規模的概念,基本上能覆蓋99%的典型生活場景了。
而且由于前一步拿到的信息都是自帶物理規則和空間邏輯的,所以這里的3D數字場景也都是“活”的。
然后就是最后一步——Run起來。
把機器人丟進去,讓它在里面走一遍、做一遍,千萬級訓練軌跡數據,就這么批量生成。
![]()
到這里,剩下的問題就只有一個了:
怎么解決“懂物理”這個行業公認的老大難?
ABot-PhysWorld為此而生。
它基于14B參數的DiT主干構建,本質是一個物理思維引擎,回答的是機器人最核心的問題:
“如果我這樣動,接下來會發生什么?”
為了打造ABot-PhysWorld,高德做了三件不同尋常的事:
數據層面,高德精選300萬條真實操作視頻,用VLM+LLM雙階段標注,構建四層級物理語義結構(意圖→動作→軌跡→物理關系),奠定因果推理基礎。
簡單來說,就是將數據拆解成機器人更易“消化”的結構化信息:
- 宏觀層(意圖):自然語言描述整體任務目標,如“抓取并放置蘋果”。
- 中觀層(動作序列):動詞-名詞短語序列,如“接近→抓握→提起→移動→釋放”。
- 微觀層(軌跡細節):記錄笛卡爾軌跡、相對運動、夾爪狀態,如“末端沿Z軸下降5cm,夾爪閉合至20mm”。
- 場景層(物理關系):描述接觸、支撐、包含關系及任務結果,如“蘋果與桌面接觸,被夾爪穩固抓握,成功放置于袋中”。
看到沒,這套標注流程不僅在告訴機器人“發生了什么”,更在解釋“為什么發生”。
![]()
訓練層面,高德摒棄傳統MLE(像素相似度優化),引入“物理判別機制”。
所謂MLE,是指給模型看大量真實視頻,讓它預測“下一幀應該長什么樣”,預測得越像真實的那一幀(像素差異越小),得分越高。
換言之,這一機制下模型只關心“畫面對不對”,不關心“物理對不對”。
所以高德通過兩個核心組件,把優化目標從“像素相似度”轉向“物理一致性”:
- Proposer module:負責根據當前任務,列一份物理規則清單,說清哪些能做,哪些絕對不行。
- Scorer module:對模型生成的多個結果逐幀打分。
然后用Diffusion-DPO強化合規行為——
物理正確就獎勵,物理錯誤就扣分。
反復糾正下來,模型自然學會了“什么動作不違反物理”。
至此,ABot-PhysWorld已經能夠根據輸入的末端位姿和夾爪狀態,推演出未來的時空動力學變化——指令即因果,不再只是像素層面的“看起來像”。
![]()
輸出層面,ABot-PhysWorld的每一幀不僅是像素,更是包含質量、接觸力場、慣性張量的可微分物理狀態快照,支持“動作條件化推演”與“零樣本泛化”。
這意味著,給它一個動作指令(比如“下降5cm、夾爪閉合”),它就能精準算出接下來會發生什么,而不是靠“猜”。
哪怕遇到從沒見過的物體或機器人,它也能根據質量、摩擦、慣性這些通用物理規律做出合理判斷,不需要重新訓練。
這三招下去,結果是,那些困擾行業已久的“低級錯誤”開始從根源上消失了——
物體不會穿透、夾爪不會無接觸抓取、動作不會反重力懸浮。
因為,機器人已經不再是機械執行指令了,它開始知道“為什么不能這么做”。
而當把兩個引擎放在一起,你會發現ABot-World內部已經形成了一個持續增強的“數據-模型”飛輪。
ABot-3DGS負責造數據,ABot-PhysWorld負責學物理——
前者不斷生成高質量訓練材料,后者不斷提升對真實世界的理解。
但這個飛輪不止于此。
ABot-World不是一個靜態模型,而是一個具備自我修正能力的認知基座——
它還能接入真實世界的執行反饋,讓自己越用越準。
具體來說,它支持完整的VLA閉環(預測→執行→反饋→自我修正)。
比如機器人根據ABot-World的推演去抓杯子,結果實際執行中夾爪滑脫了。這個誤差信號會立刻回傳給ABot-PhysWorld,模型自動調整參數,下次預測就會更精準。
對整個行業來說,這種“自生長、自修正、自適應”的能力,意味著機器人不再依賴人類演示,而是能在真實環境中持續進化。
而這,或許才是AGI時代機器人應有的“操作系統級”能力。
![]()
到這里,我對高德如何使用自己的數據已經很清晰了,咱捋一捋:
核心解決思路是“可交互世界模型”,世界模型的數據來自ABot-3DGS,經“一翻譯二重建三Run”加工成訓練材料,物理對齊則交給ABot-PhysWorld完成。
這一整套下來,高德本質上其實干了兩件事:
一是把數據生產成本打下來了,二是把“物理正確”這件事,真正嵌進了系統里。
成本下降,意味著能喂給模型的數據量可以做到足夠大;物理正確,意味著喂進去的數據質量足夠真。
當“量大”和“真實”同時滿足,模型看到的不再是零散樣本,而是接近真實世界分布的數據——
于是它學到的也不再是“某幾個場景的解法”,而是更通用的物理規律。
這樣一來,具身智能最后的大BOSS——泛化問題,也就真正有了被攻克的可能。
就是說,數據開始反過來定義模型能力本身以及邊界了……
為什么是高德?
看到這里,估計大家和我一樣,終于反應過來高德憑啥跑到具身賽道前列了。
說白了,這不是一次跨界,而是一次升維:
從給“人”導航,到給“機器人”構建物理世界的操作系統。
高德真正的護城河,從來不只是“數據多”——
還有過去地圖時代練出來的空間理解、地圖構建、實時更新能力,這些共同構成了它難以被復制的底氣。
這當中,尤為值得一提的就是一張關鍵王牌:業界領先的POI(興趣點)數據庫和路網語義信息。
![]()
說人話就是,高德給ABot-World提供的數據都是帶“語義”的——
不只是幾何軌跡,還有“這里是星巴克的入口”、“前方是人行橫道”、“左轉50米是停車場出口”等語義錨點。
為什么這很重要?
因為行業里大多數機器人的導航訓練,用的只有幾何坐標和視覺特征。
機器人只是知其然,而不知其所以然。
它可以學會從A走到B,但很難理解為什么這里要繞行、為什么這里要停一下、為什么這條路更安全。一旦環境稍微變化,比如多了行人、臨時施工、規則調整,就很容易出錯。
而帶語義的數據,相當于把“規則”和“常識”一起教給它。
這也是為什么,它更容易直接落到真實世界里用。
恰逢北京亦莊機器人半馬,高德也帶著它的四足機器狗亮相了——
它已經能幫助盲人朋友走出家門,實現精準導航。
![]()
實際上,拋開所有技術不談,從地圖時代到現在,高德的角色其實并沒有變——
以前,它是連接人和現實世界的基礎設施;現在,它開始變成連接機器人和物理世界的基礎設施。
只不過服務對象變了,能力邊界被放大了。
![]()
當然更重要的是,高德已經決定把ABot-World開源了。
它正提供一個統一的、物理合規的、可進化的機器人世界模型操作系統,讓所有開發者都能在其上構建自己的Agent、訓練自己的機器人。
從這個角度看,高德這次亮劍的并不只是一款產品,而是一個面向下一代機器人智能的底層平臺。
有了這個平臺,行業就不用再各自重復造輪子了,以前數據不夠、仿真又不夠真的問題,也會被系統性緩解。
由此我們看到,一個統一的“操作系統”正在成型,而生態也將圍繞這一底座快速收斂并加速爆發。
只能說,高德的心思不要太好懂(doge)——
一邊把底座鋪好,一邊把生態帶起來。
等大家都在這套體系上跑起來,它自然也就站在了具身賽道最核心的位置。
One More Thing
2026年,具身智能賽道依然熱火朝天,融資紀錄不斷刷新。
但歷史經驗告訴我們:
當行業在底層基礎設施上開始成型,局面就會迅速收斂。
就像TCP/IP統一了網絡連接方式,Linux成為事實上的操作系統底座,云計算把算力變成公共資源——
現在的具身智能,正站在從“百花齊放”走向“生態收斂”的臨界點。
而高德,已經率先亮劍。
橫掃15項SOTA、“拿下全球唯一三項指標全面領先”、發布首個“物理優先”的世界模型操作系統——
這些不只是數字和稱號,而是它已經站上牌桌的證明。
站在高德的角度而言——
無論最終誰能勝出,它都已經為行業鋪好了通往AGI的第一塊基石。
(好好好,原來你小汁打的是這個主意…)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.