允中 發自 凹非寺
量子位 | 公眾號 QbitAI
Scaling Law在物理世界失靈了嗎?
大模型重塑數字世界之后,物理AI成為了下一個征途。
但在自動駕駛之后,通用機器人正面臨著一道前所未有的工程天塹——
真實物理世界開放、連續且強因果約束,任務高度多樣、交互對象不可窮舉、失敗成本極高。
行業正達成新共識:
Scaling Law依然有效,但僅靠堆砌真實數據已觸及天花板
要實現規模化進化,通用機器人必須在行動前具備“理解、推演并評估物理世界”的能力。
于是,世界模型(World Model),以及進一步的環境與動作統一建模架構——World-Action Model(WAM),正在成為物理AI的關鍵基礎設施。
作為具身智能領域的代表性玩家,由上海交大系技術“雙子星”——何弢博士與廖文龍博士聯手掌舵的酷哇科技(Coowa),近期發布了其核心技術底座——COOWA WAM 2.0世界模型
這次升級標志著機器人開始從“動作復現”轉向“規劃推理”,完成了從模仿者向思考者的躍遷。
![]()
模仿學習的盡頭:為什么“閉環數據”不夠用了?
過去十年,深度學習的成功主要建立在“大規模真實數據驅動的自監督學習”之上,GPT系列正是這一范式的典型代表。
然而,如果將這一邏輯遷移到機器人領域,卻可以發現一個尷尬的分布外(OOD)陷阱。
語言系統的詞匯與語法規則雖然龐大,但終究是有限的,新樣本大多落在既有的語義流形之內。而物理世界截然不同——狀態與交互的組合近乎無限,且動作的后果無法僅由歷史共現模式推斷
在這樣的系統中,僅依賴真實數據的模仿學習存在一個致命的數學缺陷:累積誤差(Cumulative Error)
在長序列的多步決策中,微小的狀態預測偏差或動作執行誤差,會隨著時間和環境反饋被不斷放大。
這導致系統迅速偏離訓練數據的分布,進入模型從未見過的“未知區域”。一旦進入該區域,機器人行為失穩甚至災難性失效便不可避免。
更由于物理世界的不可逆性,我們無法像訓練AlphaGo那樣在真實世界中進行無限次的試錯。高質量交互數據采集成本高、長尾場景(Corner Case)復現難,構成了物理AI的“數據長城”。
因此,通用機器人必須引入反事實推演(Counterfactual Reasoning)能力——即機器人在執行動作之前,在腦海中預演“如果我這樣做,世界會變成什么樣”。

這正是World-Action Model (WAM)存在的意義。
范式重構:從“感知-執行”到“推演-決策”
傳統的機器人系統遵循“感知(Perception)→ 策略(Policy)→ 控制(Control)”的線性鏈路。
這種設計的局限在于,系統無法內在建模動作的潛在后果,本質上是一種高維的“條件反射”。
![]()
酷哇科技的COOWA WAM 2.0帶來的是一種系統級的范式升級,它是一個可學習的神經模擬器,通過統一建模以下三大元素,實現了可推演的決策能力:
- 世界狀態:可觀測的環境與對象表征;
- 動作候選:機器人自身與他體的可能行為;
- 狀態-動作-結果:統計關聯與因果演化。
在這一架構下,機器人不再盲目行動,而是基于對世界的理解進行“思想實驗”。

硬核拆解:COOWA WAM 2.0的四大技術支柱
為了實現上述能力,COOWA WAM 2.0在工程上構建了四大核心模塊,巧妙地融合了“快思考(直覺)”與“慢思考(推理)”。
1、基于語義的表征學習 (Semantic Representation Learning)
——機器人的視覺皮層
低層的像素信息難以直接用于決策,機器人需要理解畫面背后的語義。
該模塊利用圖像-文本對齊(Masking + 對比學習)技術,提取高層語義特征。

它將紛繁復雜的視覺輸入,映射為可理解、可計算的環境表征(Latent Representation)
這不僅解決了感知信息過載的問題,更為后續的直覺系統和推理系統提供了統一、可遷移的感知基礎,實現了跨任務與跨場景(如從環衛車到人形機器人)的泛化能力。

2、基于視頻生成的未來預測 (Video-based World Dynamics Prediction)
——物理世界的推演沙盒
這是世界模型的核心。
該模塊通過對環境狀態序列建模,學習物理規律、對象交互和場景演化模式,有點類似于Sora的視頻生成能力,但它更專注于動力學的一致性
通過自監督預測訓練,它能生成未來可能的動態場景,為機器人提供一個零成本的虛擬試驗場
在這里,機器人可以前瞻性地評估動作后果,從而規避現實中的風險,極大降低了累積誤差的影響。
3、直覺行動系統 (Intuition-driven Action Generator)
——系統1:快速響應的第一感
在開放環境中,機器人不能對每一個動作都進行耗時漫長的邏輯搜索。
直覺行動系統扮演了“系統1”的角色。

它基于環境的高維表征和模仿學習習得的經驗規律,不依賴逐步搜索,而是直接利用直覺模型預測潛在動作結果,快速并行生成多組動作候選
這使得機器人即便在面對突發狀況時,也能基于經驗生成合理的應對方案,保證了響應的實時性。

4、VLM宏觀約束 (Vision-Language Model Constraints)
——系統2:因果邏輯的守門員
直覺系統雖然快,但容易產生幻覺或違反長期目標。
此時,需要VLM(視覺語言大模型)介入,扮演“系統2”的角色。
在COOWA WAM 2.0中,VLM不直接生成底層的連續控制信號(因為不夠精準),而是承擔宏觀規劃與因果約束
- 宏觀因果約束:將任務目標轉化為高層約束,防止低層動作產生危險。
- 動作篩選與優化:在直覺系統生成的候選動作庫中,VLM根據常識和物理邏輯進行“剪枝”和“優選”。
這種“直覺生成+VLM約束”的互補架構,既保證了機器人動作的快速反應,又確保了決策符合人類意圖與物理常識。
從WAM到Robo City,構建物理世界的“新基建”
COOWA WAM 2.0的出現,標志著通用機器人正在從“單一技能模型”走向“通用認知底座”。
但在酷哇科技他們看來,技術架構的完成度只是第一步,商業系統的魯棒性才是檢驗物理AI是否成熟的終極標準。
得益于COOWA WAM 2.0帶來的極高泛化能力與低邊際部署成本,酷哇打破了具身智能領域長期存在的定制化陷阱和難以規模化魔咒,預計2026年全系機器人交付量將突破10,000臺,并在全球50多個城市及地區實現常態化運營。
更具里程碑意義的是,酷哇近期宣布其已率先實現年度EBITDA(息稅折舊攤銷前利潤)回正,證明了其通用機器人已從依靠資本輸血的科研原型,蛻變為具備自我造血能力和商業確定性的工業級產品。
![]()
在這一商業基石之上,酷哇正在構建一個被稱為“Robo City”的未來城市圖景。
在酷哇的構想中,未來城市中的數萬臺異構機器人將由一個個孤立的個體,躍升為通過WAM共享同一個“世界認知”的智能集群,具體包括以下組成部分:
- L4級無人小巴(Coobus):在城市微循環中高效接駁,打通出行的“最后一公里”;
- 城市管家機器人:穿梭于CBD與公園,化身為流動的智能交互終端,基于人流熱力圖主動尋找需求,實現“貨找人”的動態商業閉環;
- 泛具身服務機器人:在無人商超與園區內部,自主完成貨架盤點、補貨,以及跨樓層的物資垂直流轉。
它們共同構成了一套覆蓋全城的物理智能體網絡(Physical Agent Network),像水電網一樣,成為維持現代城市高效運轉的新型基礎設施
![]()
萬臺通用機器人重構現實,WAM在沙盒中推演未來,物理AI才真正迎來了屬于它的高光時刻。
酷哇科技,不僅是這套新基建的定義者,更是跑在最前面的破局人。
真是酷哇~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.