盡管當前學術界和產業界對人形機器人與具身智能投入巨大,但一個嚴峻的挑戰也隨之浮現:為何當前的機器人AI,在語言能力上表現出色,但在物理行動上卻步履維艱?

▍人形機器人的局限性與理解缺失
人類真實世界是連續、高維且充滿動態變化的復雜系統。當人形機器人的任務復雜度提升——例如,讓它從“在桌上抓取蘋果”變為“在雜亂廚房里找到容器并倒一杯牛奶”這類長序列任務,機器人的模型需要處理的變量和邏輯(如判斷瓶蓋是否需要擰開、杯子是否需要扶正)急劇增加。這導致所需的數據量呈指數級增長,而系統的成功率則大幅下降。
這種困境的根源在于,大多模型跳過了對世界本質的理解,直接在數據層面進行模仿。從指令“請幫我切開這個蘋果”到機器人完成動作,中間缺失了對幾何、物理、因果關系等關鍵“中間知識”的理解。沒有這些知識,模型的泛化能力便無從談起,只能在高度受控的環境中運行,一旦進入真實、復雜的場景便會失效。
▍技術的迭代與全新度量衡
如何讓機器人在復雜的物理世界中進行有效交互,一直是具身智能領域的核心挑戰。
圖靈獎得主Yann LeCun提出了“世界模型”(World Model)的概念,他認為真正的智能必須建立在對世界運作方式的理解之上。這個模型的核心思想是讓智能體在行動前,能通過內部模擬來預見“如果我這樣做,世界會發生什么?”,從而做出更優的決策。今年,這一理念也獲得了業界的廣泛回響,涌現出眾多相關研究。
![]()
與此同時,以 Sora 為代表的視頻生成模型的驚人進展,似乎為構建世界模型帶來了曙光。如果AI能夠“看見”并“想象”出行動的視覺后果,它是否就能夠解決上述問題?然而,我們必須認識到,預測像素層面的視覺變化,與真正理解其背后的物理規律(如因果、物體恒存、重力等)之間,存在著巨大的鴻溝
當前的視頻生成模型更像是一個視覺連貫性生成器,而非精確的世界模擬器。它生成的視頻可能在視覺上看似合理,但其中的物理過程可能是失真的:一個球的彈跳可能違反能量守恒,一次碰撞可能不遵循動量定律。模型學會了“推動”與“移動”在視覺上的關聯,卻沒有理解其背后的物理因果鏈條。這種缺失對于需要與物理世界精確交互的機器人是致命的。
如果說機器人在LLM時代,其核心是“規模定律”(Scaling Law)——更大的模型和更多數據帶來更強的能力,那么人形機器人與具身智能時代則迫切需要一個新的指導原則。
跨維在此提出了一種名為“效率法則”(Efficiency Law)的新思路。該法則的核心關注點不再是靜態的數據量,而是動態的數據生成效率。即:在給定的算力和時間預算下,一個智能體能以多快的速度,通過與環境的自主交互,自動化地生成高質量、蘊含物理知識的經驗數據,并據此提升自身解決問題的能力?
“效率法則”揭示了具身智能的核心瓶頸:我們缺的不是算力,而是將算力高效轉化為有價值物理經驗的機制。依賴人類示教或真實世界互動的方式,數據生成效率極低。要實現突破,必須構建一個能自動化、高效率生成高質量數據的“學習飛輪”。
▍跨維智能的解決方案:GS-World生成式仿真世界模型
基于以上思考,跨維智能提出了一套全新的范式:GS-World(Generative Simulation World Model,生成式仿真世界模型)。
![]()
GS-World代表了一次根本性的思想轉變:與其預測世界的外在表象(像素),不如生成世界的內在機理(物理)。它不是一個視頻生成器,而是一個可交互、懂物理、可微分的動態仿真引擎。
GS-World的核心能力,是以統一的生成式框架,直接產出驅動物理世界運轉的核心要素:
? 3D資產生成:自主生成剛體、軟體、流體等物體的幾何模型與外觀。
物理屬性生成:為資產賦予質量、摩擦系數、彈性模量等真實物理參數。
? 動力學模型生成:理解并生成物體間的作用力、約束關系和運動方程。
簡而言之,當GS-World面對一個場景,它思考的不僅僅是“畫面會如何變化”,更是“構成世界的元素是什么?它們遵循哪些物理規律?施加一個力會引發怎樣的因果傳導?”。它生成的是一個可供機器人反復實驗和驗證的“物理沙盒”,而非一段被動的視頻。
實現路徑
要實現Physical AGI,我們設想了一條清晰的技術路徑:讓VLA模型學會與物理引擎“合作”,并最終讓機器人大腦成為一個“懂物理”的引擎本身。
具體而言,不再去猜測物體運動的軌跡,而是學習調用和理解一個內置的、可微分的物理模擬器。當機器人觀察一個場景時,它會學習生成該場景的3D模型、物理屬性,并設定交互規則。這個過程是“可微分”的,意味著每一次模擬的成敗都能轉化為明確的數學信號(梯度),指導模型如何修正其內部參數。通過這種方式,模型學習生成的是由物理規律驅動的、可交互的動態世界。
更進一步,機器人最終能超越人類編寫的固定規則。通過觀察真實世界,可以自主學習并歸納出難以用公式描述的復雜物理現象(如線束穿過小孔、粘性液體流動),從物理規則的“使用者”變為“發現者”和“建模者”。這極大地彌補了理想化模擬與復雜現實之間的鴻溝(Sim-to-Real Gap)。
▍技能學習的新范式:在內部物理世界中規劃與演練
擁有GS-World后,機器人學習技能的方式將發生根本性改變。它可以在行動前,在內部世界里進行數萬次零成本、超高速的虛擬演練。
![]()
1.基于“可供性鏈”的任務分解
以“倒咖啡”為例,任務需要被分解。這個分解過程基于機器人對物體物理用途的理解,我們稱之為“可供性鏈”(Chain of Affordance)推理。
? 物體可供性 (Object Affordance):機器人從內部模型中知道杯子的位置、重量、材質以及如何抓握。
? 操作可供性 (Manipulation Affordance):在模擬中驗證“按下”按鈕的可行性,“傾倒”咖啡所需的姿態和力度。
? 空間可供性 (Spatial Affordance):理解杯子應被放置的區域,以及移動路徑上是否有障礙。
通過這種推理,機器人能將復雜任務自主分解為一系列物理上可行、邏輯上連貫的子任務。
2.閉環的“演練-評分-反思”
對于每個子任務,機器人在GS-World中通過強化學習或運動規劃進行優化。同時,它具“具身反思推理”(Reflective Embodied Reasoning)能力。如果在模擬中發現某一步反復失敗(例如“拿起杯子”),它會回溯并探索其他任務分解或技能執行策略,而不是盲目重試。這個“分解-演練-評分-反思”的閉環,構成了一個強大的“技能生成引擎”。

▍從虛擬到現實:通往真正可用的機器人智能
GS-World的最終價值在于解決“從模擬到現實”(Sim-to-Real)的遷移難題。
跨維智能提出的新一代VLA模型架構,其高層規劃腦(System 2)與低層執行腦(System 1)共享同一個源自GS-World的物理世界觀,確保了“思考”與“行動”在物理層面的統一。

最關鍵的是,GS-World通過學習物理本質而非視覺表象,解決了當前生成視頻類世界模型距離落地應用的核心難題。當機器人進入現實世界,與物體的運動學參數、動力學參數相關的物理法則是不變的。GS-World學習的正是這些超越視覺、連接虛擬與現實的“領域不變”知識。因此,在GS-World中學成的技能,能夠以極少調整甚至“零樣本”的方式,直接遷移到真實機器人上。
這引領我們走向一種全新的“引擎驅動學習”(Engine-driven Learning)范式。具身智能體擁有了一個永不枯竭的數據源——GS-World,可按需生成無窮無盡的訓練場景,可以在持續的自主探索中實現自我進化。我們甚至可以利用這套框架,在模擬中評估并優化機器人的硬件形態(如臂長、關節數量),實現軟硬件的一體化協同進化。
▍結語
我們正處在人形機器人與AI發展的關鍵路口:一條是繼續在數據與像素表象上進行模型訓練,追求在特定場景下的成功;另一條則是選擇更具挑戰但更穩固的道路,教會AI真正理解并掌握世界運行的根本法則——物理。
GS-World所倡導的正是第二條道路。它構想的未來是,AI不再是僅僅模仿人類行為的系統,而是能通過內部世界的物理推演來理解、預測并與世界進行創造性互動的理性行動者。我們堅信,這條路將為通往真正穩固、可解釋、可擴展的通用人工智能奠定堅實的基礎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.