![]()
新智元報道
編輯:艾倫 定慧
【新智元導讀】具身智能如何突破「遙操作」的數據桎梏?商湯聯合創始人王曉剛領銜的大曉機器人,交出顛覆性答卷——發布全球首個開源商業落地世界模型「開悟3.0」。
在通往AGI的狂歡中,圖靈獎得主Yann LeCun卻一直像個執著的「反叛者」。
他不止一次給大語言模型(LLM)潑冷水,直言靠預測下一個字符的概率游戲,永遠無法觸及真正的智能。
他眼中的未來,屬于「世界模型」。
直到李飛飛團隊World Labs發布的Marble,當大家親眼看到那個可以生成、互動且符合邏輯的3D虛擬世界時,LeCun描繪的圖景才終于具象化了。
為什么實現AGI需要世界模型
為什么我們如此迫切地需要世界模型?
因為基于大語言模型的AI在物理世界里,是個嚴重的「偏科生」。
現實數據的采集太苦、太慢了!
教會機器人認識一件紅衣服,換成綠色的它可能就「懵」了;
更別提那些極端場景——我們總不能為了訓練自動駕駛,真去撞毀一千輛車吧?(還有更多低概率的corner case)

于是,一場圍繞物理世界的「數字重構」悄然打響,并分化出三大戰場:
- 游戲VR虛擬世界生成:以李飛飛的Marble為代表;
- 自動駕駛:以特斯拉FSD為代表;
- 具身智能:這是當下最火的方向,也是下個十年的AI的重心。
而第三個戰場——具身智能,則是目前最難啃的「硬骨頭」。
這個領域正撞上一堵看似不可逾越的「數據墻」。
長期以來,行業被迫依賴「遙操作」——讓人類穿戴設備手把手教機器人。

這種方式不僅效率低、成本高,更致命的是泛化性極差。
而在嘗試用AI生成數據時,又會掉進另一個深坑:物理因果一致性。
以往的模型生成的視頻,往往只是「看起來像」。
但在機器人眼里,杯子憑空懸浮、水流違背重力,這些缺乏物理常識的畫面不僅無用,甚至是毒藥。
如何讓AI生成的世界既逼真又符合物理定律?
這成了阻擋AGI降臨現實的最大路障。
而一家剛剛成立的公司大曉機器人,率先突圍,交出了一份顛覆性的答卷——開悟世界模型3.0。
開悟3.0是一種全新范式的確立:多模態理解-生成-預測一體化。
與傳統大模型「看圖說話」的淺層邏輯不同,開悟3.0擁有極強的物理感知力。
它不僅能輸入文字、圖片、視頻,更能直接輸入力學信息與3D軌跡。
大曉的破局
我們有幸直接采訪到了商湯聯合創始人、執行董事,大曉機器人董事長王曉剛先生。
他畢業于中科大少年班,接著取得香港中文大學的碩士學位和MIT的計算機博士學位。
![]()
大曉機器人董事長 王曉剛
他的論文被引數已超過14萬,也是中國的AI學術領軍人物之一。
![]()
能力越大,責任越大。目前,王曉剛同時擔任香港中文大學教授、商湯科技聯合創始人、執行董事,以及最新也是最重要的身份:大曉機器人董事長。
具身智能不能依賴「遙操作」
在我們與王曉剛的深度對談中,他拋出了一個令行業深思的觀點:
如果具身智能繼續依賴「遙操作」,那我們實際上是倒退回了AI1.0時代。
目前的機器人訓練場上,最常見的畫面是:一個穿戴著VR設備和動作捕捉服的人類,「附身」在機器人身上,笨拙地教它疊衣服、拿蘋果。
這種被稱為「遙操作」的方法,本質上還是「有多少人工,就有多少智能」。
它是線性的、昂貴的,且極度缺乏泛化能力。
王曉剛在采訪中一針見血地指出:
你不可能為了教機器人做飯,讓幾百萬人都穿上動捕服去炒菜。
大曉的核心競爭力,在于它率先試圖終結這種「提線木偶」式的訓練邏輯。
他們提出了一套名為「環境式數據采集」的新范式。
大曉不強求「手把手」教機器人,而是讓AI像人類嬰兒一樣,通過「觀察」來學習。
利用第一視角(如AR眼鏡)和第三視角(環境攝像頭)采集的數據同時生成海量的運動軌跡,配合他們引以為傲的視覺算法,直接從人類的日常行為中提取「操作邏輯」。
這意味著,當AI看了一萬遍人類廚師顛勺的各個角度視頻后,它學到的不再只是像素的移動,而是手腕發力的角度、鍋鏟與鍋底摩擦的力反饋,以及火焰與食材互動的物理節奏。
![]()
開悟3.0:世界第一梯隊的世界模型
如果說環境式數采解決了「看」的問題,那么大曉即將發布的開悟3.0,則解決了「想」的問題。
在采訪中,王曉剛并沒有使用晦澀的術語堆砌,而是用一種近乎哲學的視角,拆解了這個被其稱為「全球首個開源且商業落地的世界模型」背后的技術野心。
Puffin:當AI學會「與相機共思」
「傳統的視頻生成模型,其實是“盲”的。」王曉剛拿起桌上的礦泉水瓶,向我們演示,「AI看到這個瓶子,但它不知道自己是站著看、蹲著看,還是倒立著看。它只是在機械地預測下一幀的像素。」
這種視角的缺失,導致了一個致命問題:空間感的崩塌。
為了解決這個痛點,大曉聯合南洋理工大學等機構,祭出了一項名為Puffin的殺手锏技術。
這項技術的核心理念極其浪漫——「與相機共思」。
![]()
論文地址:https://arxiv.org/abs/2510.08673
Puffin把「相機的位姿」變成了一種語言。
在它的眼里,光圈、焦距、拍攝角度,和「一只貓」、「一個蘋果」一樣,都是可以被理解和生成的Token。
「當你給Puffin一張照片,它不僅能看懂照片里有什么,還能像福爾摩斯一樣,反推出拍攝者當時站在哪里、相機是怎么運動的。」王曉剛解釋道,「這意味著,機器人不再是被動地接收畫面,而是能主動“腦補”出——如果我往左走一步,我會看到什么。」
這種能力讓具身智能第一次擁有了「預演」的能力。
在真正伸出機械臂去抓那個易碎的玻璃杯之前,機器人已經在腦海中不僅模擬了抓取的動作,還模擬了攝像頭在移動過程中看到的光影變化。
WorldMEM:打破「金魚記憶」的魔咒
除了空間感,具身智能面臨的另一大夢魘是「時間」。
現有的視頻生成模型,往往有著嚴重的「健忘癥」。
生成的視頻超過幾秒鐘,畫面就會開始崩壞:背景里的房子突然消失,或是人物的衣服顏色變來變去。
「想象一下,機器人要幫你整理房間。」王曉剛舉了一個非常生活化的例子,「它把一本書放進書架的第二層,然后轉身去收拾桌子。十分鐘后,當它再轉回來時,那本書必須還在那里,不能憑空消失,也不能變成一只貓。」
這看似簡單的「物體恒常性」,對AI來說卻是巨大的挑戰。
因為隨著時間的推移,計算量會呈指數級爆炸,AI只能被迫「遺忘」。
為了打破這個魔咒,大曉引入了WorldMEM架構,并采用了創新的線性注意力機制。
![]()
論文地址:https://arxiv.org/abs/2504.12369
這就像是給機器人裝上了一個「無限容量」的記事本。
通過線性復雜度算法,大曉將計算成本從Transformer架構的指數級降到了線性級。
「我們不僅讓機器人“記得住”,還讓它知道“記什么”。」王曉剛補充道,這種基于任務導向的長時記憶,讓開悟3.0能夠生成長達數分鐘、甚至更長時間的連貫交互視頻。
這一能力被具象化為一組震撼的參數:支持生成1080P高清視頻、支持長時交互、甚至可以在動/靜態場景下實現精細可控的自由編輯。
大曉生成的不僅僅是視頻,而是一個可以被反復推演、試錯的平行時空。
對標全球:除了造景,更需要交互
當被問及與李飛飛團隊的World Labs有何不同時,王曉剛展現出了技術派特有的自信。
「World Labs發布的Marble,更多是在生成一個靜態的、唯美的3D場景,像是一個精美的游戲建模。」王曉剛分析道,「但世界是動態的。你推一下椅子,椅子會倒;你打開冰箱,燈會亮。這種動態的物理交互,才是具身智能的剛需。」

開悟3.0采用了一種獨特的「多模態理解-生成-預測」一體化架構。
它不僅把靜態的物體(如桌子)和動態的物體(如行人)分離開來,還能直接輸入力學信息。
「未來的機器人,要有直覺。」王曉剛說道,「它看到一個玻璃杯,不需要摸就知道它是滑的、易碎的;看到一個啞鈴,就知道它是重的。這種物理常識的涌現,只能來自于對真實物理世界的深度模擬。」
在這個意義上,開悟3.0不僅是一個造夢機器,更是一個嚴謹的物理模擬器。
它讓機器人在虛擬世界中經歷了成千上萬次的「摔打」,從而換來現實世界中的一次精準操作。
軟硬一體的「陽謀」
為什么王曉剛要做「大曉機器人」這樣一家獨立的實體?
這背后藏著王曉剛對AI未來的終極判斷:當互聯網數據枯竭時,物理世界是唯一的礦藏。
純粹的軟件公司(如OpenAI)就像「缸中之腦」,雖然智商超群,但沒有觸覺,不懂輕重;
純粹的硬件公司雖然四肢發達,但缺乏通用的認知能力,往往淪為昂貴的玩具。
大曉的成立,就是為了打破這層次元壁。
他們不僅僅是在做算法,更是在通過自研的「具身超級大腦模組」和四足/通用機器人,去親自丈量物理世界的摩擦力、重力和反作用力。
這種「軟硬一體」并非簡單的堆砌,而是一種深度的數據閉環:
- 環境數據引擎:負責「看」(采集);
- 開悟3.0:負責「想」(模擬);
- 機器人本體:負責「做」(驗證)。
這一閉環一旦跑通,大曉就擁有了類似特斯拉那樣的「飛輪效應」——機器人用得越多,物理常識越豐富;物理常識越豐富,機器人越好用。
正如王曉剛所言:
未來的機器人,不僅要有聰明的大腦,還要有有趣的靈魂。
而這個靈魂,只能誕生于真實世界泥濘的道路上,而不是涼爽的機房里。
世界模型的「DeepSeek」
在通往具身智能終極形態的征途上,大曉選擇了一條更為艱難、但也更為寬廣的道路。
當全球科技巨頭傾向于構筑技術壁壘時,大曉堅定地高舉起開源的旗幟,做出了最具魄力的回應。
開悟3.0的開源,不僅僅是大曉技術自信的體現,更是一場構筑全球具身智能生態的「陽謀」。
正如DeepSeek在大語言模型領域掀起的開源風暴,大曉正立志成為世界模型領域的DeepSeek,打破閉源神話,將最頂尖的物理智能能力賦予全球開發者。
在這場物理世界的智慧革命中,大曉不僅是破局者,更是連接者,與全行業共創具身智能落地的輝煌未來。
大千世界,曉識萬象。
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.