網易首頁 > 網易號 > 正文申請入駐

深度機智和他們的另一條路：用人類第一視角數據訓練基座模型｜甲子光年

2026-03-27 13:24:03　來源: 甲子光年

北京舉報

分享至

我們不想做追隨者，而是做定義者。

作者｜Yolanda

編輯｜栗子

3月27日，北京中關村學院在中關村論壇年會「全球對話」平行論壇活動上，發布了五項重要研究成果。其中，第一項聯合深度機智正式推出的具身通用智能基座模型系統PhysBrain 1.0，不僅是一項技術更新，更被視為具身智能發展路徑上的一次關鍵探索。

PhysBrain 1.0 由三部分構成：基座模型 PhysBrain、雙腦架構 TwinBrainVLA，以及訓練策略 LangForce。整體從“理解優先，通用優先”的思路出發，嘗試解決傳統 VLA 模型在訓練中物理常識缺乏、通用能力與任務能力難以兼顧的問題，使模型在保持認知能力的同時提升執行能力。

與依賴真機數據的主流路線不同，這一體系引入大規模低成本人類第一視角數據，將物理常識作為訓練核心，提升模型在復雜場景中的泛化能力。這一思路對應著行業正在出現的轉向——從“動作模仿”走向“物理理解”。

在中關村論壇活動的同期展上，深度機智同步展示了其自研的全尺寸擬人體機器人Prime。該機器人具備72個自由度，比例尺寸與人體同構，可實現毫米級精細操作，并可在斷電狀態下自主站立，主要用于驗證通用具身模型在真實環境中的適配能力。

深度機智全尺寸擬人體機器人Prime

當前，全球具身智能領域還在“軌跡擬合、數據昂貴、泛化薄弱”的舊有范式打轉，深度機智憑借一套完全自主創新的技術體系，給出了破局答案——讓機器人首先像人類一樣理解世界，才是實現通用智能的核心路徑。

作為行業新銳，深度機智成立于2025年，由北京中關村學院與中關村人工智能研究院聯合孵化。與多數從硬件或控制層面切入的團隊不同，該公司自成立之初便選擇了一條差異化路徑：讓機器人通過人類第一視角數據理解世界，而非依賴大規模真機訓練，這種創新思路也成為其技術突破的核心優勢。

不難看出，這款由中國團隊原創、開源開放、擁有物理智能的“機器人大腦”，正以悄無聲息卻影響深遠的方式，推動具身智能行業迎來一場范式革命。

1.十五年積淀，他更早看到機器人的下一步

很多創業故事，都從“看見機會”開始，但深度機智則是從“預見未來”開始。

作為深度機智的靈魂人物，陳凱已經在AI領域浸潤了15年。從學術研究到工程落地，他做過幾乎所有“標準路徑”該做的事：頂會論文、Nature子刊成果，以及在微軟亞洲研究院主導研發的“文檔智能”系統，這是一個年調用量達到千億級的產品。

深度機智創始人陳凱

這是一條足夠成功、也足夠穩妥的軌道。但正因為走得夠深，他也更早意識到一個問題：大模型解決的是“理解語言”，但沒有解決“理解世界”。

ChatGPT爆發之后，幾乎所有人都在討論生成式AI的可能性，而陳凱的注意力卻落在另一件事上：如果機器已經可以理解文本，那么下一步，必然是進入物理世界。

接下來的問題是，機器人怎么學呢？

2024年，AI眼鏡再度翻紅，越來越多的人開始用設備記錄自己的第一視角生活。這在別人看來是硬件創新，但陳凱看到的則是前所未有的數據來源。

他發現這類數據不是孤立的動作切片，而是帶著場景記憶、物理約束和交互邏輯的“活教材”，蘊含著人類與世界打交道的底層智慧。而這正是破解傳統具身智能 “軌跡擬合” 困境的核心密鑰。

“人用眼睛理解世界，機器人未來也會如此。”這個念頭一旦出現，就再也沒有消失。2024年12月，他加入剛成立的北京中關村學院，開始做一件沒有現成答案的事——用人類第一視角數據構建具身基座模型。

2025 年 5 月，陳凱叫來了中科大少年班的室友張翼博，依托“新型大學 + 新型研發機構” 的創新孵化機制，共同成立了深度機智。

深度機智聯合創始人、CEO張翼博

公司成立之初，得益于中關村學院與中關村人工智能研究院構建的開放創新生態，通過靈活的兼職管理辦法與知識成果轉移轉化機制，研究人員們得以深度參與項目，這種環境讓團隊可以專注在把“人類經驗”注入具身基座模型的事情上。

但他們也聽到了各種質疑的聲音：“脫離真機數據的路線不切實際”，“這個賽道現在做太早”……于是，一些初創團隊成員開始動搖，有人離開。最極端的時候，公司只剩下陳凱和張翼博兩個人。

后來回憶這段時間，陳凱說得很平靜：“要知道，物理常識不可能來自機械重復，只能來自真實世界的交互。如果大家都覺得可行，那就不叫先行者了。”所以，他們堅信自己的判斷，繼續低頭趕路。

很快，這條人跡罕至的路上多了一些同行者。Tesla宣布開始減少遙操作數據，轉向第一視角人類視頻；Figure AI披露在與商業地產公司合作采集人類第一視角數據；越來越多團隊開始嘗試用第一視角人類數據訓練機器人。

與此同時，團隊內部也在發生變化。在機器人領域全棧深耕十余年的何旭國的加入，讓整個技術路徑第一次形成閉環。作為機器人奧運會（First Gobal Challenge）青少年國家隊的總教練，他補上了最關鍵的一環——如何讓這些“理解”，真正落在機器上。

深度機智聯合創始人、總設計師何旭國

“我們不僅要學習人類的動作軌跡，更要理解動作背后的物理邏輯。”陳凱的堅持終見曙光。當國內同行還在為真機數據采集成本居高不下而苦惱時，深度機智已用千小時人類數據實現了性能突破；當國外巨頭仍困在 “軌跡擬合” 的死胡同，深度機智的模型已開始涌現出自主糾錯、靈活應變 ——這條“非主流路線”，漸漸成為引領行業的新方向。

于是，三位創始人用各自的專業堅守，共同證明一件事情：真正的先行者，從來不是順應行業潮流，而是創造行業潮流。

2.從模仿到理解，機器人如何真的學會思考？

深度機智究竟在做什么？答案很簡單：打造能像人一樣思考的機器人大腦，讓機器人不僅能“動起來”，更能 “想明白”。

傳統具身智能路線依賴數萬小時真機或仿真數據，模型只能機械復刻動作，無法理解物理常識，換場景就失效。就像教猴子做家務，手把手教十年也學不會靈活變通，因為它不懂“輕拿易碎品”“避開障礙物” 的底層邏輯。

深度機智最先解決的是數據問題，先讓模型開始有“物理直覺”。

深度機智顛覆式地提出“先理解，后執行”（Understanding first, Action next）的核心理念，將人類第一視角數據作為模型的 “物理常識教材”。同時，深度機智構建了首個能將海量人類視頻轉化為具身智能訓練數據的引擎，完成了約 3,000 小時人類第一視角視頻的精準標注，涵蓋真實三維環境中的空間關系、動作可行性及多步邏輯推理，從而挖掘出深層的物理規律與常識。

高質量語料注入多模態大模型后，可以成功激發出模型的“類人”物理智能，推動模型從“模仿動作”升級為“理解物理”。

通過這種方式，模型不僅學到“做什么”，更理解 “為什么這么做”——知道玻璃易碎需要輕拿，知道重物滑落需要調整握姿，實現從 “模仿” 到 “理解” 的質變。目前，PhysBrain基座模型在空間智能、具身交互等多項權威評測中，全面實現SOTA（業界最優）性能，彰顯了具身通用智能的核心競爭力。

緊接著，深度機智還圍繞模型與訓練方式做了系統設計，讓“理解”成為可能。

目前，具身智能行業常常會遇到“撿了芝麻丟了西瓜”的問題：有的時候，模型為了學好簡單的“抓拿放”動作，常常會忘記基礎知識，喪失通用能力；為了保留通用知識，動作精度又上不去。這是業界熱議的“災難性遺忘”問題。

為了解決災難性遺忘行業難題，深度機智在2026年1月原創性提出 TwinBrainVLA “雙腦融合” 架構，一部分負責通用認知，保持穩定；另一部分負責具體動作訓練。兩者協同工作，從而兼顧“常識”與“技能”。

不過，機器人想要走向通用化，還有一個關鍵能力：到底可不可以聽懂人話？

很多模型在訓練中會走“視覺捷徑”，只根據畫面做判斷，而忽略指令本身。例如看到碗和抽屜，就默認執行“放進去”，其實根本不理解任務要求。但深度機智的LangForce通過調整訓練機制，讓模型同時理解語言、環境與任務目標，從“看圖做事”轉向“理解后執行”。

當數據、架構與訓練方式打通后，深度機智看到了令人振奮的模型智能糾錯現象。深度基智在測試中發現，機械臂竟然會學著人的樣子推胡蘿卜嘗試讓它滾到盤子里，失敗后還主動調整策略重新夾取，自主多次調整角度后成功完成任務；堆疊方塊掉落時，會主動撿起并微調夾爪姿勢。

這些未在訓練數據中出現的靈活策略，證明模型已初步具備物理常識和自主決策能力。“這不是編程好的動作，而是模型自己‘想出來’的解決方案。”陳凱的自豪溢于言表。

此外，具身通用智能實現關鍵突破的另一個核心印證就是跨本體遷移能力。這意味著模型掌握的運動與物理先驗知識可以從一種機器人（如特定品牌的機械臂）無損或低成本地遷移到另一種形態不同的機器人上，極大降低了新硬件的適配難度。

為了驗證這些能力，深度機智并沒有停留在模型層，而是構建了完整的技術閉環：在數據側，他們開發了低成本采集設備，將數據成本控制在傳統真機數據的較低水平；在硬件側，則打造了全尺寸擬人體機器人Prime，用于驗證模型在真實環境中的表現。

深度機智的數采設備

“這些配套能力都是‘魂道法術器’中的‘器’，核心是為模型服務。”陳凱強調。全棧布局是為了確保技術閉環，每一個環節都精準支撐 “人類學習” 范式。

當然，這條路線仍在早期階段，數據質量、模型穩定性等問題仍需繼續驗證。但至少，它提供了一種新的可能：讓機器人不只是會做事，而是真正理解這個世界。

3.競賽的分水嶺，從機器人大腦自主可控開始

如果說具身智能是一場全球競賽，那么真正的分水嶺，正在從“誰能造出機器人”，轉向了下一個階段：誰掌握機器人的大腦，誰就有可能掌握競賽的主動權。

過去幾年，中美在這一領域逐漸形成“雙極格局”。根據麥肯錫全球研究院預測，到2040年，機器人產業將創造約1900億至9100億美元收入，并可能貢獻全球GDP增長的18%至34%。在這樣一個潛在萬億級賽道上，中美已成為最核心的兩股力量。

但如果從技術結構拆解，這種競爭并不對稱：美國強在“大腦”，中國強在“本體”。

美國的優勢集中在算法與系統層。以NVIDIA為代表，其在GPU算力、模型框架和仿真平臺上構建了完整生態；Physical Intelligence、Generalist AI等公司，則直接聚焦具身智能“基座模型”，推動從語言模型向物理智能的延伸。

相比之下，中國的優勢更集中在制造與應用側。從傳感器、電機到整機集成，中國已經形成完整產業鏈，并具備極強的工程能力。以宇樹科技為代表的企業，在機器人本體迭代和成本控制上具備顯著優勢。但問題同樣明顯，中國機器人在“機器人大腦”層面，長期存在路徑依賴。不少企業仍追隨國外開源的技術路線，核心能力受制于人。

這也是為什么，大腦“自主可控”在具身智能領域，正在變成一個關鍵命題。如果底層模型依賴外部體系，那么即使硬件能力再強，產業鏈的上限依然會被鎖定在應用層。

換句話說，“身體強”還不足夠，“大腦自主”才決定長期競爭力。

正是在這樣的背景下，一些中國團隊開始嘗試走出不同路徑。深度機智提出的“人類第一視角學習”范式，本質上是一種繞開既有技術體系的探索：不依賴高成本真機數據，而是通過大規模人類視頻提取物理常識，構建具身智能模型。

這一思路的意義，不僅在于技術本身，更在于它提供了一種可能：用新的范式，重構機器人大腦的訓練方式。

更值得注意的是，這一方向正在獲得越來越多外部驗證。今年年初，英偉達提出了大規模第一人稱人類數據的世界模型數據集DreamDojo-HV和世界動作模型Dreamzero，和VLA模型EgoScale；Generalist AI表示物理常識是智能的暗物質，是具身智能的關鍵。

這一趨勢在國內進一步擴散，國內不少科技公司陸續組建團隊切入具身智能大腦賽道，部分初創公司也開始探索基于視頻數據的新訓練路徑。

從行業演進來看，一個清晰的變化正在發生：具身智能的競爭，正在從“數據規模”轉向“架構范式”。誰能夠更高效地獲取“物理常識”，誰就更有可能構建通用能力。

在這一過程中，中國反而具備一些獨特優勢。首先是數據與場景。相比美國，中國在工業、物流、服務等領域擁有更豐富的真實環境，這些非標場景天然構成高質量語料來源。

其次是成本結構。人類第一視角數據的采集與標注成本，在中國更具優勢，這使得大規模驗證成為可能。再加上制造能力與應用落地，中國具備將新范式快速轉化為現實系統的條件。

可以確定的是，路徑正在發生變化。對中國而言，真正的機會或許不在于復制既有路線，而在于找到一條屬于自己的技術路徑。

無論是“人類第一視角學習”，還是其他可能出現的新范式，其核心意義都在于一件事，就是擺脫依賴，建立屬于自己的技術體系。

正如陳凱所說：“我們不想做追隨者，而是做定義者。”

在一個尚未定型的行業里，這種選擇意味著更高風險，也意味著更大的可能性。但當越來越多企業開始在底層技術上做出不同嘗試，中國具身智能的競爭方式，也將從“跟隨”，逐漸走向“定義規則”。

（封面圖及文中圖片來源：深度機智）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.