不做遙操作、不采真機數(shù)據(jù)，這家公司的機器人靠學(xué)習(xí)“人類第一視角數(shù)據(jù)”干活｜AI Founder請回答

2026-03-27 17:08:15　來源: 鈦媒體APP

北京舉報

分享至

“具身智能目前陷入動作模仿的泥潭，環(huán)境或任務(wù)一旦改變，技能就有很大可能會失效。只有讓機器人像人一樣，先理解物理世界，再執(zhí)行具體任務(wù)，才是真正給機器人裝上一個大腦。”深度機智創(chuàng)始人陳凱向智客ZhiKer表示。

2024 年底，陳凱率先提出“AnthroLearning”（人類學(xué)習(xí)）路線時，幾乎沒人相信。這位人工智能領(lǐng)域深耕十五年，曾任職微軟亞洲研究院首席研究員、主導(dǎo)產(chǎn)品年調(diào)用量達千億次的科學(xué)家，得到的反饋是沉默，甚至質(zhì)疑。

彼時，具身智能的主流技術(shù)路線是遙操作，讓人類戴著設(shè)備控制機器人，記錄每一個動作軌跡，再讓機器人反復(fù)模仿，或者用互聯(lián)網(wǎng)視頻、仿真數(shù)據(jù)訓(xùn)練。這些方法的邏輯很直接，讓機器人“背”會動作。

但這條路線存在明顯局限。陳凱認(rèn)為：“這些主流技術(shù)路線的本質(zhì)上是在“手把手教猴子干活”，效率低下，真正的突破口在于通過人類第一視角數(shù)據(jù)向大腦注入物理常識，讓猴子進化成人。”

轉(zhuǎn)折來得比預(yù)期更快。

2025年5月，硅谷有具身智能企業(yè)開始轉(zhuǎn)向人類第一視角數(shù)據(jù)。也是在這個月，陳凱與同是畢業(yè)于中科大少年班學(xué)院的張翼博共同創(chuàng)立了深度機智。

去年年底，深度機智聯(lián)合北京中關(guān)村學(xué)院率先使用1000小時人類第一視角數(shù)據(jù)訓(xùn)練出的PhysBrain基座模型，展現(xiàn)出令人驚艷的結(jié)果。在“把胡蘿卜放進盤子”任務(wù)中，機器人的夾子碰到胡蘿卜時選擇了像人一樣推動胡蘿卜，讓它滾入盤中，在多次嘗試后發(fā)現(xiàn)盤子邊緣過高無法推入后，主動轉(zhuǎn)變策略，改為夾取，夾一次沒進去，又修正夾取換角度和力度，最終成功。這種靈活性是無法通過預(yù)編程實現(xiàn)的。也就是說，機器人自己“涌現(xiàn)”出了變通與糾錯能力。

智客ZhiKer與深度機智創(chuàng)始人陳凱、聯(lián)合創(chuàng)始人/CEO張翼博進行了一次對話，試圖回答：為什么是 2026 年？為什么是中國？這條路線收斂之后，產(chǎn)業(yè)會發(fā)生什么變化？

以下為與陳凱、張翼博的對話全文，略有刪減：

智客ZhiKer：2024-2026年，具身智能行業(yè)在技術(shù)路線上經(jīng)歷了什么？為什么你在2024年底提出的“人類學(xué)習(xí)”路線，到2026年初就成了行業(yè)共識？這個收斂速度是你預(yù)料之中的嗎？

陳凱：這個收斂速度比我們預(yù)期的要快。我們在2024年底提出“AnthroLearning”（人類學(xué)習(xí)）概念的時候，這條路線非常有爭議，因為當(dāng)時大家講的還是遙操作、真機、仿真、互聯(lián)網(wǎng)視頻，根本沒有人類第一視角。

轉(zhuǎn)折點發(fā)生在2025年5月。特斯拉宣布Optimus會逐漸放棄動作捕捉和遙操作數(shù)據(jù)，轉(zhuǎn)為從人類第一視角數(shù)據(jù)去學(xué)習(xí)機器人的技能。6月，原Google DeepMind科學(xué)家Andy Zeng創(chuàng)辦的Generalist AI發(fā)布了機器人拆解積木的Demo，機器人在將積木塊放進盒子時，采用的是扔的動作，表明他們也在直接從人類數(shù)據(jù)學(xué)習(xí)。

這種對物理交互的靈活運用，恰恰是傳統(tǒng)真機軌跡擬合難以企及的。至去年底，Skild AI、Physical Intelligence、NVIDIA等硅谷做具身智能的公司都在向“人類第一視角數(shù)據(jù)”看齊，在硅谷基本已達成共識。

張翼博：各個大廠在春節(jié)前后相繼組建新的團隊，今年3月份之后，這條技術(shù)路線開始受到大家追捧。我們預(yù)測，2026年會是“AnthroLearning”（人類學(xué)習(xí)）的元年。

智客ZhiKer：遙操作、真機、仿真、互聯(lián)網(wǎng)視頻學(xué)習(xí)等，這些技術(shù)路線的問題出在哪里？

陳凱：大家不管是走VLM（Vision-Language Model）、VLA（Vision-Language-Action）還是世界模型路線，每一家都在強調(diào)自己在這條路線上積累了多少數(shù)據(jù)、模型設(shè)計有多好，最終都會卡在一個點上，就是基座模型缺乏物理常識。

VLM模型不理解空間，不能夠理解時序。譬如，桌子上面放了幾個杯子，它數(shù)不清有幾個，對于人來說輕而易舉的事情，對于模型來說非常難，所以有人專門去做增強模型的空間智能。世界模型或視頻生成模型，生成的內(nèi)容在視覺上可以亂真，但是運動的真實性或者物理真實性就比較差。

而“人類第一視角數(shù)據(jù)”采集自真實物理世界，天然蘊含空間理解與交互過程。我用一個更直白的比喻來解釋：現(xiàn)在的軌跡擬合方式就像是在手把手教猴子干活，教它洗菜、做飯、洗碗。但是猴子完全不理解人類社會的常識。我們要做的是先賦予物理常識，讓它進化成人，再讓它學(xué)習(xí)特定技能，這比手把手教動作高效得多。

張翼博：真正的突破在于物理常識的注入，不是簡單的軌跡標(biāo)注，是對任務(wù)的深層理解。比如開礦泉水瓶是什么，先做什么后做什么，這些維度的標(biāo)注門檻極高，這是人們習(xí)以為常的下意識行為，屬于智能的“暗物質(zhì)”。

智客ZhiKer：PhysBrain 與英偉達的技術(shù)路線對比如何？有觀點認(rèn)為，深度機智在這一方向上已有先發(fā)優(yōu)勢，你們怎么看？

陳凱：從時間線上看，我們兩家的技術(shù)管線搭建幾乎同步。英偉達2026年2—3月公開方案，我們2025年3月啟動預(yù)研、6月搭出數(shù)據(jù)管線。不同之處在于，英偉達專注手部軌跡預(yù)訓(xùn)練，我們直接增強VLM本身。最終都收斂到用人類數(shù)據(jù)增強物理直覺，按進度和投入判斷，我們略領(lǐng)先英偉達。

具體而言，我們圍繞數(shù)據(jù)怎么轉(zhuǎn)譯、架構(gòu)怎么設(shè)計、訓(xùn)練目標(biāo)怎么設(shè)定三個環(huán)節(jié)，搭建出一套全棧矩陣，把視頻中的隱性經(jīng)驗提取成結(jié)構(gòu)化監(jiān)督信號，任務(wù)怎么拆解、關(guān)鍵狀態(tài)是什么、手該怎么動、物體之間有什么約束、時空關(guān)系是怎樣的。

Egocentric2Embodiment翻譯管道的核心是把人類第一視角視頻轉(zhuǎn)碼成機器人能學(xué)的結(jié)構(gòu)化教材，通過多層次拆解任務(wù)規(guī)劃、關(guān)鍵狀態(tài)、手部動作和物理約束，確保時序邏輯連貫且每個判斷都有畫面證據(jù)支撐，最終輸出帶標(biāo)準(zhǔn)答案的VQA監(jiān)督數(shù)據(jù)。確保機器人知其然也知其所以然，而非瞎猜。

利用這套方法，我們構(gòu)建了數(shù)據(jù)集E2E-3M，并訓(xùn)練出具身大腦PhysBrain。在完全未出現(xiàn)在訓(xùn)練集中的SimplerEnv四個操作任務(wù)上，PhysBrain（8B版本）以67.4%的平均成功率力壓行業(yè)標(biāo)桿Physical Intelligence的Pi0.5，領(lǐng)先優(yōu)勢達10%。

智客ZhiKer：PhysBrain的“涌現(xiàn)能力”具體指什么？能否舉例說明？

陳凱：涌現(xiàn)能力體現(xiàn)在模型對物理交互的直覺式理解，而非機械執(zhí)行預(yù)設(shè)動作。

在SimplerEnv的胡蘿卜抓取任務(wù)中，模型接到的指令只是把胡蘿卜放進盤子里。第一次夾取失敗后，它并沒有重復(fù)同一個抓取動作，而是發(fā)現(xiàn)夾爪已經(jīng)碰到了胡蘿卜，順勢改為用夾子把胡蘿卜往盤子方向推，一次推不進去，又加大力度重新推了一次，最后才主動切換策略重新抓取。

要知道，“推”這個動作從未包含在訓(xùn)練數(shù)據(jù)里，模型也沒有看過失敗軌跡示范，這種靈活應(yīng)變更像是一種內(nèi)生的物理直覺。

這種“智能涌現(xiàn)”的出現(xiàn)，是物理常識注入帶來的質(zhì)變。讓模型擁有物理常識的同時，不丟失原有的通用理解能力，我們在架構(gòu)層面做了另一項關(guān)鍵設(shè)計“左右腦”同構(gòu)架構(gòu)TwinBrainVLA。

我們引入一個同構(gòu)但被凍結(jié)的VLM模塊作為“左腦”，保持其開放世界理解能力不變；同時引入可訓(xùn)練的“右腦”網(wǎng)絡(luò)，專門處理機器人本體感知狀態(tài)和低級動作策略。

關(guān)鍵在于“左右腦”之間的信息交互，通過非對稱混合Transformer機制（AsyMoT），右腦可以動態(tài)查詢左腦的語義知識，左腦參數(shù)不會被下游任務(wù)污染。

這種設(shè)計的精妙之處在于知識遷移而不遺忘，右腦學(xué)會動作控制時，左腦依然保有識別易碎物品的常識及推斷約束條件的能力。遇到新場景時，左右腦協(xié)同工作，既不會變成“只會抓杯子不懂杯子會碎”的純執(zhí)行機器，也不會停留在“知道要輕放但手不聽使喚”的紙上談兵階段。

張翼博：在過往一年當(dāng)中，我們觀測到了非常多次的智能涌現(xiàn)，也和英偉達交叉驗證了這個數(shù)據(jù)規(guī)模是有效的。我們用 1000 小時的數(shù)據(jù)實現(xiàn)了這樣的模型性能，這本身就是對新范式的一次關(guān)鍵驗證。

智客ZhiKer：從數(shù)據(jù)采集到模型訓(xùn)練的周期和成本如何？

陳凱：數(shù)據(jù)采集、處理和模型預(yù)研同步推進的全流程不到3個月。核心難有三個，一是制作數(shù)采設(shè)備，二是數(shù)據(jù)確權(quán)與隱私合規(guī)，三是打造數(shù)據(jù)處理管線提取物理常識。管線建立后，訓(xùn)練視頻生成模型和多模態(tài)大模型就比較順暢。

張翼博：我們是國內(nèi)第一批完成10萬小時量級多模態(tài)第一人稱視角數(shù)據(jù)采集的公司，通過自研的全套技術(shù)方案，綜合成本遠(yuǎn)低于市場其他類型數(shù)據(jù)，數(shù)據(jù)有效性也大幅提升。

何旭國（深度機智硬件負(fù)責(zé)人）：很多人認(rèn)為腦袋上裝一個攝像頭就完成了數(shù)據(jù)采集，但真正解決這個問題的時候，有大量的工程化問題需要解決。我們在定義什么樣的數(shù)采設(shè)備可以進入到真實生產(chǎn)生活。

目前所有的設(shè)備，它的存儲、電量不可能做到又小、時間又長、功耗還低，這是矛盾的。智能眼鏡每增加 10 克，對耳朵的負(fù)擔(dān)都非常明顯。所以我們最開始就拋棄了傳統(tǒng)智能眼鏡作為數(shù)采設(shè)備的解決方案。

我們最終收斂到把整個設(shè)備的形態(tài)對頭部負(fù)擔(dān)盡可能小，把所有的存儲、算力、通訊等基本功能外置，定制了腰包、電源、存儲、電腦，開發(fā)了軟件，做了這個解決方案。

我們部署了一個輕量級手部檢測模型。畫面中出現(xiàn)手的時候就開始拍攝，畫面中沒有手了拍攝就結(jié)束，這樣最大程度保證了數(shù)據(jù)的有效性。

智客ZhiKer：你們還研發(fā)了自主站立工業(yè)級擬人體機器人，為什么一家做“大腦”的公司要做本體？

陳凱：使用人類數(shù)據(jù)學(xué)習(xí)的最佳載體，應(yīng)該是高度擬人的機器人。

何老師不僅負(fù)責(zé)數(shù)據(jù)采集設(shè)備，也為大腦設(shè)計身體。這款機器人全身采用萬元級諧波力控電機關(guān)節(jié)模組，全身一共72自由度，而且這款機器人在不通電的情況下可以自主站立，這對于機器人未來進入場景非常重要，它可以實現(xiàn)低能耗和高安全性。

張翼博：諧波全身力控是技術(shù)路線，擬人體是結(jié)構(gòu)路線。擬人體要求每個自由度與人對齊，手指長度、胳膊肘長度均需匹配，即結(jié)構(gòu)同構(gòu)。我們的優(yōu)勢在于“諧波+同構(gòu)”兼得，諧波關(guān)節(jié)模組尺寸正是行業(yè)難點，我們已取得關(guān)鍵突破。

智客ZhiKer：公司最終定位是做機器人大腦，還是有思考的機器人本體？未來規(guī)劃是什么？

陳凱：最終目標(biāo)是具身AGI，或者說具備物理智能的大模型，用模型能力為機器人提供服務(wù)，提供更理解物理世界、更理解交互的Token。

張翼博：短期來講我們要做“沿途下蛋”。先開源4B的小模型，讓行業(yè)看到這了路的可行性，同時我們的數(shù)采設(shè)備也已經(jīng)逐漸開始商業(yè)化；下一步，把更大的模型做成產(chǎn)品，讓大家調(diào)用；同時，我們還在探索養(yǎng)老和教育場景。

智客ZhiKer：技術(shù)路線收斂之后，數(shù)據(jù)標(biāo)注、算力、真機驗證，哪個環(huán)節(jié)會成為新的瓶頸？中國在哪個環(huán)節(jié)有優(yōu)勢？

張翼博：中國的優(yōu)勢首先在數(shù)據(jù)。美國采集并標(biāo)注第一視角 27 萬小時，花費巨額成本。中國擁有更豐富的數(shù)據(jù)來源和更低廉的采集成本，千萬小時人類第一視角數(shù)據(jù)，今年在中國整個行業(yè)就會達到。

再說算力。國產(chǎn)卡完全可以承接，我們有充足的國產(chǎn)算力資源作為支撐。現(xiàn)在技術(shù)已經(jīng)收斂了，下一步就是投入信心、國家支持、全行業(yè)共同努力。中國實現(xiàn)彎道超車或者直線超車是非常有可能的。

陳凱：還有一個關(guān)鍵是標(biāo)注與模型架構(gòu)、訓(xùn)練方法緊耦合。對手部軌跡建模可能只需幾塊錢算力，但對空間常識、任務(wù)理解的標(biāo)注可能需要幾百塊，投入巨大，回報也巨大。

智客ZhiKer：中國和美國在具身智能領(lǐng)域各有側(cè)重，但如果具身智能是AGI 問題，這個分工會被打破嗎？中國在大模型上的追趕經(jīng)驗?zāi)軓?fù)用到具身智能上嗎？

陳凱：中美確實各有側(cè)重，中國在本體領(lǐng)域有顯著的競爭優(yōu)勢，美國在具身大腦方向起步更早。

中國在具身大腦方向上的力量還需要加強，但是我們對趕超甚至領(lǐng)先非常有信心。一是場景儲備，制造業(yè)立國，幅員遼闊，數(shù)據(jù)上天然有優(yōu)勢。二是硬件協(xié)同，具身大腦可與本體同步迭代，以更高效率設(shè)計適配大腦的身體。三是制度創(chuàng)新，國產(chǎn)芯片突破，北京中關(guān)村學(xué)院等新型教育機構(gòu)探索新科研組織方式。

不管是制度創(chuàng)新、產(chǎn)業(yè)協(xié)同，還是場景豐富度、國家意志，具身大腦的方向上，我們起步不晚，積累不淺，完全有信心走出一條自己的路。

張翼博：能與物理世界交互的人工智能，估值空間巨大。這既是國家需求，也會對生產(chǎn)制造業(yè)、家庭服務(wù)業(yè)影響深遠(yuǎn)，讓勞動變成一種選擇，而非必需。

如果具身智能成為AGI的原生能力，將重構(gòu)整個AI產(chǎn)業(yè)鏈。我相信中美會齊頭并進，不會是美國遙遙領(lǐng)先。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.