![]()
“具身智能目前陷入動作模仿的泥潭,環(huán)境或任務(wù)一旦改變,技能就有很大可能會失效。只有讓機器人像人一樣,先理解物理世界,再執(zhí)行具體任務(wù),才是真正給機器人裝上一個大腦。”深度機智創(chuàng)始人陳凱向智客ZhiKer表示。
2024 年底,陳凱率先提出“AnthroLearning”(人類學(xué)習(xí))路線時,幾乎沒人相信。這位人工智能領(lǐng)域深耕十五年,曾任職微軟亞洲研究院首席研究員、主導(dǎo)產(chǎn)品年調(diào)用量達千億次的科學(xué)家,得到的反饋是沉默,甚至質(zhì)疑。
彼時,具身智能的主流技術(shù)路線是遙操作,讓人類戴著設(shè)備控制機器人,記錄每一個動作軌跡,再讓機器人反復(fù)模仿,或者用互聯(lián)網(wǎng)視頻、仿真數(shù)據(jù)訓(xùn)練。這些方法的邏輯很直接,讓機器人“背”會動作。
但這條路線存在明顯局限。陳凱認(rèn)為:“這些主流技術(shù)路線的本質(zhì)上是在“手把手教猴子干活”,效率低下,真正的突破口在于通過人類第一視角數(shù)據(jù)向大腦注入物理常識,讓猴子進化成人。”
轉(zhuǎn)折來得比預(yù)期更快。
2025年5月,硅谷有具身智能企業(yè)開始轉(zhuǎn)向人類第一視角數(shù)據(jù)。也是在這個月,陳凱與同是畢業(yè)于中科大少年班學(xué)院的張翼博共同創(chuàng)立了深度機智。
去年年底,深度機智聯(lián)合北京中關(guān)村學(xué)院率先使用1000小時人類第一視角數(shù)據(jù)訓(xùn)練出的PhysBrain基座模型,展現(xiàn)出令人驚艷的結(jié)果。在“把胡蘿卜放進盤子”任務(wù)中,機器人的夾子碰到胡蘿卜時選擇了像人一樣推動胡蘿卜,讓它滾入盤中,在多次嘗試后發(fā)現(xiàn)盤子邊緣過高無法推入后,主動轉(zhuǎn)變策略,改為夾取,夾一次沒進去,又修正夾取換角度和力度,最終成功。這種靈活性是無法通過預(yù)編程實現(xiàn)的。也就是說,機器人自己“涌現(xiàn)”出了變通與糾錯能力。
智客ZhiKer與深度機智創(chuàng)始人陳凱、聯(lián)合創(chuàng)始人/CEO張翼博進行了一次對話,試圖回答:為什么是 2026 年?為什么是中國?這條路線收斂之后,產(chǎn)業(yè)會發(fā)生什么變化?
以下為與陳凱、張翼博的對話全文,略有刪減:
智客ZhiKer:2024-2026年,具身智能行業(yè)在技術(shù)路線上經(jīng)歷了什么?為什么你在2024年底提出的“人類學(xué)習(xí)”路線,到2026年初就成了行業(yè)共識?這個收斂速度是你預(yù)料之中的嗎?
陳凱: 這個收斂速度比我們預(yù)期的要快。我們在2024年底提出“AnthroLearning”(人類學(xué)習(xí))概念的時候,這條路線非常有爭議,因為當(dāng)時大家講的還是遙操作、真機、仿真、互聯(lián)網(wǎng)視頻,根本沒有人類第一視角。
轉(zhuǎn)折點發(fā)生在2025年5月。特斯拉宣布Optimus會逐漸放棄動作捕捉和遙操作數(shù)據(jù),轉(zhuǎn)為從人類第一視角數(shù)據(jù)去學(xué)習(xí)機器人的技能。6月,原Google DeepMind科學(xué)家Andy Zeng創(chuàng)辦的Generalist AI發(fā)布了機器人拆解積木的Demo,機器人在將積木塊放進盒子時,采用的是扔的動作,表明他們也在直接從人類數(shù)據(jù)學(xué)習(xí)。
這種對物理交互的靈活運用,恰恰是傳統(tǒng)真機軌跡擬合難以企及的。至去年底,Skild AI、Physical Intelligence、NVIDIA等硅谷做具身智能的公司都在向“人類第一視角數(shù)據(jù)”看齊,在硅谷基本已達成共識。
張翼博: 各個大廠在春節(jié)前后相繼組建新的團隊,今年3月份之后,這條技術(shù)路線開始受到大家追捧。我們預(yù)測,2026年會是“AnthroLearning”(人類學(xué)習(xí))的元年。
智客ZhiKer:遙操作、真機、仿真、互聯(lián)網(wǎng)視頻學(xué)習(xí)等,這些技術(shù)路線的問題出在哪里?
陳凱: 大家不管是走VLM(Vision-Language Model)、VLA(Vision-Language-Action)還是世界模型路線,每一家都在強調(diào)自己在這條路線上積累了多少數(shù)據(jù)、模型設(shè)計有多好,最終都會卡在一個點上,就是基座模型缺乏物理常識。
VLM模型不理解空間,不能夠理解時序。譬如,桌子上面放了幾個杯子,它數(shù)不清有幾個,對于人來說輕而易舉的事情,對于模型來說非常難,所以有人專門去做增強模型的空間智能。世界模型或視頻生成模型,生成的內(nèi)容在視覺上可以亂真,但是運動的真實性或者物理真實性就比較差。
而“人類第一視角數(shù)據(jù)”采集自真實物理世界,天然蘊含空間理解與交互過程。我用一個更直白的比喻來解釋:現(xiàn)在的軌跡擬合方式就像是在手把手教猴子干活,教它洗菜、做飯、洗碗。但是猴子完全不理解人類社會的常識。我們要做的是先賦予物理常識,讓它進化成人,再讓它學(xué)習(xí)特定技能,這比手把手教動作高效得多。
張翼博:真正的突破在于物理常識的注入,不是簡單的軌跡標(biāo)注,是對任務(wù)的深層理解。比如開礦泉水瓶是什么,先做什么后做什么,這些維度的標(biāo)注門檻極高,這是人們習(xí)以為常的下意識行為,屬于智能的“暗物質(zhì)”。
智客ZhiKer:PhysBrain 與英偉達的技術(shù)路線對比如何?有觀點認(rèn)為,深度機智在這一方向上已有先發(fā)優(yōu)勢,你們怎么看?
陳凱: 從時間線上看,我們兩家的技術(shù)管線搭建幾乎同步。英偉達2026年2—3月公開方案,我們2025年3月啟動預(yù)研、6月搭出數(shù)據(jù)管線。不同之處在于,英偉達專注手部軌跡預(yù)訓(xùn)練,我們直接增強VLM本身。最終都收斂到用人類數(shù)據(jù)增強物理直覺,按進度和投入判斷,我們略領(lǐng)先英偉達。
具體而言,我們圍繞數(shù)據(jù)怎么轉(zhuǎn)譯、架構(gòu)怎么設(shè)計、訓(xùn)練目標(biāo)怎么設(shè)定三個環(huán)節(jié),搭建出一套全棧矩陣,把視頻中的隱性經(jīng)驗提取成結(jié)構(gòu)化監(jiān)督信號,任務(wù)怎么拆解、關(guān)鍵狀態(tài)是什么、手該怎么動、物體之間有什么約束、時空關(guān)系是怎樣的。
![]()
Egocentric2Embodiment翻譯管道的核心是把人類第一視角視頻轉(zhuǎn)碼成機器人能學(xué)的結(jié)構(gòu)化教材,通過多層次拆解任務(wù)規(guī)劃、關(guān)鍵狀態(tài)、手部動作和物理約束,確保時序邏輯連貫且每個判斷都有畫面證據(jù)支撐,最終輸出帶標(biāo)準(zhǔn)答案的VQA監(jiān)督數(shù)據(jù)。確保機器人知其然也知其所以然,而非瞎猜。
利用這套方法,我們構(gòu)建了數(shù)據(jù)集E2E-3M,并訓(xùn)練出具身大腦PhysBrain。在完全未出現(xiàn)在訓(xùn)練集中的SimplerEnv四個操作任務(wù)上,PhysBrain(8B版本)以67.4%的平均成功率力壓行業(yè)標(biāo)桿Physical Intelligence的Pi0.5,領(lǐng)先優(yōu)勢達10%。
智客ZhiKer:PhysBrain的“涌現(xiàn)能力”具體指什么?能否舉例說明?
陳凱:涌現(xiàn)能力體現(xiàn)在模型對物理交互的直覺式理解,而非機械執(zhí)行預(yù)設(shè)動作。
在SimplerEnv的胡蘿卜抓取任務(wù)中,模型接到的指令只是把胡蘿卜放進盤子里。第一次夾取失敗后,它并沒有重復(fù)同一個抓取動作,而是發(fā)現(xiàn)夾爪已經(jīng)碰到了胡蘿卜,順勢改為用夾子把胡蘿卜往盤子方向推,一次推不進去,又加大力度重新推了一次,最后才主動切換策略重新抓取。
要知道,“推”這個動作從未包含在訓(xùn)練數(shù)據(jù)里,模型也沒有看過失敗軌跡示范,這種靈活應(yīng)變更像是一種內(nèi)生的物理直覺。
這種“智能涌現(xiàn)”的出現(xiàn),是物理常識注入帶來的質(zhì)變。讓模型擁有物理常識的同時,不丟失原有的通用理解能力,我們在架構(gòu)層面做了另一項關(guān)鍵設(shè)計“左右腦”同構(gòu)架構(gòu)TwinBrainVLA。
我們引入一個同構(gòu)但被凍結(jié)的VLM模塊作為“左腦”,保持其開放世界理解能力不變;同時引入可訓(xùn)練的“右腦”網(wǎng)絡(luò),專門處理機器人本體感知狀態(tài)和低級動作策略。
關(guān)鍵在于“左右腦”之間的信息交互,通過非對稱混合Transformer機制(AsyMoT),右腦可以動態(tài)查詢左腦的語義知識,左腦參數(shù)不會被下游任務(wù)污染。
這種設(shè)計的精妙之處在于知識遷移而不遺忘,右腦學(xué)會動作控制時,左腦依然保有識別易碎物品的常識及推斷約束條件的能力。遇到新場景時,左右腦協(xié)同工作,既不會變成“只會抓杯子不懂杯子會碎”的純執(zhí)行機器,也不會停留在“知道要輕放但手不聽使喚”的紙上談兵階段。
張翼博:在過往一年當(dāng)中,我們觀測到了非常多次的智能涌現(xiàn),也和英偉達交叉驗證了這個數(shù)據(jù)規(guī)模是有效的。我們用 1000 小時的數(shù)據(jù)實現(xiàn)了這樣的模型性能,這本身就是對新范式的一次關(guān)鍵驗證。
智客ZhiKer:從數(shù)據(jù)采集到模型訓(xùn)練的周期和成本如何?
陳凱:數(shù)據(jù)采集、處理和模型預(yù)研同步推進的全流程不到3個月。核心難有三個,一是制作數(shù)采設(shè)備,二是數(shù)據(jù)確權(quán)與隱私合規(guī),三是打造數(shù)據(jù)處理管線提取物理常識。管線建立后,訓(xùn)練視頻生成模型和多模態(tài)大模型就比較順暢。
張翼博:我們是國內(nèi)第一批完成10萬小時量級多模態(tài)第一人稱視角數(shù)據(jù)采集的公司,通過自研的全套技術(shù)方案,綜合成本遠(yuǎn)低于市場其他類型數(shù)據(jù),數(shù)據(jù)有效性也大幅提升。
何旭國(深度機智硬件負(fù)責(zé)人): 很多人認(rèn)為腦袋上裝一個攝像頭就完成了數(shù)據(jù)采集,但真正解決這個問題的時候,有大量的工程化問題需要解決。我們在定義什么樣的數(shù)采設(shè)備可以進入到真實生產(chǎn)生活。
目前所有的設(shè)備,它的存儲、電量不可能做到又小、時間又長、功耗還低,這是矛盾的。智能眼鏡每增加 10 克,對耳朵的負(fù)擔(dān)都非常明顯。所以我們最開始就拋棄了傳統(tǒng)智能眼鏡作為數(shù)采設(shè)備的解決方案。
我們最終收斂到把整個設(shè)備的形態(tài)對頭部負(fù)擔(dān)盡可能小,把所有的存儲、算力、通訊等基本功能外置,定制了腰包、電源、存儲、電腦,開發(fā)了軟件,做了這個解決方案。
![]()
我們部署了一個輕量級手部檢測模型。畫面中出現(xiàn)手的時候就開始拍攝,畫面中沒有手了拍攝就結(jié)束,這樣最大程度保證了數(shù)據(jù)的有效性。
智客ZhiKer:你們還研發(fā)了自主站立工業(yè)級擬人體機器人,為什么一家做“大腦”的公司要做本體?
陳凱: 使用人類數(shù)據(jù)學(xué)習(xí)的最佳載體,應(yīng)該是高度擬人的機器人。
何老師不僅負(fù)責(zé)數(shù)據(jù)采集設(shè)備,也為大腦設(shè)計身體。這款機器人全身采用萬元級諧波力控電機關(guān)節(jié)模組,全身一共72自由度,而且這款機器人在不通電的情況下可以自主站立,這對于機器人未來進入場景非常重要,它可以實現(xiàn)低能耗和高安全性。
![]()
張翼博:諧波全身力控是技術(shù)路線,擬人體是結(jié)構(gòu)路線。擬人體要求每個自由度與人對齊,手指長度、胳膊肘長度均需匹配,即結(jié)構(gòu)同構(gòu)。我們的優(yōu)勢在于“諧波+同構(gòu)”兼得,諧波關(guān)節(jié)模組尺寸正是行業(yè)難點,我們已取得關(guān)鍵突破。
智客ZhiKer:公司最終定位是做機器人大腦,還是有思考的機器人本體?未來規(guī)劃是什么?
陳凱:最終目標(biāo)是具身AGI,或者說具備物理智能的大模型,用模型能力為機器人提供服務(wù),提供更理解物理世界、更理解交互的Token。
張翼博:短期來講我們要做“沿途下蛋”。先開源4B的小模型,讓行業(yè)看到這了路的可行性,同時我們的數(shù)采設(shè)備也已經(jīng)逐漸開始商業(yè)化;下一步,把更大的模型做成產(chǎn)品,讓大家調(diào)用;同時,我們還在探索養(yǎng)老和教育場景。
智客ZhiKer:技術(shù)路線收斂之后,數(shù)據(jù)標(biāo)注、算力、真機驗證,哪個環(huán)節(jié)會成為新的瓶頸?中國在哪個環(huán)節(jié)有優(yōu)勢?
張翼博: 中國的優(yōu)勢首先在數(shù)據(jù)。美國采集并標(biāo)注第一視角 27 萬小時,花費巨額成本。中國擁有更豐富的數(shù)據(jù)來源和更低廉的采集成本,千萬小時人類第一視角數(shù)據(jù),今年在中國整個行業(yè)就會達到。
再說算力。國產(chǎn)卡完全可以承接,我們有充足的國產(chǎn)算力資源作為支撐。現(xiàn)在技術(shù)已經(jīng)收斂了,下一步就是投入信心、國家支持、全行業(yè)共同努力。中國實現(xiàn)彎道超車或者直線超車是非常有可能的。
陳凱: 還有一個關(guān)鍵是標(biāo)注與模型架構(gòu)、訓(xùn)練方法緊耦合。對手部軌跡建模可能只需幾塊錢算力,但對空間常識、任務(wù)理解的標(biāo)注可能需要幾百塊,投入巨大,回報也巨大。
智客ZhiKer:中國和美國在具身智能領(lǐng)域各有側(cè)重,但如果具身智能是AGI 問題,這個分工會被打破嗎?中國在大模型上的追趕經(jīng)驗?zāi)軓?fù)用到具身智能上嗎?
陳凱:中美確實各有側(cè)重,中國在本體領(lǐng)域有顯著的競爭優(yōu)勢,美國在具身大腦方向起步更早。
中國在具身大腦方向上的力量還需要加強,但是我們對趕超甚至領(lǐng)先非常有信心。一是場景儲備,制造業(yè)立國,幅員遼闊,數(shù)據(jù)上天然有優(yōu)勢。二是硬件協(xié)同,具身大腦可與本體同步迭代,以更高效率設(shè)計適配大腦的身體。三是制度創(chuàng)新,國產(chǎn)芯片突破,北京中關(guān)村學(xué)院等新型教育機構(gòu)探索新科研組織方式。
不管是制度創(chuàng)新、產(chǎn)業(yè)協(xié)同,還是場景豐富度、國家意志,具身大腦的方向上,我們起步不晚,積累不淺,完全有信心走出一條自己的路。
張翼博:能與物理世界交互的人工智能,估值空間巨大。這既是國家需求,也會對生產(chǎn)制造業(yè)、家庭服務(wù)業(yè)影響深遠(yuǎn),讓勞動變成一種選擇,而非必需。
如果具身智能成為AGI的原生能力,將重構(gòu)整個AI產(chǎn)業(yè)鏈。我相信中美會齊頭并進,不會是美國遙遙領(lǐng)先。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.