<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      彎道超車?國(guó)產(chǎn)具身,千小時(shí)人類數(shù)據(jù)激發(fā)智能涌現(xiàn)

      0
      分享至

      編輯|張倩

      導(dǎo)讀:近日,位于中關(guān)村的深度機(jī)智全球首次使用全新范式——人類學(xué)習(xí),在多個(gè)國(guó)際 Benchmark 上取得 SOTA,史無(wú)前例地使用全新架構(gòu)(僅使用人類第一視角數(shù)據(jù)、零真機(jī)數(shù)據(jù))擊敗 Physical Intelligence 和英偉達(dá)等頭部巨頭二十多個(gè)百分點(diǎn)并在兩會(huì)開(kāi)幕首日被央視報(bào)道。而這一全新架構(gòu)的誕生,得益于團(tuán)隊(duì)在人類學(xué)習(xí)路線上一年多的全力積累。無(wú)獨(dú)有偶,近期英偉達(dá)也發(fā)布了人類學(xué)習(xí)的初步嘗試。



      當(dāng)國(guó)內(nèi)具身智能領(lǐng)域還在爭(zhēng)論真機(jī)數(shù)據(jù)和仿真數(shù)據(jù)哪個(gè)更有效時(shí),硅谷卻在悄悄達(dá)成另一項(xiàng)共識(shí)。

      農(nóng)歷新年剛過(guò),英偉達(dá)就發(fā)布了一項(xiàng)重磅成果 ——EgoScale。這是一個(gè)將人類靈巧操作直接「?jìng)魇凇菇o機(jī)器人的全新框架。

      研究人員給大模型喂了超過(guò) 2 萬(wàn)小時(shí)的人類第一視角視頻。結(jié)果證明:只要不斷增加人類的示范數(shù)據(jù),機(jī)器人的操作能力就能穩(wěn)步提升。論文的第一作者更是直接點(diǎn)破了這層窗戶紙:「提升機(jī)器人靈巧性的關(guān)鍵,在于堆更多的人類數(shù)據(jù),而不是機(jī)器人真機(jī)數(shù)據(jù)。



      這不禁讓人想起英偉達(dá)年前的另一項(xiàng)王炸 ——DreamDojo。那個(gè)用 4.4 萬(wàn)小時(shí)人類第一視角視頻訓(xùn)練出來(lái)的模型,展現(xiàn)出了極強(qiáng)的「舉一反三」能力。即使面對(duì)完全陌生的物體和環(huán)境,機(jī)器人也能像熟練工一樣自如應(yīng)對(duì)。原因其實(shí)很簡(jiǎn)單:人類見(jiàn)過(guò)它們,而模型學(xué)習(xí)了人類的視角。



      其實(shí),在硅谷,這些發(fā)現(xiàn)并不令人意外,因?yàn)榫揞^們對(duì)「人類第一視角數(shù)據(jù)」的押注早已開(kāi)始。大家所熟知的公司 —— 特斯拉、Figure、Physical Intelligence、Generalist AI、1X、BuildAI、Skild AI—— 有的明確表示正在大規(guī)模采集這類數(shù)據(jù)構(gòu)建基座,有的即使沒(méi)有明確說(shuō)明,也透露出自己的模型采用了人類數(shù)據(jù)。去年下半年開(kāi)始,這股風(fēng)潮就已成勢(shì)。這次英偉達(dá),也不甘心落后。



      人類第一視角數(shù)據(jù)示例

      這種「默契」的背后,藏著這些前沿公司對(duì)于機(jī)器人「智能」根源的核心判斷 ——真正的機(jī)器人智能始于對(duì)「物理常識(shí)」的理解

      Generalist AI 是這一判斷最激進(jìn)的踐行者:這家由前 Google DeepMind 核心科學(xué)家 Andy Zeng 參與創(chuàng)立的公司,憑借 27 萬(wàn)小時(shí)人類數(shù)據(jù)逼近機(jī)器人領(lǐng)域 Scaling Law,他們甚至將物理常識(shí)稱為機(jī)器人學(xué)中的「暗物質(zhì)」—— 其特點(diǎn)就是無(wú)處不在但又難以捕捉,而人類第一視角數(shù)據(jù)為物理常識(shí)的習(xí)得提供了天然的豐富材料。如果不先習(xí)得物理常識(shí),具身模型很容易陷入「軌跡擬合」的死胡同,采集再多真機(jī)軌跡也很難泛化,畢竟純模仿軌跡的機(jī)器人沒(méi)有內(nèi)化「為什么這樣做」的物理直覺(jué)。

      不過(guò),這些討論在國(guó)內(nèi)似乎還沒(méi)有引起足夠重視,更不用提達(dá)成共識(shí)。這也是為什么,能和硅谷同頻共振,甚至先于硅谷獨(dú)立洞察并利用認(rèn)知時(shí)間差搶跑的企業(yè)更加值得關(guān)注。

      成立于 2025 上半年的深度機(jī)智便是其中最具代表性的一個(gè)。這家公司由北京中關(guān)村學(xué)院導(dǎo)師、中關(guān)村人工智能研究院(合稱「中關(guān)村兩院」)研究員陳凱創(chuàng)立,是這一國(guó)家級(jí)人工智能教育科研共同體孵化的首家公司。



      深度機(jī)智創(chuàng)始團(tuán)隊(duì)早在 2024 年底就由智能眼鏡的高速發(fā)展,敏銳覺(jué)察到人類第一視角數(shù)據(jù)即將迎來(lái)爆發(fā),而此類數(shù)據(jù)蘊(yùn)含的人類與物理世界交互的常識(shí),是具身智能走向通用的破局關(guān)鍵。因此,他們毅然將籌碼押在從「人類第一視角數(shù)據(jù)」解碼「物理常識(shí)」,從而找到具身大模型的 scaling law。如今,他們已經(jīng)成為國(guó)內(nèi)最早布局這一賽道同時(shí)也跑得最快的公司。

      而這種路線選擇上的前瞻性,本質(zhì)上源于團(tuán)隊(duì)對(duì)大模型通用智能的深刻認(rèn)知,以及對(duì)如何真正將大模型的技術(shù)哲學(xué)應(yīng)用在機(jī)器人上的長(zhǎng)期探索。基于這種認(rèn)知,深度機(jī)智已經(jīng)搭建出一套涵蓋數(shù)據(jù)、架構(gòu)、算法的全棧技術(shù)矩陣

      這套矩陣具體怎么運(yùn)轉(zhuǎn)?我們和陳凱博士聊了聊。

      要做的不是「通用具身智能」

      而是「具身通用智能」

      對(duì)機(jī)器人研究有所了解的讀者想必都聽(tīng)過(guò)一個(gè)詞 —— 莫拉維克悖論。它指的是,對(duì)人類來(lái)說(shuō)易如反掌的事情,對(duì)機(jī)器人來(lái)說(shuō)卻難如登天,比如簡(jiǎn)單地做個(gè)家務(wù)。Generalist AI 等公司認(rèn)為,這一現(xiàn)象之所以存在,本質(zhì)上是因?yàn)闄C(jī)器人還沒(méi)有捕獲到一種極度稀缺的「暗物質(zhì)」—— 物理常識(shí),也就是對(duì)力、摩擦、柔度和不確定性等物理屬性的直覺(jué)。



      然而,審視國(guó)內(nèi)具身智能的發(fā)展,目前的競(jìng)爭(zhēng)焦點(diǎn)卻在另一個(gè)維度 ——使用大模型擬合真機(jī)或者仿真得到的軌跡數(shù)據(jù),并期望通過(guò)軌跡數(shù)據(jù)的堆積達(dá)到「通用具身智能」,也就是我們目前常說(shuō)的 VLA 路線。在這種思路的主導(dǎo)下,行業(yè)普遍的做法是:給大模型加上動(dòng)作模塊,然后瘋狂投喂機(jī)器人的末端軌跡數(shù)據(jù),讓模型去擬合「觀測(cè)→動(dòng)作」的映射。

      陳凱博士指出,在基座模型物理智能水平低下的情況下,這種「端到端擬合軌跡」的做法,在數(shù)據(jù)使用上是非常低效的,而且可學(xué)到的上限很低。因?yàn)檫@就像訓(xùn)練一匹智力水平不足的騾馬,無(wú)論重復(fù)多少遍都只能執(zhí)行有限的指令。所以很多模型背了幾萬(wàn)小時(shí)軌跡,泛化能力依然僵化。

      更棘手的是,單純的動(dòng)作擬合不僅無(wú)法產(chǎn)生對(duì)物理規(guī)律的直覺(jué),還會(huì)破壞大模型本身強(qiáng)大的通用理解能力,導(dǎo)致嚴(yán)重的災(zāi)難性遺忘。這一現(xiàn)象在很多報(bào)告中都可以看到,違背了大家利用 VLM 強(qiáng)大泛化能力的初衷 —— 最突出的表現(xiàn)就是,大模型中常見(jiàn)的長(zhǎng)程規(guī)劃和推理能力,在當(dāng)前的大多數(shù) VLA 模型中大幅衰減,反而成了少數(shù)幾家能拿得出手的宣傳亮點(diǎn)。這無(wú)不凸顯出當(dāng)前「擬合軌跡」為主的訓(xùn)練哲學(xué)的根本問(wèn)題。

      既然擬合軌跡學(xué)不到常識(shí),具身智能到底該怎么走?深度機(jī)智之所以能在賽道上搶跑,正是因?yàn)樗麄冊(cè)诘讓勇肪€上完成了認(rèn)知視角的翻轉(zhuǎn):他們要做的不是「通用具身智能」,而是「具身通用智能」



      這一語(yǔ)序調(diào)換絕非文字游戲,而是訓(xùn)練邏輯的徹底重構(gòu)。在深度機(jī)智的理念中,智能是原生的,具身只是其在三維世界的表現(xiàn)形式。真正的大模型下一階段,機(jī)器人應(yīng)當(dāng)首先具備思考、搜索、交流等通用能力,并且深刻理解物理世界的運(yùn)作規(guī)律,最后才是在現(xiàn)實(shí)中去執(zhí)行任務(wù)。

      這就是深度機(jī)智最核心的技術(shù)策略:「Understanding first, action next」(先理解,后執(zhí)行)」

      這種哲學(xué),完美地回應(yīng)了 Generalist AI 提出的「物理常識(shí)」難題。但在哪里能找到包含海量物理常識(shí)的教材?在深度機(jī)智看來(lái),人類第一視角數(shù)據(jù),正是那把解鎖物理常識(shí)的完美鑰匙。

      陳凱指出,他們和 Generalist AI 想法類似:既然人類和機(jī)器人處于同一個(gè)受固定定律控制的物理世界,那么人類完全可以被看作是一種「特殊的機(jī)器人本體」。人類用多大的力氣拿起雞蛋而不捏碎,用什么角度推開(kāi)半掩的門 —— 這些由人類作為「特殊本體」產(chǎn)生的第一視角感知運(yùn)動(dòng)經(jīng)驗(yàn),天然蘊(yùn)含著極其豐富的物理常識(shí)。

      然而,如果僅僅使用人類動(dòng)作的軌跡進(jìn)行訓(xùn)練,而不是提取其中的物理交互知識(shí),那就無(wú)異于買櫝還珠。為了克服這一問(wèn)題,深度機(jī)智在成立短短幾個(gè)月內(nèi),就構(gòu)建了復(fù)雜的數(shù)據(jù)增強(qiáng)管線,并且仍然在快速迭代中,用以高效榨取數(shù)據(jù)中的物理常識(shí)。

      利用這種物理常識(shí)被榨取過(guò)的增強(qiáng)數(shù)據(jù)去「喂養(yǎng)」基座模型,深度機(jī)智跳出了軌跡擬合的陷阱,換來(lái)了數(shù)據(jù)效率的質(zhì)變:用千小時(shí)規(guī)模人類第一視角視頻,就能超過(guò)別人用幾萬(wàn)小時(shí)真機(jī)數(shù)據(jù)才能達(dá)到的泛化性。同時(shí),他們也在模型架構(gòu)和算法方面進(jìn)一步優(yōu)化,以確保大模型在長(zhǎng)出「具身肌肉」的同時(shí),絕不喪失原有的「通用靈魂」。

      一套開(kāi)始顯現(xiàn)復(fù)利效應(yīng)的技術(shù)組合

      路線確定之后,深度機(jī)智面臨一些更實(shí)際的挑戰(zhàn):數(shù)據(jù)怎么轉(zhuǎn)譯、架構(gòu)怎么設(shè)計(jì)、訓(xùn)練目標(biāo)怎么設(shè)定,每一步都決定著「先理解,后執(zhí)行」能否跑通。

      過(guò)去一年,團(tuán)隊(duì)圍繞這三個(gè)環(huán)節(jié)搭建出一套全棧矩陣,并用三組對(duì)照實(shí)驗(yàn)驗(yàn)證了路線的有效性:他們只加人類第一視角數(shù)據(jù),驗(yàn)證數(shù)據(jù)方法論;只改架構(gòu),驗(yàn)證訓(xùn)練方法論;只調(diào)算法,驗(yàn)證對(duì)齊方法論。最后,這些方法匯總到一起,他們訓(xùn)練出了成功率遠(yuǎn)超行業(yè)標(biāo)桿的 SOTA 模型。

      PhysBrain:千小時(shí)人類視頻 PK 數(shù)萬(wàn)小時(shí)真機(jī)

      人類第一視角視頻是個(gè)天然的數(shù)據(jù)富礦,它能大規(guī)模記錄日常生活中的長(zhǎng)期任務(wù)、人與物體的交互細(xì)節(jié),以及手部的精細(xì)操作動(dòng)態(tài)。但這里有個(gè)關(guān)鍵卡點(diǎn):這些視頻里確實(shí)藏著「怎么做」的規(guī)劃邏輯和物理交互規(guī)律,但都是隱性的,機(jī)器人直接看可能看不懂。

      所以,深度機(jī)智的當(dāng)務(wù)之急,就是建立一個(gè)翻譯管道,把這些視頻中的隱性經(jīng)驗(yàn),提取成結(jié)構(gòu)化的監(jiān)督信號(hào) —— 比如任務(wù)怎么拆解、關(guān)鍵狀態(tài)是什么、手該怎么動(dòng)、物體之間有什么約束、時(shí)空關(guān)系是怎樣的。

      Egocentric2Embodiment 翻譯管道便是為此提出來(lái)的,其核心是把人類第一視角視頻「轉(zhuǎn)碼」成機(jī)器人能學(xué)的結(jié)構(gòu)化教材:通過(guò)多層次拆解任務(wù)規(guī)劃、關(guān)鍵狀態(tài)、手部動(dòng)作和物理約束,確保時(shí)序邏輯連貫且每個(gè)判斷都有畫面證據(jù)支撐,最終輸出帶標(biāo)準(zhǔn)答案的 VQA 監(jiān)督數(shù)據(jù)(就像一份帶標(biāo)準(zhǔn)答案的習(xí)題集),確保機(jī)器人「知其然也知其所以然」,而不是瞎猜。



      利用這套方法,他們構(gòu)建了數(shù)據(jù)集 E2E-3M,并用該數(shù)據(jù)集訓(xùn)練了一個(gè)具身大腦 ——PhysBrain。在完全未出現(xiàn)在訓(xùn)練集中的 SimplerEnv 四個(gè)操作任務(wù)上,PhysBrain(8B 版本)以 67.4% 的平均成功率力壓行業(yè)標(biāo)桿、Physical Intelligence 的 Pi0.5,領(lǐng)先優(yōu)勢(shì)達(dá) 10%



      要知道,PhysBrain 的微調(diào)數(shù)據(jù)僅為千小時(shí)的純?nèi)祟愐暯且曨l(即 E2E-3M 的體量)和部分通用 VQA 數(shù)據(jù),不含機(jī)器人軌跡數(shù)據(jù),就讓模型掌握了空間結(jié)構(gòu)和物體動(dòng)力學(xué)特征,展現(xiàn)了良好的泛化性;相比之下,Pi0.5 則是用數(shù)萬(wàn)小時(shí)真機(jī)軌跡數(shù)據(jù)「堆」出來(lái)的。這有力地證明了:一個(gè)深刻理解物理世界規(guī)律的「聰明大腦」,其學(xué)習(xí)效率與泛化上限遠(yuǎn)超軌跡擬合。

      更令人驚嘆的是,PhysBrain 在僅學(xué)習(xí)「成功案例」的情況下,竟自發(fā)涌現(xiàn)出了靈活策略能力和自動(dòng)糾錯(cuò)能力

      在 SimplerEnv 的胡蘿卜抓取任務(wù)中,模型接到的指令只是把胡蘿卜放進(jìn)盤子里。第一次夾取失敗后,它并沒(méi)有機(jī)械地重復(fù)同一個(gè)抓取動(dòng)作,因?yàn)槟P桶l(fā)現(xiàn)夾爪已經(jīng)碰到了胡蘿卜,于是順勢(shì)改為用夾子把胡蘿卜往盤子方向推,一次推不進(jìn)去,又加大力度重新推了一次。后來(lái),發(fā)現(xiàn)這種方式依然無(wú)效,它又主動(dòng)切換策略,重新調(diào)整姿態(tài)去抓取。要知道,「推」這個(gè)動(dòng)作是沒(méi)有包含在模型訓(xùn)練數(shù)據(jù)里的,它也沒(méi)有看到過(guò)失敗軌跡示范,這種表現(xiàn)更像是一種對(duì)物理交互的直覺(jué)式理解。

      之前,這種「涌現(xiàn)」現(xiàn)象幾乎只有 Physical Intelligence 和 Generalist AI 提到過(guò),但前者將其歸因于大量「失敗軌跡」數(shù)據(jù)。相比之下,PhysBrain 僅憑對(duì)人類交互邏輯的底層理解,便實(shí)現(xiàn)了從「僵化執(zhí)行」到「靈活應(yīng)變」的本質(zhì)跨越。

      TwinBrainVLA:給機(jī)器人安上「不降智」的雙腦

      PhysBrain 證明了人類第一視角視頻能喂出「聰明大腦」,但后續(xù)的優(yōu)化問(wèn)題隨之而來(lái):一個(gè)模型既要保持開(kāi)放世界的通用理解,又要輸出毫米級(jí)的精確動(dòng)作,這兩個(gè)目標(biāo)在優(yōu)化時(shí)其實(shí)是打架的。這是 VLA 領(lǐng)域的經(jīng)典難題:微調(diào)學(xué)動(dòng)作,會(huì)遺忘通用知識(shí);保通用知識(shí),又學(xué)不會(huì)精細(xì)操作。

      為了破解這個(gè)「左右互搏」的困境,深度機(jī)智創(chuàng)新性地設(shè)計(jì)了「左右腦」同構(gòu)架構(gòu) ——TwinBrainVLA。具體來(lái)說(shuō),他們首先引入一個(gè)同構(gòu)但被凍結(jié)的 VLM 模塊作為「左腦」,保持其開(kāi)放世界理解能力不變;同時(shí)又引入一個(gè)可訓(xùn)練的「右腦」網(wǎng)絡(luò),專門處理機(jī)器人本體感知狀態(tài)和低級(jí)動(dòng)作策略。關(guān)鍵在于「左右腦」之間的信息交互 —— 通過(guò)他們提出的非對(duì)稱混合 Transformer 機(jī)制(AsyMoT),右腦可以動(dòng)態(tài)查詢左腦的語(yǔ)義知識(shí),但左腦的參數(shù)不會(huì)被下游任務(wù)污染。

      這種設(shè)計(jì)的精妙之處在于:知識(shí)遷移而不遺忘。右腦學(xué)會(huì)動(dòng)作控制時(shí),左腦依然保有識(shí)別「易碎物品」這樣的常識(shí)知識(shí)及推斷約束條件的能力;當(dāng)機(jī)器人遇到新場(chǎng)景,左右腦協(xié)同工作,既不會(huì)變成「只會(huì)抓杯子不懂杯子會(huì)碎」的純執(zhí)行機(jī)器,也不會(huì)停留在「知道要輕放但手不聽(tīng)使喚」的紙上談兵階段。

      實(shí)驗(yàn)階段,深度機(jī)智在完全未出現(xiàn)在訓(xùn)練集中的 SimplerEnv 四個(gè)操作任務(wù)上驗(yàn)證了 TwinBrainVLA 的有效性:在數(shù)據(jù)量遠(yuǎn)遠(yuǎn)小于 Pi0.5 的前提下,TwinBrainVLA 將原生的 Qwen3-VL-4B 能力有效遷移到機(jī)器人控制任務(wù)上,在 480 次獨(dú)立測(cè)試中的平均成功率達(dá)到 64.5%,遠(yuǎn)超使用了數(shù)萬(wàn)小時(shí)軌跡數(shù)據(jù)的 Pi0.5(57.1%)。它證明了保住大模型的底子,本身就能換來(lái)更高的性能上限。



      LangForce:強(qiáng)迫大腦「讀懂指令」再動(dòng)手

      數(shù)據(jù)策略 work,架構(gòu)也跑通了,但具體的訓(xùn)練過(guò)程中,深度機(jī)智還發(fā)現(xiàn)了一些算法上的 bug,「視覺(jué)捷徑」就是其中之一。

      這個(gè)問(wèn)題是說(shuō),模型表現(xiàn)出一種類似「偷懶」的現(xiàn)象:由于訓(xùn)練數(shù)據(jù)中指令與畫面高度相關(guān),機(jī)器人往往直接跳過(guò)語(yǔ)言指令,只盯著視覺(jué)畫面做動(dòng)作(比如看見(jiàn)碗和抽屜就執(zhí)行「把碗放進(jìn)抽屜」)。一旦指令稍作改變(比如改為「把碗放到爐灶上」),哪怕畫面再清晰,模型也會(huì)因?yàn)楹雎灾噶疃鴱氐追嚒?/p>

      為了解決這個(gè)問(wèn)題,深度機(jī)智改進(jìn)了算法,強(qiáng)迫模型回答「這個(gè)動(dòng)作比單純看畫面多提供了什么信息」。他們?cè)O(shè)計(jì)了一個(gè)雙分支架構(gòu) —— 一個(gè)分支只能看畫面生成動(dòng)作,另一個(gè)分支能同時(shí)看到畫面和指令,然后通過(guò)最大化兩者的差異(即條件互信息),讓模型被迫「解釋」為什么要執(zhí)行這個(gè)動(dòng)作。只有當(dāng)動(dòng)作真正體現(xiàn)了語(yǔ)言指令的語(yǔ)義時(shí),模型才能獲得獎(jiǎng)勵(lì);反之,如果動(dòng)作僅靠畫面就能預(yù)測(cè),模型就會(huì)受到懲罰。這相當(dāng)于在訓(xùn)練過(guò)程中給模型設(shè)置了一個(gè)「防偷懶」機(jī)制,確保它不能把語(yǔ)言指令當(dāng)擺設(shè)。

      這個(gè)小小的改進(jìn)帶來(lái)的增益非常明顯:在不使用任何機(jī)器人真機(jī)軌跡數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下,以原生 Qwen-3-VL 為主干進(jìn)行微調(diào)的模型在 SimplerEnv 的四個(gè)任務(wù)上實(shí)現(xiàn)了 66.5% 的成功率,領(lǐng)先 Pi0.5 將近 10 個(gè)百分點(diǎn)

      這一結(jié)果表明,逼模型真正理解語(yǔ)言指令,而不是過(guò)擬合訓(xùn)練數(shù)據(jù)里的表面特征,是打破泛化瓶頸的關(guān)鍵。



      當(dāng)三條路徑匯合,能力曲線開(kāi)始抬升

      前面三個(gè)「控制變量」實(shí)驗(yàn)表明,深度機(jī)智在數(shù)據(jù)、架構(gòu)、算法層面提出的各個(gè)創(chuàng)新都能帶來(lái)顯著的增益,但真正的質(zhì)變發(fā)生在它們「三合一」的時(shí)刻。

      最近,深度機(jī)智在訓(xùn)練的新模型中融合了上述三種方法,發(fā)現(xiàn)新訓(xùn)練出的模型(即將發(fā)布的PhysBrain1.0在 SimplerEnv 測(cè)試中直接跑出了 79.8% 的平均成功率,超越了行業(yè)標(biāo)桿 Pi0.5 達(dá) 22.7%,也超過(guò)了之前成績(jī)最好的 Xiaomi-Robotics-0(79.2%),達(dá)到 SOTA。



      這種領(lǐng)先優(yōu)勢(shì)在其他具有挑戰(zhàn)性的場(chǎng)景中得到了進(jìn)一步驗(yàn)證。在 RoboCasa 上,PhysBrain1.0 僅使用千小時(shí)人類第一視角數(shù)據(jù)做 VLM 增強(qiáng),就達(dá)到 58.1% 成功率,拿下 SOTA。這個(gè)測(cè)試強(qiáng)調(diào)多階段家庭場(chǎng)景操作,考察的是長(zhǎng)程規(guī)劃與穩(wěn)定執(zhí)行能力,結(jié)果說(shuō)明模型已具備真實(shí)場(chǎng)景落地的潛力。



      同時(shí),深度機(jī)智還觀察到,雖然模型使用的是人類第一視角視頻和少量 ALOHA 機(jī)器人軌跡數(shù)據(jù)進(jìn)行訓(xùn)練,但在另一個(gè)機(jī)器人真機(jī)平臺(tái) ——Franka 上,它也能實(shí)現(xiàn)接近 100% 的抓取成功率,這說(shuō)明模型了具備業(yè)界少見(jiàn)的跨本體泛化能力

      從基礎(chǔ)操作到復(fù)雜協(xié)同,再到泛化遷移,PhysBrain1.0 基本實(shí)現(xiàn)了全線領(lǐng)先。在 3 月底的中關(guān)村論壇上,PhysBrain1.0 將正式亮相,相關(guān)成果也將開(kāi)源。

      當(dāng)能力上限被抬高

      競(jìng)爭(zhēng)才真正開(kāi)始

      如果把視線拉回到整個(gè)行業(yè),就會(huì)發(fā)現(xiàn)一個(gè)頗為微妙的錯(cuò)位。

      一邊是機(jī)器人本體快速迭代,關(guān)節(jié)更靈活,控制更精準(zhǔn);另一邊,大腦卻始終被數(shù)據(jù)瓶頸卡住。仿真派和真機(jī)派爭(zhēng)論不休,但兩條路線都繞不開(kāi)同一個(gè)隱憂:當(dāng)模型只能在機(jī)器人的閉環(huán)視角里反復(fù)擬合軌跡,多樣性和信息密度都極為有限,很難真正長(zhǎng)出對(duì)物理世界的直覺(jué)。

      深度機(jī)智的思路,更像是大模型出現(xiàn)后機(jī)器翻譯的那次代際躍遷。早期翻譯系統(tǒng)靠規(guī)則和對(duì)齊表修修補(bǔ)補(bǔ),效果始終有限;直到模型開(kāi)始掌握語(yǔ)言的底層結(jié)構(gòu),質(zhì)量才出現(xiàn)質(zhì)變。具身智能也一樣,與其在「觀測(cè) → 動(dòng)作」的映射上死磕,不如先讓模型通過(guò)人類第一視角視頻習(xí)得物理世界的「通用語(yǔ)法」。當(dāng)常識(shí)內(nèi)化之后,執(zhí)行反而成為理解的自然外顯,數(shù)據(jù)效率因此出現(xiàn)數(shù)量級(jí)的提升。

      這種認(rèn)知時(shí)差帶來(lái)的先發(fā)優(yōu)勢(shì),正在沉淀為一整套技術(shù)閉環(huán):從人類視頻的結(jié)構(gòu)化轉(zhuǎn)譯,到左右腦異構(gòu)架構(gòu),再到針對(duì)語(yǔ)言與動(dòng)作對(duì)齊的訓(xùn)練算法,彼此咬合。結(jié)果不只是單點(diǎn)指標(biāo)領(lǐng)先,而是一條成本結(jié)構(gòu)更優(yōu)、規(guī)模化門檻更低的路徑。高數(shù)據(jù)效率疊加對(duì)物理常識(shí)的系統(tǒng)性建模,使得后來(lái)者很難僅靠堆算力或堆真機(jī)軌跡在短期內(nèi)追平。

      接下來(lái),深度機(jī)智計(jì)劃在 2026 年上半年把人類第一視角數(shù)據(jù)規(guī)模推進(jìn)到百萬(wàn)小時(shí)量級(jí)。在這個(gè)數(shù)量級(jí)上,問(wèn)題或許不再是「機(jī)器人能不能完成某個(gè)任務(wù)」,而是物理常識(shí)的 Scaling Law 能否完全顯現(xiàn)。



      人類視角數(shù)據(jù)采集現(xiàn)場(chǎng)。工人可以邊工作邊采集,多樣性和信息密度都足夠豐富,而且采集成本低。

      如果答案是肯定的,那么具身智能的拐點(diǎn),可能會(huì)比很多人預(yù)想得更早到來(lái)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒(méi)有邊界感

      現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒(méi)有邊界感

      風(fēng)起見(jiàn)你
      2026-03-04 13:50:50
      禁令突襲!津巴布韋按下暫停鍵,2026年鋰行業(yè)拐點(diǎn)真的來(lái)了?

      禁令突襲!津巴布韋按下暫停鍵,2026年鋰行業(yè)拐點(diǎn)真的來(lái)了?

      小白鴿財(cái)經(jīng)
      2026-03-04 20:30:03
      20億!可口可樂(lè)在華最大單筆投資項(xiàng)目竣工

      20億!可口可樂(lè)在華最大單筆投資項(xiàng)目竣工

      新零售財(cái)經(jīng)
      2026-03-05 11:28:28
      A股:剛剛,兩個(gè)大消息傳來(lái),釋放一信號(hào),一方向或迎來(lái)主升浪

      A股:剛剛,兩個(gè)大消息傳來(lái),釋放一信號(hào),一方向或迎來(lái)主升浪

      云鵬敘事
      2026-03-05 00:00:07
      新能源車占比達(dá)12%!全國(guó)人大代表周燕芳:傳統(tǒng)保險(xiǎn)難適配,建議差異化定價(jià)

      新能源車占比達(dá)12%!全國(guó)人大代表周燕芳:傳統(tǒng)保險(xiǎn)難適配,建議差異化定價(jià)

      時(shí)代周報(bào)
      2026-03-05 11:29:21
      內(nèi)蒙古草兔為何泛濫成災(zāi)?就連吃貨都無(wú)能為力,牧民直言:不敢碰

      內(nèi)蒙古草兔為何泛濫成災(zāi)?就連吃貨都無(wú)能為力,牧民直言:不敢碰

      一曲一場(chǎng)談
      2026-02-25 03:42:27
      56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

      56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

      岐黃傳人孫大夫
      2026-02-28 22:15:03
      如果當(dāng)年沒(méi)有朝鮮戰(zhàn)爭(zhēng),粟裕手里的60萬(wàn)大軍,能一舉拿下臺(tái)灣嗎?

      如果當(dāng)年沒(méi)有朝鮮戰(zhàn)爭(zhēng),粟裕手里的60萬(wàn)大軍,能一舉拿下臺(tái)灣嗎?

      兵卒史
      2026-03-04 18:18:50
      注意,蘋果官網(wǎng)宣布大量產(chǎn)品下架!

      注意,蘋果官網(wǎng)宣布大量產(chǎn)品下架!

      XCiOS俱樂(lè)部
      2026-03-05 14:11:46
      伊朗導(dǎo)彈狂轟濫炸,美國(guó)和以色列彈藥告急,這場(chǎng)仗還能撐多久?

      伊朗導(dǎo)彈狂轟濫炸,美國(guó)和以色列彈藥告急,這場(chǎng)仗還能撐多久?

      花凌若別離開(kāi)
      2026-03-05 14:47:49
      A股:不必等待了!周五,股市或?qū)⒂瓉?lái)大級(jí)別的變化?

      A股:不必等待了!周五,股市或?qū)⒂瓉?lái)大級(jí)別的變化?

      財(cái)經(jīng)大拿
      2026-03-05 13:45:14
      演都不演了,剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣到1280,到底誰(shuí)給的自信?

      演都不演了,剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣到1280,到底誰(shuí)給的自信?

      一娛三分地
      2026-03-03 13:51:03
      霍爾木茲海峽替代路線浮現(xiàn)?沙特陸海聯(lián)運(yùn)體系已做好準(zhǔn)備

      霍爾木茲海峽替代路線浮現(xiàn)?沙特陸海聯(lián)運(yùn)體系已做好準(zhǔn)備

      中國(guó)能源網(wǎng)
      2026-03-05 14:50:05
      伊朗威脅攻打以色列核反應(yīng)堆,500美軍被消滅,以:地面進(jìn)攻開(kāi)始

      伊朗威脅攻打以色列核反應(yīng)堆,500美軍被消滅,以:地面進(jìn)攻開(kāi)始

      滄海旅行家
      2026-03-05 16:11:21
      女員工手一抖摔破3000多元飛天茅臺(tái):確實(shí)是真酒,我自己需承擔(dān)賠償,從此見(jiàn)到茅臺(tái)就有心理陰影

      女員工手一抖摔破3000多元飛天茅臺(tái):確實(shí)是真酒,我自己需承擔(dān)賠償,從此見(jiàn)到茅臺(tái)就有心理陰影

      極目新聞
      2026-03-05 11:24:35
      基辛格坦言:如果爆發(fā)核戰(zhàn)爭(zhēng),中國(guó)可能只有5個(gè)地方可以躲避危險(xiǎn)

      基辛格坦言:如果爆發(fā)核戰(zhàn)爭(zhēng),中國(guó)可能只有5個(gè)地方可以躲避危險(xiǎn)

      混沌錄
      2026-03-02 17:15:04
      一集裝箱船被炮彈擊中

      一集裝箱船被炮彈擊中

      港口圈
      2026-03-05 16:18:59
      香港知名女星癌癥惡化!胸部流膿惡臭,每晚包傷口:像跟尸體同睡

      香港知名女星癌癥惡化!胸部流膿惡臭,每晚包傷口:像跟尸體同睡

      觀察鑒娛
      2026-03-04 10:42:58
      F-35I擊落雅克-130,美軍潛艇擊沉伊朗護(hù)衛(wèi)艦,連土耳其也被打了

      F-35I擊落雅克-130,美軍潛艇擊沉伊朗護(hù)衛(wèi)艦,連土耳其也被打了

      鷹眼Defence
      2026-03-05 13:18:07
      越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

      越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

      混沌錄
      2025-09-17 23:25:04
      2026-03-05 17:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12418文章數(shù) 142578關(guān)注度
      往期回顧 全部

      科技要聞

      阿里內(nèi)部郵件回應(yīng):批準(zhǔn)林俊旸辭職

      頭條要聞

      伊外長(zhǎng)披露軍艦遭襲細(xì)節(jié):300公斤彈頭在船體下方爆炸

      頭條要聞

      伊外長(zhǎng)披露軍艦遭襲細(xì)節(jié):300公斤彈頭在船體下方爆炸

      體育要聞

      不開(kāi)玩笑,沒(méi)人想在季后賽碰上黃蜂

      娛樂(lè)要聞

      謝娜下場(chǎng)撕薛之謙,張杰前女友爆猛料

      財(cái)經(jīng)要聞

      “十五五”開(kāi)局之年,這么干!

      汽車要聞

      小鵬第二代VLA如何破解智駕不敢用的技術(shù)困局?

      態(tài)度原創(chuàng)

      健康
      游戲
      數(shù)碼
      教育
      公開(kāi)課

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

      “BGM游戲展”廣州站全新升級(jí)!早鳥(niǎo)熱售3月5日開(kāi)啟

      數(shù)碼要聞

      唯卓仕F1轉(zhuǎn)接環(huán)AI自動(dòng)對(duì)焦系統(tǒng)(PL-E)發(fā)布。2999元起

      教育要聞

      山東1學(xué)校任免校長(zhǎng)

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版