<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      獨家對話Sharpa核心團隊:如何把人類的“觸覺”裝進機器人的身體|甲子光年

      0
      分享至



      要想真正做到通用機器人,除了做好觸覺AI,別無選擇。

      作者|蘇霍伊

      編輯|王博

      今年以前,Sharpa都很神秘。

      很多人以為Sharpa是一個做機器人靈巧手公司,因為Sharpa靈巧機械手Wave在ICRA 2025、CES 2026、GTC 2026連續(xù)亮相,還登上了今年總臺央視春晚的舞臺。它能精準(zhǔn)發(fā)牌、打乒乓球、盤核桃,實現(xiàn)如同人手一般的精細化操作。


      Sharpa靈巧機械手Wave在GTC上展示,圖片來源:Sharpa

      但Sharpa對自己定位遠不止于此。

      在GTC 2026上,Sharpa通過實物和視頻展示了其完整技術(shù)棧,包括靈巧機械手Wave、人形機器人North以及融合視覺、觸覺與語言的模型系統(tǒng)CraftNet。


      Sharpa人形機器人North,圖片來源:「甲子光年」拍攝

      Sharpa成立于2024年,全球總部位于新加坡,制造與研發(fā)中心位于中國上海,商業(yè)運營總部位于美國加州硅谷山景城。雖然Sharpa創(chuàng)始團隊因為過往在自動駕駛領(lǐng)域的經(jīng)歷而受到關(guān)注,但是Sharpa一直保持著獨立運營的狀態(tài)。

      近期,「甲子光年」來到了Sharpa硅谷辦公室,見到了Sharpa GTM副總裁、歐洲區(qū)總裁Alicia Veneziani和Sharpa研究科學(xué)家、學(xué)術(shù)負責(zé)人張凱峰。

      這是Sharpa核心團隊成員首次與媒體進行深度對話,對于外界好奇的公司定位,Alicia Veneziani告訴「甲子光年」:“我們的秘密武器是觸覺AI,我們的核心定位是一家以觸覺AI為驅(qū)動的全棧靈巧機器人公司。”

      相比主要依賴視覺的機器人動作,Sharpa更專注于觸覺驅(qū)動的機器人靈巧操作。

      這一能力被認(rèn)為是機器人完成復(fù)雜現(xiàn)實任務(wù)的關(guān)鍵門檻。宇樹科技創(chuàng)始人、CEO王興興近期表示:“我覺得目前對于具身智能或者機器人來說,移動和動作大部分問題已經(jīng)解決掉了,但對于抓取和操作這部分,尤其觸覺相關(guān)的問題目前沒有解決,這也直接限制了具身智能或者人形機器人大規(guī)模在工廠和家庭去部署。”

      過去兩年,具身智能行業(yè)的敘事幾乎被視覺與語言主導(dǎo):VLM、VLA、世界模型……讓機器人看懂世界成為主線。但Sharpa選擇了一條更難、也更少人走的路徑:從“手”的感知出發(fā),而不僅僅依賴“眼睛”。

      Sharpa的技術(shù)路徑建立在兩個核心能力之上:一是通過仿真環(huán)境進行大規(guī)模技能訓(xùn)練;二是結(jié)合視頻與觸覺數(shù)據(jù),訓(xùn)練其視覺-觸覺-語言-動作模型(VTLA),使機器人能夠?qū)W習(xí)人類的操作方式,并實現(xiàn)更高程度的自主化。

      為支撐這一訓(xùn)練范式,Sharpa在GTC期間宣布與英偉達聯(lián)合開發(fā)Tacmap仿真觸覺系統(tǒng),作為觸覺驅(qū)動機器人學(xué)習(xí)的重要基礎(chǔ)設(shè)施。該框架通過共享的高精度幾何結(jié)構(gòu)表示,實現(xiàn)了高真實度與高計算效率之間的平衡。Sharpa表示,相關(guān)仿真框架及代碼資產(chǎn)未來將開源,以便與更廣泛的機器人社區(qū)共享研究成果。

      Alicia Veneziani和張凱峰,一位站在市場戰(zhàn)略前線,一位深入模型系統(tǒng)底層。這次對話中,我們探討了五個方面的話題:

      • Sharpa為什么會引發(fā)關(guān)注?

      • 觸覺是不是靈巧操作的關(guān)鍵?

      • CraftNet的創(chuàng)新之處?

      • 為什么英偉達會和Sharpa合作?

      • Sharpa的運營與商業(yè)計劃是什么?

      本文為「甲子光年」對話Sharpa核心團隊實錄,經(jīng)「甲子光年」整理編輯,在不改變原意的基礎(chǔ)上有所刪改。

      1.要做就做與人類1:1同構(gòu)靈巧手

      甲子光年:之前很多人以為你們是一家做靈巧手的公司,所以你們對自己定位是什么?

      Alicia:可能是Sharpa的靈巧手做得太好了(笑),導(dǎo)致很多人以為我們就是個做靈巧手的公司。

      而我們的秘密武器就是觸覺以及觸覺AI,我們的核心定位是一家以觸覺AI為驅(qū)動的全棧靈巧機器人公司。

      從去年5月份我們在ICRA(國際機器人與自動化會議)第一次亮相時,我們帶去的就是一整臺完整的機器人。但當(dāng)時所有人的注意力全被那只手吸引了。


      Alicia Veneziani,圖片來源:Sharpa

      甲子光年:的確,不論是去年的ICRA,還是今年的CES和GTC,你們展位的人都不少。

      Alicia:實際上,我們從一開始就沒打算只做手,我們一直在做機器人整機。

      我們內(nèi)部有個比喻:我們造的這只靈巧手,其實更像是汽車的發(fā)動機。我們要把各種不同的系統(tǒng)集成到這輛“車”里,所以我們本質(zhì)上是“造車”的(做全棧機器人系統(tǒng)),只不過我們的手做得特別好,這只手就成了我們這輛車的核心發(fā)動機。


      Sharpa GTC展位,圖片來源:Sharpa

      甲子光年:這個比喻很有意思我也發(fā)現(xiàn),其實你們一直在強調(diào)機器人的“靈巧操作”以及“全身控制”,而不光是“手”。

      張凱峰:這其實是我們的愿景。我們常說“We manufacture time by making robots useful”(我們通過讓機器人變得有用,來為人類創(chuàng)造時間)。我們想做真正能干活、有用的機器人,去承擔(dān)那些人們不愿意干的臟活累活,從而把人類的時間真正解放出來。

      甲子光年:我注意到,Sharpa靈巧機械手Wave是和人類1:1同構(gòu)的,所以做到1:1同構(gòu)很難嗎?

      張凱峰:靈巧手做到1:1同構(gòu)非常難。比如要做到成年男性的手部大小,還要具備人手大部分的自由度。我們的靈巧手有很多特性,比如指尖力矩能達到兩公斤,運動頻率是四赫茲,你需要兼具速度和力量。其次,要在這么小的空間里集成強有力的電機,同時做好整個系統(tǒng)的集成,工程難度極大。

      Alicia:我認(rèn)為這取決于我們?nèi)绾味x“相似”。如果我們要求外觀和功能都相似,希望機械手能像人手一樣擁有同等的自由度、完成同等范圍的精細動作,就需要把大量內(nèi)部零件塞進一個極小的表面積里。這意味著必須使用超微型的驅(qū)動器,在極其有限的空間內(nèi)實現(xiàn)同等功能,這就是保持1:1比例的難點所在。

      甲子光年:但是業(yè)內(nèi)也有聲音說,靈巧手硬件本身似乎并不那么重要。

      Alicia:現(xiàn)在有個誤區(qū),有人覺得有了AI算法控制,硬件問題就不存在了。這完全是錯的,硬件的痛點依然在那兒。所以我們堅持深耕硬件工程,才能自己設(shè)計組件并快速迭代。大部分公司的手只能往大了做,但做大了就用不了人類的工具,比如普通的剪刀。

      甲子光年:之前我們也看過各種靈巧手產(chǎn)品。有的公司會強調(diào)手的抓握力和負載能力,你們似乎沒有強調(diào)這方面能力。

      Alicia:如果他們的目標(biāo)是工業(yè)里的分揀(pick and place)或搬運,那負載能力當(dāng)然重要。但搬運東西真的需要人形機器人、需要靈巧手嗎?

      我們的核心聚焦點是靈巧操作(dexterous tasks)。這其中可能也會涉及搬運,但那絕不是我們最核心的應(yīng)用場景。所以除了負載能力,我們必須考量更多其他維度的指標(biāo)。

      甲子光年:為什么說22個自由度是一個非常關(guān)鍵的設(shè)計?為什么偏偏是22個?

      Alicia:其實這跟“為什么要做成1:1類人手”邏輯有點類似。人手大概有27個自由度,但在機器人上,22個自由度已經(jīng)完全足夠用了。這是我們在成本、工程實現(xiàn)難度和實際功能之間找到的一個最佳平衡點。


      Sharpa靈巧機械手Wave,圖片來源:Sharpa

      甲子光年:已經(jīng)有其他頭部機器人公司使用了Wave,甚至它還上了春晚。你們有什么優(yōu)勢能讓客戶買單?

      張凱峰:我想最主要的原因有兩點。

      第一,一致性,這包括我們不同批次的硬件之間高度一致,同時我們的Sim-to-Real Gap足夠小。我們自己做過很多Sim-to-Real的算法和模型,在這個過程中不斷迭代并更好地標(biāo)定了我們的硬件,從而把這個Gap降到了最小。

      第二,可靠性。我們的手確實能經(jīng)受住高強度、長時間的使用,并且性能非常穩(wěn)定。

      甲子光年Wave目前的售價是一只5萬美元,你們是怎么定價的?

      Alicia:其實這并不是公開標(biāo)價(list price),我們目前只為客戶提供定制報價(custom price)。

      甲子光年你們團隊是如何平衡產(chǎn)品性能和成本的?價格可能再降低一些嗎?

      Alicia:在設(shè)計時,我們第一優(yōu)先級的考量絕對是性能(performance)。我們必須確保這只手在各類場景中能真正干活。其次是極高的可靠性(reliability),因為我們著眼于長期的服務(wù)場景,它必須能扛得住長時間的持續(xù)使用。第三個考量才是成本。因為如果達不到及格的性能,成本再低也沒意義。

      我們的核心聚焦點是靈巧操作,而不在搬重物。如果只是搬運,用個便宜的夾爪就夠了,客戶完全沒必要花高價買一只復(fù)雜的靈巧手。

      解決技術(shù)問題后我們肯定會盯緊價格。只要我們不是用“黃金”來造手,憑借團隊扎實的硬件工程能力,我們有信心把價格降到大規(guī)模量產(chǎn)所需的水平。

      大家看BOM(物料清單)就知道硬件底座的成本邏輯,一旦行業(yè)進入大規(guī)模量產(chǎn),比如未來出貨量達到100萬臺時,規(guī)模效應(yīng)自然會把成本打下來,所以我們對控制成本非常有信心。

      2.沒有觸覺,是一種新形式的失明

      甲子光年今天機器人已經(jīng)可以跑、跳、走,但在精細操作上仍然不如人類。從技術(shù)角度看,機器人靈巧操作的核心瓶頸是什么?

      張凱峰:核心瓶頸就是數(shù)據(jù)。

      靈巧操作有三類數(shù)據(jù)來源。第一類是遙操作數(shù)據(jù)。它最大的痛點是“操作員感受不到機器人的感受”,遙操作員操作起來非常不直觀(not intuitive),所以很難用這種方式去采集像手中把玩(in-hand manipulation)這類極度精細的操作數(shù)據(jù)。

      第二類以人為中心的數(shù)據(jù)采集方式。比如斯坦福大學(xué)團隊(Stanford)隊做的同構(gòu)外骨骼手套DexUMI,以及麻省理工學(xué)院(MIT)和加州大學(xué)伯克利分校(UC Berkeley)聯(lián)合推出的無源手部外骨骼系統(tǒng)DexOP。DexUMI會帶來視覺上的Gap,因為腕部相機看到的是人戴著數(shù)據(jù)手套,而不是機械手;而DexOP則相反,它看到的是靈巧手本身,所以視覺Gap小,但是對于高自由度的靈巧手來說,它的狀態(tài)Gap會比較大。

      第三類就是動捕(MOCAP)數(shù)據(jù)其實又回到了剛才說的functional retargeting的挑戰(zhàn)。這個問題真的非常難,尤其是實時的重定向。我們不僅希望在空間上把人手關(guān)鍵點1:1映射過去(kinematics-based),更希望“操作語義”是一致的,這是非常困難的。

      甲子光年還有其他難點嗎?比如模型和評測維度?

      張凱峰:模型維度的話,最大的挑戰(zhàn)在于魯棒性(robustness)和泛化能力(generalization)。你能不能做到物體級別、環(huán)境級別甚至任務(wù)級別的泛化?能不能拿出一個真正具有99.999%魯棒性的通用策略?目前還做不到。

      評測方面也是限制我們算法迭代效率的瓶頸。一個是可靠性問題。今天測10次,成功率80%和70%其實說明不了太大問題,可能只是A策略比B策略碰巧多成功了一次。另一個是人力成本極高。

      評測則需要大量人力去控制環(huán)境變量、重置場景、統(tǒng)計數(shù)據(jù),極其消耗精力。這些都是目前限制靈巧操作發(fā)展的核心瓶頸。

      甲子光年觸覺是不是靈巧操作的關(guān)鍵?

      張凱峰:我認(rèn)為極其重要。

      因為在操作過程中,無論是數(shù)據(jù)采集還是模型推理,都會遇到嚴(yán)重的“自遮擋”或者被物體“遮擋”的問題。此外,觸覺能賦予機器人“手感”。人類在做微操時是有精細手感的,但目前的機器人還做不到這點。

      甲子光年:Alicia,我記得你們曾經(jīng)提到“Tactileless is the new blindness(沒有觸覺,是一種新形式的失明)”。

      Alicia:是的,我們堅信,如果沒有觸覺,有些任務(wù)機器人根本無法完成。特別是那些步驟繁瑣的Long-horizon(長視距/長程)任務(wù),想完全依靠視覺讓機器人自主完成,如果不是不可能,也是極其困難的。

      我們想想人類的操作就明白了:如果你想擦一個花瓶,你的手會繞到花瓶背面去擦,這時你的眼睛是看不到手的對吧?但你依然能擦干凈,而且不會把花瓶打碎,因為你能“摸”到它。在這種情況下,視覺是被遮擋(occluded)的。

      再比如把數(shù)據(jù)線插進USB接口、或者把零件卡進去的時候,因為空間太狹小,攝像頭不可能無死角覆蓋,你根本看不到線頭插進去的瞬間。這時候,觸覺就成了唯一的解法。

      同時凱峰和清華大學(xué)合作的《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文,更是證明了有了觸覺,一些原本機器人根本不可能自主完成的任務(wù),比如插USB線、安裝燈泡、發(fā)撲克牌等變得可能了。


      《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文,圖片來源:受訪者

      有大量頂級學(xué)術(shù)研究證實了觸覺在加速機器人訓(xùn)練中的作用。這就是我們?nèi)绱丝春糜|覺AI的原因:它不僅是我們的信仰,更得到了科學(xué)界的驗證。

      甲子光年:我突然覺得這挺像自動駕駛領(lǐng)域的情況:行業(yè)里既有特斯拉那種純視覺路線,也有“攝像頭+激光雷達”的融合方案。你們提到了機器人觸覺,其實很像激光雷達在自動駕駛中的角色。一旦機器人的視覺受阻或存在盲區(qū),觸覺就能作為全新的數(shù)據(jù)源來補足視覺短板。

      Alicia:確實很像,但我認(rèn)為觸覺在機器人身上的重要性,超過了激光雷達在車上的重要性。

      車的邏輯是“避障”,它所有的目標(biāo)是“不要碰到任何東西”,碰到就是事故。而機器人的邏輯相反,它無時無刻不在跟這個世界“接觸”,尤其是手部。

      對于那些看不見或處于視覺盲區(qū)的地方,觸覺尤其不可或缺。

      甲子光年做好觸覺,有哪些挑戰(zhàn)?

      Alicia:這件事在技術(shù)上極其復(fù)雜,主要有三個核心維度的挑戰(zhàn)。Sharpa研究副總裁朱雪洲在GTC的演講就詳細提到了幾個核心原因:一方面是凱峰說的映射問題,你必須得有這樣一只帶觸覺的靈巧手,才能實現(xiàn)底層的物理分層;另一方面是模態(tài)競爭問題,比如視覺和觸覺之間會有模態(tài)競爭;最后還有一個關(guān)鍵點,就是計算成本的開銷問題。

      3.從粗略動作到精準(zhǔn)動作

      甲子光年具身智能的研究大致分為兩個核心方向:Locomotion(移動能力)與Manipulation(操作能力)。Sharpa提出的CraftNet是一種VTLA(Vision Tactile Language Action,視覺-觸覺-語言-動作)模型,我的理解是,你們在Locomotion與Manipulation之外增加了第三個維度:Perception(感知),對嗎?

      張凱峰:我常常開玩笑說,Locomotion其實也是一種特殊的Manipulation——是人用兩只腳在“操控”地球。如果今天我們已經(jīng)徹底解決了操作問題,回過頭看,一定能用同一套框架既解決移動、又解決操作。

      這兩者最大的不同在于:Locomotion是將“自身狀態(tài)”調(diào)整到目標(biāo)狀態(tài),而Manipulation是將“被操作的物體”調(diào)整到目標(biāo)狀態(tài)。這就要求你必須實時獲取被操作物體的姿態(tài)信息,也就是Perception。

      2000年以前做機器人的人,常常假設(shè)Vision Perception(視覺感知)問題已經(jīng)解決了,所以直接在action(動作)層面尋求突破點。但今天我們發(fā)現(xiàn)這遠遠不夠,必須把感知和動作放到一個閉環(huán)里去做。

      甲子光年:CraftNet的分層設(shè)計很像人類的神經(jīng)系統(tǒng)。System 2負責(zé)想,是推理大腦(the Reasoning Brain);System 1負責(zé)動,是運動大腦(the Motion Brain) ;System 0負責(zé)做,是交互大腦 (the Interaction Brain) 。但是這三個系統(tǒng)頻率不一樣,如何避免系統(tǒng)之間的“打架”?


      CraftNet,圖片來源:Sharpa

      張凱峰:首先我介紹一下CraftNet里System 0的含義。在Locomotion領(lǐng)域,現(xiàn)在也出現(xiàn)了System 0的概念,比如Figure機器人模型Helix 02里就有。它的概念是:當(dāng)你推機器人一下,它能下意識地保持身體平衡不摔倒,這是一種自適應(yīng)的底層行為。

      而在我們的Manipulation里,System 0意味著什么呢?它能把System 1輸出的“粗動作”和操作意圖,結(jié)合力覺(Force)和觸覺(Tactile)信息,轉(zhuǎn)化為一個精準(zhǔn)的動作。

      剛才我們講到遙操作、動捕等數(shù)據(jù)收集上的挑戰(zhàn),這些挑戰(zhàn)引導(dǎo)我們設(shè)計了一個“coarse-to-fine(由粗到細)”的架構(gòu)。也就是說,先由上層生成一個粗動作,再通過System 0把它變成精細化的操作。

      關(guān)于“系統(tǒng)打架”的問題。其實它們并不會打架,這就像一個分頻(frequency division)設(shè)計。System1輸入的是低頻的表征,輸出一個相對高頻的動作;而到了System 0,它執(zhí)行的是更高頻的底層操作。高低頻之間是解耦的,所以互不影響。

      甲子光年:這么看,System 0其實更加通用。

      張凱峰:對,它是非常通用的,我們把它叫做motion primitives(運動基元)。

      同時,我們的System 0也非常聚焦,它聚焦在你“快要摸到、以及指尖觸碰到物體的那一瞬間”的下意識反應(yīng)。

      從速度反饋上也能看出來,System 1大概是10Hz的頻率,而到了System 0直接飆到100Hz了,它必須極速輸出一個下意識動作來完成微操。

      甲子光年:就像我的手碰到了這個水杯,碰到的一瞬間,底層系統(tǒng)要立刻下意識地決定用多大的力度去抓住它,是這樣嗎?

      張凱峰:除了意圖,還涉及你具體怎么去抓。正如我剛才提到的,有些動作你是很難采集到數(shù)據(jù)的,比如in-hand manipulation(手內(nèi)操作/掌內(nèi)操作)這種極度精細的動作。

      目前業(yè)內(nèi)其他家應(yīng)該還沒有做到System 0這個階段。

      甲子光年:相比于其他沒有System 0的同行,你們的系統(tǒng)反應(yīng)會更快?

      張凱峰:System 0要解決的核心是“操作手感”以及“最后1毫米接觸”的問題。 剛才提到數(shù)據(jù)采集有挑戰(zhàn),你很難采集到足夠多樣化的運動基元 (Motion Primitives),尤其是手內(nèi)操作數(shù)據(jù)。

      因此我們認(rèn)為,System 1最終可能只是由數(shù)據(jù)金字塔或相對低質(zhì)量的數(shù)據(jù)學(xué)出來的一個Coarse action(粗略動作)。把這個手勢傳遞給System 0后,System 0會結(jié)合力覺和觸覺信息,將其“翻譯”成Precise action(精準(zhǔn)動作),從而完成微操。

      甲子光年:有些醫(yī)療手術(shù)機器人也強調(diào)精度能達到毫米級甚至亞毫米級,你們有什么不一樣?

      張凱峰:本質(zhì)不一樣,它們屬于專機專用機器人,和我們要做的General(通用)不一樣。我們希望做的是通用的機器人,是能幫人去干各種臟活、累活的,這些任務(wù)都不是特定、固定的。

      甲子光年:在實際生活中,有沒有更貼近日常、更直觀的例子來解釋System 0的作用?

      張凱峰:比如我要拿起這罐啤酒,我用的力道是恰到好處的。如果你試圖從我手里把啤酒抽走,我會下意識地增加握力——這就是System 0在起作用。

      第二點,我們把這種抓取叫做Gentle Grasp(柔和抓取),手感非常柔和。如果今天沒有System 0的操作能力,機器人可能只會粗暴地Power Grasp(強力抓取)。

      因為遙操作員其實是感受不到機器人抓取力度的,為了保證東西不掉,他們只能捏得很緊、用很大的力。但這不對,System 0要解決的就是這種“恰到好處”的觸覺反饋。

      我們的靈巧手,即使是去操作紙牌、操作脆弱的折頁,從平面上摳起來時都不會讓它變形,而是完好無損地拿起來。

      甲子光年:我們習(xí)以為常的抓取動作,其實是人類的雙手已經(jīng)在潛意識里完成了極度精細的操作,但真正要在機器人手上復(fù)現(xiàn)時,技術(shù)難度的差別就顯現(xiàn)出來了。

      張凱峰:對,因為人體的底層就運行著一個類似System 0的控制器(controller)。

      甲子光年:過去兩年行業(yè)里都在卷VLA、VLM,而今年初Sharpa發(fā)布了CraftNet,提出了一層新的架構(gòu)System 0。后來,美國機器人公司Figure提出了Helix 02,也包含了一層System 0,所以2026年會是“System 0元年”嗎?

      張凱峰:我們自己并沒有去刻意這么定義。不過我們內(nèi)部之前聊過,大家確實有一個共識:2026年全行業(yè)的關(guān)注點,肯定會全面聚焦到“靈巧操作”上。大家可能更關(guān)心更細化的靈巧操作。這個趨勢確實存在,至于是不是“元年”,就看各自的解讀了。

      甲子光年:那為什么現(xiàn)在才做出System 0呢?是因為具備哪些條件嗎?

      張凱峰:我覺得是整個AI的基礎(chǔ)設(shè)施以及底層的硬件發(fā)展到了能支撐我們做這件事的階段。

      其實算法和模型非常依賴Infra的設(shè)計。比如現(xiàn)在有了英偉達Isaac這樣優(yōu)秀的平臺,它的渲染效率非常高,特別是觸覺的渲染效率。結(jié)合我們Tacmap這樣的技術(shù),就能去做很多觸覺的sim-to-real工作,從而解決靈巧操作底層System 0面臨的問題。

      所以是整個Infra和仿真的進步,讓我們有機會把這件事做好。

      4.與英偉達合力解決Sim-to-Real問題

      甲子光年:你們和英偉達有哪些合作?通過合作你們想傳遞什么信息?

      Alicia:主要是Tacmap仿真觸覺傳感系統(tǒng)和EgoScale項目Sharpa Wave靈巧手已被NVIDIA GEAR實驗室用于數(shù)據(jù)驅(qū)動的機器人學(xué)習(xí)研究。雙方合作驗證了一條關(guān)鍵路徑:機器人可以直接從大規(guī)模人類視頻數(shù)據(jù)中學(xué)習(xí)復(fù)雜操作能力,并在真實系統(tǒng)中穩(wěn)定執(zhí)行。另外,我們還加入了NVIDIA Inception創(chuàng)業(yè)加速計劃。

      仿真技術(shù)是我們著重投入的方向。它是加速機器人訓(xùn)練的一個極具前景的方向。能在仿真領(lǐng)域跟英偉達這樣的巨頭合作,對推動觸覺和觸覺AI的發(fā)展十分關(guān)鍵,也能讓大家看到其對于機器人訓(xùn)練和數(shù)據(jù)瓶頸突破的重要性。

      甲子光年:你們宣布這次Tacmap仿真框架及代碼資產(chǎn)未來將開源,開源的時間節(jié)點和范圍是什么?你們?yōu)槭裁磿x擇開源?

      Alicia:關(guān)于相關(guān)成果的開源發(fā)布時間,團隊給我的預(yù)期大概在三月底吧。

      這次開源的內(nèi)容大概包括URDF(機器人模型)、仿真資產(chǎn)、Tacmap的代碼,還有強化學(xué)習(xí)(RL)的代碼庫。打個比方,你可以把Tacmap看作是英偉達Isaac Lab平臺上的一個插件,大家以后都能用。

      如果我們真想把“觸覺AI是機器人下一個大風(fēng)口”這個共識推出去,光靠嘴說沒用,得給大家提供上手的工具。大家親自跑一跑代碼,自然就懂它的價值了。

      這個領(lǐng)域要想發(fā)展,單靠一家公司肯定不行。把工具開源,一方面確實能幫英偉達的Isaac Lab平臺吸引更多生態(tài)用戶,但對Sharpa來說,真正的“私心”是希望吸引更多人來研究觸覺AI。

      甲子光年:在Tacmap仿真框架的合作中,Sharpa與英偉達各自都做了什么工作?

      張凱峰:Sharpa和英偉達共同設(shè)計了TacMap,解決如何對視觸覺進行仿真的技術(shù)問題。英偉達主要提供底層技術(shù)支持,比如物理引擎上的Know-how,同時幫我們解決了IsaacLab底層的一些Bug。

      一個新的平臺本身會有不完善的地方,英偉達協(xié)助排查后,雙方再能進行深度的聯(lián)合開發(fā),最終由Sharpa主導(dǎo)實現(xiàn)并驗證。

      Alicia:我們正在合作解決sim-to-real(仿真到現(xiàn)實)的差距,讓仿真平臺能更好地生成合成數(shù)據(jù)來訓(xùn)練模型。有時我們也會根據(jù)具體任務(wù),直接在仿真環(huán)境里用強化學(xué)習(xí)來訓(xùn)練。

      甲子光年:算力方面會有合作嗎?

      張凱峰:算力方面暫時沒有,主要聚焦在仿真。

      甲子光年:傳統(tǒng)觸覺仿真一直存在一個問題:真實性vs計算效率。這次合作解決了什么關(guān)鍵問題?

      張凱峰:傳統(tǒng)觸覺仿真的痛點要么像是:有限元分析那樣保留了物理特性但失去計算效率,要么像簡化的投影映射有計算效率但物理特性很差。我們這次取得了很好的折中。

      基于Tacmap,我們設(shè)計了一套物體和指尖穿模得到的深度圖像,把這個圖像作為sim-to-real的介質(zhì)。在仿真里可以快速高效地計算deformation Map(形變圖);而在真實世界中,我們采集大量數(shù)據(jù),把視觸覺看到的原始圖像通過轉(zhuǎn)換模型翻譯成deformation Map。

      在此基礎(chǔ)上我們既保留了很好的物理特性,又有極高的計算效率,同時sim-to-real的gap也非常小。基于我們的測試分析,Tacmap能夠支持in-hand manipulation的zero-shot deploy。

      甲子光年:接下來聊聊EgoScale項目,我注意到NVIDIA GEAR Lab的研究團隊成功把在GR00T模型進行了20000小時以上人類視頻數(shù)據(jù)預(yù)訓(xùn)練獲得的策略,遷移到搭載Sharpa Wave機械手的機器人上。實驗結(jié)果顯示,這些機器人能夠完成包括模型汽車組裝、注射器操作以及卡片分類等任務(wù),整體任務(wù)成功率提升54%。這個數(shù)據(jù)提升代表著什么?

      張凱峰:過去大家有個共識,希望能用好不同質(zhì)量的數(shù)據(jù)。

      最高質(zhì)量的是遙操作數(shù)據(jù),但它很難規(guī)模化、成本太高;其次是以人為中心的數(shù)據(jù)采集方式;最底層的、最便宜且最能規(guī)模化的就是人類視頻,或者帶有真實標(biāo)注的動捕數(shù)據(jù)。

      這次英偉達的工作讓我們看到,人類視頻數(shù)據(jù)從某種意義上帶來了scaling Law,同時也證實了在硬件側(cè)設(shè)計與人類1:1同構(gòu)靈巧手的重要性。


      《EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data》論文,圖片來源:受訪者

      甲子光年:當(dāng)前具身智能行業(yè)獲取數(shù)據(jù),主要有四種方式。第一種是仿真數(shù)據(jù),第二類是人類行為數(shù)據(jù),第三類是人類示教數(shù)據(jù),第四類是真機遙操作數(shù)據(jù)。這四種方式各有優(yōu)劣勢,其中人類行為數(shù)據(jù)來源主要是視頻,通過學(xué)習(xí)人類操作來訓(xùn)練機器人。這類數(shù)據(jù)規(guī)模巨大,但由于人類身體結(jié)構(gòu)與機器人機械結(jié)構(gòu)存在差異,往往難以直接映射到機器人動作,因此存在所謂的“構(gòu)型鴻溝”。你們?nèi)绾伪苊馊祟愋袨閿?shù)據(jù)帶來的“構(gòu)型鴻溝”?

      張凱峰:這其實耦合了兩個問題,核心是retargeting(重定向)。真正理想的重定向叫functional retargeting(功能性重定向),意思是不僅空間上的關(guān)鍵點能映射到機械手上,更要求操作語義也能夠重定向。比如我做捏(pinch)或抓握(power grasp)的動作,機器人也能準(zhǔn)確還原這個操作的語義,也就是“指哪打哪”。

      即便解決了重定向,還要保證重定向的結(jié)果是physical plausible(物理可達的),這就要求硬件設(shè)計必須和人手1:1同構(gòu)。

      我們某種意義上解決了底層硬件的瓶頸,保證了重定向結(jié)果物理可達。而functional retargeting目前仍是一個不斷探索的難題。

      甲子光年:你是否認(rèn)為“機器人訓(xùn)練正在從‘機器人數(shù)據(jù)時代’,進入‘人類視頻數(shù)據(jù)時代’”?只要機器人擁有足夠類人的手部結(jié)構(gòu),人類數(shù)十億小時的操作視頻,都可能成為機器人的訓(xùn)練數(shù)據(jù)嗎?

      張凱峰:是的,我們正在經(jīng)歷這個轉(zhuǎn)變。所謂的機器人數(shù)據(jù),指的是通過遙操作或機器人主動采集的數(shù)據(jù);而人類操作數(shù)據(jù),則是人戴著DexUMI或者DexOP這種數(shù)據(jù)手套,或者通過動捕(MoCap)技術(shù)獲取的人類實操數(shù)據(jù)。當(dāng)然,機器人數(shù)據(jù)最終也是必不可少的。

      要想用好這些人類操作的數(shù)據(jù),最大的難點還是剛才提到的retargeting重定向。重定向不僅要求結(jié)果在物理上可達,這就要求有1:1同構(gòu)的優(yōu)質(zhì)硬件,還要求在功能語義上一致(functional),這本身在模型算法上就是一個巨大的挑戰(zhàn)。

      甲子光年:所以未來機器人訓(xùn)練到底會更依賴哪類數(shù)據(jù)?

      張凱峰:要想打造通用的智能機器人,整個數(shù)據(jù)金字塔的每一層都必須被充分利用。整體來看,高質(zhì)量的遙操作數(shù)據(jù)與以人為中心(Human-centric)采集的數(shù)據(jù),比例大概是1:100,這是一個比較合理的比例。接著往下推,以人為中心的數(shù)據(jù)與仿真數(shù)據(jù)的比例也是1:100;最后仿真數(shù)據(jù)與海量的人類操作視頻數(shù)據(jù)同樣是1:100的百倍級增長。只有這樣層層放大,才能解決數(shù)據(jù)的困境,最終才能訓(xùn)練出好的通用智能。

      5.Sharpa的飛輪效應(yīng)

      甲子光年:Sharpa把全球總部設(shè)在新加坡,研發(fā)和制造在上海,商業(yè)運營在硅谷。這種全球化布局背后的策略是什么?

      Alicia:我們的策略很簡單:去最合適的地方拿最好的資源。所以我們從一開始就是一家global by design(生而全球化)的公司。

      參考汽車或消費電子等成熟產(chǎn)業(yè),無論是客戶群還是供應(yīng)鏈,本來就是全球化的。新加坡是亞洲的樞紐,方便吸引全球AI人才,設(shè)為總部很合理。中國有極好的AI和機器人人才庫,而且供應(yīng)鏈極其發(fā)達,硬件組件的組裝和迭代速度極快,這是我們絕對不能錯過的優(yōu)勢。至于美國,那里對新技術(shù)的接受和應(yīng)用速度幾乎比世界上任何地方都快,所以我們在這里開展商業(yè)運營順理成章。


      Sharpa硅谷辦公室展示區(qū),North機器人在發(fā)牌,動圖來源:「甲子光年」拍攝

      甲子光年:但現(xiàn)實中機器人商業(yè)化仍然很慢。你認(rèn)為機器人規(guī)模化落地的瓶頸是什么?

      Alicia大規(guī)模部署之所以還沒發(fā)生,是因為目前發(fā)布的絕大多數(shù)機器人都在死磕移動能力,而在操作能力上投入的精力太少。

      只有當(dāng)機器人真正能用手干活時,它們才會變得有用,部署速度才會加快。這也是我們創(chuàng)立這家公司的初衷。

      往深了說,這終究是一個數(shù)據(jù)問題。我們需要更多物理世界的數(shù)據(jù)來訓(xùn)練機器人。

      凱峰團隊正在努力讓更多觸覺數(shù)據(jù)能用于訓(xùn)練機器人和CraftNet。這其實是一個飛輪效應(yīng)(flywheel):擁有帶有觸覺的優(yōu)質(zhì)靈巧手,我們就能生成更好的數(shù)據(jù);有了更好的數(shù)據(jù),就能訓(xùn)練出更好的模型;模型越好,機器人就越有用,能勝任的場景就越多;場景打開了,客戶買單的意愿就越強,企業(yè)就有更多資金投入研發(fā),從而造出更好的機器人。這就是大規(guī)模落地的底層邏輯。

      甲子光年:從市場角度看,中美有什么差異?

      Alicia:差異主要體現(xiàn)在供給側(cè)。中國的供應(yīng)鏈速度實在太快了,只要市場有一點風(fēng)吹草動,哪怕離真正爆發(fā)還有段距離,無數(shù)人就會立刻涌入并快速開發(fā)方案,整個生態(tài)系統(tǒng)的調(diào)動速度極其驚人。

      中美兩國對新技術(shù)的接受度都很高,但感覺美國市場在真正大規(guī)模建立供應(yīng)鏈之前,需要更多的“被說服”過程。而在中國,配合供應(yīng)商、快速修正設(shè)計都極其高效。凱峰,你同意嗎?

      張凱峰:完全同意。

      甲子光年:在美國,市場教育成本高嗎?

      Alicia:美國的科技圈,一切都發(fā)生得極快,科技從業(yè)者對新技術(shù)的接受度極高,所以你很容易就能積攢起一大批“早期采用者(Early adopters)”。

      但在美國市場,真正的難題在于如何“跨越鴻溝(Cross the chasm)”,即如何從早期采用者打入主流大眾市場。對于主流客戶,你必須證明非常多的東西,他們才會買單。

      但在中國,我感覺大家對待新事物的態(tài)度不太一樣。在中國,大家普遍認(rèn)為“犯錯的成本,遠低于錯失機會的成本”。在其他地方(比如歐洲),人們非常害怕犯錯;但在中國,大家極其FOMO(Fear of Missing Out,錯失恐懼癥),害怕別人看到了機會而自己沒上車。所以在這種情緒下,哪怕技術(shù)還沒那么成熟,大家也會去試、去摸索。

      甲子光年:如果未來機器人像智能手機一樣普及,你認(rèn)為最關(guān)鍵的一次技術(shù)突破會來自哪里?

      張凱峰:最關(guān)鍵的突破一定來自于“數(shù)據(jù)側(cè)的閉環(huán)”。如果我們能在某個真實的商業(yè)模式下,自動地、大規(guī)模地采集場景數(shù)據(jù),并真正跑通“數(shù)據(jù)→模型→評測”的閉環(huán),機器人就能像智能手機一樣普及。數(shù)據(jù)實在太關(guān)鍵了。

      甲子光年:相比于行業(yè)里開源數(shù)據(jù),你們自己其實掌握著大量極高質(zhì)量的、適配你們硬件的“真機觸覺數(shù)據(jù)”。這批數(shù)據(jù)你們未來考慮開源嗎?

      張凱峰:開源的事我們正在籌劃中,目前還沒有最終定論。

      甲子光年:今年大家對“具身數(shù)據(jù)”的關(guān)注度空前高漲,你們?nèi)绾谓鉀Q數(shù)據(jù)問題?今年在其他方面有什么規(guī)劃嗎?

      張凱峰:我們確實有一些布局,基本上圍繞“數(shù)據(jù)、模型、評測”這三個環(huán)節(jié)展開。我們主要攻堅自研的CraftNet,但我們也會以高校合作為手段來拓寬認(rèn)知。

      數(shù)據(jù)方面,我們正在嘗試如何改進以人為中心(human-centric)的數(shù)據(jù)采集方式,同時也在攻克functional retargeting的難題,試圖把海量的動捕(MoCap)數(shù)據(jù)真正用起來。

      模型方面,針對System 0,我們希望能跑通一個更加通用的Sim-to-Real(仿真到現(xiàn)實)的技能Pipeline。

      因為目前不同的操作技能,底層的方法論是不一樣的,我們想用一套通用的框架去解決它,目前也在推進用無監(jiān)督強化學(xué)習(xí)(RL)來做整個System 0的方向。針對System 1,我們主要關(guān)注泛化性和魯棒性。

      評測方面,我們也在和學(xué)界合作,希望能解決目前評測中可靠性差(reliability)和極度耗費人力(labor-intensive)的痛點。

      甲子光年:這也很符合你們?nèi)珬2季值牟呗浴?/p>

      Alicia:我們是一家全棧的具身智能公司。之所以要做全棧,是因為要想真正做到通用機器人,除了做好觸覺AI,別無選擇。

      (封面圖來源:「甲子光年」拍攝)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      瘋了?內(nèi)娛天后張靚穎,萬人演唱會當(dāng)眾承認(rèn) do 臉翻車

      瘋了?內(nèi)娛天后張靚穎,萬人演唱會當(dāng)眾承認(rèn) do 臉翻車

      橙星文娛
      2026-03-27 13:34:54
      特朗普撤回通牒,伊朗打來電話,希望中方伸出援手,王毅斬釘截鐵

      特朗普撤回通牒,伊朗打來電話,希望中方伸出援手,王毅斬釘截鐵

      南宗歷史
      2026-03-29 04:13:31
      尷尬了!沈陽業(yè)主遭遇鄰居貼條警告、被威脅使用震樓器,高呼冤枉

      尷尬了!沈陽業(yè)主遭遇鄰居貼條警告、被威脅使用震樓器,高呼冤枉

      火山詩話
      2026-03-29 06:53:55
      都熟知西游記,那東游記、南游記、北游記,分別都是什么書?

      都熟知西游記,那東游記、南游記、北游記,分別都是什么書?

      長風(fēng)文史
      2026-03-27 16:31:57
      公司全員降薪!

      公司全員降薪!

      黯泉
      2026-03-28 15:12:32
      荷蘭徹底沒話說了!中方曾宣布:更換國內(nèi)供應(yīng)商,從此不再合作!

      荷蘭徹底沒話說了!中方曾宣布:更換國內(nèi)供應(yīng)商,從此不再合作!

      老謝談史
      2026-03-28 21:42:21
      “東方神鹿”王軍霞:退役移居美國,3個孩子3個爹,現(xiàn)在過得咋樣

      “東方神鹿”王軍霞:退役移居美國,3個孩子3個爹,現(xiàn)在過得咋樣

      拳擊時空
      2026-03-29 04:54:55
      百度和高德地圖對比怎樣?網(wǎng)友的評論真是讓我有了選擇

      百度和高德地圖對比怎樣?網(wǎng)友的評論真是讓我有了選擇

      侃神評故事
      2026-02-22 11:45:03
      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      獨角showing
      2025-12-31 21:08:57
      人情薄如紙!丈夫住院100天沒人探望,出院當(dāng)天大伯突然打來電話

      人情薄如紙!丈夫住院100天沒人探望,出院當(dāng)天大伯突然打來電話

      科學(xué)發(fā)掘
      2026-03-28 16:09:44
      很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰(zhàn)背后的“惶恐”

      很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰(zhàn)背后的“惶恐”

      新浪財經(jīng)
      2026-03-28 00:31:15
      澤連斯基:愿在任何地方舉行烏美俄三方會談

      澤連斯基:愿在任何地方舉行烏美俄三方會談

      財聯(lián)社
      2026-03-28 13:02:24
      央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

      央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

      落雪聽梅a
      2026-03-28 09:14:37
      越扒越上頭!釋永信在少林寺的奢靡生活,我們想都不敢想

      越扒越上頭!釋永信在少林寺的奢靡生活,我們想都不敢想

      談史論天地
      2026-03-28 18:45:03
      青島膠州警方通報連環(huán)撞車事故:4車受損,2人受傷

      青島膠州警方通報連環(huán)撞車事故:4車受損,2人受傷

      界面新聞
      2026-03-28 14:00:04
      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質(zhì)缺一不可

      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質(zhì)缺一不可

      千秋文化
      2026-02-15 20:12:48
      退休的做好準(zhǔn)備!下個月養(yǎng)老金4大新變化已定,關(guān)乎你的錢袋子

      退休的做好準(zhǔn)備!下個月養(yǎng)老金4大新變化已定,關(guān)乎你的錢袋子

      開心美食白科
      2026-03-28 15:42:26
      拋棄那英和剛出生的兒子,如今多年過去,前國腳高峰下場令人唏噓

      拋棄那英和剛出生的兒子,如今多年過去,前國腳高峰下場令人唏噓

      小徐講八卦
      2026-03-29 06:31:54
      100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

      100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

      鶴羽說個事
      2026-03-28 22:36:17
      內(nèi)娛再曝大瓜!郭麒麟、劉昊然,嚴(yán)浩翔疑似組團去商K聚會 惹爭議

      內(nèi)娛再曝大瓜!郭麒麟、劉昊然,嚴(yán)浩翔疑似組團去商K聚會 惹爭議

      丁丁鯉史紀(jì)
      2026-03-28 10:28:29
      2026-03-29 07:31:00
      甲子光年
      甲子光年
      中國科技產(chǎn)業(yè)化前沿智庫
      3388文章數(shù) 9262關(guān)注度
      往期回顧 全部

      科技要聞

      華為盤古大模型負責(zé)人王云鶴確認(rèn)離職

      頭條要聞

      美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

      頭條要聞

      美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

      體育要聞

      “我是全家最差勁的運動員”

      娛樂要聞

      陳牧馳陳冰官宣得子 曬一家三口握拳照

      財經(jīng)要聞

      臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

      汽車要聞

      置換補貼價4.28萬起 第五代宏光MINIEV正式上市

      態(tài)度原創(chuàng)

      教育
      數(shù)碼
      時尚
      旅游
      藝術(shù)

      教育要聞

      “女孩家長心真大!”小男孩帶女同學(xué)回家留宿,網(wǎng)友破防了!

      數(shù)碼要聞

      蘋果或重啟與長江存儲合作 國行機型擬采用國產(chǎn)NAND

      和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

      旅游要聞

      泰安市岱岳區(qū):賞梨花 看村晚 萬畝梨園迎客來

      藝術(shù)要聞

      毛澤東手箋驚現(xiàn)美國拍賣會,滿紙崢嶸往事......

      無障礙瀏覽 進入關(guān)懷版