網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

獨家對話Sharpa核心團隊：如何把人類的“觸覺”裝進機器人的身體｜甲子光年

2026-03-25 17:41:43　來源: 甲子光年

北京舉報

分享至

要想真正做到通用機器人，除了做好觸覺AI，別無選擇。

作者｜蘇霍伊

編輯｜王博

今年以前，Sharpa都很神秘。

很多人以為Sharpa是一個做機器人靈巧手公司，因為Sharpa靈巧機械手Wave在ICRA 2025、CES 2026、GTC 2026連續(xù)亮相，還登上了今年總臺央視春晚的舞臺。它能精準(zhǔn)發(fā)牌、打乒乓球、盤核桃，實現(xiàn)如同人手一般的精細化操作。

Sharpa靈巧機械手Wave在GTC上展示，圖片來源：Sharpa

但Sharpa對自己定位遠不止于此。

在GTC 2026上，Sharpa通過實物和視頻展示了其完整技術(shù)棧，包括靈巧機械手Wave、人形機器人North以及融合視覺、觸覺與語言的模型系統(tǒng)CraftNet。

Sharpa人形機器人North，圖片來源：「甲子光年」拍攝

Sharpa成立于2024年，全球總部位于新加坡，制造與研發(fā)中心位于中國上海，商業(yè)運營總部位于美國加州硅谷山景城。雖然Sharpa創(chuàng)始團隊因為過往在自動駕駛領(lǐng)域的經(jīng)歷而受到關(guān)注，但是Sharpa一直保持著獨立運營的狀態(tài)。

近期，「甲子光年」來到了Sharpa硅谷辦公室，見到了Sharpa GTM副總裁、歐洲區(qū)總裁Alicia Veneziani和Sharpa研究科學(xué)家、學(xué)術(shù)負責(zé)人張凱峰。

這是Sharpa核心團隊成員首次與媒體進行深度對話，對于外界好奇的公司定位，Alicia Veneziani告訴「甲子光年」：“我們的秘密武器是觸覺AI，我們的核心定位是一家以觸覺AI為驅(qū)動的全棧靈巧機器人公司。”

相比主要依賴視覺的機器人動作，Sharpa更專注于觸覺驅(qū)動的機器人靈巧操作。

這一能力被認(rèn)為是機器人完成復(fù)雜現(xiàn)實任務(wù)的關(guān)鍵門檻。宇樹科技創(chuàng)始人、CEO王興興近期表示：“我覺得目前對于具身智能或者機器人來說，移動和動作大部分問題已經(jīng)解決掉了，但對于抓取和操作這部分，尤其觸覺相關(guān)的問題目前沒有解決，這也直接限制了具身智能或者人形機器人大規(guī)模在工廠和家庭去部署。”

過去兩年，具身智能行業(yè)的敘事幾乎被視覺與語言主導(dǎo)：VLM、VLA、世界模型……讓機器人看懂世界成為主線。但Sharpa選擇了一條更難、也更少人走的路徑：從“手”的感知出發(fā)，而不僅僅依賴“眼睛”。

Sharpa的技術(shù)路徑建立在兩個核心能力之上：一是通過仿真環(huán)境進行大規(guī)模技能訓(xùn)練；二是結(jié)合視頻與觸覺數(shù)據(jù)，訓(xùn)練其視覺-觸覺-語言-動作模型（VTLA），使機器人能夠?qū)W習(xí)人類的操作方式，并實現(xiàn)更高程度的自主化。

為支撐這一訓(xùn)練范式，Sharpa在GTC期間宣布與英偉達聯(lián)合開發(fā)Tacmap仿真觸覺系統(tǒng)，作為觸覺驅(qū)動機器人學(xué)習(xí)的重要基礎(chǔ)設(shè)施。該框架通過共享的高精度幾何結(jié)構(gòu)表示，實現(xiàn)了高真實度與高計算效率之間的平衡。Sharpa表示，相關(guān)仿真框架及代碼資產(chǎn)未來將開源，以便與更廣泛的機器人社區(qū)共享研究成果。

Alicia Veneziani和張凱峰，一位站在市場戰(zhàn)略前線，一位深入模型系統(tǒng)底層。這次對話中，我們探討了五個方面的話題：

Sharpa為什么會引發(fā)關(guān)注？
觸覺是不是靈巧操作的關(guān)鍵？
CraftNet的創(chuàng)新之處？
為什么英偉達會和Sharpa合作？
Sharpa的運營與商業(yè)計劃是什么？

本文為「甲子光年」對話Sharpa核心團隊實錄，經(jīng)「甲子光年」整理編輯，在不改變原意的基礎(chǔ)上有所刪改。

1.要做就做與人類1:1同構(gòu)靈巧手

甲子光年：之前很多人以為你們是一家做靈巧手的公司，所以你們對自己定位是什么？

Alicia：可能是Sharpa的靈巧手做得太好了（笑），導(dǎo)致很多人以為我們就是個做靈巧手的公司。

而我們的秘密武器就是觸覺以及觸覺AI，我們的核心定位是一家以觸覺AI為驅(qū)動的全棧靈巧機器人公司。

從去年5月份我們在ICRA（國際機器人與自動化會議）第一次亮相時，我們帶去的就是一整臺完整的機器人。但當(dāng)時所有人的注意力全被那只手吸引了。

Alicia Veneziani，圖片來源：Sharpa

甲子光年：的確，不論是去年的ICRA，還是今年的CES和GTC，你們展位的人都不少。

Alicia：實際上，我們從一開始就沒打算只做手，我們一直在做機器人整機。

我們內(nèi)部有個比喻：我們造的這只靈巧手，其實更像是汽車的發(fā)動機。我們要把各種不同的系統(tǒng)集成到這輛“車”里，所以我們本質(zhì)上是“造車”的（做全棧機器人系統(tǒng)），只不過我們的手做得特別好，這只手就成了我們這輛車的核心發(fā)動機。

Sharpa GTC展位，圖片來源：Sharpa

甲子光年：這個比喻很有意思，我也發(fā)現(xiàn)，其實你們一直在強調(diào)機器人的“靈巧操作”以及“全身控制”，而不光是“手”。

張凱峰：這其實是我們的愿景。我們常說“We manufacture time by making robots useful”（我們通過讓機器人變得有用，來為人類創(chuàng)造時間）。我們想做真正能干活、有用的機器人，去承擔(dān)那些人們不愿意干的臟活累活，從而把人類的時間真正解放出來。

甲子光年：我注意到，Sharpa靈巧機械手Wave是和人類1:1同構(gòu)的，所以做到1:1同構(gòu)很難嗎？

張凱峰：靈巧手做到1:1同構(gòu)非常難。比如要做到成年男性的手部大小，還要具備人手大部分的自由度。我們的靈巧手有很多特性，比如指尖力矩能達到兩公斤，運動頻率是四赫茲，你需要兼具速度和力量。其次，要在這么小的空間里集成強有力的電機，同時做好整個系統(tǒng)的集成，工程難度極大。

Alicia：我認(rèn)為這取決于我們?nèi)绾味x“相似”。如果我們要求外觀和功能都相似，希望機械手能像人手一樣擁有同等的自由度、完成同等范圍的精細動作，就需要把大量內(nèi)部零件塞進一個極小的表面積里。這意味著必須使用超微型的驅(qū)動器，在極其有限的空間內(nèi)實現(xiàn)同等功能，這就是保持1:1比例的難點所在。

甲子光年：但是業(yè)內(nèi)也有聲音說，靈巧手硬件本身似乎并不那么重要。

Alicia：現(xiàn)在有個誤區(qū)，有人覺得有了AI算法控制，硬件問題就不存在了。這完全是錯的，硬件的痛點依然在那兒。所以我們堅持深耕硬件工程，才能自己設(shè)計組件并快速迭代。大部分公司的手只能往大了做，但做大了就用不了人類的工具，比如普通的剪刀。

甲子光年：之前我們也看過各種靈巧手產(chǎn)品。有的公司會強調(diào)手的抓握力和負載能力，你們似乎沒有強調(diào)這方面能力。

Alicia：如果他們的目標(biāo)是工業(yè)里的分揀(pick and place)或搬運，那負載能力當(dāng)然重要。但搬運東西真的需要人形機器人、需要靈巧手嗎？

我們的核心聚焦點是靈巧操作(dexterous tasks)。這其中可能也會涉及搬運，但那絕不是我們最核心的應(yīng)用場景。所以除了負載能力，我們必須考量更多其他維度的指標(biāo)。

甲子光年：為什么說22個自由度是一個非常關(guān)鍵的設(shè)計？為什么偏偏是22個？

Alicia：其實這跟“為什么要做成1:1類人手”邏輯有點類似。人手大概有27個自由度，但在機器人上，22個自由度已經(jīng)完全足夠用了。這是我們在成本、工程實現(xiàn)難度和實際功能之間找到的一個最佳平衡點。

Sharpa靈巧機械手Wave，圖片來源：Sharpa

甲子光年：已經(jīng)有其他頭部機器人公司使用了Wave，甚至它還上了春晚。你們有什么優(yōu)勢能讓客戶買單？

張凱峰：我想最主要的原因有兩點。

第一，一致性，這包括我們不同批次的硬件之間高度一致，同時我們的Sim-to-Real Gap足夠小。我們自己做過很多Sim-to-Real的算法和模型，在這個過程中不斷迭代并更好地標(biāo)定了我們的硬件，從而把這個Gap降到了最小。

第二，可靠性。我們的手確實能經(jīng)受住高強度、長時間的使用，并且性能非常穩(wěn)定。

甲子光年：Wave目前的售價是一只5萬美元，你們是怎么定價的？

Alicia：其實這并不是公開標(biāo)價（list price），我們目前只為客戶提供定制報價（custom price）。

甲子光年：你們團隊是如何平衡產(chǎn)品性能和成本的？價格可能再降低一些嗎？

Alicia：在設(shè)計時，我們第一優(yōu)先級的考量絕對是性能（performance）。我們必須確保這只手在各類場景中能真正干活。其次是極高的可靠性（reliability），因為我們著眼于長期的服務(wù)場景，它必須能扛得住長時間的持續(xù)使用。第三個考量才是成本。因為如果達不到及格的性能，成本再低也沒意義。

我們的核心聚焦點是靈巧操作，而不在搬重物。如果只是搬運，用個便宜的夾爪就夠了，客戶完全沒必要花高價買一只復(fù)雜的靈巧手。

解決技術(shù)問題后我們肯定會盯緊價格。只要我們不是用“黃金”來造手，憑借團隊扎實的硬件工程能力，我們有信心把價格降到大規(guī)模量產(chǎn)所需的水平。

大家看BOM（物料清單）就知道硬件底座的成本邏輯，一旦行業(yè)進入大規(guī)模量產(chǎn)，比如未來出貨量達到100萬臺時，規(guī)模效應(yīng)自然會把成本打下來，所以我們對控制成本非常有信心。

2.沒有觸覺，是一種新形式的失明

甲子光年：今天機器人已經(jīng)可以跑、跳、走，但在精細操作上仍然不如人類。從技術(shù)角度看，機器人靈巧操作的核心瓶頸是什么？

張凱峰：核心瓶頸就是數(shù)據(jù)。

靈巧操作有三類數(shù)據(jù)來源。第一類是遙操作數(shù)據(jù)。它最大的痛點是“操作員感受不到機器人的感受”，遙操作員操作起來非常不直觀（not intuitive），所以很難用這種方式去采集像手中把玩（in-hand manipulation）這類極度精細的操作數(shù)據(jù)。

第二類是以人為中心的數(shù)據(jù)采集方式。比如斯坦福大學(xué)團隊（Stanford）隊做的同構(gòu)外骨骼手套DexUMI，以及麻省理工學(xué)院（MIT）和加州大學(xué)伯克利分校（UC Berkeley）聯(lián)合推出的無源手部外骨骼系統(tǒng)DexOP。DexUMI會帶來視覺上的Gap，因為腕部相機看到的是人戴著數(shù)據(jù)手套，而不是機械手；而DexOP則相反，它看到的是靈巧手本身，所以視覺Gap小，但是對于高自由度的靈巧手來說，它的狀態(tài)Gap會比較大。

第三類就是動捕（MOCAP）數(shù)據(jù)。其實又回到了剛才說的functional retargeting的挑戰(zhàn)。這個問題真的非常難，尤其是實時的重定向。我們不僅希望在空間上把人手關(guān)鍵點1:1映射過去（kinematics-based），更希望“操作語義”是一致的，這是非常困難的。

甲子光年：還有其他難點嗎？比如模型和評測維度？

張凱峰：模型維度的話，最大的挑戰(zhàn)在于魯棒性（robustness）和泛化能力（generalization）。你能不能做到物體級別、環(huán)境級別甚至任務(wù)級別的泛化？能不能拿出一個真正具有99.999%魯棒性的通用策略？目前還做不到。

評測方面也是限制我們算法迭代效率的瓶頸。一個是可靠性問題。今天測10次，成功率80%和70%其實說明不了太大問題，可能只是A策略比B策略碰巧多成功了一次。另一個是人力成本極高。

評測則需要大量人力去控制環(huán)境變量、重置場景、統(tǒng)計數(shù)據(jù)，極其消耗精力。這些都是目前限制靈巧操作發(fā)展的核心瓶頸。

甲子光年：觸覺是不是靈巧操作的關(guān)鍵？

張凱峰：我認(rèn)為極其重要。

因為在操作過程中，無論是數(shù)據(jù)采集還是模型推理，都會遇到嚴(yán)重的“自遮擋”或者被物體“遮擋”的問題。此外，觸覺能賦予機器人“手感”。人類在做微操時是有精細手感的，但目前的機器人還做不到這點。

甲子光年：Alicia，我記得你們曾經(jīng)提到“Tactileless is the new blindness（沒有觸覺，是一種新形式的失明）”。

Alicia：是的，我們堅信，如果沒有觸覺，有些任務(wù)機器人根本無法完成。特別是那些步驟繁瑣的Long-horizon（長視距/長程）任務(wù)，想完全依靠視覺讓機器人自主完成，如果不是不可能，也是極其困難的。

我們想想人類的操作就明白了：如果你想擦一個花瓶，你的手會繞到花瓶背面去擦，這時你的眼睛是看不到手的對吧？但你依然能擦干凈，而且不會把花瓶打碎，因為你能“摸”到它。在這種情況下，視覺是被遮擋（occluded）的。

再比如把數(shù)據(jù)線插進USB接口、或者把零件卡進去的時候，因為空間太狹小，攝像頭不可能無死角覆蓋，你根本看不到線頭插進去的瞬間。這時候，觸覺就成了唯一的解法。

同時凱峰和清華大學(xué)合作的《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文，更是證明了有了觸覺，一些原本機器人根本不可能自主完成的任務(wù)，比如插USB線、安裝燈泡、發(fā)撲克牌等變得可能了。

《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文，圖片來源：受訪者

有大量頂級學(xué)術(shù)研究證實了觸覺在加速機器人訓(xùn)練中的作用。這就是我們?nèi)绱丝春糜|覺AI的原因：它不僅是我們的信仰，更得到了科學(xué)界的驗證。

甲子光年：我突然覺得這挺像自動駕駛領(lǐng)域的情況：行業(yè)里既有特斯拉那種純視覺路線，也有“攝像頭+激光雷達”的融合方案。你們提到了機器人觸覺，其實很像激光雷達在自動駕駛中的角色。一旦機器人的視覺受阻或存在盲區(qū)，觸覺就能作為全新的數(shù)據(jù)源來補足視覺短板。

Alicia：確實很像，但我認(rèn)為觸覺在機器人身上的重要性，超過了激光雷達在車上的重要性。

車的邏輯是“避障”，它所有的目標(biāo)是“不要碰到任何東西”，碰到就是事故。而機器人的邏輯相反，它無時無刻不在跟這個世界“接觸”，尤其是手部。

對于那些看不見或處于視覺盲區(qū)的地方，觸覺尤其不可或缺。

甲子光年：做好觸覺，有哪些挑戰(zhàn)？

Alicia：這件事在技術(shù)上極其復(fù)雜，主要有三個核心維度的挑戰(zhàn)。Sharpa研究副總裁朱雪洲在GTC的演講就詳細提到了幾個核心原因：一方面是凱峰說的映射問題，你必須得有這樣一只帶觸覺的靈巧手，才能實現(xiàn)底層的物理分層；另一方面是模態(tài)競爭問題，比如視覺和觸覺之間會有模態(tài)競爭；最后還有一個關(guān)鍵點，就是計算成本的開銷問題。

3.從粗略動作到精準(zhǔn)動作

甲子光年：具身智能的研究大致分為兩個核心方向：Locomotion（移動能力）與Manipulation（操作能力）。Sharpa提出的CraftNet是一種VTLA（Vision Tactile Language Action，視覺-觸覺-語言-動作）模型，我的理解是，你們在Locomotion與Manipulation之外增加了第三個維度：Perception（感知），對嗎？

張凱峰：我常常開玩笑說，Locomotion其實也是一種特殊的Manipulation——是人用兩只腳在“操控”地球。如果今天我們已經(jīng)徹底解決了操作問題，回過頭看，一定能用同一套框架既解決移動、又解決操作。

這兩者最大的不同在于：Locomotion是將“自身狀態(tài)”調(diào)整到目標(biāo)狀態(tài)，而Manipulation是將“被操作的物體”調(diào)整到目標(biāo)狀態(tài)。這就要求你必須實時獲取被操作物體的姿態(tài)信息，也就是Perception。

2000年以前做機器人的人，常常假設(shè)Vision Perception（視覺感知）問題已經(jīng)解決了，所以直接在action（動作）層面尋求突破點。但今天我們發(fā)現(xiàn)這遠遠不夠，必須把感知和動作放到一個閉環(huán)里去做。

甲子光年：CraftNet的分層設(shè)計很像人類的神經(jīng)系統(tǒng)。System 2負責(zé)想，是推理大腦(the Reasoning Brain)；System 1負責(zé)動，是運動大腦(the Motion Brain) ；System 0負責(zé)做，是交互大腦 (the Interaction Brain) 。但是這三個系統(tǒng)頻率不一樣，如何避免系統(tǒng)之間的“打架”？

CraftNet，圖片來源：Sharpa

張凱峰：首先我介紹一下CraftNet里System 0的含義。在Locomotion領(lǐng)域，現(xiàn)在也出現(xiàn)了System 0的概念，比如Figure機器人模型Helix 02里就有。它的概念是：當(dāng)你推機器人一下，它能下意識地保持身體平衡不摔倒，這是一種自適應(yīng)的底層行為。

而在我們的Manipulation里，System 0意味著什么呢？它能把System 1輸出的“粗動作”和操作意圖，結(jié)合力覺（Force）和觸覺（Tactile）信息，轉(zhuǎn)化為一個精準(zhǔn)的動作。

剛才我們講到遙操作、動捕等數(shù)據(jù)收集上的挑戰(zhàn)，這些挑戰(zhàn)引導(dǎo)我們設(shè)計了一個“coarse-to-fine（由粗到細）”的架構(gòu)。也就是說，先由上層生成一個粗動作，再通過System 0把它變成精細化的操作。

關(guān)于“系統(tǒng)打架”的問題。其實它們并不會打架，這就像一個分頻（frequency division）設(shè)計。System1輸入的是低頻的表征，輸出一個相對高頻的動作；而到了System 0，它執(zhí)行的是更高頻的底層操作。高低頻之間是解耦的，所以互不影響。

甲子光年：這么看，System 0其實更加通用。

張凱峰：對，它是非常通用的，我們把它叫做motion primitives（運動基元）。

同時，我們的System 0也非常聚焦，它聚焦在你“快要摸到、以及指尖觸碰到物體的那一瞬間”的下意識反應(yīng)。

從速度反饋上也能看出來，System 1大概是10Hz的頻率，而到了System 0直接飆到100Hz了，它必須極速輸出一個下意識動作來完成微操。

甲子光年：就像我的手碰到了這個水杯，碰到的一瞬間，底層系統(tǒng)要立刻下意識地決定用多大的力度去抓住它，是這樣嗎？

張凱峰：除了意圖，還涉及你具體怎么去抓。正如我剛才提到的，有些動作你是很難采集到數(shù)據(jù)的，比如in-hand manipulation（手內(nèi)操作/掌內(nèi)操作）這種極度精細的動作。

目前業(yè)內(nèi)其他家應(yīng)該還沒有做到System 0這個階段。

甲子光年：相比于其他沒有System 0的同行，你們的系統(tǒng)反應(yīng)會更快？

張凱峰：System 0要解決的核心是“操作手感”以及“最后1毫米接觸”的問題。剛才提到數(shù)據(jù)采集有挑戰(zhàn)，你很難采集到足夠多樣化的運動基元 (Motion Primitives)，尤其是手內(nèi)操作數(shù)據(jù)。

因此我們認(rèn)為，System 1最終可能只是由數(shù)據(jù)金字塔或相對低質(zhì)量的數(shù)據(jù)學(xué)出來的一個Coarse action（粗略動作）。把這個手勢傳遞給System 0后，System 0會結(jié)合力覺和觸覺信息，將其“翻譯”成Precise action（精準(zhǔn)動作），從而完成微操。

甲子光年：有些醫(yī)療手術(shù)機器人也強調(diào)精度能達到毫米級甚至亞毫米級，你們有什么不一樣？

張凱峰：本質(zhì)不一樣，它們屬于專機專用機器人，和我們要做的General（通用）不一樣。我們希望做的是通用的機器人，是能幫人去干各種臟活、累活的，這些任務(wù)都不是特定、固定的。

甲子光年：在實際生活中，有沒有更貼近日常、更直觀的例子來解釋System 0的作用？

張凱峰：比如我要拿起這罐啤酒，我用的力道是恰到好處的。如果你試圖從我手里把啤酒抽走，我會下意識地增加握力——這就是System 0在起作用。

第二點，我們把這種抓取叫做Gentle Grasp（柔和抓取），手感非常柔和。如果今天沒有System 0的操作能力，機器人可能只會粗暴地Power Grasp（強力抓取）。

因為遙操作員其實是感受不到機器人抓取力度的，為了保證東西不掉，他們只能捏得很緊、用很大的力。但這不對，System 0要解決的就是這種“恰到好處”的觸覺反饋。

我們的靈巧手，即使是去操作紙牌、操作脆弱的折頁，從平面上摳起來時都不會讓它變形，而是完好無損地拿起來。

甲子光年：我們習(xí)以為常的抓取動作，其實是人類的雙手已經(jīng)在潛意識里完成了極度精細的操作，但真正要在機器人手上復(fù)現(xiàn)時，技術(shù)難度的差別就顯現(xiàn)出來了。

張凱峰：對，因為人體的底層就運行著一個類似System 0的控制器（controller）。

甲子光年：過去兩年行業(yè)里都在卷VLA、VLM，而今年初Sharpa發(fā)布了CraftNet，提出了一層新的架構(gòu)System 0。后來，美國機器人公司Figure提出了Helix 02，也包含了一層System 0，所以2026年會是“System 0元年”嗎？

張凱峰：我們自己并沒有去刻意這么定義。不過我們內(nèi)部之前聊過，大家確實有一個共識：2026年全行業(yè)的關(guān)注點，肯定會全面聚焦到“靈巧操作”上。大家可能更關(guān)心更細化的靈巧操作。這個趨勢確實存在，至于是不是“元年”，就看各自的解讀了。

甲子光年：那為什么現(xiàn)在才做出System 0呢？是因為具備哪些條件嗎？

張凱峰：我覺得是整個AI的基礎(chǔ)設(shè)施以及底層的硬件發(fā)展到了能支撐我們做這件事的階段。

其實算法和模型非常依賴Infra的設(shè)計。比如現(xiàn)在有了英偉達Isaac這樣優(yōu)秀的平臺，它的渲染效率非常高，特別是觸覺的渲染效率。結(jié)合我們Tacmap這樣的技術(shù)，就能去做很多觸覺的sim-to-real工作，從而解決靈巧操作底層System 0面臨的問題。

所以是整個Infra和仿真的進步，讓我們有機會把這件事做好。

4.與英偉達合力解決Sim-to-Real問題

甲子光年：你們和英偉達有哪些合作？通過合作你們想傳遞什么信息？

Alicia：主要是Tacmap仿真觸覺傳感系統(tǒng)和EgoScale項目。Sharpa Wave靈巧手已被NVIDIA GEAR實驗室用于數(shù)據(jù)驅(qū)動的機器人學(xué)習(xí)研究。雙方合作驗證了一條關(guān)鍵路徑：機器人可以直接從大規(guī)模人類視頻數(shù)據(jù)中學(xué)習(xí)復(fù)雜操作能力，并在真實系統(tǒng)中穩(wěn)定執(zhí)行。另外，我們還加入了NVIDIA Inception創(chuàng)業(yè)加速計劃。

仿真技術(shù)是我們著重投入的方向。它是加速機器人訓(xùn)練的一個極具前景的方向。能在仿真領(lǐng)域跟英偉達這樣的巨頭合作，對推動觸覺和觸覺AI的發(fā)展十分關(guān)鍵，也能讓大家看到其對于機器人訓(xùn)練和數(shù)據(jù)瓶頸突破的重要性。

甲子光年：你們宣布這次Tacmap仿真框架及代碼資產(chǎn)未來將開源，開源的時間節(jié)點和范圍是什么？你們?yōu)槭裁磿x擇開源？

Alicia：關(guān)于相關(guān)成果的開源發(fā)布時間，團隊給我的預(yù)期大概在三月底吧。

這次開源的內(nèi)容大概包括URDF（機器人模型）、仿真資產(chǎn)、Tacmap的代碼，還有強化學(xué)習(xí)（RL）的代碼庫。打個比方，你可以把Tacmap看作是英偉達Isaac Lab平臺上的一個插件，大家以后都能用。

如果我們真想把“觸覺AI是機器人下一個大風(fēng)口”這個共識推出去，光靠嘴說沒用，得給大家提供上手的工具。大家親自跑一跑代碼，自然就懂它的價值了。

這個領(lǐng)域要想發(fā)展，單靠一家公司肯定不行。把工具開源，一方面確實能幫英偉達的Isaac Lab平臺吸引更多生態(tài)用戶，但對Sharpa來說，真正的“私心”是希望吸引更多人來研究觸覺AI。

甲子光年：在Tacmap仿真框架的合作中，Sharpa與英偉達各自都做了什么工作？

張凱峰：Sharpa和英偉達共同設(shè)計了TacMap，解決如何對視觸覺進行仿真的技術(shù)問題。英偉達主要提供底層技術(shù)支持，比如物理引擎上的Know-how，同時幫我們解決了IsaacLab底層的一些Bug。

一個新的平臺本身會有不完善的地方，英偉達協(xié)助排查后，雙方再能進行深度的聯(lián)合開發(fā)，最終由Sharpa主導(dǎo)實現(xiàn)并驗證。

Alicia：我們正在合作解決sim-to-real（仿真到現(xiàn)實）的差距，讓仿真平臺能更好地生成合成數(shù)據(jù)來訓(xùn)練模型。有時我們也會根據(jù)具體任務(wù)，直接在仿真環(huán)境里用強化學(xué)習(xí)來訓(xùn)練。

甲子光年：算力方面會有合作嗎？

張凱峰：算力方面暫時沒有，主要聚焦在仿真。

甲子光年：傳統(tǒng)觸覺仿真一直存在一個問題：真實性vs計算效率。這次合作解決了什么關(guān)鍵問題？

張凱峰：傳統(tǒng)觸覺仿真的痛點要么像是：有限元分析那樣保留了物理特性但失去計算效率，要么像簡化的投影映射有計算效率但物理特性很差。我們這次取得了很好的折中。

基于Tacmap，我們設(shè)計了一套物體和指尖穿模得到的深度圖像，把這個圖像作為sim-to-real的介質(zhì)。在仿真里可以快速高效地計算deformation Map（形變圖）；而在真實世界中，我們采集大量數(shù)據(jù)，把視觸覺看到的原始圖像通過轉(zhuǎn)換模型翻譯成deformation Map。

在此基礎(chǔ)上我們既保留了很好的物理特性，又有極高的計算效率，同時sim-to-real的gap也非常小。基于我們的測試分析，Tacmap能夠支持in-hand manipulation的zero-shot deploy。

甲子光年：接下來聊聊EgoScale項目，我注意到NVIDIA GEAR Lab的研究團隊成功把在GR00T模型進行了20000小時以上人類視頻數(shù)據(jù)預(yù)訓(xùn)練獲得的策略，遷移到搭載Sharpa Wave機械手的機器人上。實驗結(jié)果顯示，這些機器人能夠完成包括模型汽車組裝、注射器操作以及卡片分類等任務(wù)，整體任務(wù)成功率提升54%。這個數(shù)據(jù)提升代表著什么？

張凱峰：過去大家有個共識，希望能用好不同質(zhì)量的數(shù)據(jù)。

最高質(zhì)量的是遙操作數(shù)據(jù)，但它很難規(guī)模化、成本太高；其次是以人為中心的數(shù)據(jù)采集方式；最底層的、最便宜且最能規(guī)模化的就是人類視頻，或者帶有真實標(biāo)注的動捕數(shù)據(jù)。

這次英偉達的工作讓我們看到，人類視頻數(shù)據(jù)從某種意義上帶來了scaling Law，同時也證實了在硬件側(cè)設(shè)計與人類1:1同構(gòu)靈巧手的重要性。

《EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data》論文，圖片來源：受訪者

甲子光年：當(dāng)前具身智能行業(yè)獲取數(shù)據(jù)，主要有四種方式。第一種是仿真數(shù)據(jù)，第二類是人類行為數(shù)據(jù)，第三類是人類示教數(shù)據(jù)，第四類是真機遙操作數(shù)據(jù)。這四種方式各有優(yōu)劣勢，其中人類行為數(shù)據(jù)來源主要是視頻，通過學(xué)習(xí)人類操作來訓(xùn)練機器人。這類數(shù)據(jù)規(guī)模巨大，但由于人類身體結(jié)構(gòu)與機器人機械結(jié)構(gòu)存在差異，往往難以直接映射到機器人動作，因此存在所謂的“構(gòu)型鴻溝”。你們?nèi)绾伪苊馊祟愋袨閿?shù)據(jù)帶來的“構(gòu)型鴻溝”？

張凱峰：這其實耦合了兩個問題，核心是retargeting(重定向)。真正理想的重定向叫functional retargeting（功能性重定向），意思是不僅空間上的關(guān)鍵點能映射到機械手上，更要求操作語義也能夠重定向。比如我做捏（pinch）或抓握（power grasp）的動作，機器人也能準(zhǔn)確還原這個操作的語義，也就是“指哪打哪”。

即便解決了重定向，還要保證重定向的結(jié)果是physical plausible（物理可達的），這就要求硬件設(shè)計必須和人手1:1同構(gòu)。

我們某種意義上解決了底層硬件的瓶頸，保證了重定向結(jié)果物理可達。而functional retargeting目前仍是一個不斷探索的難題。

甲子光年：你是否認(rèn)為“機器人訓(xùn)練正在從‘機器人數(shù)據(jù)時代’，進入‘人類視頻數(shù)據(jù)時代’”？只要機器人擁有足夠類人的手部結(jié)構(gòu)，人類數(shù)十億小時的操作視頻，都可能成為機器人的訓(xùn)練數(shù)據(jù)嗎？

張凱峰：是的，我們正在經(jīng)歷這個轉(zhuǎn)變。所謂的機器人數(shù)據(jù)，指的是通過遙操作或機器人主動采集的數(shù)據(jù)；而人類操作數(shù)據(jù)，則是人戴著DexUMI或者DexOP這種數(shù)據(jù)手套，或者通過動捕（MoCap）技術(shù)獲取的人類實操數(shù)據(jù)。當(dāng)然，機器人數(shù)據(jù)最終也是必不可少的。

要想用好這些人類操作的數(shù)據(jù)，最大的難點還是剛才提到的retargeting重定向。重定向不僅要求結(jié)果在物理上可達，這就要求有1:1同構(gòu)的優(yōu)質(zhì)硬件，還要求在功能語義上一致（functional），這本身在模型算法上就是一個巨大的挑戰(zhàn)。

甲子光年：所以未來機器人訓(xùn)練到底會更依賴哪類數(shù)據(jù)？

張凱峰：要想打造通用的智能機器人，整個數(shù)據(jù)金字塔的每一層都必須被充分利用。整體來看，高質(zhì)量的遙操作數(shù)據(jù)與以人為中心(Human-centric)采集的數(shù)據(jù)，比例大概是1:100，這是一個比較合理的比例。接著往下推，以人為中心的數(shù)據(jù)與仿真數(shù)據(jù)的比例也是1:100；最后仿真數(shù)據(jù)與海量的人類操作視頻數(shù)據(jù)同樣是1:100的百倍級增長。只有這樣層層放大，才能解決數(shù)據(jù)的困境，最終才能訓(xùn)練出好的通用智能。

5.Sharpa的飛輪效應(yīng)

甲子光年：Sharpa把全球總部設(shè)在新加坡，研發(fā)和制造在上海，商業(yè)運營在硅谷。這種全球化布局背后的策略是什么？

Alicia：我們的策略很簡單：去最合適的地方拿最好的資源。所以我們從一開始就是一家global by design（生而全球化）的公司。

參考汽車或消費電子等成熟產(chǎn)業(yè)，無論是客戶群還是供應(yīng)鏈，本來就是全球化的。新加坡是亞洲的樞紐，方便吸引全球AI人才，設(shè)為總部很合理。中國有極好的AI和機器人人才庫，而且供應(yīng)鏈極其發(fā)達，硬件組件的組裝和迭代速度極快，這是我們絕對不能錯過的優(yōu)勢。至于美國，那里對新技術(shù)的接受和應(yīng)用速度幾乎比世界上任何地方都快，所以我們在這里開展商業(yè)運營順理成章。

Sharpa硅谷辦公室展示區(qū)，North機器人在發(fā)牌，動圖來源：「甲子光年」拍攝

甲子光年：但現(xiàn)實中機器人商業(yè)化仍然很慢。你認(rèn)為機器人規(guī)模化落地的瓶頸是什么？

Alicia：大規(guī)模部署之所以還沒發(fā)生，是因為目前發(fā)布的絕大多數(shù)機器人都在死磕移動能力，而在操作能力上投入的精力太少。

只有當(dāng)機器人真正能用手干活時，它們才會變得有用，部署速度才會加快。這也是我們創(chuàng)立這家公司的初衷。

往深了說，這終究是一個數(shù)據(jù)問題。我們需要更多物理世界的數(shù)據(jù)來訓(xùn)練機器人。

凱峰團隊正在努力讓更多觸覺數(shù)據(jù)能用于訓(xùn)練機器人和CraftNet。這其實是一個飛輪效應(yīng)（flywheel）：擁有帶有觸覺的優(yōu)質(zhì)靈巧手，我們就能生成更好的數(shù)據(jù)；有了更好的數(shù)據(jù)，就能訓(xùn)練出更好的模型；模型越好，機器人就越有用，能勝任的場景就越多；場景打開了，客戶買單的意愿就越強，企業(yè)就有更多資金投入研發(fā)，從而造出更好的機器人。這就是大規(guī)模落地的底層邏輯。

甲子光年：從市場角度看，中美有什么差異？

Alicia：差異主要體現(xiàn)在供給側(cè)。中國的供應(yīng)鏈速度實在太快了，只要市場有一點風(fēng)吹草動，哪怕離真正爆發(fā)還有段距離，無數(shù)人就會立刻涌入并快速開發(fā)方案，整個生態(tài)系統(tǒng)的調(diào)動速度極其驚人。

中美兩國對新技術(shù)的接受度都很高，但感覺美國市場在真正大規(guī)模建立供應(yīng)鏈之前，需要更多的“被說服”過程。而在中國，配合供應(yīng)商、快速修正設(shè)計都極其高效。凱峰，你同意嗎？

張凱峰：完全同意。

甲子光年：在美國，市場教育成本高嗎？

Alicia：美國的科技圈，一切都發(fā)生得極快，科技從業(yè)者對新技術(shù)的接受度極高，所以你很容易就能積攢起一大批“早期采用者（Early adopters）”。

但在美國市場，真正的難題在于如何“跨越鴻溝（Cross the chasm）”，即如何從早期采用者打入主流大眾市場。對于主流客戶，你必須證明非常多的東西，他們才會買單。

但在中國，我感覺大家對待新事物的態(tài)度不太一樣。在中國，大家普遍認(rèn)為“犯錯的成本，遠低于錯失機會的成本”。在其他地方（比如歐洲），人們非常害怕犯錯；但在中國，大家極其FOMO（Fear of Missing Out，錯失恐懼癥），害怕別人看到了機會而自己沒上車。所以在這種情緒下，哪怕技術(shù)還沒那么成熟，大家也會去試、去摸索。

甲子光年：如果未來機器人像智能手機一樣普及，你認(rèn)為最關(guān)鍵的一次技術(shù)突破會來自哪里？

張凱峰：最關(guān)鍵的突破一定來自于“數(shù)據(jù)側(cè)的閉環(huán)”。如果我們能在某個真實的商業(yè)模式下，自動地、大規(guī)模地采集場景數(shù)據(jù)，并真正跑通“數(shù)據(jù)→模型→評測”的閉環(huán)，機器人就能像智能手機一樣普及。數(shù)據(jù)實在太關(guān)鍵了。

甲子光年：相比于行業(yè)里開源數(shù)據(jù)，你們自己其實掌握著大量極高質(zhì)量的、適配你們硬件的“真機觸覺數(shù)據(jù)”。這批數(shù)據(jù)你們未來考慮開源嗎？

張凱峰：開源的事我們正在籌劃中，目前還沒有最終定論。

甲子光年：今年大家對“具身數(shù)據(jù)”的關(guān)注度空前高漲，你們?nèi)绾谓鉀Q數(shù)據(jù)問題？今年在其他方面有什么規(guī)劃嗎？

張凱峰：我們確實有一些布局，基本上圍繞“數(shù)據(jù)、模型、評測”這三個環(huán)節(jié)展開。我們主要攻堅自研的CraftNet，但我們也會以高校合作為手段來拓寬認(rèn)知。

在數(shù)據(jù)方面，我們正在嘗試如何改進以人為中心（human-centric）的數(shù)據(jù)采集方式，同時也在攻克functional retargeting的難題，試圖把海量的動捕（MoCap）數(shù)據(jù)真正用起來。

在模型方面，針對System 0，我們希望能跑通一個更加通用的Sim-to-Real（仿真到現(xiàn)實）的技能Pipeline。

因為目前不同的操作技能，底層的方法論是不一樣的，我們想用一套通用的框架去解決它，目前也在推進用無監(jiān)督強化學(xué)習(xí)（RL）來做整個System 0的方向。針對System 1，我們主要關(guān)注泛化性和魯棒性。

在評測方面，我們也在和學(xué)界合作，希望能解決目前評測中可靠性差（reliability）和極度耗費人力（labor-intensive）的痛點。

甲子光年：這也很符合你們?nèi)珬２季值牟呗浴?/p>

Alicia：我們是一家全棧的具身智能公司。之所以要做全棧，是因為要想真正做到通用機器人，除了做好觸覺AI，別無選擇。

（封面圖來源：「甲子光年」拍攝）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.