![]()
![]()
要想真正做到通用機器人,除了做好觸覺AI,別無選擇。
作者|蘇霍伊
編輯|王博
今年以前,Sharpa都很神秘。
很多人以為Sharpa是一個做機器人靈巧手公司,因為Sharpa靈巧機械手Wave在ICRA 2025、CES 2026、GTC 2026連續(xù)亮相,還登上了今年總臺央視春晚的舞臺。它能精準(zhǔn)發(fā)牌、打乒乓球、盤核桃,實現(xiàn)如同人手一般的精細化操作。
![]()
Sharpa靈巧機械手Wave在GTC上展示,圖片來源:Sharpa
但Sharpa對自己定位遠不止于此。
在GTC 2026上,Sharpa通過實物和視頻展示了其完整技術(shù)棧,包括靈巧機械手Wave、人形機器人North以及融合視覺、觸覺與語言的模型系統(tǒng)CraftNet。
![]()
Sharpa人形機器人North,圖片來源:「甲子光年」拍攝
Sharpa成立于2024年,全球總部位于新加坡,制造與研發(fā)中心位于中國上海,商業(yè)運營總部位于美國加州硅谷山景城。雖然Sharpa創(chuàng)始團隊因為過往在自動駕駛領(lǐng)域的經(jīng)歷而受到關(guān)注,但是Sharpa一直保持著獨立運營的狀態(tài)。
近期,「甲子光年」來到了Sharpa硅谷辦公室,見到了Sharpa GTM副總裁、歐洲區(qū)總裁Alicia Veneziani和Sharpa研究科學(xué)家、學(xué)術(shù)負責(zé)人張凱峰。
這是Sharpa核心團隊成員首次與媒體進行深度對話,對于外界好奇的公司定位,Alicia Veneziani告訴「甲子光年」:“我們的秘密武器是觸覺AI,我們的核心定位是一家以觸覺AI為驅(qū)動的全棧靈巧機器人公司。”
相比主要依賴視覺的機器人動作,Sharpa更專注于觸覺驅(qū)動的機器人靈巧操作。
這一能力被認(rèn)為是機器人完成復(fù)雜現(xiàn)實任務(wù)的關(guān)鍵門檻。宇樹科技創(chuàng)始人、CEO王興興近期表示:“我覺得目前對于具身智能或者機器人來說,移動和動作大部分問題已經(jīng)解決掉了,但對于抓取和操作這部分,尤其觸覺相關(guān)的問題目前沒有解決,這也直接限制了具身智能或者人形機器人大規(guī)模在工廠和家庭去部署。”
過去兩年,具身智能行業(yè)的敘事幾乎被視覺與語言主導(dǎo):VLM、VLA、世界模型……讓機器人看懂世界成為主線。但Sharpa選擇了一條更難、也更少人走的路徑:從“手”的感知出發(fā),而不僅僅依賴“眼睛”。
Sharpa的技術(shù)路徑建立在兩個核心能力之上:一是通過仿真環(huán)境進行大規(guī)模技能訓(xùn)練;二是結(jié)合視頻與觸覺數(shù)據(jù),訓(xùn)練其視覺-觸覺-語言-動作模型(VTLA),使機器人能夠?qū)W習(xí)人類的操作方式,并實現(xiàn)更高程度的自主化。
為支撐這一訓(xùn)練范式,Sharpa在GTC期間宣布與英偉達聯(lián)合開發(fā)Tacmap仿真觸覺系統(tǒng),作為觸覺驅(qū)動機器人學(xué)習(xí)的重要基礎(chǔ)設(shè)施。該框架通過共享的高精度幾何結(jié)構(gòu)表示,實現(xiàn)了高真實度與高計算效率之間的平衡。Sharpa表示,相關(guān)仿真框架及代碼資產(chǎn)未來將開源,以便與更廣泛的機器人社區(qū)共享研究成果。
Alicia Veneziani和張凱峰,一位站在市場戰(zhàn)略前線,一位深入模型系統(tǒng)底層。這次對話中,我們探討了五個方面的話題:
Sharpa為什么會引發(fā)關(guān)注?
觸覺是不是靈巧操作的關(guān)鍵?
CraftNet的創(chuàng)新之處?
為什么英偉達會和Sharpa合作?
Sharpa的運營與商業(yè)計劃是什么?
本文為「甲子光年」對話Sharpa核心團隊實錄,經(jīng)「甲子光年」整理編輯,在不改變原意的基礎(chǔ)上有所刪改。
1.要做就做與人類1:1同構(gòu)靈巧手
甲子光年:之前很多人以為你們是一家做靈巧手的公司,所以你們對自己定位是什么?
Alicia:可能是Sharpa的靈巧手做得太好了(笑),導(dǎo)致很多人以為我們就是個做靈巧手的公司。
而我們的秘密武器就是觸覺以及觸覺AI,我們的核心定位是一家以觸覺AI為驅(qū)動的全棧靈巧機器人公司。
從去年5月份我們在ICRA(國際機器人與自動化會議)第一次亮相時,我們帶去的就是一整臺完整的機器人。但當(dāng)時所有人的注意力全被那只手吸引了。
![]()
Alicia Veneziani,圖片來源:Sharpa
甲子光年:的確,不論是去年的ICRA,還是今年的CES和GTC,你們展位的人都不少。
Alicia:實際上,我們從一開始就沒打算只做手,我們一直在做機器人整機。
我們內(nèi)部有個比喻:我們造的這只靈巧手,其實更像是汽車的發(fā)動機。我們要把各種不同的系統(tǒng)集成到這輛“車”里,所以我們本質(zhì)上是“造車”的(做全棧機器人系統(tǒng)),只不過我們的手做得特別好,這只手就成了我們這輛車的核心發(fā)動機。
![]()
Sharpa GTC展位,圖片來源:Sharpa
甲子光年:這個比喻很有意思,我也發(fā)現(xiàn),其實你們一直在強調(diào)機器人的“靈巧操作”以及“全身控制”,而不光是“手”。
張凱峰:這其實是我們的愿景。我們常說“We manufacture time by making robots useful”(我們通過讓機器人變得有用,來為人類創(chuàng)造時間)。我們想做真正能干活、有用的機器人,去承擔(dān)那些人們不愿意干的臟活累活,從而把人類的時間真正解放出來。
甲子光年:我注意到,Sharpa靈巧機械手Wave是和人類1:1同構(gòu)的,所以做到1:1同構(gòu)很難嗎?
張凱峰:靈巧手做到1:1同構(gòu)非常難。比如要做到成年男性的手部大小,還要具備人手大部分的自由度。我們的靈巧手有很多特性,比如指尖力矩能達到兩公斤,運動頻率是四赫茲,你需要兼具速度和力量。其次,要在這么小的空間里集成強有力的電機,同時做好整個系統(tǒng)的集成,工程難度極大。
Alicia:我認(rèn)為這取決于我們?nèi)绾味x“相似”。如果我們要求外觀和功能都相似,希望機械手能像人手一樣擁有同等的自由度、完成同等范圍的精細動作,就需要把大量內(nèi)部零件塞進一個極小的表面積里。這意味著必須使用超微型的驅(qū)動器,在極其有限的空間內(nèi)實現(xiàn)同等功能,這就是保持1:1比例的難點所在。
甲子光年:但是業(yè)內(nèi)也有聲音說,靈巧手硬件本身似乎并不那么重要。
Alicia:現(xiàn)在有個誤區(qū),有人覺得有了AI算法控制,硬件問題就不存在了。這完全是錯的,硬件的痛點依然在那兒。所以我們堅持深耕硬件工程,才能自己設(shè)計組件并快速迭代。大部分公司的手只能往大了做,但做大了就用不了人類的工具,比如普通的剪刀。
甲子光年:之前我們也看過各種靈巧手產(chǎn)品。有的公司會強調(diào)手的抓握力和負載能力,你們似乎沒有強調(diào)這方面能力。
Alicia:如果他們的目標(biāo)是工業(yè)里的分揀(pick and place)或搬運,那負載能力當(dāng)然重要。但搬運東西真的需要人形機器人、需要靈巧手嗎?
我們的核心聚焦點是靈巧操作(dexterous tasks)。這其中可能也會涉及搬運,但那絕不是我們最核心的應(yīng)用場景。所以除了負載能力,我們必須考量更多其他維度的指標(biāo)。
甲子光年:為什么說22個自由度是一個非常關(guān)鍵的設(shè)計?為什么偏偏是22個?
Alicia:其實這跟“為什么要做成1:1類人手”邏輯有點類似。人手大概有27個自由度,但在機器人上,22個自由度已經(jīng)完全足夠用了。這是我們在成本、工程實現(xiàn)難度和實際功能之間找到的一個最佳平衡點。
![]()
Sharpa靈巧機械手Wave,圖片來源:Sharpa
甲子光年:已經(jīng)有其他頭部機器人公司使用了Wave,甚至它還上了春晚。你們有什么優(yōu)勢能讓客戶買單?
張凱峰:我想最主要的原因有兩點。
第一,一致性,這包括我們不同批次的硬件之間高度一致,同時我們的Sim-to-Real Gap足夠小。我們自己做過很多Sim-to-Real的算法和模型,在這個過程中不斷迭代并更好地標(biāo)定了我們的硬件,從而把這個Gap降到了最小。
第二,可靠性。我們的手確實能經(jīng)受住高強度、長時間的使用,并且性能非常穩(wěn)定。
甲子光年:Wave目前的售價是一只5萬美元,你們是怎么定價的?
Alicia:其實這并不是公開標(biāo)價(list price),我們目前只為客戶提供定制報價(custom price)。
甲子光年:你們團隊是如何平衡產(chǎn)品性能和成本的?價格可能再降低一些嗎?
Alicia:在設(shè)計時,我們第一優(yōu)先級的考量絕對是性能(performance)。我們必須確保這只手在各類場景中能真正干活。其次是極高的可靠性(reliability),因為我們著眼于長期的服務(wù)場景,它必須能扛得住長時間的持續(xù)使用。第三個考量才是成本。因為如果達不到及格的性能,成本再低也沒意義。
我們的核心聚焦點是靈巧操作,而不在搬重物。如果只是搬運,用個便宜的夾爪就夠了,客戶完全沒必要花高價買一只復(fù)雜的靈巧手。
解決技術(shù)問題后我們肯定會盯緊價格。只要我們不是用“黃金”來造手,憑借團隊扎實的硬件工程能力,我們有信心把價格降到大規(guī)模量產(chǎn)所需的水平。
大家看BOM(物料清單)就知道硬件底座的成本邏輯,一旦行業(yè)進入大規(guī)模量產(chǎn),比如未來出貨量達到100萬臺時,規(guī)模效應(yīng)自然會把成本打下來,所以我們對控制成本非常有信心。
2.沒有觸覺,是一種新形式的失明
甲子光年:今天機器人已經(jīng)可以跑、跳、走,但在精細操作上仍然不如人類。從技術(shù)角度看,機器人靈巧操作的核心瓶頸是什么?
張凱峰:核心瓶頸就是數(shù)據(jù)。
靈巧操作有三類數(shù)據(jù)來源。第一類是遙操作數(shù)據(jù)。它最大的痛點是“操作員感受不到機器人的感受”,遙操作員操作起來非常不直觀(not intuitive),所以很難用這種方式去采集像手中把玩(in-hand manipulation)這類極度精細的操作數(shù)據(jù)。
第二類是以人為中心的數(shù)據(jù)采集方式。比如斯坦福大學(xué)團隊(Stanford)隊做的同構(gòu)外骨骼手套DexUMI,以及麻省理工學(xué)院(MIT)和加州大學(xué)伯克利分校(UC Berkeley)聯(lián)合推出的無源手部外骨骼系統(tǒng)DexOP。DexUMI會帶來視覺上的Gap,因為腕部相機看到的是人戴著數(shù)據(jù)手套,而不是機械手;而DexOP則相反,它看到的是靈巧手本身,所以視覺Gap小,但是對于高自由度的靈巧手來說,它的狀態(tài)Gap會比較大。
第三類就是動捕(MOCAP)數(shù)據(jù)。其實又回到了剛才說的functional retargeting的挑戰(zhàn)。這個問題真的非常難,尤其是實時的重定向。我們不僅希望在空間上把人手關(guān)鍵點1:1映射過去(kinematics-based),更希望“操作語義”是一致的,這是非常困難的。
甲子光年:還有其他難點嗎?比如模型和評測維度?
張凱峰:模型維度的話,最大的挑戰(zhàn)在于魯棒性(robustness)和泛化能力(generalization)。你能不能做到物體級別、環(huán)境級別甚至任務(wù)級別的泛化?能不能拿出一個真正具有99.999%魯棒性的通用策略?目前還做不到。
評測方面也是限制我們算法迭代效率的瓶頸。一個是可靠性問題。今天測10次,成功率80%和70%其實說明不了太大問題,可能只是A策略比B策略碰巧多成功了一次。另一個是人力成本極高。
評測則需要大量人力去控制環(huán)境變量、重置場景、統(tǒng)計數(shù)據(jù),極其消耗精力。這些都是目前限制靈巧操作發(fā)展的核心瓶頸。
甲子光年:觸覺是不是靈巧操作的關(guān)鍵?
張凱峰:我認(rèn)為極其重要。
因為在操作過程中,無論是數(shù)據(jù)采集還是模型推理,都會遇到嚴(yán)重的“自遮擋”或者被物體“遮擋”的問題。此外,觸覺能賦予機器人“手感”。人類在做微操時是有精細手感的,但目前的機器人還做不到這點。
甲子光年:Alicia,我記得你們曾經(jīng)提到“Tactileless is the new blindness(沒有觸覺,是一種新形式的失明)”。
Alicia:是的,我們堅信,如果沒有觸覺,有些任務(wù)機器人根本無法完成。特別是那些步驟繁瑣的Long-horizon(長視距/長程)任務(wù),想完全依靠視覺讓機器人自主完成,如果不是不可能,也是極其困難的。
我們想想人類的操作就明白了:如果你想擦一個花瓶,你的手會繞到花瓶背面去擦,這時你的眼睛是看不到手的對吧?但你依然能擦干凈,而且不會把花瓶打碎,因為你能“摸”到它。在這種情況下,視覺是被遮擋(occluded)的。
再比如把數(shù)據(jù)線插進USB接口、或者把零件卡進去的時候,因為空間太狹小,攝像頭不可能無死角覆蓋,你根本看不到線頭插進去的瞬間。這時候,觸覺就成了唯一的解法。
同時凱峰和清華大學(xué)合作的《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文,更是證明了有了觸覺,一些原本機器人根本不可能自主完成的任務(wù),比如插USB線、安裝燈泡、發(fā)撲克牌等變得可能了。
![]()
《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文,圖片來源:受訪者
有大量頂級學(xué)術(shù)研究證實了觸覺在加速機器人訓(xùn)練中的作用。這就是我們?nèi)绱丝春糜|覺AI的原因:它不僅是我們的信仰,更得到了科學(xué)界的驗證。
甲子光年:我突然覺得這挺像自動駕駛領(lǐng)域的情況:行業(yè)里既有特斯拉那種純視覺路線,也有“攝像頭+激光雷達”的融合方案。你們提到了機器人觸覺,其實很像激光雷達在自動駕駛中的角色。一旦機器人的視覺受阻或存在盲區(qū),觸覺就能作為全新的數(shù)據(jù)源來補足視覺短板。
Alicia:確實很像,但我認(rèn)為觸覺在機器人身上的重要性,超過了激光雷達在車上的重要性。
車的邏輯是“避障”,它所有的目標(biāo)是“不要碰到任何東西”,碰到就是事故。而機器人的邏輯相反,它無時無刻不在跟這個世界“接觸”,尤其是手部。
對于那些看不見或處于視覺盲區(qū)的地方,觸覺尤其不可或缺。
甲子光年:做好觸覺,有哪些挑戰(zhàn)?
Alicia:這件事在技術(shù)上極其復(fù)雜,主要有三個核心維度的挑戰(zhàn)。Sharpa研究副總裁朱雪洲在GTC的演講就詳細提到了幾個核心原因:一方面是凱峰說的映射問題,你必須得有這樣一只帶觸覺的靈巧手,才能實現(xiàn)底層的物理分層;另一方面是模態(tài)競爭問題,比如視覺和觸覺之間會有模態(tài)競爭;最后還有一個關(guān)鍵點,就是計算成本的開銷問題。
3.從粗略動作到精準(zhǔn)動作
甲子光年:具身智能的研究大致分為兩個核心方向:Locomotion(移動能力)與Manipulation(操作能力)。Sharpa提出的CraftNet是一種VTLA(Vision Tactile Language Action,視覺-觸覺-語言-動作)模型,我的理解是,你們在Locomotion與Manipulation之外增加了第三個維度:Perception(感知),對嗎?
張凱峰:我常常開玩笑說,Locomotion其實也是一種特殊的Manipulation——是人用兩只腳在“操控”地球。如果今天我們已經(jīng)徹底解決了操作問題,回過頭看,一定能用同一套框架既解決移動、又解決操作。
這兩者最大的不同在于:Locomotion是將“自身狀態(tài)”調(diào)整到目標(biāo)狀態(tài),而Manipulation是將“被操作的物體”調(diào)整到目標(biāo)狀態(tài)。這就要求你必須實時獲取被操作物體的姿態(tài)信息,也就是Perception。
2000年以前做機器人的人,常常假設(shè)Vision Perception(視覺感知)問題已經(jīng)解決了,所以直接在action(動作)層面尋求突破點。但今天我們發(fā)現(xiàn)這遠遠不夠,必須把感知和動作放到一個閉環(huán)里去做。
甲子光年:CraftNet的分層設(shè)計很像人類的神經(jīng)系統(tǒng)。System 2負責(zé)想,是推理大腦(the Reasoning Brain);System 1負責(zé)動,是運動大腦(the Motion Brain) ;System 0負責(zé)做,是交互大腦 (the Interaction Brain) 。但是這三個系統(tǒng)頻率不一樣,如何避免系統(tǒng)之間的“打架”?
![]()
CraftNet,圖片來源:Sharpa
張凱峰:首先我介紹一下CraftNet里System 0的含義。在Locomotion領(lǐng)域,現(xiàn)在也出現(xiàn)了System 0的概念,比如Figure機器人模型Helix 02里就有。它的概念是:當(dāng)你推機器人一下,它能下意識地保持身體平衡不摔倒,這是一種自適應(yīng)的底層行為。
而在我們的Manipulation里,System 0意味著什么呢?它能把System 1輸出的“粗動作”和操作意圖,結(jié)合力覺(Force)和觸覺(Tactile)信息,轉(zhuǎn)化為一個精準(zhǔn)的動作。
剛才我們講到遙操作、動捕等數(shù)據(jù)收集上的挑戰(zhàn),這些挑戰(zhàn)引導(dǎo)我們設(shè)計了一個“coarse-to-fine(由粗到細)”的架構(gòu)。也就是說,先由上層生成一個粗動作,再通過System 0把它變成精細化的操作。
關(guān)于“系統(tǒng)打架”的問題。其實它們并不會打架,這就像一個分頻(frequency division)設(shè)計。System1輸入的是低頻的表征,輸出一個相對高頻的動作;而到了System 0,它執(zhí)行的是更高頻的底層操作。高低頻之間是解耦的,所以互不影響。
甲子光年:這么看,System 0其實更加通用。
張凱峰:對,它是非常通用的,我們把它叫做motion primitives(運動基元)。
同時,我們的System 0也非常聚焦,它聚焦在你“快要摸到、以及指尖觸碰到物體的那一瞬間”的下意識反應(yīng)。
從速度反饋上也能看出來,System 1大概是10Hz的頻率,而到了System 0直接飆到100Hz了,它必須極速輸出一個下意識動作來完成微操。
甲子光年:就像我的手碰到了這個水杯,碰到的一瞬間,底層系統(tǒng)要立刻下意識地決定用多大的力度去抓住它,是這樣嗎?
張凱峰:除了意圖,還涉及你具體怎么去抓。正如我剛才提到的,有些動作你是很難采集到數(shù)據(jù)的,比如in-hand manipulation(手內(nèi)操作/掌內(nèi)操作)這種極度精細的動作。
目前業(yè)內(nèi)其他家應(yīng)該還沒有做到System 0這個階段。
甲子光年:相比于其他沒有System 0的同行,你們的系統(tǒng)反應(yīng)會更快?
張凱峰:System 0要解決的核心是“操作手感”以及“最后1毫米接觸”的問題。 剛才提到數(shù)據(jù)采集有挑戰(zhàn),你很難采集到足夠多樣化的運動基元 (Motion Primitives),尤其是手內(nèi)操作數(shù)據(jù)。
因此我們認(rèn)為,System 1最終可能只是由數(shù)據(jù)金字塔或相對低質(zhì)量的數(shù)據(jù)學(xué)出來的一個Coarse action(粗略動作)。把這個手勢傳遞給System 0后,System 0會結(jié)合力覺和觸覺信息,將其“翻譯”成Precise action(精準(zhǔn)動作),從而完成微操。
甲子光年:有些醫(yī)療手術(shù)機器人也強調(diào)精度能達到毫米級甚至亞毫米級,你們有什么不一樣?
張凱峰:本質(zhì)不一樣,它們屬于專機專用機器人,和我們要做的General(通用)不一樣。我們希望做的是通用的機器人,是能幫人去干各種臟活、累活的,這些任務(wù)都不是特定、固定的。
甲子光年:在實際生活中,有沒有更貼近日常、更直觀的例子來解釋System 0的作用?
張凱峰:比如我要拿起這罐啤酒,我用的力道是恰到好處的。如果你試圖從我手里把啤酒抽走,我會下意識地增加握力——這就是System 0在起作用。
第二點,我們把這種抓取叫做Gentle Grasp(柔和抓取),手感非常柔和。如果今天沒有System 0的操作能力,機器人可能只會粗暴地Power Grasp(強力抓取)。
因為遙操作員其實是感受不到機器人抓取力度的,為了保證東西不掉,他們只能捏得很緊、用很大的力。但這不對,System 0要解決的就是這種“恰到好處”的觸覺反饋。
我們的靈巧手,即使是去操作紙牌、操作脆弱的折頁,從平面上摳起來時都不會讓它變形,而是完好無損地拿起來。
甲子光年:我們習(xí)以為常的抓取動作,其實是人類的雙手已經(jīng)在潛意識里完成了極度精細的操作,但真正要在機器人手上復(fù)現(xiàn)時,技術(shù)難度的差別就顯現(xiàn)出來了。
張凱峰:對,因為人體的底層就運行著一個類似System 0的控制器(controller)。
甲子光年:過去兩年行業(yè)里都在卷VLA、VLM,而今年初Sharpa發(fā)布了CraftNet,提出了一層新的架構(gòu)System 0。后來,美國機器人公司Figure提出了Helix 02,也包含了一層System 0,所以2026年會是“System 0元年”嗎?
張凱峰:我們自己并沒有去刻意這么定義。不過我們內(nèi)部之前聊過,大家確實有一個共識:2026年全行業(yè)的關(guān)注點,肯定會全面聚焦到“靈巧操作”上。大家可能更關(guān)心更細化的靈巧操作。這個趨勢確實存在,至于是不是“元年”,就看各自的解讀了。
甲子光年:那為什么現(xiàn)在才做出System 0呢?是因為具備哪些條件嗎?
張凱峰:我覺得是整個AI的基礎(chǔ)設(shè)施以及底層的硬件發(fā)展到了能支撐我們做這件事的階段。
其實算法和模型非常依賴Infra的設(shè)計。比如現(xiàn)在有了英偉達Isaac這樣優(yōu)秀的平臺,它的渲染效率非常高,特別是觸覺的渲染效率。結(jié)合我們Tacmap這樣的技術(shù),就能去做很多觸覺的sim-to-real工作,從而解決靈巧操作底層System 0面臨的問題。
所以是整個Infra和仿真的進步,讓我們有機會把這件事做好。
4.與英偉達合力解決Sim-to-Real問題
甲子光年:你們和英偉達有哪些合作?通過合作你們想傳遞什么信息?
Alicia:主要是Tacmap仿真觸覺傳感系統(tǒng)和EgoScale項目。Sharpa Wave靈巧手已被NVIDIA GEAR實驗室用于數(shù)據(jù)驅(qū)動的機器人學(xué)習(xí)研究。雙方合作驗證了一條關(guān)鍵路徑:機器人可以直接從大規(guī)模人類視頻數(shù)據(jù)中學(xué)習(xí)復(fù)雜操作能力,并在真實系統(tǒng)中穩(wěn)定執(zhí)行。另外,我們還加入了NVIDIA Inception創(chuàng)業(yè)加速計劃。
仿真技術(shù)是我們著重投入的方向。它是加速機器人訓(xùn)練的一個極具前景的方向。能在仿真領(lǐng)域跟英偉達這樣的巨頭合作,對推動觸覺和觸覺AI的發(fā)展十分關(guān)鍵,也能讓大家看到其對于機器人訓(xùn)練和數(shù)據(jù)瓶頸突破的重要性。
甲子光年:你們宣布這次Tacmap仿真框架及代碼資產(chǎn)未來將開源,開源的時間節(jié)點和范圍是什么?你們?yōu)槭裁磿x擇開源?
Alicia:關(guān)于相關(guān)成果的開源發(fā)布時間,團隊給我的預(yù)期大概在三月底吧。
這次開源的內(nèi)容大概包括URDF(機器人模型)、仿真資產(chǎn)、Tacmap的代碼,還有強化學(xué)習(xí)(RL)的代碼庫。打個比方,你可以把Tacmap看作是英偉達Isaac Lab平臺上的一個插件,大家以后都能用。
如果我們真想把“觸覺AI是機器人下一個大風(fēng)口”這個共識推出去,光靠嘴說沒用,得給大家提供上手的工具。大家親自跑一跑代碼,自然就懂它的價值了。
這個領(lǐng)域要想發(fā)展,單靠一家公司肯定不行。把工具開源,一方面確實能幫英偉達的Isaac Lab平臺吸引更多生態(tài)用戶,但對Sharpa來說,真正的“私心”是希望吸引更多人來研究觸覺AI。
甲子光年:在Tacmap仿真框架的合作中,Sharpa與英偉達各自都做了什么工作?
張凱峰:Sharpa和英偉達共同設(shè)計了TacMap,解決如何對視觸覺進行仿真的技術(shù)問題。英偉達主要提供底層技術(shù)支持,比如物理引擎上的Know-how,同時幫我們解決了IsaacLab底層的一些Bug。
一個新的平臺本身會有不完善的地方,英偉達協(xié)助排查后,雙方再能進行深度的聯(lián)合開發(fā),最終由Sharpa主導(dǎo)實現(xiàn)并驗證。
Alicia:我們正在合作解決sim-to-real(仿真到現(xiàn)實)的差距,讓仿真平臺能更好地生成合成數(shù)據(jù)來訓(xùn)練模型。有時我們也會根據(jù)具體任務(wù),直接在仿真環(huán)境里用強化學(xué)習(xí)來訓(xùn)練。
甲子光年:算力方面會有合作嗎?
張凱峰:算力方面暫時沒有,主要聚焦在仿真。
甲子光年:傳統(tǒng)觸覺仿真一直存在一個問題:真實性vs計算效率。這次合作解決了什么關(guān)鍵問題?
張凱峰:傳統(tǒng)觸覺仿真的痛點要么像是:有限元分析那樣保留了物理特性但失去計算效率,要么像簡化的投影映射有計算效率但物理特性很差。我們這次取得了很好的折中。
基于Tacmap,我們設(shè)計了一套物體和指尖穿模得到的深度圖像,把這個圖像作為sim-to-real的介質(zhì)。在仿真里可以快速高效地計算deformation Map(形變圖);而在真實世界中,我們采集大量數(shù)據(jù),把視觸覺看到的原始圖像通過轉(zhuǎn)換模型翻譯成deformation Map。
在此基礎(chǔ)上我們既保留了很好的物理特性,又有極高的計算效率,同時sim-to-real的gap也非常小。基于我們的測試分析,Tacmap能夠支持in-hand manipulation的zero-shot deploy。
甲子光年:接下來聊聊EgoScale項目,我注意到NVIDIA GEAR Lab的研究團隊成功把在GR00T模型進行了20000小時以上人類視頻數(shù)據(jù)預(yù)訓(xùn)練獲得的策略,遷移到搭載Sharpa Wave機械手的機器人上。實驗結(jié)果顯示,這些機器人能夠完成包括模型汽車組裝、注射器操作以及卡片分類等任務(wù),整體任務(wù)成功率提升54%。這個數(shù)據(jù)提升代表著什么?
張凱峰:過去大家有個共識,希望能用好不同質(zhì)量的數(shù)據(jù)。
最高質(zhì)量的是遙操作數(shù)據(jù),但它很難規(guī)模化、成本太高;其次是以人為中心的數(shù)據(jù)采集方式;最底層的、最便宜且最能規(guī)模化的就是人類視頻,或者帶有真實標(biāo)注的動捕數(shù)據(jù)。
這次英偉達的工作讓我們看到,人類視頻數(shù)據(jù)從某種意義上帶來了scaling Law,同時也證實了在硬件側(cè)設(shè)計與人類1:1同構(gòu)靈巧手的重要性。
![]()
《EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data》論文,圖片來源:受訪者
甲子光年:當(dāng)前具身智能行業(yè)獲取數(shù)據(jù),主要有四種方式。第一種是仿真數(shù)據(jù),第二類是人類行為數(shù)據(jù),第三類是人類示教數(shù)據(jù),第四類是真機遙操作數(shù)據(jù)。這四種方式各有優(yōu)劣勢,其中人類行為數(shù)據(jù)來源主要是視頻,通過學(xué)習(xí)人類操作來訓(xùn)練機器人。這類數(shù)據(jù)規(guī)模巨大,但由于人類身體結(jié)構(gòu)與機器人機械結(jié)構(gòu)存在差異,往往難以直接映射到機器人動作,因此存在所謂的“構(gòu)型鴻溝”。你們?nèi)绾伪苊馊祟愋袨閿?shù)據(jù)帶來的“構(gòu)型鴻溝”?
張凱峰:這其實耦合了兩個問題,核心是retargeting(重定向)。真正理想的重定向叫functional retargeting(功能性重定向),意思是不僅空間上的關(guān)鍵點能映射到機械手上,更要求操作語義也能夠重定向。比如我做捏(pinch)或抓握(power grasp)的動作,機器人也能準(zhǔn)確還原這個操作的語義,也就是“指哪打哪”。
即便解決了重定向,還要保證重定向的結(jié)果是physical plausible(物理可達的),這就要求硬件設(shè)計必須和人手1:1同構(gòu)。
我們某種意義上解決了底層硬件的瓶頸,保證了重定向結(jié)果物理可達。而functional retargeting目前仍是一個不斷探索的難題。
甲子光年:你是否認(rèn)為“機器人訓(xùn)練正在從‘機器人數(shù)據(jù)時代’,進入‘人類視頻數(shù)據(jù)時代’”?只要機器人擁有足夠類人的手部結(jié)構(gòu),人類數(shù)十億小時的操作視頻,都可能成為機器人的訓(xùn)練數(shù)據(jù)嗎?
張凱峰:是的,我們正在經(jīng)歷這個轉(zhuǎn)變。所謂的機器人數(shù)據(jù),指的是通過遙操作或機器人主動采集的數(shù)據(jù);而人類操作數(shù)據(jù),則是人戴著DexUMI或者DexOP這種數(shù)據(jù)手套,或者通過動捕(MoCap)技術(shù)獲取的人類實操數(shù)據(jù)。當(dāng)然,機器人數(shù)據(jù)最終也是必不可少的。
要想用好這些人類操作的數(shù)據(jù),最大的難點還是剛才提到的retargeting重定向。重定向不僅要求結(jié)果在物理上可達,這就要求有1:1同構(gòu)的優(yōu)質(zhì)硬件,還要求在功能語義上一致(functional),這本身在模型算法上就是一個巨大的挑戰(zhàn)。
甲子光年:所以未來機器人訓(xùn)練到底會更依賴哪類數(shù)據(jù)?
張凱峰:要想打造通用的智能機器人,整個數(shù)據(jù)金字塔的每一層都必須被充分利用。整體來看,高質(zhì)量的遙操作數(shù)據(jù)與以人為中心(Human-centric)采集的數(shù)據(jù),比例大概是1:100,這是一個比較合理的比例。接著往下推,以人為中心的數(shù)據(jù)與仿真數(shù)據(jù)的比例也是1:100;最后仿真數(shù)據(jù)與海量的人類操作視頻數(shù)據(jù)同樣是1:100的百倍級增長。只有這樣層層放大,才能解決數(shù)據(jù)的困境,最終才能訓(xùn)練出好的通用智能。
5.Sharpa的飛輪效應(yīng)
甲子光年:Sharpa把全球總部設(shè)在新加坡,研發(fā)和制造在上海,商業(yè)運營在硅谷。這種全球化布局背后的策略是什么?
Alicia:我們的策略很簡單:去最合適的地方拿最好的資源。所以我們從一開始就是一家global by design(生而全球化)的公司。
參考汽車或消費電子等成熟產(chǎn)業(yè),無論是客戶群還是供應(yīng)鏈,本來就是全球化的。新加坡是亞洲的樞紐,方便吸引全球AI人才,設(shè)為總部很合理。中國有極好的AI和機器人人才庫,而且供應(yīng)鏈極其發(fā)達,硬件組件的組裝和迭代速度極快,這是我們絕對不能錯過的優(yōu)勢。至于美國,那里對新技術(shù)的接受和應(yīng)用速度幾乎比世界上任何地方都快,所以我們在這里開展商業(yè)運營順理成章。
![]()
Sharpa硅谷辦公室展示區(qū),North機器人在發(fā)牌,動圖來源:「甲子光年」拍攝
甲子光年:但現(xiàn)實中機器人商業(yè)化仍然很慢。你認(rèn)為機器人規(guī)模化落地的瓶頸是什么?
Alicia:大規(guī)模部署之所以還沒發(fā)生,是因為目前發(fā)布的絕大多數(shù)機器人都在死磕移動能力,而在操作能力上投入的精力太少。
只有當(dāng)機器人真正能用手干活時,它們才會變得有用,部署速度才會加快。這也是我們創(chuàng)立這家公司的初衷。
往深了說,這終究是一個數(shù)據(jù)問題。我們需要更多物理世界的數(shù)據(jù)來訓(xùn)練機器人。
凱峰團隊正在努力讓更多觸覺數(shù)據(jù)能用于訓(xùn)練機器人和CraftNet。這其實是一個飛輪效應(yīng)(flywheel):擁有帶有觸覺的優(yōu)質(zhì)靈巧手,我們就能生成更好的數(shù)據(jù);有了更好的數(shù)據(jù),就能訓(xùn)練出更好的模型;模型越好,機器人就越有用,能勝任的場景就越多;場景打開了,客戶買單的意愿就越強,企業(yè)就有更多資金投入研發(fā),從而造出更好的機器人。這就是大規(guī)模落地的底層邏輯。
甲子光年:從市場角度看,中美有什么差異?
Alicia:差異主要體現(xiàn)在供給側(cè)。中國的供應(yīng)鏈速度實在太快了,只要市場有一點風(fēng)吹草動,哪怕離真正爆發(fā)還有段距離,無數(shù)人就會立刻涌入并快速開發(fā)方案,整個生態(tài)系統(tǒng)的調(diào)動速度極其驚人。
中美兩國對新技術(shù)的接受度都很高,但感覺美國市場在真正大規(guī)模建立供應(yīng)鏈之前,需要更多的“被說服”過程。而在中國,配合供應(yīng)商、快速修正設(shè)計都極其高效。凱峰,你同意嗎?
張凱峰:完全同意。
甲子光年:在美國,市場教育成本高嗎?
Alicia:美國的科技圈,一切都發(fā)生得極快,科技從業(yè)者對新技術(shù)的接受度極高,所以你很容易就能積攢起一大批“早期采用者(Early adopters)”。
但在美國市場,真正的難題在于如何“跨越鴻溝(Cross the chasm)”,即如何從早期采用者打入主流大眾市場。對于主流客戶,你必須證明非常多的東西,他們才會買單。
但在中國,我感覺大家對待新事物的態(tài)度不太一樣。在中國,大家普遍認(rèn)為“犯錯的成本,遠低于錯失機會的成本”。在其他地方(比如歐洲),人們非常害怕犯錯;但在中國,大家極其FOMO(Fear of Missing Out,錯失恐懼癥),害怕別人看到了機會而自己沒上車。所以在這種情緒下,哪怕技術(shù)還沒那么成熟,大家也會去試、去摸索。
甲子光年:如果未來機器人像智能手機一樣普及,你認(rèn)為最關(guān)鍵的一次技術(shù)突破會來自哪里?
張凱峰:最關(guān)鍵的突破一定來自于“數(shù)據(jù)側(cè)的閉環(huán)”。如果我們能在某個真實的商業(yè)模式下,自動地、大規(guī)模地采集場景數(shù)據(jù),并真正跑通“數(shù)據(jù)→模型→評測”的閉環(huán),機器人就能像智能手機一樣普及。數(shù)據(jù)實在太關(guān)鍵了。
甲子光年:相比于行業(yè)里開源數(shù)據(jù),你們自己其實掌握著大量極高質(zhì)量的、適配你們硬件的“真機觸覺數(shù)據(jù)”。這批數(shù)據(jù)你們未來考慮開源嗎?
張凱峰:開源的事我們正在籌劃中,目前還沒有最終定論。
甲子光年:今年大家對“具身數(shù)據(jù)”的關(guān)注度空前高漲,你們?nèi)绾谓鉀Q數(shù)據(jù)問題?今年在其他方面有什么規(guī)劃嗎?
張凱峰:我們確實有一些布局,基本上圍繞“數(shù)據(jù)、模型、評測”這三個環(huán)節(jié)展開。我們主要攻堅自研的CraftNet,但我們也會以高校合作為手段來拓寬認(rèn)知。
在數(shù)據(jù)方面,我們正在嘗試如何改進以人為中心(human-centric)的數(shù)據(jù)采集方式,同時也在攻克functional retargeting的難題,試圖把海量的動捕(MoCap)數(shù)據(jù)真正用起來。
在模型方面,針對System 0,我們希望能跑通一個更加通用的Sim-to-Real(仿真到現(xiàn)實)的技能Pipeline。
因為目前不同的操作技能,底層的方法論是不一樣的,我們想用一套通用的框架去解決它,目前也在推進用無監(jiān)督強化學(xué)習(xí)(RL)來做整個System 0的方向。針對System 1,我們主要關(guān)注泛化性和魯棒性。
在評測方面,我們也在和學(xué)界合作,希望能解決目前評測中可靠性差(reliability)和極度耗費人力(labor-intensive)的痛點。
甲子光年:這也很符合你們?nèi)珬2季值牟呗浴?/p>
Alicia:我們是一家全棧的具身智能公司。之所以要做全棧,是因為要想真正做到通用機器人,除了做好觸覺AI,別無選擇。
(封面圖來源:「甲子光年」拍攝)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.