![]()
論文第一作者為清華大學博士、南洋理工大學博士后李壽杰,清華大學博士生吳同和人工智能碩士生徐建樂。論文通訊作者包括清華大學深圳國際研究生院副教授丁文伯,大連理工大學教授解兆謙,新加坡國立大學助理教授吳昌盛和香港城市大學教授于欣格。
隨著機器人技術從「預設程序執行」向「具身智能交互」跨越,觸覺感知作為理解物體屬性、實現精細操作的核心感測方式,其重要性日益凸顯,但當前系統在感知維度、分辨率及信號解讀能力上仍遠遜于人類,導致機器人往往處于「有感無知」的狀態。
在此背景下,清華大學深圳國際研究生院丁文伯團隊聯合無界智航(Xspark AI)及多所國內外科研機構,從鴿子卓越的多光譜視覺和非成像感知機制中獲得靈感,研發出了一種仿生多模態觸覺傳感器SuperTac。
該系統將多光譜成像、摩擦電感測與慣性測量融為一體,并通過構建8.5B參數的觸覺語言模型DOVE,實現了觸覺信號從底層感知到高層語義推理的突破。
相關成果作為封面元素發表于《Nature Sensors》第一期,也是國內以第一單位在該期刊發表的首篇,標志著機器人觸覺感知向「人類水平」邁出了關鍵一步。
![]()
- 論文標題:Biomimetic multimodal tactile sensing enables human-like robotic perception
- 論文鏈接:
- https://www.nature.com/articles/s44460-025-00006-y
![]()
圖 1 Nature Sensors 第一期封面圖,SuperTac 作為核心元素在封面上進行了展示(右下角)
一、仿生邏輯:
從鴿子眼球到多模態感知架構
鴿子擁有自然界最復雜的感知系統之一,SuperTac 的硬件設計對應了其生物學特征。
![]()
圖 2 仿生學設計:受鴿眼啟發的高分辨率多模態觸覺傳感器
多光譜視覺的遷移:從視錐細胞到多通道相機
鴿子的視網膜包含多種視錐細胞,不僅能感知可見光,還擁有人類不具備的紫外線(UV)感知能力。
SuperTac 集成了小型化的多光譜成像模塊,覆蓋了從紫外(390 nm)、可見光(400–700 nm)到近紅外(940 nm)及中紅外(5.5–14.0 μm)的超寬頻段。
通過引入超寬頻段成像,機器人能夠在單一交互中同時解析熱輻射、熒光位移等深層物理信息,實現了對物體形狀、紋理、顏色和溫度的全面表征。
非成像感知的映射:從地磁感應到 TENG / IMU
鴿子能通過視網膜中的隱花色素等分子感知地磁場,這是一種不依賴圖像的物理感知。SuperTac 在 1 mm 厚的皮膚內嵌入了摩擦納米發電機(TENG)和慣性測量單元(IMU)。
TENG 利用接觸起電原理,根據不同物體的電負性差異識別材質(準確率 95%),并實現 15 cm 內的接近覺感知。IMU 模擬生物的本體感受,捕捉 0–60 Hz 的振動及碰撞信號。通過將摩擦電與慣性信號與光場調制耦合,傳感器無需密集電極陣列即可擴展出對材質極性、震動及空間姿態的感知能力。
二、核心機制:
光場調制的「智能感知層」
SuperTac 的核心競爭力在于其厚度僅為 1 mm 的光場調制多層感知皮膚。皮膚最外層的導電層采用透明的 PEDOT:PSS,通過絲網印刷技術在具有優異拉伸性能的 TPU 薄膜上形成渦旋線電極設計。這種渦旋設計能提供均勻的電學信號,結合摩擦起電機制,使皮膚在接觸不同電負性物體時產生截然不同的電學反饋,從而實現高精度的材質分類與 15 cm 范圍內的接近覺探測。
![]()
圖 3 多光譜機理
在導電層之下,單向透視反射層充當了光學開關,其透明度受兩側光強差調節。當內部 LED 開啟形成「觸覺模式」時,內側光強占據主導,反射層變為不透明狀態,CMOS 單元聚焦捕捉皮膚表面的微觀紋理與形變;當內部光源關閉,反射層隨之變為透明,允許外部可見光透射,使傳感器能夠直接獲取物體的 RGB 顏色信息。
緊鄰其下的紫外熒光標記層則利用在近紅外波段不可見但在紫外光下激發的熒光標記,實現了形變監測與物體紋理檢測的解耦,確保在復雜抓取過程中能夠同步捕捉切向滑動與表面細節。
![]()
圖 4 相關測試指標
三、觸覺語言大模型:
8.5B 參數背后的多模態融合架構
為了構建跨模態物理信號與自然語言空間的統一表征對齊,DOVE 采用了分層架構設計,其底層骨干由預訓練的大語言模型 Vicuna 構成,為系統提供了強大的語言理解與邏輯推理基礎。
為了處理極其復雜的觸覺輸入,系統并行集成了四組預訓練的 CLIP(對比語言—圖像預訓練)模型作為模態編碼器,將圖像化的觸覺特征(包括顏色、紋理、溫度和材質信號)提取為深層特征向量。
![]()
圖 5 觸覺語言大模型 DOVE
DOVE 的訓練通過三階段策略實現從底層感知到高層認知的遞進:首先利用 CLIP 將異構傳感器信號轉化為通用的圖像表征;隨后通過投影層將觸覺特征精準對齊至語言模型空間;最后針對 Vicuna 骨干網絡進行微調,使其能夠結合常識對觸覺指令進行復雜推理。
四、應用場景:
從物理觸碰到語義邏輯的躍遷
SuperTac 提供的多模態底層數據通過 DOVE 模型的深度解析,成功實現了從單純的「物理感知」向高層「語義認知」的跨越,賦予了機器人類人的具身交互能力。
![]()
圖 6 SuperTac + DOVE 的應用場景
在基礎的識別維度,DOVE 能夠實時融合傳感器采集的異構多模態數據,為操縱目標建立起全方位的「物理畫像」。例如,在抓取實驗中,面對一個未知杯子,DOVE 能準確地將其感官印象轉化為人類可理解的語言:「黃色,室溫,表面具有規律排布的凸起紋理,判定為金屬材質」。
最高層級的應用體現在常識指引下的功能決策與推理。DOVE 不僅解析當前的物理數據,還能將實時的觸覺反饋與預訓練的大模型常識相結合,從而推斷物體的潛在功能并做出邏輯決策。
在極具挑戰性的垃圾分揀任務中,這一能力得到了充分驗證:當機器人接觸到亂序堆放的雜物時,DOVE 能夠根據觸覺反饋進行邏輯建模。例如,它會推論道:「該物體具有典型的 PET 物理特征,結合其輕薄的結構,判定為廢棄的塑料飲料瓶;基于環保常識,建議將其放入可回收垃圾桶」。
五、未來方向
本研究為機器人觸覺提供了多個富有前景的發展方向:硬件方面通過傳感器微型化、低功耗芯片及高集成封裝,提升機器人手內操作的靈活性并解決高負載下的散熱穩定性難題;認知層面則依托 DOVE 模型的模態無關框架,通過優化傳感器配置與專用數據集來持續增強系統的泛化能力,從而為實現自然、高效的人機交互奠定堅實基礎。
![]()
圖 7 安裝 SuperTac 的靈巧手
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.