![]()
來源:機器觸覺前沿
![]()
圖1 Nature Sensors封面圖,SuperTac在封面上展示(右下角)
全文速覽
隨著機器人技術從“預設程序執行”向“具身智能交互”發展,機器人與環境的物理交互能力成為制約其自主性與適應性的關鍵瓶頸。觸覺感知作為機器人理解物體屬性、實現精細操作、保障人機安全的核心傳感方式,其重要性日益凸顯。然而,當前機器人的觸覺系統在感知維度、分辨率和信號理解能力上仍遠遜于人類,難以支撐復雜、動態的真實場景任務。
近日,清華大學深圳國際研究生院丁文伯團隊聯合多所研究機構,從鴿子卓越的多光譜視覺與非成像感知機制中汲取靈感,提出一種仿生多模態觸覺傳感器(SuperTac),將多光譜成像、摩擦電傳感與慣性測量融為一體,并通過構建觸覺語言模型(DOVE)實現觸覺信號的理解與推理,旨在推動機器人觸覺感知向“人類水平”邁進,為智能制造、醫療輔助與服務機器人等領域提供新一代觸覺解決方案。相關成果發表在Nature Sensors第一期上,也是國內機構首次以第一單位發表在該期刊上的文章。
文章題目:
Biomimetic multimodal tactile sensing enables human-like robotic perception
DOI:10.1038/s44460-025-00006-y
01
研究背景
在觸覺傳感技術領域,現有主流方案主要包括電子皮膚與視觸覺傳感器兩類,但均存在顯著不足:
電子皮膚傳感器雖能通過多功能材料實現多模態感知,但提升空間分辨率需依賴密集電極陣列,易導致信號串擾、系統復雜、穩定性下降,難以兼顧高分辨率與多模態融合;
視觸覺傳感器通過光學成像實現亞毫米級分辨率,易于與計算機視覺模型結合,但其感知譜段通常局限于可見光,缺乏對溫度、材質、接近感等非成像模態的融合能力,限制了其在多物理場環境中的全面感知;
當前觸覺系統普遍面臨觸覺信號解讀能力薄弱的問題,缺乏能夠融合多模態觸覺信息并進行語義推理的智能模型,導致機器人“有感無知”,難以實現類人的觸覺認知與交互決策。
02
研究貢獻
本研究構建的多模態觸覺傳感系統包含三大核心組件:仿生多模態觸覺傳感器(SuperTac)、數據處理與特征提取模塊、以及觸覺語言模型理解推理層(DOVE)。系統架構采用分層設計,實現了從物理信號采集到語義理解的全流程閉環處理。系統的具體工作流程如下:
物理信號感知層:SuperTac通過多層感知皮膚同步采集多光譜視覺、摩擦電和慣性測量信號;
數據融合處理層:基于深度學習網絡對原始信號進行特征提取和模態融合;
語義理解推理層:DOVE模型將多模態特征映射到語義空間,實現觸覺信息的自然語言描述與推理;
應用交互層:集成至機器人系統,支持抓取、識別、人機交互等實際任務這一架構的核心創新在于實現了物理傳感-特征提取-語義理解的端到端一體化設計,將傳統分離的傳感與解讀過程有機融合,為機器人提供了類人的觸覺感知與認知能力。
03
生物靈感來源
受到鴿子卓越視覺系統的啟發,本工作的設計借鑒了其視網膜中多類型視錐細胞的分工機制,特別是紫外敏感細胞,以拓展傳感器的光譜感知范圍。同時,模擬了鴿子視網膜中用于磁場感知的特殊分子機制,將非成像感知能力遷移至觸覺傳感領域,從而突破傳統視覺傳感的局限。
效仿生物神經系統對多感官信息并行處理與協同融合的原理,構建了多模態傳感物理系統:通過紫外波段實現標記點追蹤與滑動識別;可見光波段用于顏色與環境視覺感知;近紅外波段專攻紋理與接觸力分布檢測;中紅外波段負責溫度場測量。
結合基于PEDOT:PSS透明導電層設計的摩擦電傳感模塊,通過接觸靜電荷差異識別材質并實現接近感知;集成MPU6050慣性測量單元實時采集三維姿態與加速度數據,支持碰撞檢測與振動分析;最終通過氣壓可調的硅膠充氣支撐結構構成自適應感知皮膚,動態調節0-7N力感知范圍,實現對復雜曲面的高保真輪廓重建。
![]()
圖2 生物啟發原理及其應用場景
04
設計與測試
·感知皮膚設計
感知皮膚采用總厚度僅1mm的四層薄膜堆疊結構:導電層由PEDOT:PSS/TPU復合薄膜構成,通過渦旋線電極設計實現均勻信號分布,兼具高透明度與良好導電性;熒光層采用紫外熒光油墨,可在紫外光下顯影、近紅外下透明,實現工作模式切換與標記追蹤;反射層為銀粉/硅膠復合材料,具備單向鏡效應,能通過光強控制實現不同波段的透明/不透明切換;支撐層采用氣壓可調的硅膠充氣薄膜,不僅提供機械支撐,更具備優于傳統亞克力的中紅外透過性。
基于反射層的光控透明特性,系統實現智能工作模式切換:觸覺模式下內部光源開啟,薄膜呈不透明狀態,實現表面紋理和力的精確檢測;視覺模式下內部光源關閉,薄膜轉為透明狀態,允許外部環境光的直接觀測,形成獨特的光場調制機制。
![]()
圖3 內部結構及功能表征
· 數據處理與特征提取算法
在數據處理與特征提取算法中,力與位置感知采用基于U-Net的編碼器-解碼器架構,以ResNet-48作為編碼器,輸入128×128 RGB變形圖像并輸出三維力分布圖與位置坐標;經過86,440組涵蓋48種探針形態的接觸數據訓練,系統達到位置檢測均方誤差0.056mm、力檢測均方誤差0.0004N的精度。針對多模態分類任務,算法采用專門化網絡設計:紋理識別(ResNet-18 + MLP,NIR圖像,98%準確率)、材質分類(信號處理+MLP,摩擦電信號,95%準確率)、顏色識別(ResNet-18 + MLP,RGB圖像,100%準確率)、滑動檢測(LSTM網絡,紫外標記序列,97%準確率)及碰撞檢測(LSTM網絡,IMU時序信號,94%準確率)。在三維重建與輪廓感知方面,基于紫外熒光標記的位移分析算法實現變形重建,平均均方根誤差0.0892、平均絕對誤差0.0375,輪廓保真度可識別0.07mm細發并實現100%盲文字符識別準確率。
· 觸覺語言模型設計與實現
DOVE觸覺語言模型采用基于預訓練視覺-語言模型的架構,總參數量達8.6B。模型通過投影層實現觸覺特征到語義空間的嵌入對齊,能夠融合觸覺、溫度、顏色和材質等多模態信息進行聯合推理。
訓練過程采用三階段策略:第一階段使用CLIP模型提取圖像特征并附加MLP分類器進行編碼器預訓練;第二階段移除分類器并添加投影層,實現多模態特征表示的嵌入對齊;第三階段采用LoRA方法對投影層和語言網絡(Vicuna)進行高效微調。數據集構建方面,系統采集了6種顏色、3種溫度、10種材質和6種紋理的完整組合物理數據,同時基于GPT-4和規則腳本生成了30,000組觸覺語言問答對,并構建了包含1,000個新樣本的獨立評估集用于模型性能驗證。
![]()
圖4 觸覺感知模型及應用實驗
·性能評估及實驗
系統性能通過多層次實驗體系進行全面驗證:在基礎傳感性能測試中,對力、位置、溫度、振動等物理量進行精度標定;通過分類任務評估驗證紋理、材質、顏色等屬性的識別準確率;開展80,000次接觸循環的耐久性測試,分析長期使用下的信號穩定性;在實際應用驗證階段,于機器人抓取、物體識別、人機交互等真實場景中測試系統可靠性;同時進行對比實驗,與傳統GelSight等傳感器在輪廓感知、紋理識別等關鍵性能指標上進行系統化比較。
05
總結與未來展望
本研究為機器人觸覺感知開辟了多個富有前景的發展方向。在硬件層面,傳感器的微型化將推動其在機器人指尖的集成,從而顯著提升手內操作的靈巧性。DOVE模型所采用的模態無關框架具有良好的可擴展性,能夠適配不同傳感器配置與應用場景,為多模態觸覺系統提供了通用的軟件基礎。未來工作將重點研發低功耗解碼芯片與高集成度封裝方案,在進一步減小系統尺寸的同時有效解決散熱與穩定性問題。我們還將持續優化DOVE模型在不同傳感器設計和專用數據集上的表現,增強其泛化能力與實用性。這些技術發展將逐步彌合機器人與人類在感知能力上的差距,為實現更自然、更高效的人機交互奠定堅實基礎。
![]()
圖5 裝有SuperTac的靈巧手
06
作者信息
論文第一作者為清華大學深圳國際研究生院25屆數據科學和信息技術博士畢業生、南洋理工大學博士后李壽杰,清華大學深圳國際研究生院23級數據科學和信息技術博士生吳同和23級人工智能碩士生徐建樂。論文通訊作者包括清華大學深圳國際研究生院副教授丁文伯,大連理工大學教授解兆謙,新加坡國立大學助理教授吳昌盛和香港城市大學教授于欣格。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.