兄弟姐妹們,又到了不定期的“科技劇本殺”時間。讓我們感謝Meta送上的新本子,sEMG。
![]()
這陣子,Meta下一代設備“Meta Celeste”的相關報道非常多,主要還是因為它是個套裝,里面包含一個(民用消費級)罕見的設備:肌電手環。而且Meta計劃在今年秋季發布Celeste套裝。
![]()
這效率,這風格,實在不像硅谷用PPT找錢再做產品的風格。趕巧了,Meta把關于sEMG的論文在《Nature》上發布了,我們一起看看怎么個事兒。
![]()
本文從方便易懂的角度快速幫普通人理解和接受一些好玩有趣的技術,如果有事實性錯誤,歡迎在評論區指出,文末會放上Nature原文PDF下載。感謝大家!
關于什么是sEMG
這篇文章的名字叫《A generic non-invasive neuromotor interface for human-computer interaction》,直譯為“用于人機交互的通用非侵入性神經運動接口”,再簡單一點就是,用來操作電子設備的、不用手術開刀的、神經運動設備。
![]()
EMG,全稱Electromyography,由三個詞根詞綴構成,分別是electro電,myo肌肉,graphy圖像化技術。一個有趣的題外話是,原本electro是琥珀的意思,據說古希臘人發現琥珀摩擦能帶電,后面這一詞就被引入為代指與電相關的事物。
言歸正傳,EMG根據詞的構成就可以明確知道它是肌肉電信號圖像化技術,也就是肌電圖。
![]()
當你想動動手指比個國際友好手勢的時候,大腦會通過神經系統向肌肉發送指令,這時,身體會發出微小但可測量的電信號。獲取并解讀這些信號,可以幫助我們通過機器來更直接、省力的指揮機器。
這個事兒其實還有很多擴展理解,用來證明EMG或者BCI等等直接與人腦、人體掛鉤的技術所衍生出來的交互的必要性。
比如蘋果Vision Pro,非常牛,通過十多個攝像頭來實現眼動、手勢的追蹤,現在蘋果已經能做到非常高精度,傳輸速度和解碼速度也很快。
![]()
但它有一個嚴重且致命的問題,在Meta的文章中也有提到:
“The nature of the sEMG signal lends itself naturally to human-computer interface (HCI) applications because it is not subject to problems that vex computer-vision-based approaches,such as occlusion,insufficient lighting or gestures with minimal move-ment. (sEMG信號的性質使其非常適合人機界面 (HCI) 應用,因為它不會受到基于計算機視覺的方法所面臨的問題的影響,例如遮擋、光照不足或運動幅度較小的手勢。)”
就是說這類的計算機視覺,它需要有一定的光照條件、不能被遮擋,還只能檢測運動幅度相對較大的動作。
人類一直在追求更極致的人機交互方式,從鍵盤改排列到多點觸控、語音輸入、面部識別等等技術的廣泛應用也印證著這一點。當然了,它們是并存的,并不會是完全的替代關系。
![]()
所以現階段與計算機視覺共同發展的還有一個——腦機接口BCI,與之同一個派系、廣義上來講算是BCI的就是我們今天的主角,肌電信號EMG。
我們上面提到,EMG是獲取身體的電信號。怎么獲取呢?
通常有兩種方式,侵入式和非侵入式。(這個跟BCI也一樣)。
侵入式 EMG會直接把細小的電極插入肌肉里,精度高、信號清晰,通常只用于醫療或科研場景,比如診斷神經疾病。
![]()
而非侵入式,就是Meta正在研究的,也叫sEMG,surface Electromyography表面肌電圖。顧名思義,就是通過貼在皮膚表面的電極,來感知皮下肌肉的“發電”。
![]()
它對人體沒有傷害,至少不用扎小針針,通過算法的進步可以實現無感實時監測,幾乎可以做到“心動身動”。而且,非常適合穿戴設備。
事實上,非侵入式的sEMG在假肢領域已經取得相當的成功,很多殘障人士已經在使用它們了:
![]()
![]()
那問題又來了,這不是用上了嗎,Meta怎么還做?當然因為這里面還有很多隱藏問題,比如殘障人士畢竟是有針對性的使用,跨人群了還能這么好用嗎?手上姿勢千變萬化,怎么區分舉手和投降?這個玩意距離量產上的可能性、穩定性、標準化還有多遠?這都需要進一步研究和驗證。
Meta的sEMG工作原理
所以,其實目前對于sEMG技術用在消費級產品上的難點已經非常清楚了,通用(包括姿勢和人群)、可靠性和準確性。
那么Meta是怎么解決的呢?(這真是一個漫長的過程)
先看通用性的問題。根據Meta的研究,同一個人同一個姿勢,昨天和今天也有很大的差別。
“We found that the cosine distances between waveforms of the same gesture across sessions and users heavily overlapped with the distribution of distances between waveforms of different gestures.(我們發現,不同會話和用戶之間相同手勢的波形之間的余弦距離與不同手勢的波形之間的距離分布高度重疊。)”
![]()
也就是說,即使是同一個手勢,不同用戶或不同時間做出來的肌電波形,其相似度也和“完全不同的手勢”差不多——這說明用技術模板(通用模型)來識別手勢非常難,因為“同一個手勢”的信號在不同人之間并不穩定。
肌電數據太個性化了,想要實現通用就得用大量的數據把“個體間的變化”喂給模型,或者加入位置矯正等來提升穩定表現。
為解決這個問題,Meta構建了一個數據集,涵蓋數千名參與者(不同任務范圍從162人到6627人不等)。
主要完成三個任務:一維手腕連續控制、離散手勢識別、空中手寫識別。也就是模擬光標移動、點擊長按等、無實物手寫。

期間,Meta利用設備實時記錄肌電信號,使用48通道電極陣列、2kHz高頻采樣,并結合攝像頭進行運動標注校準,還開發了用于“動作-信號”對齊的算法,以確保每一條數據都精準標注。
最后針對不同的動作,Meta采用了不同的神經網絡模型,比如離散手勢識別用1D卷積網絡+ LSTM。
換個思維方式,方便理解。就好比瑞幸賣咖啡,發現只賣美式、拿鐵、卡布奇諾對于沒有喝咖啡習慣的大部分中國人來說,不太適配,便宜當然可以賣,但做不到最大化。
雖然你知道咖啡怎么做,模板是咖啡液體萃取+水/奶,但你沒辦法用這個模板賣給14億中國人。
怎么辦?根據季節的變化、市場習慣不停地嘗試新的單品和口味。比如招牌生椰拿鐵,全國范圍內的爆品。
但這還不夠,為了更進一步擴大范圍,還要針對不同的季節,推出各種水果+咖啡的組合,也就是Meta對于離散手勢識別采用的1D卷積網絡+ LSTM。
效果怎么樣呢?

圖a的實驗是需要用戶把光標移動到目標位置,結果比如圖d,表明sEMG的目標命中時間1.01s要高于動作捕捉的1.99s。圖f表示首次命中概率sEMG腕帶可達 0.96,已經非常接近理想值。
圖b的實驗,需要用戶用不同的9種手勢,比如捏和、點擊等解決圓圈,圖g代表手勢完成速度,0.88次,接近使用NS手柄,要遠高于初期,是比較容易上手的意思。
圖h主對角線準確率均達 89%~95%,說明誤識別率很低,模型對手勢識別的區分度很高。
圖e的實驗要求用戶根據屏幕提示,在空中寫出一句話。圖j表明,平均輸入速度穩定在18-20.9(字/分鐘)。這個數值目前已經非常接近自然寫字的25.1(字/分鐘)。
這套方法和實驗的結果也表明了,Meta的sEMG在表現上已經非常接近傳統交互設備,微手勢的識別率也達到了90%以上。雖然還沒有超越傳統輸入方式的上限,但已經達到“可持續使用”級別,足以在AR/VR、輔助交互等場景中實用落地。
考慮到非常特殊的個體差異,Meta也加入了微調,使用僅20分鐘用戶自身數據對通用模型進行微調,可將手寫識別錯誤率平均下降16%,而且,他們發現對于泛化表現較差的用戶,個性化收益反而更高。
就是如果你想要拿筷子,但你平時用的是食指和無名指夾住筷子,也沒事,調一下就能用。這也為那些“通用模型識別不了”的人群,留了一個兜底方案。
順便一提,Meta論文中明確提到,肌電手環的核心神經解碼模塊功耗僅為 6毫瓦,已經可以支撐多天續航。
突發奇想?NO!
這篇論文的收稿時間是2024年2月,錄用日期是2025年6月,7月23日出現在《Nature》網站。
![]()
但實際Meta早就開始了對于肌電手環的研究。最早可以追溯到2019年。
2019年,Meta收購CTRL-Labs,隨后由聯合創始人、神經科學家Thomas Reardon繼續領導這一項目。截止到目前,已經至少持續了6年時間,所以在今年秋季上市,87君還是覺得比較靠譜的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.