網易首頁 > 網易號 > 正文申請入駐

Science Advances：全頻譜實時解碼突破中文語音 BCI 瓶頸

2025-12-20 12:45:51　來源: 集智俱樂部

北京舉報

分享至

摘要

語音腦機接口（BCI）為因肌萎縮側索硬化癥或腦干中風等神經系統疾病導致構音障礙的患者，提供了恢復功能性交流能力的希望。現有語音解碼研究主要面向英語，并多采用以音素為驅動的架構。而對普通話這類有聲調、以單音節為主的語言，實現實時解碼仍是一項重大挑戰。本研究展示了一種普通話語音腦機接口，可直接從神經信號中解碼單音節單位。研究團隊使用 256 通道微皮層腦電腦機接口，僅通過神經信號就實現了對 394 個不同音節的穩定解碼，在單字朗讀任務中取得71.2%的音節識別中位準確率。基于這一高性能音節解碼器，研究進一步實現了實時句子解碼。研究證實了 “融合聲調的直接音節神經解碼方法” 在漢語普通話解碼中的有效性，為聲調單音節語言的全覆蓋腦機接口系統研發奠定了基礎。

關鍵詞：腦機接口（brain-computer interface, BCI），微皮層腦電（electrocorticography, ECoG），漢語普通話解碼，實時音節解碼

王璇丨作者

趙思怡丨審校

論文題目：Real-time decoding of full-spectrum Chinese using brain-computer interface 論文鏈接：https://www.science.org/doi/epdf/10.1126/sciadv.adz9968 發表時間：2025年11月5日論文來源：Science Advances

基于語音腦機接口（BCI）的普通話解碼：

背景與挑戰

神經系統疾病，如中風、ALS 常導致患者構音障礙，嚴重影響其溝通能力，而能直接從神經信號解碼言語的 BCI，是這類患者重建溝通的核心希望。目前主流 BCI 聚焦腹側感覺運動皮層（vSMC，編碼發音運動軌跡），已實現英語實時解碼。將腦活動轉化為文本或語音，為嚴重構音障礙患者提供幫助，但在漢語普通話等聲調語言的可靠解碼上，領域仍面臨根本性挑戰。

與英語不同，漢語普通話具有單音節語素、聲調承載語義、同音詞密度極高的特點，這種極低的語音冗余度會放大解碼誤差。其次，普通話同音詞密度極高，單個音節常對應 20 余個漢字，即便解碼誤差僅 5%，也可能因同音詞混淆造成嚴重語義偏差。更重要的是，中文 “音節 - 漢字” 映射規模懸殊，418 個基礎音節需對應 3500 個常用字及 13000 個現代字，而英語約 44 個音素，沿用英語 BCI “音素拼接成音節” 只會加劇誤差累積。

針對這一問題，此研究提出將包含音段信息與聲調信息的普通話音節，作為最優中間解碼單元。相比音素，音節的表征更穩定，且具有語言意義，能更好地抵御輕微解碼誤差。研究團隊基于一名接受臨床癲癇監測患者的 ECoG 記錄，構建了實時BCI框架，可解碼普通話口語的全譜系音節。僅通過神經信號，研究便實現了71.2%的離線音節級解碼準確率。在此基礎上，進一步采用“字符-句子”層級解碼策略，最終使系統的溝通速率達到49.7字符/分鐘。這些發現不僅驗證了普通話音節解碼的可行性，更為不同語言群體中“具有單音節語素的聲調語言”實時語音神經假體，提供了可擴展的研究策略。

圖 1. 實時漢語句子解碼 BCI 框架。A. 示意圖：一名植入柔性 256 通道 ECoG 陣列電極的參與者，正在執行實時句子解碼任務；B. 實時解碼流程；C. 音節解碼器與聲調解碼器的訓練數據來源于 394 個不同音節，每個音節在不同試次中重復多次；D. 利用術前功能磁共振成像（fMRI）定位口部運動皮層；E. 通過皮層熱圖可視化累計貢獻 90% 解碼性能的電極。

解碼架構：394 個音節上的雙流解碼

研究團隊采用了“雙流解碼”架構（dual-stream decoder）：系統從語音起始點附近截取神經信號，將其分別送入兩個并行的解碼器，一個負責識別音節本身，另一個識別聲調，最終再將兩者組合得到完整的普通話音節。這種設計更貼近中文的語言結構，也能減少解碼誤差的級聯放大。

在多種模型架構的對比中（包括 CNN-LSTM、Vision Transformer 等），四層 LSTM 在覆蓋 394 個普通話常用音節的全譜任務中表現最佳。離線測試中，音節解碼的中位準確率達到 71.2%，聲調準確率達 69.1%，顯著高于隨機水平。更重要的是，該模型在音節數量從 50 擴展到 350 的訓練條件下，準確率僅小幅下降，提示該框架具備處理大詞表解碼任務的潛力。

圖 2. 漢語的獨特性及區分漢語音節與聲調的皮層電極。A. 上方表格展示漢語與英語的差異；B. 根據電極對漢語音節與聲調的差異響應性進行分類；C、D. 分別為101號電極在5個不同音節中的高γ信號，以及124號電極在4個不同聲調中的高γ信號。

從單字到句子：層級解碼與三元語言模型

如果說“全量音節解碼”解決的是中文語音 BCI 的覆蓋問題，那么“實時句子輸出”則檢驗系統在自然交流任務中的綜合能力。研究團隊因此引入三元語法語言模型（3-gram language model, LM）。

性能結果方面，論文使用字符準確率（character accuracy rate, CAR）與每分鐘字符數（characters per minute, CPM）衡量實用性。僅基于神經解碼，實時句子 CAR 為 61.5%。引入三元語法語言模型后提升至 73.1%。速度上，神經解碼對應 56.7 CPM，而結合語言模型后為 49.7 CPM。同時，系統采用束搜索（beam search）在“神經證據”與“語言先驗”之間尋找最優序列，使得字符級輸出具備可持續擴展到更復雜應用場景的可能。

這些數據并不意味著系統已經達到臨床無障礙對話的理想狀態，但它們首次在一個更接近普通話真實結構的全覆蓋音節空間里，給出了可復現的速度-準確率權衡點。

從研究演示走向交互應用：

機械臂、數字人與大模型

另一亮點，作者展示了“解碼結果如何進入真實世界任務”，構建了集成式 BCI 系統，將解碼出的發聲意圖對接到多種外部應用，并通過用戶界面讓參與者在預設功能中進行選擇。概念驗證中，參與者使用解碼輸出完成機械臂（robotic arm）控制、數字人語音生成（digital avatar）以及與大語言模型的交互。

圖 3. 實時語音解碼和基于語音的腦機接口用于控制多個軟硬件系統。A. 基于語音的腦機接口系統架構；B. 實時語言指令人機交互（HMI）系統的界面；C. 有限句子集在有無語言模型（LM）時的實時解碼準確率；D. 有無語言模型時解碼速度的比較；E. 基于語音的腦機接口在現實世界中的應用，展示控制靈巧的機械手、激活數字化身以及與大型語言模型的交互通信。

機械臂控制場景CAR，即單個字符解碼正確的比例為78.3%，但由于命令多由一到三個字符構成且需“完全匹配”，命令準確率僅54.0%，數字人場景CAR為76.9%，與大模型交互場景CAR為65.4%。這些結果表明，真實應用性能不僅由解碼器決定，還與任務指令設計、交互容錯機制及語言先驗匹配度密切相關。

未來方向：搭建跨學科橋梁

未來普通話語音BCI的研究，圍繞技術泛化、硬件優化、功能擴展與臨床落地四大核心方向，構建多學科協同推進的研究路徑。這一技術的發展并非單一工程問題，而是神經科學、生物醫學工程、計算機科學、臨床醫學與倫理學多領域深度聯動的系統工程。通過跨學科的深度對齊與協作，有望推動該技術從實驗室研究走向臨床實用，為肌萎縮側索硬化癥（ALS）、腦干中風等致構音障礙患者，真正搭建起“腦-語”溝通的橋梁。

腦機接口讀書會

腦機接口是通過讀取大腦神經信號來實現人腦與外部設備交流與控制的前沿技術。作為一個前沿交叉領域，腦機接口技術是跨學科研究的典型代表，融合了控制科學、神經科學、計算機科學、工程學等多個學科領域。針對相關領域，集智已經舉辦了多個系列讀書會與課程，追蹤計算神經科學、NeuroAI、神經動力學模型、控制科學等進展。

為了進一步梳理腦機接口相關理論與技術前沿，集智俱樂部聯合清華大學高小榕、中科院自動化所劉冰、中科院深圳先進院李驍健、清華大學眭亞楠四位老師，發起。讀書會已完結，現在報名可加入社群并解鎖回放視頻權限。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.