網易首頁 > 網易號 > 正文申請入駐

腦機啟偵 | 瞬時語音合成神經假體：ALS患者10ms內實現可懂發聲

2026-01-29 19:00:06　來源: 浙大科技園腦機智能產業化基地

浙江舉報

分享至

肌萎縮側索硬化癥（ALS，俗稱 “漸凍癥”）常導致患者逐步喪失發聲能力。傳統腦機接口（BCI）雖能實現基礎溝通，但難以還原自然語音的語調、節奏與個性表達。2025年，加州大學戴維斯分校聯合布朗大學、哈佛醫學院等機構的研究團隊，在《Nature》發表里程碑式成果，首次通過AI算法解碼大腦運動皮層神經信號，實時生成自然流暢的語音，為失語者重建語言連接開辟了新路徑。

01 研究背景

腦機接口（BCIs）有望為因神經疾病或損傷而喪失說話能力的人恢復交流功能。腦機接口已被用于將嘗試說話時的神經關聯轉化為文本。然而，文本交流無法捕捉人類言語中的細微差別，比如韻律以及即時聽到自己的聲音。

本文展示了一種腦到語音神經假體，它通過解碼植入肌萎縮側索硬化癥伴嚴重構音障礙患者ventral中央前回的256個微電極所記錄的神經活動，即時合成帶有閉環音頻反饋的聲音。克服了缺乏訓練神經解碼器所需的真實語音這一挑戰，成功準確合成了患者的聲音。除了音位內容，還能從皮質內活動中解碼出副語言特征，使參與者能夠實時調節其腦機接口合成的聲音，改變語調并演唱簡短旋律。這些結果證明了讓癱瘓患者通過腦機接口清晰且富有表現力地說話的可行性。

02 研究概述

（1）ALS 患者的腦機接口植入方案：

研究選取1名45歲左利手ALS患者（T15），其ALS癥狀持續5年，存在嚴重構音障礙（無法清晰發聲但可發聲），ALSFRS-R評分為23分，依賴輔助設備交流。通過手術在患者左側前中央回植入4個64電極硅微電極陣列（Utah array，總長1.5mm，銥氧化物涂層），覆蓋腹側運動前皮層、背側運動前皮層、初級運動皮層及中央前回中部（圖1a,b），基于Human Connectome Project pipeline 定位語言優勢半球。電極通過經皮連接基座傳輸信號，數據采集時段為植入后25-489天，采用Neuroplex-E系統進行信號數字化處理。

圖1 腦-聲神經假體的硬件布局

（2）神經信號處理與解碼模型：

■ 信號采集與預處理：原始神經信號采樣率30kHz（分辨率250nV），濾波范圍0.3-7.5kHz，通過4階零相位巴特沃斯濾波（250-5000Hz）、線性回歸參考去噪，提取1ms段的閾值交叉（-4.5倍均方根）和尖峰帶功率特征，經10ms非重疊分箱、對數變換、滾動歸一化及因果平滑處理，形成512維特征向量（圖 2c）。

■ 解碼器設計：采用基于Transformer的多層模型，含輸入嵌入網絡（2 個全連接層）和8個Transformer編碼器塊，輸入為600ms滑動窗口（60×512 維），輸出20維語音特征（18個巴克倒譜系數、基音周期及基音強度），訓練采用Hubert損失函數，批量大小1024，訓練時長20-40小時（3塊NVIDIA RTX 3090）。

■ 目標語音生成：因患者無清晰發聲基準，通過文本到語音算法生成合成語音，基于神經活動識別音節邊界，經動態時間規整實現語音與神經信號的時間對齊（圖2d）；個性化語音合成采用StyleTTS 2模型克隆患者 ALS 前聲音。

■ 實時合成流程：通過LPCNet聲碼器將 20 維特征擴展為 36 維向量，每 10ms 生成 1 幀語音波形（16kHz 采樣），全程延遲 < 10ms，實現閉環音頻反饋（圖 2e）。

圖2 信號處理 pipeline 及目標語音生成方法

（3）實驗任務設計：

實驗在患者家中開展，采用 “延遲期（1.5-4s，文本提示）- 執行期（綠色提示，嘗試發聲）- 結束期（眼動觸發）” 的試次結構，單試次含約 50 個任務塊，具體任務包括：①提示句發聲（獨特句子，無重復）；②無聲模仿發聲（僅做口型不發聲）；③自由應答（開放式問題回應或自主表達）；④特殊發聲任務（拼寫字母、偽詞發聲、感嘆詞表達）；⑤語調調制任務（陳述 / 疑問轉換、句子中單詞強調）；⑥三音高唱歌任務（6-7 個音符，低 / 中 / 高 pitch 組合）（圖 2、3）。所有任務均開啟閉環語音合成反饋，部分任務搭配文本解碼作為字幕輔助。

（4）實驗結果：

通過 256 個微電極陣列采集左側前中央回神經信號，基于 Transformer 解碼器實現 < 10ms 延遲的閉環語音合成，合成語音與目標語音的皮爾遜相關系數達 0.83±0.04（40 個梅爾頻率帶）。人類評估中，956 個提示句的轉錄匹配準確率中位數 100%，開放式轉錄的音素錯誤率（PER）中位數 34.00%、詞錯誤率（WER）中位數 43.75%，遠優于患者殘余構音（PER 83.87%、WER 96.43%）（圖 3l）。系統可泛化至無聲模仿發聲（相關系數 0.82±0.03）、自由應答（0.79±0.05），還能合成偽詞、感嘆詞及個性化語音（圖 3g-i），且對咳嗽、背景噪音等具有魯棒性（圖 3）。

圖3 多場景發聲任務的合成性能驗證

成功解碼神經信號中的語速、語調、音調等副特征，實現多維度語音調控。語速調控中，快速發聲（平均 0.97±0.19s / 詞）與慢速發聲（1.46±0.31s / 詞）的時長分布差異顯著（P=10?1?）（圖 4a-b）；疑問語調調制準確率 90.5%，單詞強調調制準確率 95.7%（圖 4e、g）；三音高唱歌任務中，合成音調可區分低 / 中 / 高三個等級，人類聽眾對音調對的分類準確率達 73.02%（圖 4i），統一解碼器也能實現連續音調合成（圖 4j-k）。

圖4 語言副特征的閉環調制效果

將神經活動分解為輸出有效維度（與語音特征時間對齊）和輸出無效維度（間接參與行為輸出），后者占總方差 97.5%，且解碼語音的相關系數達 0.85±0.07（圖 5a）。輸出無效活動在句子進程中逐漸衰減，而輸出有效活動保持穩定（圖 5c）；在語調調制時，目標單詞的輸出無效活動顯著增強（P=10?21）（圖 5b、d），提示其參與語音準備和調制的神經計算。

圖5 言語產生的神經動力學機制

03 研究意義

文章首次實現<10ms 低延遲閉環語音合成，解決了 speech-impaired 患者缺乏真實語音訓練數據的關鍵痛點（通過神經信號對齊音節級合成語音）；突破傳統文本輸出 BCI 的局限，直接映射神經活動至聲學特征，支持偽詞、感嘆詞、個性化語音等無限制發聲，且對背景噪音、非言語發聲具有強魯棒性，為 BCI 從 “輔助溝通” 邁向 “自然表達” 奠定技術基礎。

針對 ALS 等神經疾病導致的嚴重構音障礙，不僅將患者言語可懂度從殘余構音的 WER 96.43% 提升至 43.75%，更實現語調調制（疑問 / 陳述切換準確率 90.5%）、單詞強調（準確率 95.7%）、三音高唱歌等副特征控制，還原人類 speech 的情感與語義層次；支持無聲模仿發聲、自由應答等真實場景使用，降低患者發聲疲勞，滿足日常交流與自我表達需求。

首次證實腹側前中央回的皮層活動同時編碼音素信息與副語言特征，且輸出無效神經維度（占總方差 97.5%）參與言語準備與調制，其動態變化（句子進程中衰減、調制時增強）為理解 “言語規劃 - 執行” 的神經計算提供新視角，補充了人類運動皮層言語編碼的認知圖譜。

公開數據（Dryad）與代碼（GitHub），建立 “神經特征提取 - 因果解碼 - 聲碼器合成 - 閉環反饋” 的完整 pipeline，支持少量數據快速訓練（50 詞詞匯量首日即可合成）；驗證了統一解碼器整合音素與副特征的可行性，為后續針對失語癥、閉鎖綜合征等其他言語障礙的 BCI 研發提供標準化模板。

文章來源：10.1038/s41586-025-09127-3

浙大科技園啟真腦機智能產業化基地是在浙大控股集團領導下，由浙江大學科技園發展有限公司與杭州未來科技城管委會共建，圍繞腦機智能產業主體，輻射腦機+生命健康、腦機+智能制造、腦機+新一代信息技術、腦機+新材料等領域的專業化特色產業基地，由杭州啟真未來科技發展有限公司負責全面運營。

基地依托浙江大學在腦機智能方面的學科優勢，以腦機智能作為核心科技支撐，貫徹浙江大學國家大學科技園“有組織科技成果轉化、有靶向科技企業孵化、有體系未來產業培育”的服務體系，致力于打造腦機智能領域具備成果顯示度、區域影響力的產業化高地。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.