腦機啟偵 | 流式腦-語音神經(jīng)假體：為失語癥患者帶來新希望

2026-03-11 10:19:50　來源: 浙大科技園腦機智能產(chǎn)業(yè)化基地

浙江舉報

分享至

想象一下，如果你因為嚴重的疾病或者事故，失去了說話的能力，但你腦袋里依然有著想要表達的內(nèi)容。

我們都知道，交流是人與人之間非常重要的方式之一，它不僅僅是傳遞信息，更是維持情感聯(lián)系的紐帶。如果因為癱瘓或其他神經(jīng)系統(tǒng)疾病失去了說話能力，很多人會覺得非常孤獨和沮喪。現(xiàn)在，腦機接口技術（BCI）給這些人帶來了一線希望。

不過，目前的腦機接口技術主要依賴于“語音合成”，即通過大腦的信號生成可聽見的聲音。但這些技術往往面臨著一些問題：比如語音的生成速度較慢，發(fā)出的聲音聽起來不自然，或者無法實時同步。更嚴重的是，一些患者根本無法發(fā)出正常的聲音信號，因為他們的言語器官已經(jīng)完全失能。那么，能不能讓這些患者通過大腦信號直接控制計算機，從而生成流暢的、自然的語音？這個問題一直困擾著科學家們。

為了實現(xiàn)這一目標，今天介紹一項創(chuàng)新的研究成果：一種“流式腦-語音神經(jīng)假體系統(tǒng)”。簡單來說，這項技術可以讀取患者的大腦信號，并即時將其轉化為語音。更令人興奮的是，這項技術不需要患者發(fā)出任何聲音，只要他們通過“大腦控制”來“想象”發(fā)聲，系統(tǒng)就能夠?qū)⑦@些意圖轉化為聲音。這樣一來，患者就能用更加自然的方式與他人進行交流，而不是依賴于傳統(tǒng)的拼字板或眼動儀等輔助設備。

01研究方法分析RESEARCH METHODS

那么，這項技術是如何實現(xiàn)的呢？

首先，它需要通過在患者的大腦中植入一種名為“ECoG”的電極陣列。ECoG是“腦皮層電圖”的縮寫，它能在大腦皮層表面捕捉到大腦活動的電信號。每個電極就像一個“小耳朵”，用來聆聽大腦不同區(qū)域發(fā)出的信號。對于失語癥患者來說，他們的腦電信號可能會比正常人更加復雜，尤其是在他們沒有說話的情況下，仍然會有大腦活動，這些活動正是他們“想要說話”的信號。

研究人員選擇了一個47歲的女性患者，她因為腦干中風導致全身癱瘓，無法說話。患者的腦電圖通過ECoG陣列采集，記錄下她在“嘗試發(fā)音”時的大腦信號。值得注意的是，這些信號并不是通過口腔發(fā)音來產(chǎn)生的，而是通過“模仿”說話，即用大腦控制嘴巴和舌頭的動作來“想象”說話。通過這種方式，雖然患者沒有發(fā)出任何聲音，但大腦的控制信號依然能夠被記錄下來。

接下來，研究人員使用了一個非常強大的深度學習模型——遞歸神經(jīng)網(wǎng)絡（RNN-T），這種模型擅長處理時間序列數(shù)據(jù)，并能夠從大腦信號中“解碼”出意圖的文本或語音。通過實時地解析這些大腦信號，系統(tǒng)能夠在短短的80毫秒內(nèi)生成相應的語音或文字，而不需要等待患者完成整個句子的“發(fā)音”。這個系統(tǒng)的關鍵是能夠做到“流式解碼”，也就是說，當患者腦中產(chǎn)生說話意圖時，系統(tǒng)就可以立刻開始生成語音，而不是等待到發(fā)音完成后再生成聲音。

一種自然流動的無聲語言神經(jīng)假體概述

02研究結果分析RESEARCH RESULT

2.1 流暢的語音合成

經(jīng)過多次實驗和優(yōu)化，這個系統(tǒng)成功地實現(xiàn)了流暢的語音合成。患者在進行無聲發(fā)音的同時，系統(tǒng)就能夠同步生成相應的語音，并通過揚聲器播放出來。通過這種技術，患者可以在和他人對話時，像正常人一樣流暢地表達自己的想法。研究人員發(fā)現(xiàn)，系統(tǒng)能夠以每分鐘47.5個詞的速度生成語音，遠遠超過了傳統(tǒng)腦機接口系統(tǒng)的30個詞/分鐘。而且，這個系統(tǒng)的延遲非常低，從患者想要說話到語音輸出的時間只需要1.12秒，這意味著對話的流暢度得到了大幅提升。

在線連續(xù)流式同步語音合成和文本解碼來自神經(jīng)活動

2.2 更高的交流速度

相比于過去的腦機接口技術，這個新系統(tǒng)在語音合成的速度和流暢度上有了顯著提升。傳統(tǒng)的腦機接口需要等待患者完成一整個句子的發(fā)音后，才開始合成語音，而這個系統(tǒng)能夠在患者發(fā)音的過程中實時生成語音。這種技術的突破，使得患者能夠更快、更自然地參與到對話中，而不需要等待很長時間，避免了以往因語音延遲導致的尷尬和誤解。

1024個單詞的通用集的示例流媒體語音合成轉錄

2.3 語音和文本同步

值得一提的是，這個系統(tǒng)不僅能夠合成語音，還能實時解碼文本。每當系統(tǒng)解碼出一個新的詞或短語時，它不僅會通過揚聲器播放出來，還會將相應的文本顯示在屏幕上。這使得患者可以在交流時同時看到自己說的內(nèi)容，進一步提高了溝通的準確性和清晰度。

離線長時連續(xù)語音解碼，帶有隱式語音檢測

2.4 系統(tǒng)的普遍適應性

此外，這個系統(tǒng)還表現(xiàn)出了極強的普適性。研究人員嘗試將該系統(tǒng)應用到其他的腦-語音接口中，例如通過記錄大腦其他區(qū)域的信號或通過表面肌電圖（EMG）來捕捉發(fā)音信號。無論是哪種記錄方式，系統(tǒng)都能成功解碼大腦信號，并生成相應的語音或文本輸出。這一結果表明，這項技術不僅適用于ECoG陣列，還可以推廣到其他類型的腦-語音接口系統(tǒng)，具有廣泛的應用前景。

語音合成在無聲語音接口上的泛化

2.5 高度個性化的語音

對于失語癥患者來說，恢復個性化的聲音尤為重要。研究人員使用了患者失去語音能力之前的錄音數(shù)據(jù)，通過語音轉換技術（Voice Conversion）將系統(tǒng)生成的語音“個性化”，讓其聽起來像患者自己原本的聲音，而不是機器合成的冷冰冰的聲音。這種個性化的語音恢復大大提高了患者的自我認同感和生活質(zhì)量。

模型生成的聽覺反饋不會干擾發(fā)音驅(qū)動的語音解碼

03研究結論RESEARCH CONCLUSION

這項研究展示了一種全新的技術：流式腦-語音神經(jīng)假體。通過實時解碼大腦活動并合成自然流暢的語音，這項技術成功地恢復了失語癥患者的交流能力。與現(xiàn)有的腦機接口技術相比，這個系統(tǒng)不僅在語音合成的速度和流暢度上有了顯著提升，還能夠在沒有發(fā)聲的情況下，通過“大腦控制”生成語音，極大地提高了患者的交流體驗。

這項技術為那些因神經(jīng)損傷或疾病而失去言語能力的患者帶來了希望，它使得患者能夠更加自然、快速地與他人交流，恢復自我表達的能力。未來，隨著技術的進一步優(yōu)化和應用，這種腦-語音神經(jīng)假體有可能成為一種常規(guī)的臨床治療工具，幫助更多的失語癥患者恢復他們的語言能力。

04未來展望FUTURE RPROSPECT

盡管該技術已經(jīng)取得了顯著的成果，但仍然存在一些挑戰(zhàn)。首先，目前的系統(tǒng)仍然依賴于較為復雜的設備和訓練過程，如何降低成本、簡化操作，讓更多患者能夠使用這項技術，是未來需要解決的問題。其次，雖然該系統(tǒng)已能應對已知句子的生成，但如何提高對未知詞匯或自由表達的理解和生成能力，也是一個研究方向。

總的來說，這項技術為腦機接口領域帶來了巨大的進步，它不僅僅局限于恢復語言交流，還為未來更多類型的神經(jīng)假體系統(tǒng)的研發(fā)提供了寶貴的經(jīng)驗和思路。在未來的日子里，我們有理由相信，腦-語音神經(jīng)假體將成為改變失語癥患者生活的關鍵技術之一。

來源 | 腦機接口社區(qū)·

浙大科技園啟真腦機智能產(chǎn)業(yè)化基地是在浙大控股集團領導下，由浙江大學科技園發(fā)展有限公司與杭州未來科技城管委會共建，圍繞腦機智能產(chǎn)業(yè)主體，輻射腦機+生命健康、腦機+智能制造、腦機+新一代信息技術、腦機+新材料等領域的專業(yè)化特色產(chǎn)業(yè)基地，由杭州啟真未來科技發(fā)展有限公司負責全面運營。

基地依托浙江大學在腦機智能方面的學科優(yōu)勢，以腦機智能作為核心科技支撐，貫徹浙江大學國家大學科技園“有組織科技成果轉化、有靶向科技企業(yè)孵化、有體系未來產(chǎn)業(yè)培育”的服務體系，致力于打造腦機智能領域具備成果顯示度、區(qū)域影響力的產(chǎn)業(yè)化高地。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.