![]()
想象一下,如果你因為嚴重的疾病或者事故,失去了說話的能力,但你腦袋里依然有著想要表達的內(nèi)容。
我們都知道,交流是人與人之間非常重要的方式之一,它不僅僅是傳遞信息,更是維持情感聯(lián)系的紐帶。如果因為癱瘓或其他神經(jīng)系統(tǒng)疾病失去了說話能力,很多人會覺得非常孤獨和沮喪。現(xiàn)在,腦機接口技術(BCI)給這些人帶來了一線希望。
不過,目前的腦機接口技術主要依賴于“語音合成”,即通過大腦的信號生成可聽見的聲音。但這些技術往往面臨著一些問題:比如語音的生成速度較慢,發(fā)出的聲音聽起來不自然,或者無法實時同步。更嚴重的是,一些患者根本無法發(fā)出正常的聲音信號,因為他們的言語器官已經(jīng)完全失能。那么,能不能讓這些患者通過大腦信號直接控制計算機,從而生成流暢的、自然的語音?這個問題一直困擾著科學家們。
為了實現(xiàn)這一目標,今天介紹一項創(chuàng)新的研究成果:一種“流式腦-語音神經(jīng)假體系統(tǒng)”。簡單來說,這項技術可以讀取患者的大腦信號,并即時將其轉化為語音。更令人興奮的是,這項技術不需要患者發(fā)出任何聲音,只要他們通過“大腦控制”來“想象”發(fā)聲,系統(tǒng)就能夠?qū)⑦@些意圖轉化為聲音。這樣一來,患者就能用更加自然的方式與他人進行交流,而不是依賴于傳統(tǒng)的拼字板或眼動儀等輔助設備。
01研究方法分析RESEARCH METHODS
那么,這項技術是如何實現(xiàn)的呢?
首先,它需要通過在患者的大腦中植入一種名為“ECoG”的電極陣列。ECoG是“腦皮層電圖”的縮寫,它能在大腦皮層表面捕捉到大腦活動的電信號。每個電極就像一個“小耳朵”,用來聆聽大腦不同區(qū)域發(fā)出的信號。對于失語癥患者來說,他們的腦電信號可能會比正常人更加復雜,尤其是在他們沒有說話的情況下,仍然會有大腦活動,這些活動正是他們“想要說話”的信號。
研究人員選擇了一個47歲的女性患者,她因為腦干中風導致全身癱瘓,無法說話。患者的腦電圖通過ECoG陣列采集,記錄下她在“嘗試發(fā)音”時的大腦信號。值得注意的是,這些信號并不是通過口腔發(fā)音來產(chǎn)生的,而是通過“模仿”說話,即用大腦控制嘴巴和舌頭的動作來“想象”說話。通過這種方式,雖然患者沒有發(fā)出任何聲音,但大腦的控制信號依然能夠被記錄下來。
接下來,研究人員使用了一個非常強大的深度學習模型——遞歸神經(jīng)網(wǎng)絡(RNN-T),這種模型擅長處理時間序列數(shù)據(jù),并能夠從大腦信號中“解碼”出意圖的文本或語音。通過實時地解析這些大腦信號,系統(tǒng)能夠在短短的80毫秒內(nèi)生成相應的語音或文字,而不需要等待患者完成整個句子的“發(fā)音”。這個系統(tǒng)的關鍵是能夠做到“流式解碼”,也就是說,當患者腦中產(chǎn)生說話意圖時,系統(tǒng)就可以立刻開始生成語音,而不是等待到發(fā)音完成后再生成聲音。
![]()
一種自然流動的無聲語言神經(jīng)假體概述
02研究結果分析RESEARCH RESULT
2.1 流暢的語音合成
經(jīng)過多次實驗和優(yōu)化,這個系統(tǒng)成功地實現(xiàn)了流暢的語音合成。患者在進行無聲發(fā)音的同時,系統(tǒng)就能夠同步生成相應的語音,并通過揚聲器播放出來。通過這種技術,患者可以在和他人對話時,像正常人一樣流暢地表達自己的想法。研究人員發(fā)現(xiàn),系統(tǒng)能夠以每分鐘47.5個詞的速度生成語音,遠遠超過了傳統(tǒng)腦機接口系統(tǒng)的30個詞/分鐘。而且,這個系統(tǒng)的延遲非常低,從患者想要說話到語音輸出的時間只需要1.12秒,這意味著對話的流暢度得到了大幅提升。
![]()
在線連續(xù)流式同步語音合成和文本解碼來自神經(jīng)活動
2.2 更高的交流速度
相比于過去的腦機接口技術,這個新系統(tǒng)在語音合成的速度和流暢度上有了顯著提升。傳統(tǒng)的腦機接口需要等待患者完成一整個句子的發(fā)音后,才開始合成語音,而這個系統(tǒng)能夠在患者發(fā)音的過程中實時生成語音。這種技術的突破,使得患者能夠更快、更自然地參與到對話中,而不需要等待很長時間,避免了以往因語音延遲導致的尷尬和誤解。
![]()
1024個單詞的通用集的示例流媒體語音合成轉錄
2.3 語音和文本同步
值得一提的是,這個系統(tǒng)不僅能夠合成語音,還能實時解碼文本。每當系統(tǒng)解碼出一個新的詞或短語時,它不僅會通過揚聲器播放出來,還會將相應的文本顯示在屏幕上。這使得患者可以在交流時同時看到自己說的內(nèi)容,進一步提高了溝通的準確性和清晰度。
![]()
離線長時連續(xù)語音解碼,帶有隱式語音檢測
2.4 系統(tǒng)的普遍適應性
此外,這個系統(tǒng)還表現(xiàn)出了極強的普適性。研究人員嘗試將該系統(tǒng)應用到其他的腦-語音接口中,例如通過記錄大腦其他區(qū)域的信號或通過表面肌電圖(EMG)來捕捉發(fā)音信號。無論是哪種記錄方式,系統(tǒng)都能成功解碼大腦信號,并生成相應的語音或文本輸出。這一結果表明,這項技術不僅適用于ECoG陣列,還可以推廣到其他類型的腦-語音接口系統(tǒng),具有廣泛的應用前景。
![]()
語音合成在無聲語音接口上的泛化
2.5 高度個性化的語音
對于失語癥患者來說,恢復個性化的聲音尤為重要。研究人員使用了患者失去語音能力之前的錄音數(shù)據(jù),通過語音轉換技術(Voice Conversion)將系統(tǒng)生成的語音“個性化”,讓其聽起來像患者自己原本的聲音,而不是機器合成的冷冰冰的聲音。這種個性化的語音恢復大大提高了患者的自我認同感和生活質(zhì)量。
![]()
模型生成的聽覺反饋不會干擾發(fā)音驅(qū)動的語音解碼
03研究結論RESEARCH CONCLUSION
這項研究展示了一種全新的技術:流式腦-語音神經(jīng)假體。通過實時解碼大腦活動并合成自然流暢的語音,這項技術成功地恢復了失語癥患者的交流能力。與現(xiàn)有的腦機接口技術相比,這個系統(tǒng)不僅在語音合成的速度和流暢度上有了顯著提升,還能夠在沒有發(fā)聲的情況下,通過“大腦控制”生成語音,極大地提高了患者的交流體驗。
這項技術為那些因神經(jīng)損傷或疾病而失去言語能力的患者帶來了希望,它使得患者能夠更加自然、快速地與他人交流,恢復自我表達的能力。未來,隨著技術的進一步優(yōu)化和應用,這種腦-語音神經(jīng)假體有可能成為一種常規(guī)的臨床治療工具,幫助更多的失語癥患者恢復他們的語言能力。
04未來展望FUTURE RPROSPECT
盡管該技術已經(jīng)取得了顯著的成果,但仍然存在一些挑戰(zhàn)。首先,目前的系統(tǒng)仍然依賴于較為復雜的設備和訓練過程,如何降低成本、簡化操作,讓更多患者能夠使用這項技術,是未來需要解決的問題。其次,雖然該系統(tǒng)已能應對已知句子的生成,但如何提高對未知詞匯或自由表達的理解和生成能力,也是一個研究方向。
總的來說,這項技術為腦機接口領域帶來了巨大的進步,它不僅僅局限于恢復語言交流,還為未來更多類型的神經(jīng)假體系統(tǒng)的研發(fā)提供了寶貴的經(jīng)驗和思路。在未來的日子里,我們有理由相信,腦-語音神經(jīng)假體將成為改變失語癥患者生活的關鍵技術之一。
來源 | 腦機接口社區(qū)·
浙大科技園啟真腦機智能產(chǎn)業(yè)化基地是在浙大控股集團領導下,由浙江大學科技園發(fā)展有限公司與杭州未來科技城管委會共建,圍繞腦機智能產(chǎn)業(yè)主體,輻射腦機+生命健康、腦機+智能制造、腦機+新一代信息技術、腦機+新材料等領域的專業(yè)化特色產(chǎn)業(yè)基地,由杭州啟真未來科技發(fā)展有限公司負責全面運營。
基地依托浙江大學在腦機智能方面的學科優(yōu)勢,以腦機智能作為核心科技支撐,貫徹浙江大學國家大學科技園“有組織科技成果轉化、有靶向科技企業(yè)孵化、有體系未來產(chǎn)業(yè)培育”的服務體系,致力于打造腦機智能領域具備成果顯示度、區(qū)域影響力的產(chǎn)業(yè)化高地。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.