![]()
WAXAL為非洲語音技術提供了一個關鍵的開放訪問基礎。該資源包含27種本土語言的大規(guī)模ASR和TTS數(shù)據(jù)語料庫,采用高度寬松的許可協(xié)議,旨在賦能非洲AI生態(tài)系統(tǒng),構建能夠更好反映該地區(qū)獨特語言多樣性的強大語音系統(tǒng)。
語音技術的現(xiàn)狀與挑戰(zhàn)
虛擬助手和自動轉錄等語音技術已經(jīng)改變了我們與計算機交互的方式。然而,這些技術的優(yōu)勢主要集中在少數(shù)高資源語言上。這種數(shù)字鴻溝使得數(shù)億人——特別是撒哈拉以南非洲地區(qū)的居民——無法使用母語訪問基本技術服務。該地區(qū)擁有超過2000種不同的語言。幾年前,Google Research團隊開始著手解決這一問題。
為了應對這一關鍵需求,我們推出了WAXAL:一個大規(guī)模、開放訪問的語音數(shù)據(jù)集,初期覆蓋27種撒哈拉以南非洲語言,這些語言的使用者超過1億人,分布在26個以上的國家。WAXAL項目始于2021年,是與非洲學術和社區(qū)組織多年合作的成果,提供了構建強大語音系統(tǒng)所需的高質量、寬松許可的數(shù)據(jù)。這次初始發(fā)布包含約1846小時的轉錄自然語音數(shù)據(jù)(用于自動語音識別ASR),以及超過565小時的高保真錄音(用于文本轉語音TTS)。我們在知識共享許可協(xié)議(CC-BY-4.0)下發(fā)布這些資源,以促進研究并實現(xiàn)針對非洲大陸獨特語言特征的包容性語音技術。我們計劃讓WAXAL集合持續(xù)演進和擴展,納入更多語言,作為我們彌合數(shù)字鴻溝持續(xù)努力的一部分。
數(shù)據(jù)集的構成與特點
通過解決超過1億使用者的關鍵數(shù)據(jù)稀缺問題,WAXAL旨在賦能區(qū)域AI研究生態(tài)系統(tǒng)。為支持強大語音技術的開發(fā),該語料庫整合了兩個專門設計的數(shù)據(jù)集,為語音識別和合成任務提供全面覆蓋。
ASR數(shù)據(jù)集采用圖像提示方法收集,參與者觀看來自Google開放圖像數(shù)據(jù)集的圖片,用目標語言描述所見內容。這種方法能夠引發(fā)自然、非腳本化的語音,捕捉真實世界的語言使用模式,包括自發(fā)表達、停頓和口語化特征。
TTS數(shù)據(jù)集則在專業(yè)錄音環(huán)境中錄制,使用高質量設備捕捉清晰、無噪音的語音。錄音人員朗讀精心策劃的文本提示,確保音素覆蓋平衡,為訓練能夠生成自然流暢語音的TTS模型提供必要的清晰度和一致性。
WAXAL語料庫對非腳本化ASR數(shù)據(jù)和高保真TTS音頻的雙重關注,旨在實現(xiàn)全雙工對話系統(tǒng)的開發(fā)。具體而言,ASR組件有助于對真實場景中典型的多樣化、自發(fā)語音輸入進行建模,而高質量TTS組件則提供生成清晰自然輸出所需的干凈參考數(shù)據(jù)。目前數(shù)據(jù)集包含的27種語言涵蓋了東非、西非、中非和南部非洲的主要語言。
合作模式與生態(tài)系統(tǒng)建設
WAXAL項目的核心承諾是與非洲AI生態(tài)系統(tǒng)合作并直接為其做出貢獻。數(shù)據(jù)收集工作完全由非洲學術和社區(qū)組織主導,在Google專家關于世界級數(shù)據(jù)收集實踐的指導下進行。這種協(xié)作方式確保了語料庫由其服務的社區(qū)構建并為其服務;通過共享方法論,每個合作伙伴專注于特定的語言子集。
我們的合作伙伴包括馬凱雷雷大學,該校為九種不同語言收集了ASR和TTS數(shù)據(jù);加納大學專注于八種語言,使用上述基于圖像提示的ASR數(shù)據(jù)收集方法。其他重要合作者包括Digital Umuganda與亞的斯亞貝巴大學合作,在多種區(qū)域語言的ASR收集中發(fā)揮了關鍵作用。對于高質量的錄音棚錄制語音,Media Trust、Loud n Clear和塞內加爾非洲數(shù)學科學研究所主導了各種區(qū)域語言的TTS錄音。
這一框架從根本上植根于合作伙伴保留所收集數(shù)據(jù)所有權的原則,共同致力于讓所有數(shù)據(jù)集向更廣泛的社區(qū)開放訪問。這種深度合作和開放訪問理念已經(jīng)促成了顯著的衍生研究和出版物。
未來展望
WAXAL代表了彌合數(shù)字鴻溝的關鍵里程碑,為27種撒哈拉以南非洲語言提供了高質量、開放訪問的語音資源。該項目通過與非洲學術和社區(qū)組織的深度合作開發(fā),賦能非洲大陸的AI生態(tài)系統(tǒng)并保護語言多樣性。我們希望WAXAL將繼續(xù)作為非洲語言數(shù)字保護的重要資源和未來創(chuàng)新的基礎。Google將繼續(xù)致力于這一努力,計劃持續(xù)擴展WAXAL數(shù)據(jù)集。
我們感謝馬凱雷雷大學、加納大學、Digital Umuganda、亞的斯亞貝巴大學、塞內加爾非洲數(shù)學科學研究所、Media Trust和Loud and Clear Communications Ltd等合作伙伴的重要貢獻,他們在縮小語言差距、為非洲大陸數(shù)百萬使用者構建更具包容性的數(shù)字未來方面發(fā)揮了關鍵作用。
Q&A
Q1:WAXAL數(shù)據(jù)集包含哪些語言和多少數(shù)據(jù)量?
A:WAXAL初始發(fā)布覆蓋27種撒哈拉以南非洲語言,這些語言的使用者超過1億人,分布在26個以上的國家。數(shù)據(jù)集包含約1846小時的轉錄自然語音數(shù)據(jù)用于自動語音識別,以及超過565小時的高保真錄音用于文本轉語音合成。所有資源采用CC-BY-4.0許可協(xié)議發(fā)布。
Q2:WAXAL如何收集ASR和TTS數(shù)據(jù)?
A:ASR數(shù)據(jù)采用圖像提示方法,參與者觀看圖片并用目標語言描述所見內容,這能捕捉自然、非腳本化的語音和真實語言使用模式。TTS數(shù)據(jù)則在專業(yè)錄音環(huán)境中錄制,錄音人員朗讀精心策劃的文本,確保音素覆蓋平衡,為訓練TTS模型提供清晰一致的語音。
Q3:WAXAL項目是如何與非洲本地組織合作的?
A:數(shù)據(jù)收集工作完全由非洲學術和社區(qū)組織主導,在Google專家指導下進行。合作伙伴包括馬凱雷雷大學、加納大學、Digital Umuganda、亞的斯亞貝巴大學等機構。合作伙伴保留數(shù)據(jù)所有權,同時承諾開放訪問。這種模式確保語料庫由其服務的社區(qū)構建并為其服務,已促成多項衍生研究成果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.