<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      WAXAL:面向非洲語言語音技術的大規(guī)模開放資源

      0
      分享至


      WAXAL為非洲語音技術提供了一個關鍵的開放訪問基礎。該資源包含27種本土語言的大規(guī)模ASR和TTS數(shù)據(jù)語料庫,采用高度寬松的許可協(xié)議,旨在賦能非洲AI生態(tài)系統(tǒng),構建能夠更好反映該地區(qū)獨特語言多樣性的強大語音系統(tǒng)。

      語音技術的現(xiàn)狀與挑戰(zhàn)

      虛擬助手和自動轉錄等語音技術已經(jīng)改變了我們與計算機交互的方式。然而,這些技術的優(yōu)勢主要集中在少數(shù)高資源語言上。這種數(shù)字鴻溝使得數(shù)億人——特別是撒哈拉以南非洲地區(qū)的居民——無法使用母語訪問基本技術服務。該地區(qū)擁有超過2000種不同的語言。幾年前,Google Research團隊開始著手解決這一問題。

      為了應對這一關鍵需求,我們推出了WAXAL:一個大規(guī)模、開放訪問的語音數(shù)據(jù)集,初期覆蓋27種撒哈拉以南非洲語言,這些語言的使用者超過1億人,分布在26個以上的國家。WAXAL項目始于2021年,是與非洲學術和社區(qū)組織多年合作的成果,提供了構建強大語音系統(tǒng)所需的高質量、寬松許可的數(shù)據(jù)。這次初始發(fā)布包含約1846小時的轉錄自然語音數(shù)據(jù)(用于自動語音識別ASR),以及超過565小時的高保真錄音(用于文本轉語音TTS)。我們在知識共享許可協(xié)議(CC-BY-4.0)下發(fā)布這些資源,以促進研究并實現(xiàn)針對非洲大陸獨特語言特征的包容性語音技術。我們計劃讓WAXAL集合持續(xù)演進和擴展,納入更多語言,作為我們彌合數(shù)字鴻溝持續(xù)努力的一部分。

      數(shù)據(jù)集的構成與特點

      通過解決超過1億使用者的關鍵數(shù)據(jù)稀缺問題,WAXAL旨在賦能區(qū)域AI研究生態(tài)系統(tǒng)。為支持強大語音技術的開發(fā),該語料庫整合了兩個專門設計的數(shù)據(jù)集,為語音識別和合成任務提供全面覆蓋。

      ASR數(shù)據(jù)集采用圖像提示方法收集,參與者觀看來自Google開放圖像數(shù)據(jù)集的圖片,用目標語言描述所見內容。這種方法能夠引發(fā)自然、非腳本化的語音,捕捉真實世界的語言使用模式,包括自發(fā)表達、停頓和口語化特征。

      TTS數(shù)據(jù)集則在專業(yè)錄音環(huán)境中錄制,使用高質量設備捕捉清晰、無噪音的語音。錄音人員朗讀精心策劃的文本提示,確保音素覆蓋平衡,為訓練能夠生成自然流暢語音的TTS模型提供必要的清晰度和一致性。

      WAXAL語料庫對非腳本化ASR數(shù)據(jù)和高保真TTS音頻的雙重關注,旨在實現(xiàn)全雙工對話系統(tǒng)的開發(fā)。具體而言,ASR組件有助于對真實場景中典型的多樣化、自發(fā)語音輸入進行建模,而高質量TTS組件則提供生成清晰自然輸出所需的干凈參考數(shù)據(jù)。目前數(shù)據(jù)集包含的27種語言涵蓋了東非、西非、中非和南部非洲的主要語言。

      合作模式與生態(tài)系統(tǒng)建設

      WAXAL項目的核心承諾是與非洲AI生態(tài)系統(tǒng)合作并直接為其做出貢獻。數(shù)據(jù)收集工作完全由非洲學術和社區(qū)組織主導,在Google專家關于世界級數(shù)據(jù)收集實踐的指導下進行。這種協(xié)作方式確保了語料庫由其服務的社區(qū)構建并為其服務;通過共享方法論,每個合作伙伴專注于特定的語言子集。

      我們的合作伙伴包括馬凱雷雷大學,該校為九種不同語言收集了ASR和TTS數(shù)據(jù);加納大學專注于八種語言,使用上述基于圖像提示的ASR數(shù)據(jù)收集方法。其他重要合作者包括Digital Umuganda與亞的斯亞貝巴大學合作,在多種區(qū)域語言的ASR收集中發(fā)揮了關鍵作用。對于高質量的錄音棚錄制語音,Media Trust、Loud n Clear和塞內加爾非洲數(shù)學科學研究所主導了各種區(qū)域語言的TTS錄音。

      這一框架從根本上植根于合作伙伴保留所收集數(shù)據(jù)所有權的原則,共同致力于讓所有數(shù)據(jù)集向更廣泛的社區(qū)開放訪問。這種深度合作和開放訪問理念已經(jīng)促成了顯著的衍生研究和出版物。

      未來展望

      WAXAL代表了彌合數(shù)字鴻溝的關鍵里程碑,為27種撒哈拉以南非洲語言提供了高質量、開放訪問的語音資源。該項目通過與非洲學術和社區(qū)組織的深度合作開發(fā),賦能非洲大陸的AI生態(tài)系統(tǒng)并保護語言多樣性。我們希望WAXAL將繼續(xù)作為非洲語言數(shù)字保護的重要資源和未來創(chuàng)新的基礎。Google將繼續(xù)致力于這一努力,計劃持續(xù)擴展WAXAL數(shù)據(jù)集。

      我們感謝馬凱雷雷大學、加納大學、Digital Umuganda、亞的斯亞貝巴大學、塞內加爾非洲數(shù)學科學研究所、Media Trust和Loud and Clear Communications Ltd等合作伙伴的重要貢獻,他們在縮小語言差距、為非洲大陸數(shù)百萬使用者構建更具包容性的數(shù)字未來方面發(fā)揮了關鍵作用。

      Q&A

      Q1:WAXAL數(shù)據(jù)集包含哪些語言和多少數(shù)據(jù)量?

      A:WAXAL初始發(fā)布覆蓋27種撒哈拉以南非洲語言,這些語言的使用者超過1億人,分布在26個以上的國家。數(shù)據(jù)集包含約1846小時的轉錄自然語音數(shù)據(jù)用于自動語音識別,以及超過565小時的高保真錄音用于文本轉語音合成。所有資源采用CC-BY-4.0許可協(xié)議發(fā)布。

      Q2:WAXAL如何收集ASR和TTS數(shù)據(jù)?

      A:ASR數(shù)據(jù)采用圖像提示方法,參與者觀看圖片并用目標語言描述所見內容,這能捕捉自然、非腳本化的語音和真實語言使用模式。TTS數(shù)據(jù)則在專業(yè)錄音環(huán)境中錄制,錄音人員朗讀精心策劃的文本,確保音素覆蓋平衡,為訓練TTS模型提供清晰一致的語音。

      Q3:WAXAL項目是如何與非洲本地組織合作的?

      A:數(shù)據(jù)收集工作完全由非洲學術和社區(qū)組織主導,在Google專家指導下進行。合作伙伴包括馬凱雷雷大學、加納大學、Digital Umuganda、亞的斯亞貝巴大學等機構。合作伙伴保留數(shù)據(jù)所有權,同時承諾開放訪問。這種模式確保語料庫由其服務的社區(qū)構建并為其服務,已促成多項衍生研究成果。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2026-03-11 07:39:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動數(shù)字化創(chuàng)新
      16700文章數(shù) 49695關注度
      往期回顧 全部

      科技要聞

      蔚來今年要少虧150億,沖擊年度盈利

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?/h3>

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?/h3>

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區(qū)淪陷

      財經(jīng)要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      手機
      數(shù)碼
      健康
      家居
      公開課

      手機要聞

      蘋果iPhone17e體驗:加量不加價,值不值得入手呢?

      數(shù)碼要聞

      蘋果MacBook Neo筆記本SSD速度約為MacBook Pro的1/8

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      自然肌理 溫度質感婚房

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版