近日,教育部語言文字信息管理司“國家語言資源監測與研究中心”發布2025年度中國語言文字信息化十大新聞。
由廣州市社科聯與廣州大學聯合建設的粵語語料庫建設與大模型評測重點實驗室原創應用成果AI-DimSum多模態通用粵語語料庫平臺以第四序列入選,成為國家數字中文建設的關鍵領域標桿。
![]()
圖源AI-DimSum官網
國家戰略牽引:實驗室應運而生
2024年11月14日,廣州社科重點實驗室——“粵語語料庫建設與大模型評測重點實驗室”正式成立。該實驗室旨在通過“粵語+人工智能”文化科技融合創新,推動嶺南文化傳承、傳播和創新發展。
針對粵語的人工智能友好型語料庫建設的現實問題,粵語語料庫建設與大模型評測重點實驗室牽頭,開發了以“文化忠實、安全可信、AI友好、持續成長”為特色的AI-DimSum通用粵語語料庫。
該語料庫提供的不只是單純的“語料收集”或“語言檔案保存”,而是一整套“從語料獲取到AI應用落地”的閉環服務,是服務多種需求,特別是面向人工智能應用的新型方言語料庫。
創新技術架構:
七大子系統實現全流程閉環
AI-DimSum粵語語料庫平臺首創語料采集、標注、大模型對接、確權檢索、質量評估、管理、應用商店七大子系統,實現從數據采集、清洗、標注到應用發布的一體化流程。
![]()
來源:南方+
核心創新包括:
“1+1+N”協同機制:以廣州市社科聯與廣州大學為雙核心(兩個“1”),聯動其他高校、企業、開源社區等N方資源,構建共建共享生態;
SaaS服務模式:通過模塊化設計支持教育、文化、產業等多場景快速落地;
![]()
來源:南方+
文化忠實與安全可信:融合嶺南文化精神標識體系與價值對齊規則,確保語料庫兼具文化內涵與安全性。
![]()
來源:南方+
豐碩成果:
政策肯定與資源規模雙突破
2025年3月,教育部召開新聞發布會,介紹深入貫徹落實《教育強國建設規劃綱要(2024—2035年)》、推進語言文字信息化發展情況。發布會上,廣東省教育廳副廳長朱建華介紹了廣東省以數字化注入新動力全面賦能強省建設的舉措和成效,重點推介了AI-DimSum粵語語料庫。
2025年6月,實驗室團隊提交的《粵語語料庫建設建設現狀及通用型粵語語料庫建設建議》獲國家語委肯定性批示,稱“此舉事關重大,是數字中文建設的核心重要‘關鍵領域’,指導支持中心以標準規范為引領,以價值對齊為導向,以規范安全為底線,以共建共享為機制,深化該項語料庫建設,夯實‘新基建’,服務人工智能大語言模型應用‘制高點’”。
自發布以來,平臺已匯聚超100萬字文本、3000小時高保真語音、1TB音視頻、1萬張嶺南文化圖像,構建了包含6669條權威詞條、30000條擴展詞條的粵語安全語料庫等,規模居全球粵語語料庫前列。
![]()
圖源AI-DimSum官網
2025年12月18日,在中國數字文娛大會“新技術—智慧文娛解鎖消費密碼”分論壇上,實驗室發布了6個支持人工智能應用的嶺南文化數據集。其中5個為自主研發的數據集,包括嶺南建筑圖像標注數據集、粵語內容安全檢測關鍵詞庫數據集、粵鑒—粵語大模型安全評測數據集、面向影視劇AI配音的細粒度標注粵語語料數據集、面向大模型訓練的粵語大模型語料數據集,另外1個是與羊城晚報嶺南文化大模型團隊聯合研制的粵語文化思維鏈語料數據集。
嶺南建筑圖像標注數據集對碉樓、騎樓、祠堂等嶺南典型建筑的外觀特征進行標注,涵蓋建筑類型、構件、裝飾工藝、材質、顏色等多維度信息,構建了面向嶺南建筑文化的多模態基礎資源,為數字化保護與文化大模型應用提供數據支撐,對于活化和傳承嶺南文化具有重要意義。
粵語內容安全檢測關鍵詞庫數據集圍繞粵語整合多源語料,針對三大核心領域(涉政違法、侮辱歧視、嶺南文化禁忌),采用“分級+標簽”的動態詞庫管理方式,構建了粵語內容安全檢測關鍵詞庫數據集,旨在填補大模型對粵語內容安全檢測缺乏關鍵詞庫的缺口,保障大模型粵語內容安全與粵語網絡內容安全治理。
粵鑒—粵語大模型安全評測數據集是面向粵語內容安全的高質量多模態評測數據集,規模約20萬條(含10萬文本、10萬音頻、3000圖片),依據《生成式人工智能服務安全基本要求》,覆蓋政治、暴力、倫理、隱私、地域歧視等5大類31小類,深度融合粵語俚語、諧音等特色,可用于大模型安全對齊、合規評估和多方言內容治理,助力粵港澳大灣區AI安全發展。
面向影視劇AI配音的細粒度標注粵語語料數據集通過多渠道語料收集與細粒度編碼,構建了涵蓋超過30個影視劇人物、13種情緒、超過1000分鐘的音頻語料庫,有效解決粵語影視劇人工配音成本高、智能配音缺乏高質量標注語料的實際產業痛點。
面向大模型訓練的粵語大模型語料數據集是面向大模型小語種能力訓練的高質量多模態數據集,覆蓋多種生活場景,超過5000個問答對,成功將普通話等通用語言數據轉為粵語語料,為粵語大模型的數據訓練和微調等后續泛化能力提供支持。
全國首個方言文化思維鏈訓練語料集—粵語文化思維鏈語料數據集搭建了3層結構,涵蓋17個文化類別、360余個核心文化概念,并配套逾1萬多組高質量標注語料,可直接服務于大模型的精調訓練。
生態應用:
10余款APP激活產業創新
AI-DimSum多模態通用粵語語料庫平臺已孵化粵語數字人、智能配音、廉州話小程序等10余款應用,覆蓋文旅、教育、短劇等領域。例如,與百度合作開發的“粵語智聲”系統支持復雜場景語音識別,準確率達90%。
![]()
圖源AI-DimSum官網
推廣價值:
方言數字化范本的全球路徑
平臺構建的“采集—標注—確權—應用”全流程體系可復制至客家話等方言,為國家方言語言資源保護提供技術樣板。未來將通過開源開放支持全球粵語數字生態,助力“數字中國”建設。
據悉,2025年1月8日,教育部、國家語委、中央網信辦印發《關于加強數字中文建設 推進語言文字信息化發展的意見》,首次提出“數字中文”概念;到年底的12月27日,第十四屆全國人民代表大會常務委員會第十九次會議表決通過新修訂的《中華人民共和國國家通用語言文字法》,明確規定“推進國家通用語言文字的信息化、數字化、智能化建設”。
“數字中文”及其建設迅速統合引領相關研究與實踐,成為語言文字領域重要的新興增長點。
參考來源
南方+《國家語言文字信息化十大新聞,廣州入選!》
https://www.nfnews.com/content/voApmjea6R.html
廣州大學荔灣研究院《粵語語料庫建設與大模型評測重點實驗室在中國數字文娛大會發布數據集成果》
https://mp.weixin.qq.com/s/jdmmiWdcZJw8LdE8qNFEOw?scene=1
圖片來源同上,非商業用途,若構成侵權,請聯系我們進行刪除
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.