網易首頁 > 網易號 > 正文申請入駐

北京大學發布中華民族語言文字接觸交融大數據模型

2025-12-17 19:46:38　來源: 新京報

北京舉報

分享至

新京報訊（記者楊菲菲）12月16日，在北京大學語言學實驗室成立100周年之際，中華民族語言文字接觸交融大數據模型正式發布，有聲博物館項目也正式啟動建設。

“語言是一個社會性的行為，它和社會形態的發展密切相關。現在我們提出來中華民族語言共同體意識，語言是一個非常重要的基礎。”北京大學語言學實驗室主任、中文系教授孔江平表示，團隊在田野調查中對120個語言點進行了語言基本信息、文字活力、語言活力、語言詞匯演化、語言認同等多項調查。

北京大學語言學實驗室主任、中文系教授孔江平在現場進行分享。新京報記者李木易攝

據悉，2021年12月，北京大學語言學實驗室獲批教育部哲學社會科學實驗室，在教育部經費的支持下，北京大學語言學實驗室于2022年春啟動了“中華民族語言文字接觸交融大數據模型建設“項目。項目組織國內12所大學和科研機構的約20名專家的研究團隊，近200名博士生和研究生，對中華民族語言文字接觸交融進行了大規模的田野調查，歷經四年，初步完成了基礎的調查工作和大型數據庫建設。

調查發現，與人們普遍認知的“要么說普通話，要么說民族語言”不同，民族語言正在不斷融入國家的通用語言。孔江平解釋，語言是人類文明的基石，也是思維的工具、文化的載體，在公共社會場合，漢語普通話的使用在不斷增加；家庭依然是民族語言的使用高地。

同時，研究團隊還開展了基于有聲文化的中華民族共同體意識研究。孔江平解釋，團隊采用人工智能的方法，建設基于演化的中華民族有聲文化大型數據庫，建設中華民族優秀有聲文化“基因庫”，構建利于了解研究中華民族情感認同的大數據模型。

此外，孔江平團隊也借助中華民族語言文字接觸交融大數據模型對語言學基礎研究有了更多的探索。

“語言的產生，特別是聲音的出現，一直是國際語言學研究的難題。”孔江平表示，鑒于現在有頭蓋骨和下頜骨的古人類化石數量和年代受限，并不能構建出人類聲音的完整演化過程。孔江平團隊將黑猩猩的聲道和人類的聲道進行擬合，并合成聲音，致力于發現人類語音的涌現規律。

讓沉睡在田野中的、即將消亡的聲音活起來、傳承下去，中華民族語言文字接觸交融大數據模型將發揮重要作用。

孔江平介紹，目前國家已經開展了多期“語保”工程，記錄了大量語言文字，也有很多珍貴的資料，但在工業革命時期人類往城市遷徙以后，很多語言的生態消失了，很難找到將語言保留下來的方法。大模型的出現給語言保護提供了新的可能。“我們現在嘗試做了一個機器翻譯系統和一個語言合成系統，從理論上來講，哪怕一種語言消失了，我們只要給出相應的漢語，那系統就會自動生成對應的語言。”

北京大學語言學實驗室成立一百周年系列活動啟動，有聲博物館項目建設同步啟動。新京報記者李木易攝

當天，有聲博物館項目也在北大啟動。根據規劃，有聲博物館未來將設置歷史分館、現代社會分館、自然分館、動物分館、聲律分館、格律分館、曲律分館、樂律分館、語言障礙分館等。

資料顯示，北京大學語言實驗室前身是“北京大學語音樂律實驗室”，創辦于1925年，創始人為劉復（字半農）。這是中國成立最早的語音學實驗室，是北大人文歷史的重要篇章，也標志著中國現代語音學研究的開端。

編輯繆晨霞

校對柳寶慶

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.