近日,由聯合國教科文組織國際創意與可持續發展中心及聯合國教科文組織東亞地區辦事處聯合主辦的第五屆“創意2030國際論壇”在北京舉行。論壇上,主辦方正式發布了2025“數字環境下保護與促進文化表現形式多樣性示范案例”。
其中,由云南瀕危語言文化傳播有限公司申報,智譯、上海壁仞科技股份有限公司聯合協作的“瀾湄國家跨境語言AI大模型”項目,憑借對區域語言難題的突破,為破解瀾湄流域國家長期存在的交流障礙、經濟發展滯后、跨境治理難等深層問題,提供了數字化底層工具,成功入選。
緣起公益:
從哈尼村落出發,關注少數民族的語言困境
這一項目的誕生,緣起于一場扎根深山的公益行動。
2024年,智譯團隊負責人劉暢源作為“夢想行動”志愿者,在云南省普洱市墨江哈尼族自治縣開展閱讀推廣時,發現當地留守兒童普通話溝通能力薄弱、少數民族語言傳承困難等問題,而相應的數字化工具嚴重匱乏。為幫助當地兒童跨越語言溝通壁壘,哈尼語AI系統應運而生。與此同時,鑒于眾多少數民族兒童面臨同類發展困境,項目逐步從云南哈尼族村落拓展覆蓋至整個瀾湄流域國家,最終落地形成瀾湄國家跨境語言AI大模型整體成果。
![]()
“瀾湄國家跨境語言AI大模型”項目入選2025“數字環境下保護與促進文化表現形式多樣性示范案例”。
瀾滄江-湄公河依次流經中國、緬甸、老撾、泰國、柬埔寨、越南,一江連六國,語言種類繁多且互通性低,衍生出諸多亟待解決的區域發展難題。如,語言隔閡不僅造成民眾交往、社區溝通的壁壘,讓政策與數字公共服務難以有效觸達基層。
然而,在自然語言處理領域,研究重心均集中在英語、漢語等高資源語言,而瀾湄流域國家官方語言,例如泰語、緬甸語、老撾語,以及少數民族語言,例如:苗語、傣語、哈尼語、景頗語,多屬于低資源甚至極低資源語言,在大模型訓練上是世界性難題,傳統的模型訓練方法無法適配這類語言的語料特點,相關技術研發長期處于空白狀態。
攻堅破局:
跨學科團隊填補極低資源語言模型領域的技術空白
據了解,全球現存約7000種語言,接近一半處于瀕危狀態,超6500種均為低資源語言。國內雖有部分大模型企業在擴充翻譯語言品類,但在少數民族語言領域的成果仍較為有限。海外市場中,Meta基礎人工智能研究實驗室的開源項目“不讓任何語言掉隊”(No Language Left Behind,簡稱“NLLB-200”),是低資源語言研究的代表,涵蓋眾多被商業軟件忽視的小眾語種,如阿斯圖里亞斯語、盧干達語、烏爾都語以及眾多非洲本土語言。但業界當前在瀾湄流域國家官方語言與少數民族語言的覆蓋上仍有欠缺。
為攻克這一難題,團隊打造了一支語言學家與AI專家深度融合的跨學科、文理協同的研發隊伍,直面極低資源語言的研發痛點。
![]()
哈尼語翻譯界面。
據劉暢源介紹,極低資源語言的研發遠比高資源語言更具挑戰,核心面臨四大難題,包括發音人稀缺、標注專家難尋、采錄設施運輸不便、整體采集成本高昂。“比如講哈尼語白宏方言的老百姓會說自己的語言,但是沒有方式把話語寫下來,然而要用于AI訓練,就必須用符號系統進行表達。我們耗時許久系統性整理了哈尼語白宏方言的詞匯、短句、長篇語料,最終將國家標準哈尼文適配到白宏方言,才突破了這一核心障礙。”他還舉例道,僅一分鐘語料的標注成本就高達千元,巨大的資金與精力投入,也是鮮有團隊大力投入該領域的重要原因。
該項目團隊歷時一年,終于完成29種瀾湄流域國家官方語言及少數民族語言的語料采集,其中包括云南普洱墨江白宏哈尼語、紅河綠春大寨哈尼語、西雙版納阿卡哈尼語、臨滄傣語、德宏景頗語等多種極低資源語言。目前,團隊已經成功開發了哈尼語、苗語六大方言的AI文本翻譯與創作系統,還初步研發出AI語音合成系統。接下來,團隊計劃推出“同源橋”系列商業產品,覆蓋AI翻譯、影視匯、旅游通、民心匯等多個應用板塊,讓技術成果在更多場景實現落地。
算力護航:
壁仞科技,讓技術有“溫度”
項目的社會價值也得到了多家高校與企業的關注,北京大學、云南師范大學、浙江大學、壁仞科技等紛紛加入協作陣營,讓技術研發之路更具底氣。劉暢源介紹,團隊與云南師范大學文學院共同打造瀾湄國家文學大模型,豐富模型的文學內容維度,浙江大學則提供線上大模型教育與推廣平臺,為模型的落地與普及搭建渠道。
壁仞科技則在合作中提供了關鍵性的國產算力技術支持,成為模型研發與落地的核心算力后盾。依托于壁仞科技GPU,團隊正全力推進瀾湄國家跨境語言AI大模型的國產解決方案,推動國產算力在極低資源語言模型領域的落地應用。據劉暢源介紹,該解決方案的應用場景主要集中在娛樂傳播、文化旅游、跨境安防三大領域,真正讓技術成果賦能瀾湄流域各國的交流與發展。
具體來看,在娛樂傳播領域,依托模型的精準翻譯能力,能夠以低成本實現瀾湄流域國家間多語言翻譯,讓中國文化更好地走向東南亞市場;在文化旅游領域,模型可通過語音交互、故事講解等形式,讓游客沉浸式體驗當地民族文化,助力文旅產業發展;在跨境安防領域,多語言實時翻譯與溝通能力,能有效賦能各國政府的安防協作溝通系統,提升跨境犯罪打擊、應急響應的效率,守護區域安全穩定。
壁仞科技與項目團隊的攜手,并非偶然,而是雙方在“技術平權”理念上的同頻共振。南都記者了解到,壁仞科技始終秉持“科技向善”的技術觀,在深耕技術研發的同時,長期投身社會公益項目,還將優質科技教育資源引入偏遠地區的課堂,讓尖端科技走出實驗室、走向普通大眾。
展望未來,依托壁仞科技自主可控的國產算力底座,項目團隊計劃搭建世界語言中心,開發覆蓋全球更多種語言的世界語言AI大模型。“這一模型將持續記錄人類文明,致力于構建覆蓋全球語言的普惠性知識庫,讓不同語言、不同文化之間實現無障礙交流。”劉暢源說道。
業績助力:
壁仞科技高質量增長,行穩致遠
值得一提的是,作為國產通用GPU領軍企業,壁仞科技在近期交出了2025年業績“成績單”。財報介紹,2025年,壁仞科技實現了旗艦通用GPU產品的規模化量產及交付、多個千卡智算集群的交付以及高質量客戶群體的拓展。得益于此,其實現收入10.35億元,同比大幅增長207.2%。另外,毛利也持續改善達5.57億元,毛利率增長63個基點達53.8%。
研發投入則隨產品技術迭代顯著增強,同比增長78.5%至14.76億元,經調整年內虧損近8.74億元。從年報數據來看,壁仞科技在加大研發投入、為未來發展奠定基礎的同時,商業化能力和經營效率正不斷提升。
從關注哈尼族留守兒童的語言困境,到攻克極低資源語言模型難題,再到立志打造覆蓋全球的語言AI大模型,技術進步的成果不僅惠及“大眾”,也可幫扶“小眾”。這既是項目的價值所在,也是壁仞科技堅持“科技向善”技術理念的生動實踐。
采寫:南都N視頻記者 朱可軒
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.