![]()
新加坡人工智能組織(AISG)與阿里云聯(lián)合發(fā)布了一個專門針對東南亞語言和文化特點優(yōu)化的大語言模型。
這款名為Qwen-Sea-Lion-v4的模型將阿里巴巴的Qwen3-32B基礎模型與AISG的大型區(qū)域數(shù)據(jù)集相結合,為以西方為中心的人工智能模型提供了開源替代方案。
據(jù)AISG介紹,這款新模型在參數(shù)少于2000億的開源模型中,在東南亞語言模型綜合評估(Sea-Helm)排行榜上位居榜首。
這也是Sea-Lion(東南亞語言一體化網(wǎng)絡)項目的最新進展。Sea-Lion項目于2023年首次啟動,旨在解決主流生成式AI模型中普遍存在的英語偏向問題。
盡管OpenAI的GPT-4或Meta的Llama系列等模型在英語和主要歐洲語言方面表現(xiàn)出色,但它們在處理東南亞地區(qū)資源匱乏的語言時經(jīng)常遇到困難。
此外,全球性模型無法考慮當?shù)匚幕尘盎蛟摰貐^(qū)代碼切換的傾向——即將英語與當?shù)胤窖越Y合的做法,如新加坡的新式英語或馬來西亞的馬式英語。
Sea-Lion的早期版本專注于為該地區(qū)創(chuàng)建主權能力,確保東南亞數(shù)據(jù)不僅僅是美國模型訓練中的腳注。
AISG人工智能產品高級總監(jiān)Leslie Teo表示,與阿里巴巴的合作將有助于推進AI包容性,使Sea-Lion更好地代表東南亞。
"這體現(xiàn)了我們加速該地區(qū)AI創(chuàng)新的共同愿景,確保開發(fā)者、企業(yè)和公共機構能夠獲得開放、負擔得起、與當?shù)叵嚓P且真正理解該地區(qū)語言、文化和社區(qū)的AI,"Teo說道。
Qwen-Sea-Lion-v4基于Qwen3-32B基礎模型構建,該模型在119種語言的36萬億個Token上進行了預訓練。為了滿足東盟市場的需求,AISG使用超過1000億個東南亞語言Token進行了高級后訓練。
該模型還可以在配備32GB內存的消費級筆記本電腦上運行。這對該地區(qū)來說是一個關鍵功能,因為許多中小企業(yè)和開發(fā)者無法獲得工業(yè)級GPU集群。
此外,該模型不再使用句子分割標記器,而是采用字節(jié)對編碼(BPE)。這使其在處理泰語和緬甸語等非拉丁文字方面表現(xiàn)更佳。憑借原生32k Token上下文長度,該模型可以處理文檔級推理和摘要任務。
阿里云智能新加坡總經(jīng)理Hon Keat Choong表示,此次合作充分利用了Qwen模型的"多語言和推理優(yōu)勢",結合AISG深厚的區(qū)域專業(yè)知識。
為了改善模型在口語化語音方面的表現(xiàn),團隊在后訓練期間增加了翻譯和跨語言任務的比例。這使模型能夠更好地解釋反映該地區(qū)實際使用情況的非正式聊天和混合語言輸入。
該模型可通過AISG網(wǎng)站和Hugging Face免費下載,提供四位和八位量化版本以便于部署。
Q&A
Q1:Qwen-Sea-Lion-v4有什么特別之處?
A:Qwen-Sea-Lion-v4是專門為東南亞地區(qū)優(yōu)化的大語言模型,結合了阿里巴巴Qwen3-32B基礎模型和AISG的區(qū)域數(shù)據(jù)集。它在處理東南亞低資源語言、理解當?shù)匚幕尘昂痛a切換現(xiàn)象方面表現(xiàn)優(yōu)異,在東南亞語言模型評估排行榜上位居榜首。
Q2:為什么需要專門的東南亞語言模型?
A:因為現(xiàn)有的全球性AI模型如GPT-4或Llama系列雖然在英語和歐洲語言方面表現(xiàn)出色,但在處理東南亞地區(qū)資源匱乏的語言時經(jīng)常遇到困難,也無法理解當?shù)匚幕尘盎虼a切換現(xiàn)象,如新加坡的新式英語或馬來西亞的馬式英語。
Q3:普通用戶如何使用Qwen-Sea-Lion-v4?
A:該模型可以在配備32GB內存的消費級筆記本電腦上運行,用戶可通過AISG網(wǎng)站和Hugging Face免費下載,提供四位和八位量化版本以便于部署。這對于缺乏工業(yè)級GPU集群的中小企業(yè)和開發(fā)者來說非常友好。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.