近日,Krafton 公司宣布推出旗下全新人工智能(AI)模型品牌“Raon”,標志著其在人工智能(AI)領域的深入布局,旨在助力研究者與開發者自由創新。此次發布也進一步彰顯了Krafton以技術驅動構建AI生態的戰略圖景。
![]()
“Raon”這一名稱靈感源自韓語中的“喜悅”(??)一詞,體現了 Krafton 致力于通過 AI 技術創造游戲內在樂趣的理念。本次發布的模型品牌展現了 Krafton在基礎模型開發上全流程技術能力——從數據收集、模型訓練到性能評估,皆可獨立完成。未來,公司計劃進一步圍繞 “Raon” AI 模型品牌加強其全球 AI 技術競爭力。
Kraton 同時還宣布在全球最大 AI 模型平臺 Hugging Face 上同步開源四款模型,包括語音驅動大型語言模型(LLM) Raon-Speech、實時雙向語音對話模型 Raon-SpeechChat、文本轉語音(TTS)模型 Raon-OpenTTS 和視覺編碼器 Raon-VisionEncoder。
Raon-Speech 是一款具備語音理解與生成能力的語音語言模型,參數規模為90億(9B)。據 Krafton 介紹,在涵蓋語音轉文本、文本轉語音、基于語音的問答等7項核心任務和40項基準測試的綜合評估中,該模型在參數規模小于100億的開源語音語言模型中,其英語與韓語性能均位列全球第一。
Raon-SpeechChat 是一款采用實時雙向通信技術的語音語言模型,允許用戶在與模型對話的過程中自由打斷對方。它是韓國首款發布的實時雙向語音模型。在3種雙向通信模型評估基準中,它在反語音、插詞處理和響應延遲等13個主要任務中的平均排名,都達到世界領先水平。
Raon-OpenTTS 是一個僅使用公共語音數據訓練的文本轉語音模型,而這些公共語音數據此前很難被直接使用。在一項對比模型語音與人類語音自然性的盲測中,其所展現的領先性能水平,不亞于使用私人數據訓練的 TTS 模型。
Raon-VisionEncoder 是一款視覺編碼器,能夠將圖像轉換為 AI 能夠理解的信息。當視覺編碼器與語言模型結合時,視覺信息可以被處理,并且可以從零開始自我訓練,無需使用任何預訓練模型。在某些視覺識別任務中,它記錄的結果超過了業內同類型旗艦級視覺編碼器模型。在其他任務中,它的性能甚至超過了相關旗艦級模型90% 以上,證明了其強有力競爭力。
Krafton 首席 AI 官(CAIO)Kangwook Lee 表示:“Raon 模型系列的發布是 Krafton AI 技術能力積累過程中的重要里程碑。我們期待將大規模訓練數據和核心模型開源分享,讓研究人員和開發者自由使用,助力多模態技術的發展以及韓國 AI 生態系統的發展。”
未來 Krafton 將持續推動 AI 模型和智能體技術的發展,引領技術創新。
