百萬圍觀、HuggingFace多模態(tài)登頂，開源語音版「DeepSeek」爆火

2026-01-23 14:22:25　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

在大模型快速迭代的背景下，語音交互正從「語音轉(zhuǎn)文本（ASR）— 文本理解 — 文本轉(zhuǎn)語音（TTS」的串聯(lián)式架構(gòu)，逐步走向端到端的實時語音生成。這一轉(zhuǎn)變不僅關(guān)系到延遲和自然度，也直接影響語音系統(tǒng)在真實生產(chǎn)環(huán)境中的可用性。

在級聯(lián)式語音交互架構(gòu)下，每個模塊分別負責語音識別、文本理解和語音合成等任務(wù)，這種架構(gòu)在早期的應(yīng)用中取得了成功。但隨著對實時性和低延遲要求的提高，端到端語音交互系統(tǒng)逐漸成為主流，通過深度集成各個任務(wù)，減少中間轉(zhuǎn)換步驟，顯著提高響應(yīng)速度，使交互變得更加即時和自然。

近期，F(xiàn)lashLabs 發(fā)布并開源了其實時語音模型Chroma 1.0，其定位為全球首個開源的端到端語音到語音模型

Chroma 1.0 發(fā)布之后，便在社媒爆火，吸引了大量的關(guān)注。X 上的官推帖子已經(jīng)突破了百萬瀏覽量。

多位知名的 X 博主對 Chroma 1.0 給予了很高的評價。

此外，在 HuggingFace 多模態(tài)榜單中，Chroma（4B 版本）排名第一。

該模型的研發(fā)負責人為 FlashLabs 創(chuàng)始人石一（Yi Shi）：

從公開信息和技術(shù)實現(xiàn)來看，該模型并非對現(xiàn)有語音模型的簡單改進，而是一次圍繞「實時性」目標展開的系統(tǒng)級重構(gòu)。

本文將依次從技術(shù)架構(gòu)、核心指標、論文貢獻以及應(yīng)用場景等角度，對 Chroma 進行一次評測式分析，并對原文中表述不準確的地方予以修正。

一、從級聯(lián)到端到端：Chroma 的系統(tǒng)定位

傳統(tǒng)語音系統(tǒng)通常采用多階段流水線：

ASR → LLM → TTS

這一方案在準確率上已相對成熟，但在延遲、上下文連續(xù)性以及情緒一致性方面存在天然瓶頸。尤其在實時對話場景中，多模塊串聯(lián)會帶來顯著的推理延遲與狀態(tài)同步成本。

Chroma 的核心目標，是構(gòu)建一個語音到語音（Speech-to-Speech, S2S）的統(tǒng)一系統(tǒng)，將語音理解、語義建模與語音生成納入同一整體框架中，從而降低系統(tǒng)復雜度并提升實時響應(yīng)能力。

官方產(chǎn)品頁：https://www.flashlabs.ai/flashai-voice-agents
推理代碼：https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma
模型：https://huggingface.co/FlashLabs/Chroma-4B
論文：https://arxiv.org/abs/2601.11141

二、模型架構(gòu)與關(guān)鍵設(shè)計

1 分層架構(gòu)：從理解到合成

原文中曾將 Chroma 描述為「統(tǒng)一 Transformer 架構(gòu)同時處理語音編碼、語義建模與聲學解碼」，這一表述并不準確。論文指出，Chroma 采用分層多模塊架構(gòu)：

Reasoner：基于 Thinker 模塊構(gòu)建，負責多模態(tài)理解與文本生成。它使用 Qwen2-Audio 編碼管道處理文本和語音輸入，并通過跨模態(tài)注意力及 TM-RoPE 將語音和文本表示對齊。
Backbone：采用約 1 B 參數(shù)的 LLaMA 變體，用于生成每一幀的粗聲學碼。為實現(xiàn)個性化克隆，Backbone 通過 CSM-1B 將參考音頻及其文本編碼為嵌入前綴，并共享 Reasoner 的嵌入和隱藏狀態(tài)作為上下文。
Decoder：約 100 M 參數(shù)的輕量模型，在每幀內(nèi)自回歸生成剩余的 Residual Vector Quantization (RVQ) 級別。這一設(shè)計減少了長上下文計算負擔，細化了韻律與發(fā)音細節(jié)。
Codec Decoder：采用 Mimi vocoder 的因果卷積網(wǎng)絡(luò)，將粗音碼與細音碼串聯(lián)后重建為連續(xù)波形。系統(tǒng)使用 8 個碼書，減少解碼器在每幀的自回歸步驟。

這種模塊化的分層設(shè)計與原文所述的「統(tǒng)一 Transformer」不同，每個模塊各司其職，共同完成 S2S 推理和生成。

2 交錯日程與流式推理

為保證低延遲，Chroma 采用固定比例的文本 - 音頻交錯日程，論文中明確為1:2（即每個文本 token 對應(yīng)兩個音頻碼）。

具體操作過程中，Reasoner 首先輸出文本 tokens 和隱藏狀態(tài)；這些信息按上述比例交錯并輸入 Backbone 和 Decoder，后者再逐步生成離散聲學碼并由 Codec Decoder 重建為波形。

這種管線非一步直接「映射」語音到輸出，而是通過多模塊間的分工協(xié)作進行聯(lián)合建模，從而避免了傳統(tǒng)級聯(lián)系統(tǒng)中的多次模態(tài)切換帶來的信息損失。

3 參數(shù)規(guī)模與效率權(quán)衡

Chroma 1.0 的模型規(guī)模約為 40 億參數(shù)級別。相較于追求超大模型規(guī)模，其設(shè)計更強調(diào)在延遲、吞吐與可部署性之間取得平衡：

Backbone：1 B參數(shù) —— 負責粗聲學碼生成；
Decoder：100 M參數(shù) —— 負責細化 RVQ；
Reasoner 與 Codec Decoder 規(guī)模保持相對穩(wěn)定。

相較于 7 B–9 B 的大模型，該規(guī)模具有明顯效率優(yōu)勢，同時在多項指標上優(yōu)于 0.5 B 級別的小模型。

三、核心技術(shù)指標評測

根據(jù)論文與實驗結(jié)果，Chroma 在多個關(guān)鍵指標上表現(xiàn)出工程優(yōu)勢：

需要指出的是，論文評測重點放在實時交互可用性和個性化聲音克隆上，而不是單一語音自然度指標。

四、論文視角：Chroma 的研究貢獻

從論文結(jié)構(gòu)來看，Chroma 的研究貢獻主要體現(xiàn)在三個層面：

實時語音建模范式：系統(tǒng)性論證了端到端 Speech-to-Speech 架構(gòu)在實時對話場景中的優(yōu)勢，并給出了工程可行的實現(xiàn)路徑。
交錯策略和模塊化設(shè)計：在數(shù)據(jù)表示和模型結(jié)構(gòu)上引入 1:2 文本–音頻交錯，并將Reasoner、Backbone、Decoder、Codec Decoder 分離。這種設(shè)計既降低延遲又兼顧語義推理和聲學細節(jié)。
合成訓練管線與評價方法：采用 LLM+TTS 構(gòu)建高質(zhì)量的語音到語音訓練數(shù)據(jù)，并通過綜合的客觀指標（SIM、TTFT、RTF）和主觀評測（NCMOS、SCMOS）驗證系統(tǒng)性能。

整體來看，該論文兼具工程導向和系統(tǒng)研究價值，而非單點算法突破。

五、FlashAI：從模型到應(yīng)用的落地路徑

Chroma 并非孤立模型，其首要應(yīng)用場景來自 FlashLabs 的語音產(chǎn)品FlashAI。在 FlashAI 中， Chroma 主要承擔實時語音交互引擎的角色，典型應(yīng)用包括：

企業(yè)級呼叫與客服

實時應(yīng)答，穩(wěn)定長對話；
多語言支持；
適用于呼叫中心、預(yù)約、售后等高并發(fā)場景。

AI 語音代理（Voice Agent）

結(jié)合知識庫與業(yè)務(wù)邏輯，直接在語音層面完成任務(wù)型對話；
減少文本中轉(zhuǎn)延遲。

跨語言語音交互

統(tǒng)一語音建模降低系統(tǒng)切換成本；
提升整體交互連貫性。

六、理性總結(jié)

綜合來看，Chroma 1.0 并非追求「最強語音模型」，而是明確聚焦于實時語音交互這一長期被低估的工程難題。其價值不在于單項指標的領(lǐng)先，而在于：

將語音理解、語義建模與聲學生成解耦為多模塊聯(lián)合設(shè)計，擺脫傳統(tǒng)級聯(lián)系統(tǒng)瓶頸；
通過 1:2 交錯策略與多碼書設(shè)計，將 TTFT 降至約 150 ms 并保持 RTF < 1；
在個性化聲音克隆任務(wù)中實現(xiàn)對人類基線 10.96% 的相對提升，展示出對細節(jié)聲紋特征的捕捉能力；
完整開放代碼與模型，降低了研究者與工程師進入門檻。

當然，Chroma 目前在自然度評測（NCMOS）上仍落后于商業(yè)系統(tǒng) ElevenLabs，在多語言及情感控制方面亦有待進一步探索。然而，作為實時語音交互的重要基礎(chǔ)設(shè)施，其分層設(shè)計與數(shù)據(jù)生成策略為行業(yè)提供了可復用的藍圖。

通過修正原文中的架構(gòu)描述和「直接映射」表述，這篇評測更準確地反映了 Chroma 的技術(shù)特點與工程取舍，有助于讀者理解這一系統(tǒng)在實時語音交互領(lǐng)域的價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.