<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      百萬圍觀、HuggingFace多模態(tài)登頂,開源語音版「DeepSeek」爆火

      0
      分享至



      機器之心發(fā)布

      在大模型快速迭代的背景下,語音交互正從「語音轉(zhuǎn)文本(ASR)— 文本理解 — 文本轉(zhuǎn)語音(TTS」的串聯(lián)式架構(gòu),逐步走向端到端的實時語音生成。這一轉(zhuǎn)變不僅關(guān)系到延遲和自然度,也直接影響語音系統(tǒng)在真實生產(chǎn)環(huán)境中的可用性。

      在級聯(lián)式語音交互架構(gòu)下,每個模塊分別負責語音識別、文本理解和語音合成等任務(wù),這種架構(gòu)在早期的應(yīng)用中取得了成功。但隨著對實時性和低延遲要求的提高,端到端語音交互系統(tǒng)逐漸成為主流,通過深度集成各個任務(wù),減少中間轉(zhuǎn)換步驟,顯著提高響應(yīng)速度,使交互變得更加即時和自然。

      近期,F(xiàn)lashLabs 發(fā)布并開源了其實時語音模型Chroma 1.0,其定位為全球首個開源的端到端語音到語音模型

      Chroma 1.0 發(fā)布之后,便在社媒爆火,吸引了大量的關(guān)注。X 上的官推帖子已經(jīng)突破了百萬瀏覽量。



      多位知名的 X 博主對 Chroma 1.0 給予了很高的評價。



      此外,在 HuggingFace 多模態(tài)榜單中,Chroma(4B 版本)排名第一。



      該模型的研發(fā)負責人為 FlashLabs 創(chuàng)始人石一(Yi Shi):



      從公開信息和技術(shù)實現(xiàn)來看,該模型并非對現(xiàn)有語音模型的簡單改進,而是一次圍繞「實時性」目標展開的系統(tǒng)級重構(gòu)。

      本文將依次從技術(shù)架構(gòu)、核心指標、論文貢獻以及應(yīng)用場景等角度,對 Chroma 進行一次評測式分析,并對原文中表述不準確的地方予以修正。

      一、從級聯(lián)到端到端:Chroma 的系統(tǒng)定位

      傳統(tǒng)語音系統(tǒng)通常采用多階段流水線:

      ASR → LLM → TTS

      這一方案在準確率上已相對成熟,但在延遲、上下文連續(xù)性以及情緒一致性方面存在天然瓶頸。尤其在實時對話場景中,多模塊串聯(lián)會帶來顯著的推理延遲與狀態(tài)同步成本。

      Chroma 的核心目標,是構(gòu)建一個語音到語音(Speech-to-Speech, S2S)的統(tǒng)一系統(tǒng),將語音理解、語義建模與語音生成納入同一整體框架中,從而降低系統(tǒng)復雜度并提升實時響應(yīng)能力。

      • 官方產(chǎn)品頁:https://www.flashlabs.ai/flashai-voice-agents
      • 推理代碼:https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma
      • 模型:https://huggingface.co/FlashLabs/Chroma-4B
      • 論文:https://arxiv.org/abs/2601.11141

      二、模型架構(gòu)與關(guān)鍵設(shè)計

      1 分層架構(gòu):從理解到合成

      原文中曾將 Chroma 描述為「統(tǒng)一 Transformer 架構(gòu)同時處理語音編碼、語義建模與聲學解碼」,這一表述并不準確。論文指出,Chroma 采用分層多模塊架構(gòu):

      • Reasoner:基于 Thinker 模塊構(gòu)建,負責多模態(tài)理解與文本生成。它使用 Qwen2-Audio 編碼管道處理文本和語音輸入,并通過跨模態(tài)注意力及 TM-RoPE 將語音和文本表示對齊。
      • Backbone:采用約 1 B 參數(shù)的 LLaMA 變體,用于生成每一幀的粗聲學碼。為實現(xiàn)個性化克隆,Backbone 通過 CSM-1B 將參考音頻及其文本編碼為嵌入前綴,并共享 Reasoner 的嵌入和隱藏狀態(tài)作為上下文。
      • Decoder:約 100 M 參數(shù)的輕量模型,在每幀內(nèi)自回歸生成剩余的 Residual Vector Quantization (RVQ) 級別。這一設(shè)計減少了長上下文計算負擔,細化了韻律與發(fā)音細節(jié)。
      • Codec Decoder:采用 Mimi vocoder 的因果卷積網(wǎng)絡(luò),將粗音碼與細音碼串聯(lián)后重建為連續(xù)波形。系統(tǒng)使用 8 個碼書,減少解碼器在每幀的自回歸步驟。



      這種模塊化的分層設(shè)計與原文所述的「統(tǒng)一 Transformer」不同,每個模塊各司其職,共同完成 S2S 推理和生成。

      2 交錯日程與流式推理

      為保證低延遲,Chroma 采用固定比例的文本 - 音頻交錯日程,論文中明確為1:2(即每個文本 token 對應(yīng)兩個音頻碼)。

      具體操作過程中,Reasoner 首先輸出文本 tokens 和隱藏狀態(tài);這些信息按上述比例交錯并輸入 Backbone 和 Decoder,后者再逐步生成離散聲學碼并由 Codec Decoder 重建為波形。

      這種管線非一步直接「映射」語音到輸出,而是通過多模塊間的分工協(xié)作進行聯(lián)合建模,從而避免了傳統(tǒng)級聯(lián)系統(tǒng)中的多次模態(tài)切換帶來的信息損失。

      3 參數(shù)規(guī)模與效率權(quán)衡

      Chroma 1.0 的模型規(guī)模約為 40 億參數(shù)級別。相較于追求超大模型規(guī)模,其設(shè)計更強調(diào)在延遲、吞吐與可部署性之間取得平衡:

      • Backbone:1 B參數(shù) —— 負責粗聲學碼生成;
      • Decoder:100 M參數(shù) —— 負責細化 RVQ;
      • Reasoner 與 Codec Decoder 規(guī)模保持相對穩(wěn)定。

      相較于 7 B–9 B 的大模型,該規(guī)模具有明顯效率優(yōu)勢,同時在多項指標上優(yōu)于 0.5 B 級別的小模型。

      三、核心技術(shù)指標評測

      根據(jù)論文與實驗結(jié)果,Chroma 在多個關(guān)鍵指標上表現(xiàn)出工程優(yōu)勢:



      需要指出的是,論文評測重點放在實時交互可用性和個性化聲音克隆上,而不是單一語音自然度指標。

      四、論文視角:Chroma 的研究貢獻

      從論文結(jié)構(gòu)來看,Chroma 的研究貢獻主要體現(xiàn)在三個層面:

      1. 實時語音建模范式:系統(tǒng)性論證了端到端 Speech-to-Speech 架構(gòu)在實時對話場景中的優(yōu)勢,并給出了工程可行的實現(xiàn)路徑。
      2. 交錯策略和模塊化設(shè)計:在數(shù)據(jù)表示和模型結(jié)構(gòu)上引入 1:2 文本–音頻交錯,并將Reasoner、Backbone、Decoder、Codec Decoder 分離。這種設(shè)計既降低延遲又兼顧語義推理和聲學細節(jié)。
      3. 合成訓練管線與評價方法:采用 LLM+TTS 構(gòu)建高質(zhì)量的語音到語音訓練數(shù)據(jù),并通過綜合的客觀指標(SIM、TTFT、RTF)和主觀評測(NCMOS、SCMOS)驗證系統(tǒng)性能。

      整體來看,該論文兼具工程導向和系統(tǒng)研究價值,而非單點算法突破。

      五、FlashAI:從模型到應(yīng)用的落地路徑

      Chroma 并非孤立模型,其首要應(yīng)用場景來自 FlashLabs 的語音產(chǎn)品FlashAI。在 FlashAI 中, Chroma 主要承擔實時語音交互引擎的角色,典型應(yīng)用包括:

      企業(yè)級呼叫與客服

      • 實時應(yīng)答,穩(wěn)定長對話;
      • 多語言支持;
      • 適用于呼叫中心、預(yù)約、售后等高并發(fā)場景。

      AI 語音代理(Voice Agent)

      • 結(jié)合知識庫與業(yè)務(wù)邏輯,直接在語音層面完成任務(wù)型對話;
      • 減少文本中轉(zhuǎn)延遲。

      跨語言語音交互

      • 統(tǒng)一語音建模降低系統(tǒng)切換成本;
      • 提升整體交互連貫性。

      六、理性總結(jié)

      綜合來看,Chroma 1.0 并非追求「最強語音模型」,而是明確聚焦于實時語音交互這一長期被低估的工程難題。其價值不在于單項指標的領(lǐng)先,而在于:

      • 將語音理解、語義建模與聲學生成解耦為多模塊聯(lián)合設(shè)計,擺脫傳統(tǒng)級聯(lián)系統(tǒng)瓶頸;
      • 通過 1:2 交錯策略與多碼書設(shè)計,將 TTFT 降至約 150 ms 并保持 RTF < 1;
      • 在個性化聲音克隆任務(wù)中實現(xiàn)對人類基線 10.96% 的相對提升,展示出對細節(jié)聲紋特征的捕捉能力;
      • 完整開放代碼與模型,降低了研究者與工程師進入門檻。

      當然,Chroma 目前在自然度評測(NCMOS)上仍落后于商業(yè)系統(tǒng) ElevenLabs,在多語言及情感控制方面亦有待進一步探索。然而,作為實時語音交互的重要基礎(chǔ)設(shè)施,其分層設(shè)計與數(shù)據(jù)生成策略為行業(yè)提供了可復用的藍圖。

      通過修正原文中的架構(gòu)描述和「直接映射」表述,這篇評測更準確地反映了 Chroma 的技術(shù)特點與工程取舍,有助于讀者理解這一系統(tǒng)在實時語音交互領(lǐng)域的價值。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      理想員工吐槽李想全員會:一句也聽不懂,找羅永浩聊就行了……

      理想員工吐槽李想全員會:一句也聽不懂,找羅永浩聊就行了……

      柴狗夫斯基
      2026-01-27 11:05:56
      馬德興:邵佳一組織國足召開學習會,明確提出要向U23國足學習

      馬德興:邵佳一組織國足召開學習會,明確提出要向U23國足學習

      懂球帝
      2026-01-27 11:55:12
      庫里華子缺席!森林狼大勝勇士終結(jié)5連敗升前六 戈貝爾15+17

      庫里華子缺席!森林狼大勝勇士終結(jié)5連敗升前六 戈貝爾15+17

      醉臥浮生
      2026-01-27 12:51:14
      廣州一男子稱電子交通卡被異常扣款一千四百多萬元,工作人員:是小米錢包顯示問題,并未造成實際扣款

      廣州一男子稱電子交通卡被異常扣款一千四百多萬元,工作人員:是小米錢包顯示問題,并未造成實際扣款

      大風新聞
      2026-01-27 12:15:03
      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應(yīng)

      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應(yīng)

      深圳晚報
      2026-01-27 10:15:25
      陳毅之子陳丹淮求學時遇同學攀比家世,被問及父親情況,他回應(yīng):我父親只是個處長

      陳毅之子陳丹淮求學時遇同學攀比家世,被問及父親情況,他回應(yīng):我父親只是個處長

      文史明鑒
      2026-01-26 18:00:13
      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      離離言幾許
      2026-01-26 16:15:54
      河南一國企老總曝雷人雷語:ZF第一不擔當,國企第二不擔當!

      河南一國企老總曝雷人雷語:ZF第一不擔當,國企第二不擔當!

      兵叔評說
      2026-01-27 11:27:18
      解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      新華社
      2026-01-24 23:03:04
      性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

      性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

      醫(yī)諾維
      2026-01-26 17:02:36
      投資20億!同程中心總部大廈開工,蘇州未來新地標!

      投資20億!同程中心總部大廈開工,蘇州未來新地標!

      GA環(huán)球建筑
      2026-01-26 18:02:24
      從“看得見”到“摸得著”,優(yōu)酷SVIP重構(gòu)雙向奔赴式會員生態(tài)

      從“看得見”到“摸得著”,優(yōu)酷SVIP重構(gòu)雙向奔赴式會員生態(tài)

      鏡像娛樂
      2026-01-09 15:18:16
      布朗20分8籃板5助凱爾特人送開拓者連敗,霍勒迪14分楊瀚森無出場

      布朗20分8籃板5助凱爾特人送開拓者連敗,霍勒迪14分楊瀚森無出場

      湖人崛起
      2026-01-27 11:39:15
      上海今天雨止,新一輪冷空氣將至并伴有降雨

      上海今天雨止,新一輪冷空氣將至并伴有降雨

      魯中晨報
      2026-01-27 09:11:10
      急了!俄羅斯開始用軍艦為油輪護航,烏軍4枚火烈鳥全部命中目標

      急了!俄羅斯開始用軍艦為油輪護航,烏軍4枚火烈鳥全部命中目標

      史政先鋒
      2026-01-26 21:19:31
      委內(nèi)瑞拉新政府宣布不承認馬杜羅及其所有債務(wù)

      委內(nèi)瑞拉新政府宣布不承認馬杜羅及其所有債務(wù)

      深度報
      2026-01-26 22:36:38
      前10名大學中有8所來自中國!最新世界大學排名引發(fā)震驚,浙大超哈佛位列全球第一

      前10名大學中有8所來自中國!最新世界大學排名引發(fā)震驚,浙大超哈佛位列全球第一

      觀威海
      2026-01-26 19:22:32
      牢A為啥會突然爆紅?因為他說了后半段真相!楊振寧那段話太可怕

      牢A為啥會突然爆紅?因為他說了后半段真相!楊振寧那段話太可怕

      李健政觀察
      2026-01-26 16:53:00
      特朗普:若遭暗殺,美國將把伊朗“從地球上抹去”

      特朗普:若遭暗殺,美國將把伊朗“從地球上抹去”

      揚子晚報
      2026-01-27 12:19:31
      蔡天鳳被碎尸案進展:死者前夫等3人被控謀殺,排期9月開審

      蔡天鳳被碎尸案進展:死者前夫等3人被控謀殺,排期9月開審

      界面新聞
      2026-01-27 13:54:32
      2026-01-27 14:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12196文章數(shù) 142551關(guān)注度
      往期回顧 全部

      科技要聞

      理想開始關(guān)店“過冬”,否認“百家”規(guī)模

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      體育要聞

      帶著母親遺愿戰(zhàn)斗12年,交易添頭成了隊魂

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經(jīng)要聞

      金價狂飆 “牛市神話”未完待續(xù)

      汽車要聞

      劍指小米YU7與特斯拉Model Y 問界M6要來了?

      態(tài)度原創(chuàng)

      游戲
      藝術(shù)
      家居
      房產(chǎn)
      健康

      格蕾絲越慫里昂越痛 《生化9》確認狂暴喪尸機制回歸

      藝術(shù)要聞

      日本東京國立博物館中的100幅宋畫

      家居要聞

      現(xiàn)代古典 中性又顯韻味

      房產(chǎn)要聞

      實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

      耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

      無障礙瀏覽 進入關(guān)懷版