<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從開源VibeVoice-ASR看語音模型的設計、數據、幻覺和未來

      0
      分享至

      最近,微軟開源了VibeVoice-ASR,我也第一時間進行了體驗。首先,對微軟團隊開源這個模型表示感謝。盡管在測試過程中發現了一些問題,但任何開源工作都值得尊重。作為開源工作,我們沒有任何理由要求太多,這些問題也都是可以解決的,況且微調代碼也即將開源。并且從我粗淺的直覺和簡陋的測試上得出的結論:如果可以從數據覆蓋上進一步優化,這個模型應該還是有潛力的。在此,我想基于這個工作,聊一聊VibeVoice-ASR的優點與不足,并分享一些對模型設計和數據的思考。

      多任務的模型設計

      雖然模型命名為VibeVoice-ASR,但它并非單純的語音轉文字模型。VibeVoice-ASR集成了說話人日志、時間戳以及部分聲音事件檢測功能。

      這樣的多任務設計符合大模型時代的技術趨勢,也契合未來的用戶需求。如今,僅實現語音轉錄已遠遠不夠。無論是底層模型還是上層應用,乃至用戶對智能體驗日益提升的期待,都要求我們從語音數據中提取更豐富的信息。用戶對產品的追求不再停留在基礎功能,而更多地轉向情感價值與類人體驗。


      關注聲音特性

      先吐個槽,我非常反感各類PR文章的自夸,動輒宣稱“世界第一”。(我能理解,畢竟要給投資人、客戶看,也需要曝光度。)但這種風氣很容易誤導行業外的人。畢竟,包括我在內,99%的負責人今天做什么,取決于早上在自媒體上刷到了什么(借用別人的段子)。

      我認為,聲音在機器理解用戶方面的價值被嚴重低估了。理解聲音,是通往“世界模型”、理解世界不可或缺的一環。

      遺憾的是,目前除了Gemini,我還沒看到能與之比肩的系統。我也認為這是谷歌布局未來重要的一步。(不得不提一句,至于那些號稱超越的,或許在某些測試集和指標上能實現超越,這一點我并不否認。)

      VibeVoice-ASR模型其實讓我有所期待。至少,它是開源模型中明確對聲紋進行建模的,并且在我真實測試集(家庭錄音,包括男性、女性、兒童)中,在區分度較大的場景下是可用的。

      • “建模聲紋很難嗎?”“是的?!?/p>

      • “聲紋識別現在做得很好了嗎?”“并沒有?!?/p>

      聲紋作為聲音的底層屬性,與語音語義有很大不同。識別一個人的聲紋,對人類來說也并非易事。我們覺得容易,大多是因為我們接觸的聲紋往往是“已注冊”的。從模型實現來看,聲紋的做法看似簡單,但實際效果并不理想,原因有多方面:

      極易受環境干擾

      與ASR相比,聲紋更易受聲學環境干擾。訓練數據的覆蓋范圍、環境噪聲、信道差異,以及注冊與使用條件的不一致,都會影響最終效果。

      聲紋具有時變性

      聲紋會隨時間發生漂移,比如兒童的聲音變化最快,不同兒童之間的聲音區分也很困難,成人的聲音也會因狀態(如感冒、情緒)而改變。

      聲紋數據自動標注困難

      從數據標注角度看,由于歷史上聲紋模型效果一般,再加上上述難點,導致自動化標注很難做到準確。

      幻覺問題較為突出

      在體驗VibeVoice-ASR模型的過程中,我發現最明顯的問題是幻覺。測試中,我注意到一個特別的現象:

      數據中孩子的哭聲極容易觸發模型的幻覺。

      最初我以為是數據過長(約30分鐘)導致的,于是特意將哭聲部分單獨截取出來測試,但幻覺依然出現,比如下面的例子:


      哭聲語譜圖


      哭聲幻覺識別結果

      另外一條數據,中間在含糊不清的地方發生幻覺:


      這背后最主要的原因,應該還是接下來要談的數據覆蓋問題。

      長度真的那么重要嗎?

      對于文本大模型,長度等于上下文,上下文窗口的確很重要。但對于語音模型,特別是偏重轉錄的模型,在當前階段,長度是否真的如此關鍵,我持保留態度。

      VibeVoice-ASR提出的理由是:


      首先,關于上下文斷裂問題——純音頻的上下文真能解決這個問題嗎?或許能部分緩解,但對多數場景來說,可能并非至關重要。文本層面的上下文或許已足以提升準確率。

      其次,工程復雜度方面,文中提到的說話人日志優勢我很認同,但這個和長度其實關系不是特別大,我認為更多的優勢來自于識別+說話人的聯合建模。短句說話人日志的確很困難,但幾分鐘的數據進行說話人相關的工作也沒有太大問題。如果可以把效果做好,后續通過一個混淆矩陣進行相同說話人的聚類。如果長語音識別確實可以做的好,那么降低系統復雜度的優勢肯定是有的。

      綜上所述,在當前條件尚不成熟的情況下,過度強調長度或許并不是最優先的。相比長度,我們更應關注模型的穩定性與準確性。當然,如果能處理更長的音頻,那自然是更好的。

      “垃圾”數據也有價值

      從我測試中遇到的幻覺問題,結合當前主流數據清洗流程的做法,會發現一個現象:

      人們常用多個模型交叉驗證,篩選出“有用且正確”的數據。

      什么是“有用且正確”的數據?如果一條數據包含文字,且多個模型識別結果一致,就被認為是有價值且標注正確的。那么,那些被過濾掉的數據,其價值又該如何看待?

      事實上,它們的價值在今天更應被重視。原因如下:

      幸存者偏差

      這種方式篩選出的數據,都是以往模型基礎上的“幸存者”,數據質量雖高,但對模型來說難度較低。換句話說,大量這類數據對模型能力的提升并無太大增益。如果模型只用這類數據訓練,那么無論輸入什么,哪怕是人耳都難以聽清的語音,模型都可能用最大似然的方式“猜”一個最可能的結果,而不是“承認困難”。一個懂得“示弱”的模型,或許也有其價值。

      垃圾”數據的價值

      所謂“垃圾數據”,正是那些被自動標注流程過濾掉的數據,它們的價值應當被重新審視。比如我測試數據中的哭聲片段,很可能會被清洗流程過濾掉。再加上這類聲音重復性強,更容易導致模型產生幻覺。

      在強化學習中,也應該加強對“壞”數據如何給予正確反饋的機制。

      總結

      非常高興看到越來越多的開源工作,推動模型能力逐步提升。同時我們也應認識到,語音遠非一個已被徹底解決的問題。無論是真實場景的數據表現,還是實際落地應用,都還有很長的路要走。隨著AI技術的進步,市場對更優秀的語音交互、合成與理解的需求顯著增加。真心希望有實力的公司能堅持投入,去做那些困難卻正確的事。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      西媒:西班牙隊決定不與國足熱身 世界第一選擇交手伊拉克

      西媒:西班牙隊決定不與國足熱身 世界第一選擇交手伊拉克

      新英體育
      2026-02-26 10:55:21
      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      “大學女兒非要買LV”視頻火了,網友:窮人穿上龍袍也不像太子

      “大學女兒非要買LV”視頻火了,網友:窮人穿上龍袍也不像太子

      妍妍教育日記
      2026-02-25 21:18:14
      古巴領海發生船只交火,美國國務卿:事件“極其罕見”,美方將調查

      古巴領海發生船只交火,美國國務卿:事件“極其罕見”,美方將調查

      環球網資訊
      2026-02-26 08:41:07
      美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

      美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

      念洲
      2026-02-26 08:33:10
      18歲亞馬爾新歡曝光:21歲網紅 巴薩鐵粉!取代閨蜜上位

      18歲亞馬爾新歡曝光:21歲網紅 巴薩鐵粉!取代閨蜜上位

      葉青足球世界
      2026-02-26 16:21:14
      歐洲小偷,都傳瘋了,達成了一個行業共識,中國人的錢包,隨便拿

      歐洲小偷,都傳瘋了,達成了一個行業共識,中國人的錢包,隨便拿

      西樓知趣雜談
      2026-02-14 18:35:51
      長達10年,女子被丈夫下藥供陌生人性侵,人數創紀錄讓女子崩潰

      長達10年,女子被丈夫下藥供陌生人性侵,人數創紀錄讓女子崩潰

      干史人
      2026-02-25 09:22:27
      威爾士公開賽:威廉姆斯雙雄出局,江俊一強勢晉級八強

      威爾士公開賽:威廉姆斯雙雄出局,江俊一強勢晉級八強

      老瑋是個手藝人
      2026-02-26 23:54:44
      朱德晚年養了6000多盆蘭花,因為毛主席的一句批評,忍痛全部送人

      朱德晚年養了6000多盆蘭花,因為毛主席的一句批評,忍痛全部送人

      小莜讀史
      2026-02-26 21:43:35
      我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當遺產

      我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當遺產

      i書與房
      2026-02-25 17:22:34
      36 歲離婚女子獨自過年崩潰痛哭:沒老公沒孩子,誰還會娶我

      36 歲離婚女子獨自過年崩潰痛哭:沒老公沒孩子,誰還會娶我

      一盅情懷
      2026-02-23 14:10:06
      NBA剩余賽程難度出爐!火箭17湖人15勇士12 馬刺沖擊第一再獲利好

      NBA剩余賽程難度出爐!火箭17湖人15勇士12 馬刺沖擊第一再獲利好

      鍋子籃球
      2026-02-26 21:17:28
      首發出場57分鐘,外媒:C羅被換下后臉上不滿的情緒清晰可見

      首發出場57分鐘,外媒:C羅被換下后臉上不滿的情緒清晰可見

      懂球帝
      2026-02-26 17:43:38
      離譜!江蘇29歲女子相親嫌男方,吐槽:31歲開10萬車也好意思來?

      離譜!江蘇29歲女子相親嫌男方,吐槽:31歲開10萬車也好意思來?

      川渝視覺
      2026-02-26 12:41:03
      財政壓力的下半場:退休人員占比近四成,才是硬賬

      財政壓力的下半場:退休人員占比近四成,才是硬賬

      超先聲
      2026-01-09 16:45:39
      A股:剛剛,中央一部門發布,釋放一信號,周五將迎來新的行情

      A股:剛剛,中央一部門發布,釋放一信號,周五將迎來新的行情

      云鵬敘事
      2026-02-27 00:00:07
      56歲李靜飛清邁陪戴軍過春節,兩個人手牽手散步,相處更像夫妻

      56歲李靜飛清邁陪戴軍過春節,兩個人手牽手散步,相處更像夫妻

      柒佰娛
      2026-02-26 10:54:00
      李海龍落馬背后的山東華聯商廈:曾是“小金花”,今是失信人

      李海龍落馬背后的山東華聯商廈:曾是“小金花”,今是失信人

      香港商報看山東
      2026-02-26 14:19:58
      美荷兩國曾同時發聲,對中國獨立研發的光刻機技術給予了強烈批評

      美荷兩國曾同時發聲,對中國獨立研發的光刻機技術給予了強烈批評

      嫹筆牂牂
      2026-02-26 19:35:26
      2026-02-27 03:56:49
      開源中國 incentive-icons
      開源中國
      每天為開發者推送最新技術資訊
      7600文章數 34502關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      美國政府對外交官下令:開始行動

      頭條要聞

      美國政府對外交官下令:開始行動

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      向華強公開表態 財產留給兒媳婦郭碧婷

      財經要聞

      中國AI調用量超美國 4款大模型霸榜前5

      汽車要聞

      40歲的吉利,不惑于內外

      態度原創

      教育
      時尚
      游戲
      本地
      藝術

      教育要聞

      今年春假,到底在清明前還是清明后?官方最新回復來了

      今年春天最美搭配:西裝+半裙,怎么穿都好看!

      穿不起內衣的啥子國王,是怎么從妮姬表情包之王變成底層邏輯的?

      本地新聞

      津南好·四時總相宜

      藝術要聞

      莫妮卡、麥當娜……這個法國女人拍遍了全世界的性感女神!

      無障礙瀏覽 進入關懷版