放個演示
公式能讀對,非常牛逼
這是字節新出的「豆包語音 2.0」
今天發布,這里訪問:
https://console.volcengine.com/speech/new/
![]()
我參與了這模型的內測,今天模型發布,來講講這玩意兒的不同之處:
- 對話式合成
- 復雜公式朗讀
- 聲音復刻升級
對話式合成
先比較下這兩段
這個是 豆包語音2.0,可以設置情景:
[用哽咽但努力忍住、帶著笑意的語氣]謝謝你們……真的……我以為……我以為沒人記得我生日了……我今天一整天都在想,可能大家都忙吧,忘了也正常……我自己都快忘了……結果你們……你們居然……還準備了這么多……蛋糕也買了,禮物也有……你們這群壞蛋……我剛才還在那兒自怨自艾呢……覺得自己特別可憐……現在搞得我像個傻子一樣……眼淚都止不住了……真的……謝謝你們……有你們真好……
作為對比,這是 GPT-4o 的 tts,默認音色:
是不是感情豐富了?這就是「對話式合成」
給到上下文、指令和背景設定,AI 便會以更合適的口吻播出來
這里有三種方式:括號指令、語音指令和增加上文
方式1:括號指令
類似 prompt,你可以在句子前加指令,比如[生氣的說],AI 并不會讀括號里的內容,而是會使用對應的口吻

出來的效果是這樣:
(我用了小姑娘的音色,奶兇奶兇)
再來一個
[興奮溢于言表]臥槽!過了過了!我他媽真的過了!剛看到offer郵件,我還以為系統出bug了,刷了好幾遍確認不是做夢!你知道嗎,這公司我面了三輪,每輪都覺得自己要掛,尤其最后那輪技術面,我有好幾個問題都沒答上來……結果他們還是要我了!而且薪資比我預期的還高五千!我現在坐在星巴克,手機都快被我刷壞了,就一直盯著那封郵件看……兄弟,我終于他媽要翻身了!
這中間的笑聲穿插,有些吞掉一半的字,絕了!要是不說,恐怕真沒人能察覺
通過這種方式,你可以控制每句話的場景
方式2:語音指令
類似 system prompt,你也可以通過對整段內容進行控制,比如情緒、方言、語速、語調等

舉幾個例子
吵架
指令: <你得跟我互懟!就是跟我用吵架的語氣對話>
合成文本: 那你另請高明啊,你找我干嘛!我告訴你,你也不是什么好東西!
曖昧/悄悄話
指令: <用asmr的語氣來試試撩撩我>
合成文本: 你知道嗎,我真的很喜歡你的聲音。你說話的時候,聲音特別溫柔,特別好聽,每次聽到你的聲音,我都覺得心里暖暖的,特別舒服。
方式3:增加上文
當然了,你也可以直接添加上文,讓音色更連貫

然后,你就有了這個(沒克隆音色)
做個比較:有上下文 vs 無上下文
無引用是這樣:
北京…因為我來,這是第二次,上一次是在一…八年還是什么時候來過一次但是時間很短也沒有時間去,真正的去游歷,所以北京對我來說…只是…還存在一種想象之中啊,嗯沒有太多的,直觀的體驗。
有引用是這樣,引用上文: <你怎么評價北京這個城市?>
合成文本: 北京…因為我來,這是第二次,上一次是在一…八年還是什么時候來過一次但是時間很短也沒有時間去,真正的去游歷,所以北京對我來說…只是…還存在一種想象之中啊,嗯沒有太多的,直觀的體驗。
在這個 case 中,AI 理解了問詢的語境,呈現出思考和停頓的感覺
這里再多點例子
引用上文:
<是… 是你嗎?怎么看著… 好像沒怎么變啊?>
合成文本: 你頭發長了… 以前總說留不長,十年了… 你還好嗎?
這三種方式,可以單獨用,也可以組合用
甚至再組合點別點工具
來完成個青頭潛鴨的繪本
說到這,突然想起一個事,算作冷知識
ChatGPT 之所以會火,很大程度上是【AI 理解了上下文】
其實吧,早在 2020 年,GPT-3 就有了
當時叫「達芬奇-003」,只有少量開發者在用
到了 2022 年 ChatGPT 發布,大火出圈
這兩者技術上差別不大,核心區別是什么?
3.5 給了 AI 以人格,給了他上下文,并進行了特別的后訓練
于是, AI 不再以「句子填空」為任務,轉而開始回答問題了
從接口的角度,GPT-3 的的時候,邏輯是這樣
人給到半句話,AI 接著向后補全:
輸入: 天空為什么是藍色的?因為 輸出(其實是補全): 瑞利散射導致短波長的藍光更容易被散射...而 ChatGPT 呢?是這樣:
System(預設): 你是一個 helpful assistant User(用戶的輸入): 天空為什么是藍色的 Assistant(AI 的輸出): 這是個好問題!天空看起來是藍色的...多了什么?
多了 role(角色)的概念
System、User、Assistant 這些 role 告訴 AI:
- 你是誰(助手、老師、朋友)
- 你該怎么說話(友好、專業、幽默)
- 你在什么場景下(課堂、聊天、工作)
正是這些東西 讓 AI 從"補全工具"變成了"對話伙伴"
豆包語音 2.0 做的事情,本質上是一樣的 給 TTS 加上了"人格"
復雜公式朗讀
回到最開始的那個 Case,令人咋舌的公式朗讀
再教學內容里,會涉及大量復雜符號
比如這樣的:∑、?、∫
講道理...這個 ∫ 咋讀啊
(好像都是直接說:從xx到xx的積分)
還有數學語義理解
比如 x2 要讀「x 的平方」,不能讀「x2」
這些東西,市面上的模型,普遍都得寄
豆包語音 2.0 則做了專項優化
小學到高中全學科的復雜公式
準確率能到 90%
這倆都是豆包讀的,說實話,挺狠的
不過這個功能目前只能通過 api 來調用,網頁上還得再等等
5 秒復刻音色
豆包語音 2.0 也支持你來自定義音色
https://console.volcengine.com/speech/new/experience/clone
比如讓豆包學我說話,有兩種做法:
1. 上傳一段我的語音
2. 直接錄制,對著「貝加爾湖」的文案讀一遍
![]()
支持中、英、日、西、葡等多語種
回望
這個 2.0 的模型,今天就能體驗了
入口:https://console.volcengine.com/speech/new/
![]()
回望一年前,那時候還叫 Seed-TTS 剛發論文
我也在第一時間做了報道
那個時候,豆包語音 1.0 搞定了「說得像」
- 超自然(堪比真人)
- 多情緒(喜怒哀樂)
- 多場景(26 個精品音色)
而今天上線的 豆包語音 2.0,則搞定了「說得對」,變得可以理解場景
1.0到2.0,從說得像,到說得對。一晃一年半了,頗多感慨
最后說兩句
這個語音模型,是字節在武漢的發布會放出來的
除了這個語音模型外,字節這次還更新了別的,比如:豆包 1.6 系列、圖像生成 Seedream 4.0、視頻生成 Seedance 1.0、編程模型等
大致如下,我畫了個一圖流
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.