網易首頁 > 網易號 > 正文申請入駐

豆包語音 2.0：數學公式也能讀

2025-10-16 13:11:13　來源: 賽博禪心

北京舉報

分享至

放個演示

公式能讀對，非常牛逼

這是字節新出的「豆包語音 2.0」

今天發布，這里訪問：

https://console.volcengine.com/speech/new/

我參與了這模型的內測，今天模型發布，來講講這玩意兒的不同之處：

對話式合成
復雜公式朗讀
聲音復刻升級

對話式合成

先比較下這兩段

這個是豆包語音2.0，可以設置情景：

[用哽咽但努力忍住、帶著笑意的語氣]謝謝你們……真的……我以為……我以為沒人記得我生日了……我今天一整天都在想，可能大家都忙吧，忘了也正常……我自己都快忘了……結果你們……你們居然……還準備了這么多……蛋糕也買了，禮物也有……你們這群壞蛋……我剛才還在那兒自怨自艾呢……覺得自己特別可憐……現在搞得我像個傻子一樣……眼淚都止不住了……真的……謝謝你們……有你們真好……

作為對比，這是 GPT-4o 的 tts，默認音色：

是不是感情豐富了？這就是「對話式合成」

給到上下文、指令和背景設定，AI 便會以更合適的口吻播出來

這里有三種方式：括號指令、語音指令和增加上文

方式1：括號指令

類似 prompt，你可以在句子前加指令，比如[生氣的說]，AI 并不會讀括號里的內容，而是會使用對應的口吻

出來的效果是這樣：

（我用了小姑娘的音色，奶兇奶兇）

再來一個

[興奮溢于言表]臥槽！過了過了！我他媽真的過了！剛看到offer郵件，我還以為系統出bug了，刷了好幾遍確認不是做夢！你知道嗎，這公司我面了三輪，每輪都覺得自己要掛，尤其最后那輪技術面，我有好幾個問題都沒答上來……結果他們還是要我了！而且薪資比我預期的還高五千！我現在坐在星巴克，手機都快被我刷壞了，就一直盯著那封郵件看……兄弟，我終于他媽要翻身了！

這中間的笑聲穿插，有些吞掉一半的字，絕了！要是不說，恐怕真沒人能察覺

通過這種方式，你可以控制每句話的場景

方式2：語音指令

類似 system prompt，你也可以通過對整段內容進行控制，比如情緒、方言、語速、語調等

舉幾個例子

吵架

指令： <你得跟我互懟！就是跟我用吵架的語氣對話>

合成文本：那你另請高明啊，你找我干嘛！我告訴你，你也不是什么好東西！

曖昧/悄悄話

指令： <用asmr的語氣來試試撩撩我>

合成文本：你知道嗎，我真的很喜歡你的聲音。你說話的時候，聲音特別溫柔，特別好聽，每次聽到你的聲音，我都覺得心里暖暖的，特別舒服。

方式3：增加上文

當然了，你也可以直接添加上文，讓音色更連貫

然后，你就有了這個（沒克隆音色）

做個比較：有上下文 vs 無上下文

無引用是這樣：

北京…因為我來，這是第二次，上一次是在一…八年還是什么時候來過一次但是時間很短也沒有時間去，真正的去游歷，所以北京對我來說…只是…還存在一種想象之中啊，嗯沒有太多的，直觀的體驗。

有引用是這樣，引用上文： <你怎么評價北京這個城市？>

合成文本：北京…因為我來，這是第二次，上一次是在一…八年還是什么時候來過一次但是時間很短也沒有時間去，真正的去游歷，所以北京對我來說…只是…還存在一種想象之中啊，嗯沒有太多的，直觀的體驗。

在這個 case 中，AI 理解了問詢的語境，呈現出思考和停頓的感覺

這里再多點例子

引用上文：

<是… 是你嗎？怎么看著… 好像沒怎么變啊？>

合成文本：你頭發長了… 以前總說留不長，十年了… 你還好嗎？

這三種方式，可以單獨用，也可以組合用

甚至再組合點別點工具

來完成個青頭潛鴨的繪本

說到這，突然想起一個事，算作冷知識

ChatGPT 之所以會火，很大程度上是【AI 理解了上下文】

其實吧，早在 2020 年，GPT-3 就有了

當時叫「達芬奇-003」，只有少量開發者在用

到了 2022 年 ChatGPT 發布，大火出圈

這兩者技術上差別不大，核心區別是什么？

3.5 給了 AI 以人格，給了他上下文，并進行了特別的后訓練

于是， AI 不再以「句子填空」為任務，轉而開始回答問題了

從接口的角度，GPT-3 的的時候，邏輯是這樣

人給到半句話，AI 接著向后補全：

輸入： 天空為什么是藍色的？因為 輸出（其實是補全）： 瑞利散射導致短波長的藍光更容易被散射...

而 ChatGPT 呢？是這樣：

System（預設）： 你是一個 helpful assistant User（用戶的輸入）： 天空為什么是藍色的 Assistant（AI 的輸出）： 這是個好問題！天空看起來是藍色的...

多了什么？

多了 role（角色）的概念

System、User、Assistant 這些 role 告訴 AI：

你是誰（助手、老師、朋友）
你該怎么說話（友好、專業、幽默）
你在什么場景下（課堂、聊天、工作）

正是這些東西讓 AI 從"補全工具"變成了"對話伙伴"

豆包語音 2.0 做的事情，本質上是一樣的給 TTS 加上了"人格"

復雜公式朗讀

回到最開始的那個 Case，令人咋舌的公式朗讀

再教學內容里，會涉及大量復雜符號

比如這樣的：∑、?、∫

講道理...這個 ∫ 咋讀啊

（好像都是直接說：從xx到xx的積分）

還有數學語義理解

比如 x2 要讀「x 的平方」，不能讀「x2」

這些東西，市面上的模型，普遍都得寄

豆包語音 2.0 則做了專項優化

小學到高中全學科的復雜公式

準確率能到 90%

這倆都是豆包讀的，說實話，挺狠的

不過這個功能目前只能通過 api 來調用，網頁上還得再等等

5 秒復刻音色

豆包語音 2.0 也支持你來自定義音色

https://console.volcengine.com/speech/new/experience/clone

比如讓豆包學我說話，有兩種做法：

1. 上傳一段我的語音

2. 直接錄制，對著「貝加爾湖」的文案讀一遍

支持中、英、日、西、葡等多語種

回望

這個 2.0 的模型，今天就能體驗了

入口：https://console.volcengine.com/speech/new/

回望一年前，那時候還叫 Seed-TTS 剛發論文

我也在第一時間做了報道

那個時候，豆包語音 1.0 搞定了「說得像」

超自然（堪比真人）
多情緒（喜怒哀樂）
多場景（26 個精品音色）

而今天上線的 豆包語音 2.0，則搞定了「說得對」，變得可以理解場景

1.0到2.0，從說得像，到說得對。一晃一年半了，頗多感慨

最后說兩句

這個語音模型，是字節在武漢的發布會放出來的

除了這個語音模型外，字節這次還更新了別的，比如：豆包 1.6 系列、圖像生成 Seedream 4.0、視頻生成 Seedance 1.0、編程模型等

大致如下，我畫了個一圖流

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.