網易首頁 > 網易號 > 正文申請入駐

字節 Seedance 1.5 pro，如何實現「音畫同出」：中學生能看懂

2025-12-18 13:00:28　來源: 賽博禪心

北京舉報

分享至

字節今天發布了 Seedance 1.5 pro，原生音視頻聯合生成
劃重點 視頻、聲音同時生成，而非先出視頻、再配音對口型

本文里，我將以盡可能易懂的方式，講講其原理
保證中學生能看懂

如果你需要更專業、細致的了解，可以看這個技術報告
https://arxiv.org/abs/2512.13507v2

Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

先看兩個案例，感受下這個技術

案例一：火鍋店，三代人，三種口音

重慶火鍋店包間，三人圍坐吃火鍋，熱氣騰騰。畫面左側的老人用重慶話說「這個毛肚七上八下，剛剛好」，說完夾起毛肚。畫面中間的中年男人給右側的年輕人夾菜，用普通話說「慢點吃，小心燙」。年輕人吃完后用上海話說「爺爺，辣是辣，不過老靈額」。老人聽完哈哈大笑拍桌子，三人相視而笑。全程緩慢推鏡，背景是火鍋沸騰聲和餐廳環境音

案例二：審訊室，甩鏡，微表情

女人坐在昏暗的審訊桌前，神情嚴肅，不屑的翻看著資料，女人說：“前面你說了這么多，聽起來天衣無縫的。”說完后，鏡頭向左邊方向快速甩鏡。此時畫外音女偵探有力量的語調快速問”你是AI吧？！“特寫男人的面部，圍繞男人緩慢旋轉的推鏡頭，推鏡至五官，男人表情緊張，眼睛微微睜大，流露出一絲絲輕微的不安感。男人聽完單手摘下眼鏡，低下頭，停頓一下，抬頭皺眉，然后從抿嘴轉為嘴角微笑的表情，輕微咽一下口水，隨后微笑著問：”你怎么知道？“

Seedance 1.5 pro

12 月 18 日，火山的 FORCE 原動力大會上，發布了豆包視頻生成模型 Seedance 1.5 pro，核心賣點是「原生音視頻聯合生成」

這個模型，能做四件事：

? 文本生成音視頻（T2VA） ：你寫一段描述，它生成帶聲音的視頻
? 圖片生成音視頻（I2VA） ：你給一張圖，它生成帶聲音的視頻
? 文本生成視頻（T2V） ：傳統的文生視頻，不帶聲音
? 圖片生成視頻（I2V） ：傳統的圖生視頻，不帶聲音

四種能力，同一個模型

之前一些音畫同出，是「縫合怪」：模型先生成畫面，然后再來配音

問題在于，視頻已經定型了，口型已經固定了，配音只能盡量去對。對不上的地方就會穿幫，行業里管這個叫「腹語效應」

Seedance 1.5 pro 則做到了音視頻同時生成，兩邊持續交換信息

視頻流知道現在該說什么話，音頻流知道現在畫面是什么表情

音視頻同時生成架構是怎樣的

Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構

Diffusion Transformer

Diffusion Transformer 這是當前視頻生成的主流架構
Sora 用的是這個，Kling 用的是這個，Veo 也是

方式大概是這樣，從一張全是噪點的圖開始，一步一步去掉噪點，最后得到清晰的視頻

每去一步噪，模型會參考你的文本描述，決定「往哪個方向去」

Diffusion Transformer 再說什么是「雙分支」

傳統的視頻生成模型，只有一個分支，只管生成畫面
Seedance 1.5 pro 有兩個分支，一個負責視頻，一個負責音頻，兩條線同時跑

那么，兩條線怎么協作？
答：中間有一個「跨模態聯合模塊」，讓兩個分支在生成過程中持續交換信息

視頻分支在去噪的時候，會收到音頻分支的信號：
現在這個時間點，音頻那邊在生成一句話，這句話的口型是這樣的

音頻分支在生成的時候，也會收到視頻分支的信號：
現在畫面里的人嘴張開了，你這邊得出聲；畫面里的人嘴閉上了，你這邊得停

通過這種方式，生成出來的視頻和音頻，時間上是同步的，語義上是一致的

架構示意圖

技術基礎是 MMDiT（Multimodal Diffusion Transformer）
Stable Diffusion 3 用的就是這個架構
Seed 團隊在這個基礎上加了音頻分支和跨模態交互機制

訓練數據怎么搞

模型能力的上限，很大程度上是數據決定的。Seedance 1.5 pro 在數據處理上做了三件事

第一件事：篩數據

網上能爬到的視頻很多，但大部分不能直接拿來訓練

技術報告里說，篩選管線優先保證三件事：音視頻一致性、動作表現力、以及后面會提到的課程式調度

舉個例子：

? 音視頻同步 ：畫面里的人在說話，但口型對不上的；畫面里有動作，但沒有對應聲音的，篩掉
? 表現力 ：動作幅度不夠、表情變化不豐富的，篩掉

篩完幾輪，數據量會大幅減少，但剩下的都是能用的

數據篩選

第二件事：打標簽

每條數據都要告訴模型「這里面有什么」

視頻的標簽包括：畫面里有幾個人、在做什么動作、互相之間有什么互動、鏡頭怎么運動

給模型數據，打上標簽

音頻的標簽分兩類：

1. 人聲標簽 ——這段聲音是說話、還是唱歌、還是笑聲嘆氣。如果是說話，說的什么語言、什么口音、什么情緒。比如這是「普通話，女性，開心」，那是「四川話，男性，疲憊」
2. 非人聲標簽 ——這段聲音是環境音還是音樂。環境音的話，聲源是什么：車流聲、雨聲、鍵盤敲擊聲。音樂的話，什么流派、什么節奏

這套標簽打得很細，技術報告里說是「professional-grade descriptions」，專業級的描述

技術報告的原內容

第三件事：安排訓練順序

數據弄好后，拿去訓練，也是分先后順序的
技術報告里叫「curriculum-based data scheduling」，課程式數據調度

具體怎么安排的，報告沒有展開。但課程學習的一種做法是：
先讓模型學簡單的：一個人、正面鏡頭、說話清晰、口型明顯
學會了，再喂難一點的：兩三個人、有互動、有鏡頭切換
最后喂最難的：多人多語言、復雜鏡頭調度、微表情遞進

課程式數據調度訓練步驟

Seedance 1.5 pro 的訓練分三步走：預訓練、SFT、RLHF

訓練流程第一步：預訓練

這一步，是讓模型「能生成」

這一步用的數據量大、種類多。既有純視頻，也有純音頻，也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學會

這一步結束，模型已經能根據文本描述生成帶聲音的視頻了，但質量不穩定，有時候好有時候差

第二步：SFT（監督微調）

這一步，是讓模型「生成得好」

這一步用的數據量小，但質量高。每一條都是精挑細選的：畫面精美、音頻清晰、口型完全對齊、情緒表達到位

讓模型學習這些高質量樣本，知道「好的生成結果長什么樣」

第三步：RLHF（人類反饋強化學習）

這一步，是讓模型「符合審美」

RLHF 的邏輯是：讓人來評判模型的生成結果，告訴模型「這個好、那個不好」，模型根據反饋調整自己

圍繞這個，Seed 團隊訓練了一個「獎勵模型」，這個獎勵模型學會了人類的評判標準，可以自動給生成結果打分

打分有三個維度：
動作質量：動作流不流暢、物理上合不合理、有沒有穿模（比如手穿過桌子）
視覺美學：畫面好不好看、構圖合不合理、色彩協不協調
音頻保真度：聲音清不清晰、有沒有雜音、情緒表達對不對

模型每生成一個結果，獎勵模型從這三個維度打分。分數高的，說明方向對了，繼續往這個方向走；分數低的，說明方向錯了，調整策略

這一步的訓練量很大，Seed 團隊專門優化了訓練管線，速度提升了近 3 倍。同樣的時間，能讓模型學到更多反饋

推理優化

視頻生成，通常很慢，生成一個 10 秒的視頻，可能要算好幾分鐘

因為要一步一步去噪，每一步都是大量計算

Seedance 1.5 pro 把推理速度提升了 10 倍以上
怎么做到的？三層優化

三層優化第一層：蒸餾

原本模型生成一個視頻可能要 100 步去噪，太慢了

蒸餾的做法是：訓練一個「學生模型」，讓它模仿「老師模型」的行為。老師用 100 步才能做到的事，學生可能 10 步就能做到差不多的效果

步數少了，計算量就少了，速度就快了

Seed 團隊用的是多階段蒸餾，分好幾輪來壓縮步數，每一輪都盡量保證質量不掉

第二層：量化

模型參數通常用 32 位浮點數存儲，精度高，但計算量大

量化就是把精度降下來，32 位變 16 位，甚至 8 位。精度低了，計算量就小了，速度就快了

當然不能降太多，否則生成質量會明顯下滑。Seed 團隊找了一個平衡點：精度降到一定程度，速度提升明顯，質量基本不掉

第三層：并行

視頻生成的計算量很大，一個 GPU 算不過來

并行就是把任務拆開，分給多個 GPU 同時干活，最后把結果合起來

三層優化疊加，端到端加速超過 10 倍

評測對比

Seed 團隊建了一套評測基準叫 SeedVideoBench 1.5
請專業電影導演定標準，請電影制作、攝影、設計領域的專家做人工評測

與各類模型進行對比：Kling 2.5、Kling 2.6、Veo 3.1、Sora 2、Seedance 1.0 Pro

評測數據

具體的評測信息如下

視頻能力

評測維度：動作質量、指令跟隨、視覺美學

T2V 任務（文本生成視頻）：

T2V 視頻評測

? 指令跟隨：Seedance 1.5 pro 領先
? 視覺美學和動作質量：和 Kling 2.6、Veo 3.1 有競爭力

I2V 任務（圖片生成視頻）：

? 各項指標穩定，比上一代 Seedance 1.0 Pro 有明顯提升

I2V 視頻評測

音頻能力

評測維度：音頻指令跟隨、音頻質量、音視頻同步、音頻表現力

和 Kling 2.6、Veo 3.1、Sora 2 對比：

在中文語境上，Seedance 1.5 pro 在中文對話、方言、獨白的生成上，準確度高于 Veo 3.1。基本沒有吞字、發音錯誤

在口型匹配上，Seedance 1.5 pro 能正確對應說話角色的數量和身份。在這個維度上超過 Veo 3.1 和 Kling 2.6

在音頻表現力上，Sora 2 在情緒表達上更「夸張」，Seedance 1.5 pro 更「克制」。技術報告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩定調性控制的專業制作場景更合適

T2V 音頻評測 I2V 音頻評測即將上線：Draft 樣片功能

AI 生成視頻有個老問題：抽盲盒

為了一個理想的鏡頭，可能要反復試很多次
每次都是全分辨率生成，等半天，算力消耗大

Draft 樣片功能解決這個問題

? 第一步，先生成低分辨率的預覽。速度快，成本低
? 第二步，看預覽。不滿意就調 prompt，重新生成預覽
? 第三步，預覽滿意了，再生成高清成片

預覽和成片之間，是高保真一致的
預覽里的畫面構圖、人物動作、口型節奏，成片里都會保留
不會出現「預覽挺好，成片變樣」的情況

官方數據：創作效率提升 50%，推理成本最高節約 60%

Draft 樣片功能以及

這個模型，已上線了，帶來了原生的「有聲片」，并且更符合本土需求，可通過多渠道進行訪問

個人/企業用戶
可在即夢 AI、豆包 APP、火山方舟體驗中心體驗

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo

API 用戶
可在 12 月 23 日起可在火山引擎使用 API，模型名稱： Doubao-Seedance-1.5-pro

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.