字節今天發布了 Seedance 1.5 pro,原生音視頻聯合生成
劃重點 視頻、聲音同時生成,而非先出視頻、再配音對口型
![]()
本文里,我將以盡可能易懂的方式,講講其原理
保證中學生能看懂
如果你需要更專業、細致的了解,可以看這個技術報告https://arxiv.org/abs/2512.13507v2
![]()
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model
先看兩個案例,感受下這個技術
案例一:火鍋店,三代人,三種口音
重慶火鍋店包間,三人圍坐吃火鍋,熱氣騰騰。畫面左側的老人用重慶話說「這個毛肚七上八下,剛剛好」,說完夾起毛肚。畫面中間的中年男人給右側的年輕人夾菜,用普通話說「慢點吃,小心燙」。年輕人吃完后用上海話說「爺爺,辣是辣,不過老靈額」。老人聽完哈哈大笑拍桌子,三人相視而笑。全程緩慢推鏡,背景是火鍋沸騰聲和餐廳環境音
案例二:審訊室,甩鏡,微表情
女人坐在昏暗的審訊桌前,神情嚴肅,不屑的翻看著資料,女人說:“前面你說了這么多,聽起來天衣無縫的。”說完后,鏡頭向左邊方向快速甩鏡。此時畫外音女偵探有力量的語調快速問”你是AI吧?!“特寫男人的面部,圍繞男人緩慢旋轉的推鏡頭,推鏡至五官,男人表情緊張,眼睛微微睜大,流露出一絲絲輕微的不安感。男人聽完單手摘下眼鏡,低下頭,停頓一下,抬頭皺眉,然后從抿嘴轉為嘴角微笑的表情,輕微咽一下口水,隨后微笑著問:”你怎么知道?“
Seedance 1.5 pro
12 月 18 日,火山的 FORCE 原動力大會上,發布了豆包視頻生成模型 Seedance 1.5 pro,核心賣點是「原生音視頻聯合生成」
這個模型,能做四件事:
?
文本生成音視頻(T2VA):你寫一段描述,它生成帶聲音的視頻?
圖片生成音視頻(I2VA):你給一張圖,它生成帶聲音的視頻?
文本生成視頻(T2V):傳統的文生視頻,不帶聲音?
圖片生成視頻(I2V):傳統的圖生視頻,不帶聲音
之前一些音畫同出,是「縫合怪」:模型先生成畫面,然后再來配音
問題在于,視頻已經定型了,口型已經固定了,配音只能盡量去對。對不上的地方就會穿幫,行業里管這個叫「腹語效應」
Seedance 1.5 pro 則做到了音視頻同時生成,兩邊持續交換信息
視頻流知道現在該說什么話,音頻流知道現在畫面是什么表情
![]()
音視頻同時生成 架構是怎樣的
Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構
Diffusion Transformer
Diffusion Transformer 這是當前視頻生成的主流架構
Sora 用的是這個,Kling 用的是這個,Veo 也是
方式大概是這樣,從一張全是噪點的圖開始,一步一步去掉噪點,最后得到清晰的視頻
每去一步噪,模型會參考你的文本描述,決定「往哪個方向去」
![]()
Diffusion Transformer 再說什么是「雙分支」
傳統的視頻生成模型,只有一個分支,只管生成畫面
Seedance 1.5 pro 有兩個分支,一個負責視頻,一個負責音頻,兩條線同時跑
那么,兩條線怎么協作?
答:中間有一個「跨模態聯合模塊」,讓兩個分支在生成過程中持續交換信息
視頻分支在去噪的時候,會收到音頻分支的信號:現在這個時間點,音頻那邊在生成一句話,這句話的口型是這樣的
音頻分支在生成的時候,也會收到視頻分支的信號:現在畫面里的人嘴張開了,你這邊得出聲;畫面里的人嘴閉上了,你這邊得停
通過這種方式,生成出來的視頻和音頻,時間上是同步的,語義上是一致的
![]()
架構示意圖
技術基礎是 MMDiT(Multimodal Diffusion Transformer)
Stable Diffusion 3 用的就是這個架構
Seed 團隊在這個基礎上加了音頻分支和跨模態交互機制
訓練數據怎么搞
模型能力的上限,很大程度上是數據決定的。Seedance 1.5 pro 在數據處理上做了三件事
第一件事:篩數據
網上能爬到的視頻很多,但大部分不能直接拿來訓練
技術報告里說,篩選管線優先保證三件事:音視頻一致性、動作表現力、以及后面會提到的課程式調度
舉個例子:
?
音視頻同步:畫面里的人在說話,但口型對不上的;畫面里有動作,但沒有對應聲音的,篩掉?
表現力:動作幅度不夠、表情變化不豐富的,篩掉
篩完幾輪,數據量會大幅減少,但剩下的都是能用的
![]()
數據篩選
第二件事:打標簽
每條數據都要告訴模型「這里面有什么」
視頻的標簽包括:畫面里有幾個人、在做什么動作、互相之間有什么互動、鏡頭怎么運動
![]()
給模型數據,打上標簽
音頻的標簽分兩類:
1.
人聲標簽——這段聲音是說話、還是唱歌、還是笑聲嘆氣。如果是說話,說的什么語言、什么口音、什么情緒。比如這是「普通話,女性,開心」,那是「四川話,男性,疲憊」2.
非人聲標簽——這段聲音是環境音還是音樂。環境音的話,聲源是什么:車流聲、雨聲、鍵盤敲擊聲。音樂的話,什么流派、什么節奏
這套標簽打得很細,技術報告里說是「professional-grade descriptions」,專業級的描述
![]()
技術報告的原內容
第三件事:安排訓練順序
數據弄好后,拿去訓練,也是分先后順序的
技術報告里叫「curriculum-based data scheduling」,課程式數據調度
具體怎么安排的,報告沒有展開。但課程學習的一種做法是:
先讓模型學簡單的:一個人、正面鏡頭、說話清晰、口型明顯
學會了,再喂難一點的:兩三個人、有互動、有鏡頭切換
最后喂最難的:多人多語言、復雜鏡頭調度、微表情遞進
![]()
課程式數據調度 訓練步驟
Seedance 1.5 pro 的訓練分三步走:預訓練、SFT、RLHF
![]()
訓練流程 第一步:預訓練
這一步,是讓模型「能生成」
這一步用的數據量大、種類多。既有純視頻,也有純音頻,也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學會
這一步結束,模型已經能根據文本描述生成帶聲音的視頻了,但質量不穩定,有時候好有時候差
第二步:SFT(監督微調)
這一步,是讓模型「生成得好」
這一步用的數據量小,但質量高。每一條都是精挑細選的:畫面精美、音頻清晰、口型完全對齊、情緒表達到位
讓模型學習這些高質量樣本,知道「好的生成結果長什么樣」
第三步:RLHF(人類反饋強化學習)
這一步,是讓模型「符合審美」
RLHF 的邏輯是:讓人來評判模型的生成結果,告訴模型「這個好、那個不好」,模型根據反饋調整自己
圍繞這個,Seed 團隊訓練了一個「獎勵模型」,這個獎勵模型學會了人類的評判標準,可以自動給生成結果打分
打分有三個維度:動作質量:動作流不流暢、物理上合不合理、有沒有穿模(比如手穿過桌子)視覺美學:畫面好不好看、構圖合不合理、色彩協不協調音頻保真度:聲音清不清晰、有沒有雜音、情緒表達對不對
模型每生成一個結果,獎勵模型從這三個維度打分。分數高的,說明方向對了,繼續往這個方向走;分數低的,說明方向錯了,調整策略
這一步的訓練量很大,Seed 團隊專門優化了訓練管線,速度提升了近 3 倍。同樣的時間,能讓模型學到更多反饋
推理優化
視頻生成,通常很慢,生成一個 10 秒的視頻,可能要算好幾分鐘
因為要一步一步去噪,每一步都是大量計算
Seedance 1.5 pro 把推理速度提升了 10 倍以上
怎么做到的?三層優化
![]()
三層優化 第一層:蒸餾
原本模型生成一個視頻可能要 100 步去噪,太慢了
蒸餾的做法是:訓練一個「學生模型」,讓它模仿「老師模型」的行為。老師用 100 步才能做到的事,學生可能 10 步就能做到差不多的效果
步數少了,計算量就少了,速度就快了
Seed 團隊用的是多階段蒸餾,分好幾輪來壓縮步數,每一輪都盡量保證質量不掉
第二層:量化
模型參數通常用 32 位浮點數存儲,精度高,但計算量大
量化就是把精度降下來,32 位變 16 位,甚至 8 位。精度低了,計算量就小了,速度就快了
當然不能降太多,否則生成質量會明顯下滑。Seed 團隊找了一個平衡點:精度降到一定程度,速度提升明顯,質量基本不掉
第三層:并行
視頻生成的計算量很大,一個 GPU 算不過來
并行就是把任務拆開,分給多個 GPU 同時干活,最后把結果合起來
三層優化疊加,端到端加速超過 10 倍
評測對比
Seed 團隊建了一套評測基準叫 SeedVideoBench 1.5
請專業電影導演定標準,請電影制作、攝影、設計領域的專家做人工評測
與各類模型進行對比:Kling 2.5、Kling 2.6、Veo 3.1、Sora 2、Seedance 1.0 Pro
![]()
評測數據
具體的評測信息如下
視頻能力
評測維度:動作質量、指令跟隨、視覺美學
T2V 任務(文本生成視頻):
![]()
T2V 視頻評測
? 指令跟隨:Seedance 1.5 pro 領先
? 視覺美學和動作質量:和 Kling 2.6、Veo 3.1 有競爭力
I2V 任務(圖片生成視頻):
? 各項指標穩定,比上一代 Seedance 1.0 Pro 有明顯提升
音頻能力
評測維度:音頻指令跟隨、音頻質量、音視頻同步、音頻表現力
和 Kling 2.6、Veo 3.1、Sora 2 對比:
在中文語境上,Seedance 1.5 pro 在中文對話、方言、獨白的生成上,準確度高于 Veo 3.1。基本沒有吞字、發音錯誤
在口型匹配上,Seedance 1.5 pro 能正確對應說話角色的數量和身份。在這個維度上超過 Veo 3.1 和 Kling 2.6
在音頻表現力上,Sora 2 在情緒表達上更「夸張」,Seedance 1.5 pro 更「克制」。技術報告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩定調性控制的專業制作場景更合適
![]()
T2V 音頻評測
I2V 音頻評測 即將上線:Draft 樣片功能
AI 生成視頻有個老問題:抽盲盒
為了一個理想的鏡頭,可能要反復試很多次
每次都是全分辨率生成,等半天,算力消耗大
Draft 樣片功能解決這個問題
? 第一步,先生成低分辨率的預覽。速度快,成本低
? 第二步,看預覽。不滿意就調 prompt,重新生成預覽
? 第三步,預覽滿意了,再生成高清成片
預覽和成片之間,是高保真一致的
預覽里的畫面構圖、人物動作、口型節奏,成片里都會保留
不會出現「預覽挺好,成片變樣」的情況
官方數據:創作效率提升 50%,推理成本最高節約 60%
![]()
Draft 樣片功能 以及
![]()
這個模型,已上線了,帶來了原生的「有聲片」,并且更符合本土需求,可通過多渠道進行訪問
個人/企業用戶
可在即夢 AI、豆包 APP、火山方舟體驗中心體驗
![]()
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo
API 用戶
可在 12 月 23 日起可在火山引擎使用 API,模型名稱: Doubao-Seedance-1.5-pro
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.