<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節 Seedance 1.5 pro,如何實現「音畫同出」:中學生能看懂

      0
      分享至

      字節今天發布了 Seedance 1.5 pro,原生音視頻聯合生成
      劃重點 視頻、聲音同時生成,而非先出視頻、再配音對口型


      本文里,我將以盡可能易懂的方式,講講其原理
      保證中學生能看懂

      如果你需要更專業、細致的了解,可以看這個技術報告
      https://arxiv.org/abs/2512.13507v2


      Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

      先看兩個案例,感受下這個技術

      案例一:火鍋店,三代人,三種口音

      重慶火鍋店包間,三人圍坐吃火鍋,熱氣騰騰。畫面左側的老人用重慶話說「這個毛肚七上八下,剛剛好」,說完夾起毛肚。畫面中間的中年男人給右側的年輕人夾菜,用普通話說「慢點吃,小心燙」。年輕人吃完后用上海話說「爺爺,辣是辣,不過老靈額」。老人聽完哈哈大笑拍桌子,三人相視而笑。全程緩慢推鏡,背景是火鍋沸騰聲和餐廳環境音

      案例二:審訊室,甩鏡,微表情

      女人坐在昏暗的審訊桌前,神情嚴肅,不屑的翻看著資料,女人說:“前面你說了這么多,聽起來天衣無縫的。”說完后,鏡頭向左邊方向快速甩鏡。此時畫外音女偵探有力量的語調快速問”你是AI吧?!“特寫男人的面部,圍繞男人緩慢旋轉的推鏡頭,推鏡至五官,男人表情緊張,眼睛微微睜大,流露出一絲絲輕微的不安感。男人聽完單手摘下眼鏡,低下頭,停頓一下,抬頭皺眉,然后從抿嘴轉為嘴角微笑的表情,輕微咽一下口水,隨后微笑著問:”你怎么知道?“

      Seedance 1.5 pro

      12 月 18 日,火山的 FORCE 原動力大會上,發布了豆包視頻生成模型 Seedance 1.5 pro,核心賣點是「原生音視頻聯合生成

      這個模型,能做四件事:

      • ? 文本生成音視頻(T2VA) :你寫一段描述,它生成帶聲音的視頻

      • ? 圖片生成音視頻(I2VA) :你給一張圖,它生成帶聲音的視頻

      • ? 文本生成視頻(T2V) :傳統的文生視頻,不帶聲音

      • ? 圖片生成視頻(I2V) :傳統的圖生視頻,不帶聲音

      四種能力,同一個模型

      之前一些音畫同出,是「縫合怪」:模型先生成畫面,然后再來配音

      問題在于,視頻已經定型了,口型已經固定了,配音只能盡量去對。對不上的地方就會穿幫,行業里管這個叫「腹語效應」

      Seedance 1.5 pro 則做到了音視頻同時生成,兩邊持續交換信息

      視頻流知道現在該說什么話,音頻流知道現在畫面是什么表情


      音視頻同時生成 架構是怎樣的

      Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構

      Diffusion Transformer

      Diffusion Transformer 這是當前視頻生成的主流架構
      Sora 用的是這個,Kling 用的是這個,Veo 也是

      方式大概是這樣,從一張全是噪點的圖開始,一步一步去掉噪點,最后得到清晰的視頻

      每去一步噪,模型會參考你的文本描述,決定「往哪個方向去」


      Diffusion Transformer 再說什么是「雙分支」

      傳統的視頻生成模型,只有一個分支,只管生成畫面
      Seedance 1.5 pro 有兩個分支,一個負責視頻,一個負責音頻,兩條線同時跑

      那么,兩條線怎么協作?
      答:中間有一個「跨模態聯合模塊」,讓兩個分支在生成過程中持續交換信息

      視頻分支在去噪的時候,會收到音頻分支的信號:
      現在這個時間點,音頻那邊在生成一句話,這句話的口型是這樣的

      音頻分支在生成的時候,也會收到視頻分支的信號:
      現在畫面里的人嘴張開了,你這邊得出聲;畫面里的人嘴閉上了,你這邊得停

      通過這種方式,生成出來的視頻和音頻,時間上是同步的,語義上是一致的


      架構示意圖

      技術基礎是 MMDiT(Multimodal Diffusion Transformer)
      Stable Diffusion 3 用的就是這個架構
      Seed 團隊在這個基礎上加了音頻分支和跨模態交互機制

      訓練數據怎么搞

      模型能力的上限,很大程度上是數據決定的。Seedance 1.5 pro 在數據處理上做了三件事

      第一件事:篩數據

      網上能爬到的視頻很多,但大部分不能直接拿來訓練

      技術報告里說,篩選管線優先保證三件事:音視頻一致性動作表現力、以及后面會提到的課程式調度

      舉個例子:

      • ? 音視頻同步 :畫面里的人在說話,但口型對不上的;畫面里有動作,但沒有對應聲音的,篩掉

      • ? 表現力 :動作幅度不夠、表情變化不豐富的,篩掉

      篩完幾輪,數據量會大幅減少,但剩下的都是能用的


      數據篩選

      第二件事:打標簽

      每條數據都要告訴模型「這里面有什么」

      視頻的標簽包括:畫面里有幾個人在做什么動作互相之間有什么互動鏡頭怎么運動


      給模型數據,打上標簽

      音頻的標簽分兩類:

      1. 1. 人聲標簽 ——這段聲音是說話、還是唱歌、還是笑聲嘆氣。如果是說話,說的什么語言、什么口音、什么情緒。比如這是「普通話,女性,開心」,那是「四川話,男性,疲憊」

      2. 2. 非人聲標簽 ——這段聲音是環境音還是音樂。環境音的話,聲源是什么:車流聲、雨聲、鍵盤敲擊聲。音樂的話,什么流派、什么節奏

      這套標簽打得很細,技術報告里說是「professional-grade descriptions」,專業級的描述


      技術報告的原內容

      第三件事:安排訓練順序

      數據弄好后,拿去訓練,也是分先后順序的
      技術報告里叫「curriculum-based data scheduling」,課程式數據調度

      具體怎么安排的,報告沒有展開。但課程學習的一種做法是:
      先讓模型學簡單的:一個人、正面鏡頭、說話清晰、口型明顯
      學會了,再喂難一點的:兩三個人、有互動、有鏡頭切換
      最后喂最難的:多人多語言、復雜鏡頭調度、微表情遞進


      課程式數據調度 訓練步驟

      Seedance 1.5 pro 的訓練分三步走:預訓練SFTRLHF


      訓練流程 第一步:預訓練

      這一步,是讓模型「能生成」

      這一步用的數據量大、種類多。既有純視頻,也有純音頻,也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學會

      這一步結束,模型已經能根據文本描述生成帶聲音的視頻了,但質量不穩定,有時候好有時候差

      第二步:SFT(監督微調)

      這一步,是讓模型「生成得好」

      這一步用的數據量小,但質量高。每一條都是精挑細選的:畫面精美、音頻清晰、口型完全對齊、情緒表達到位

      讓模型學習這些高質量樣本,知道「好的生成結果長什么樣」

      第三步:RLHF(人類反饋強化學習)

      這一步,是讓模型「符合審美」

      RLHF 的邏輯是:讓人來評判模型的生成結果,告訴模型「這個好、那個不好」,模型根據反饋調整自己

      圍繞這個,Seed 團隊訓練了一個「獎勵模型」,這個獎勵模型學會了人類的評判標準,可以自動給生成結果打分

      打分有三個維度:
      動作質量:動作流不流暢、物理上合不合理、有沒有穿模(比如手穿過桌子)
      視覺美學:畫面好不好看、構圖合不合理、色彩協不協調
      音頻保真度:聲音清不清晰、有沒有雜音、情緒表達對不對

      模型每生成一個結果,獎勵模型從這三個維度打分。分數高的,說明方向對了,繼續往這個方向走;分數低的,說明方向錯了,調整策略

      這一步的訓練量很大,Seed 團隊專門優化了訓練管線,速度提升了近 3 倍。同樣的時間,能讓模型學到更多反饋

      推理優化

      視頻生成,通常很慢,生成一個 10 秒的視頻,可能要算好幾分鐘

      因為要一步一步去噪,每一步都是大量計算

      Seedance 1.5 pro 把推理速度提升了 10 倍以上
      怎么做到的?三層優化


      三層優化 第一層:蒸餾

      原本模型生成一個視頻可能要 100 步去噪,太慢了

      蒸餾的做法是:訓練一個「學生模型」,讓它模仿「老師模型」的行為。老師用 100 步才能做到的事,學生可能 10 步就能做到差不多的效果

      步數少了,計算量就少了,速度就快了

      Seed 團隊用的是多階段蒸餾,分好幾輪來壓縮步數,每一輪都盡量保證質量不掉

      第二層:量化

      模型參數通常用 32 位浮點數存儲,精度高,但計算量大

      量化就是把精度降下來,32 位變 16 位,甚至 8 位。精度低了,計算量就小了,速度就快了

      當然不能降太多,否則生成質量會明顯下滑。Seed 團隊找了一個平衡點:精度降到一定程度,速度提升明顯,質量基本不掉

      第三層:并行

      視頻生成的計算量很大,一個 GPU 算不過來

      并行就是把任務拆開,分給多個 GPU 同時干活,最后把結果合起來

      三層優化疊加,端到端加速超過 10 倍

      評測對比

      Seed 團隊建了一套評測基準叫 SeedVideoBench 1.5
      請專業電影導演定標準,請電影制作、攝影、設計領域的專家做人工評測

      與各類模型進行對比:Kling 2.5Kling 2.6Veo 3.1Sora 2Seedance 1.0 Pro


      評測數據

      具體的評測信息如下

      視頻能力

      評測維度:動作質量指令跟隨視覺美學

      T2V 任務(文本生成視頻):


      T2V 視頻評測


      • ? 指令跟隨:Seedance 1.5 pro 領先

      • ? 視覺美學和動作質量:和 Kling 2.6、Veo 3.1 有競爭力

      I2V 任務(圖片生成視頻):

      • ? 各項指標穩定,比上一代 Seedance 1.0 Pro 有明顯提升

      I2V 視頻評測

      音頻能力

      評測維度:音頻指令跟隨音頻質量音視頻同步音頻表現力

      和 Kling 2.6、Veo 3.1、Sora 2 對比:

      中文語境上,Seedance 1.5 pro 在中文對話、方言、獨白的生成上,準確度高于 Veo 3.1。基本沒有吞字、發音錯誤

      口型匹配上,Seedance 1.5 pro 能正確對應說話角色的數量和身份。在這個維度上超過 Veo 3.1 和 Kling 2.6

      音頻表現力上,Sora 2 在情緒表達上更「夸張」,Seedance 1.5 pro 更「克制」。技術報告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩定調性控制的專業制作場景更合適


      T2V 音頻評測 I2V 音頻評測 即將上線:Draft 樣片功能

      AI 生成視頻有個老問題:抽盲盒

      為了一個理想的鏡頭,可能要反復試很多次
      每次都是全分辨率生成,等半天,算力消耗大

      Draft 樣片功能解決這個問題

      • ? 第一步,先生成低分辨率的預覽。速度快,成本低

      • ? 第二步,看預覽。不滿意就調 prompt,重新生成預覽

      • ? 第三步,預覽滿意了,再生成高清成片

      預覽和成片之間,是高保真一致的
      預覽里的畫面構圖、人物動作、口型節奏,成片里都會保留
      不會出現「預覽挺好,成片變樣」的情況

      官方數據:創作效率提升 50%,推理成本最高節約 60%


      Draft 樣片功能 以及


      這個模型,已上線了,帶來了原生的「有聲片」,并且更符合本土需求,可通過多渠道進行訪問

      個人/企業用戶
      可在即夢 AI、豆包 APP、火山方舟體驗中心體驗


      https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo

      API 用戶
      可在 12 月 23 日起可在火山引擎使用 API,模型名稱: Doubao-Seedance-1.5-pro

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      證券時報
      2026-02-15 18:14:05
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權先生
      2026-02-12 15:38:28
      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      她時尚丫
      2026-02-13 22:55:36
      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      黃河新聞網呂梁頻道
      2026-02-15 10:43:54
      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      讀書文史
      2026-02-15 16:24:49
      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      法老不說教
      2026-02-15 23:24:29
      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      妍妍教育日記
      2026-02-15 08:15:08
      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      籃球資訊達人
      2026-02-15 05:35:04
      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      鍋子籃球
      2026-02-15 22:35:02
      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      復轉這些年
      2026-02-11 23:59:46
      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      霹靂炮
      2026-02-14 20:47:47
      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      體育閑話說
      2026-02-15 14:19:21
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      小陸搞笑日常
      2026-02-13 05:58:45
      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      加油丁小文
      2026-01-16 22:16:00
      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      新華社
      2026-02-15 20:38:11
      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      Emily說個球
      2026-02-15 20:40:18
      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      妍妍教育日記
      2026-02-14 17:00:28
      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      牛鍋巴小釩
      2026-02-16 02:38:23
      2026-02-16 05:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      手機
      教育
      時尚
      房產
      家居

      手機要聞

      榮耀Magic V6真機現身,圓形Deco、紅色機身

      教育要聞

      點贊收藏轉發這條視頻,我不怕小日子

      多巴胺失寵了?過年這樣穿彩色時髦又減齡

      房產要聞

      三亞新機場,又傳出新消息!

      家居要聞

      中古雅韻 樂韻伴日常

      無障礙瀏覽 進入關懷版