<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節 Seedance 1.5 pro,如何實現「音畫同出」:中學生能看懂

      0
      分享至

      字節今天發布了 Seedance 1.5 pro,原生音視頻聯合生成
      劃重點 視頻、聲音同時生成,而非先出視頻、再配音對口型


      本文里,我將以盡可能易懂的方式,講講其原理
      保證中學生能看懂

      如果你需要更專業、細致的了解,可以看這個技術報告
      https://arxiv.org/abs/2512.13507v2


      Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

      先看兩個案例,感受下這個技術

      案例一:火鍋店,三代人,三種口音

      重慶火鍋店包間,三人圍坐吃火鍋,熱氣騰騰。畫面左側的老人用重慶話說「這個毛肚七上八下,剛剛好」,說完夾起毛肚。畫面中間的中年男人給右側的年輕人夾菜,用普通話說「慢點吃,小心燙」。年輕人吃完后用上海話說「爺爺,辣是辣,不過老靈額」。老人聽完哈哈大笑拍桌子,三人相視而笑。全程緩慢推鏡,背景是火鍋沸騰聲和餐廳環境音

      案例二:審訊室,甩鏡,微表情

      女人坐在昏暗的審訊桌前,神情嚴肅,不屑的翻看著資料,女人說:“前面你說了這么多,聽起來天衣無縫的。”說完后,鏡頭向左邊方向快速甩鏡。此時畫外音女偵探有力量的語調快速問”你是AI吧?!“特寫男人的面部,圍繞男人緩慢旋轉的推鏡頭,推鏡至五官,男人表情緊張,眼睛微微睜大,流露出一絲絲輕微的不安感。男人聽完單手摘下眼鏡,低下頭,停頓一下,抬頭皺眉,然后從抿嘴轉為嘴角微笑的表情,輕微咽一下口水,隨后微笑著問:”你怎么知道?“

      Seedance 1.5 pro

      12 月 18 日,火山的 FORCE 原動力大會上,發布了豆包視頻生成模型 Seedance 1.5 pro,核心賣點是「原生音視頻聯合生成

      這個模型,能做四件事:

      • ? 文本生成音視頻(T2VA) :你寫一段描述,它生成帶聲音的視頻

      • ? 圖片生成音視頻(I2VA) :你給一張圖,它生成帶聲音的視頻

      • ? 文本生成視頻(T2V) :傳統的文生視頻,不帶聲音

      • ? 圖片生成視頻(I2V) :傳統的圖生視頻,不帶聲音

      四種能力,同一個模型

      之前一些音畫同出,是「縫合怪」:模型先生成畫面,然后再來配音

      問題在于,視頻已經定型了,口型已經固定了,配音只能盡量去對。對不上的地方就會穿幫,行業里管這個叫「腹語效應」

      Seedance 1.5 pro 則做到了音視頻同時生成,兩邊持續交換信息

      視頻流知道現在該說什么話,音頻流知道現在畫面是什么表情


      音視頻同時生成 架構是怎樣的

      Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構

      Diffusion Transformer

      Diffusion Transformer 這是當前視頻生成的主流架構
      Sora 用的是這個,Kling 用的是這個,Veo 也是

      方式大概是這樣,從一張全是噪點的圖開始,一步一步去掉噪點,最后得到清晰的視頻

      每去一步噪,模型會參考你的文本描述,決定「往哪個方向去」


      Diffusion Transformer 再說什么是「雙分支」

      傳統的視頻生成模型,只有一個分支,只管生成畫面
      Seedance 1.5 pro 有兩個分支,一個負責視頻,一個負責音頻,兩條線同時跑

      那么,兩條線怎么協作?
      答:中間有一個「跨模態聯合模塊」,讓兩個分支在生成過程中持續交換信息

      視頻分支在去噪的時候,會收到音頻分支的信號:
      現在這個時間點,音頻那邊在生成一句話,這句話的口型是這樣的

      音頻分支在生成的時候,也會收到視頻分支的信號:
      現在畫面里的人嘴張開了,你這邊得出聲;畫面里的人嘴閉上了,你這邊得停

      通過這種方式,生成出來的視頻和音頻,時間上是同步的,語義上是一致的


      架構示意圖

      技術基礎是 MMDiT(Multimodal Diffusion Transformer)
      Stable Diffusion 3 用的就是這個架構
      Seed 團隊在這個基礎上加了音頻分支和跨模態交互機制

      訓練數據怎么搞

      模型能力的上限,很大程度上是數據決定的。Seedance 1.5 pro 在數據處理上做了三件事

      第一件事:篩數據

      網上能爬到的視頻很多,但大部分不能直接拿來訓練

      技術報告里說,篩選管線優先保證三件事:音視頻一致性動作表現力、以及后面會提到的課程式調度

      舉個例子:

      • ? 音視頻同步 :畫面里的人在說話,但口型對不上的;畫面里有動作,但沒有對應聲音的,篩掉

      • ? 表現力 :動作幅度不夠、表情變化不豐富的,篩掉

      篩完幾輪,數據量會大幅減少,但剩下的都是能用的


      數據篩選

      第二件事:打標簽

      每條數據都要告訴模型「這里面有什么」

      視頻的標簽包括:畫面里有幾個人在做什么動作互相之間有什么互動鏡頭怎么運動


      給模型數據,打上標簽

      音頻的標簽分兩類:

      1. 1. 人聲標簽 ——這段聲音是說話、還是唱歌、還是笑聲嘆氣。如果是說話,說的什么語言、什么口音、什么情緒。比如這是「普通話,女性,開心」,那是「四川話,男性,疲憊」

      2. 2. 非人聲標簽 ——這段聲音是環境音還是音樂。環境音的話,聲源是什么:車流聲、雨聲、鍵盤敲擊聲。音樂的話,什么流派、什么節奏

      這套標簽打得很細,技術報告里說是「professional-grade descriptions」,專業級的描述


      技術報告的原內容

      第三件事:安排訓練順序

      數據弄好后,拿去訓練,也是分先后順序的
      技術報告里叫「curriculum-based data scheduling」,課程式數據調度

      具體怎么安排的,報告沒有展開。但課程學習的一種做法是:
      先讓模型學簡單的:一個人、正面鏡頭、說話清晰、口型明顯
      學會了,再喂難一點的:兩三個人、有互動、有鏡頭切換
      最后喂最難的:多人多語言、復雜鏡頭調度、微表情遞進


      課程式數據調度 訓練步驟

      Seedance 1.5 pro 的訓練分三步走:預訓練SFTRLHF


      訓練流程 第一步:預訓練

      這一步,是讓模型「能生成」

      這一步用的數據量大、種類多。既有純視頻,也有純音頻,也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學會

      這一步結束,模型已經能根據文本描述生成帶聲音的視頻了,但質量不穩定,有時候好有時候差

      第二步:SFT(監督微調)

      這一步,是讓模型「生成得好」

      這一步用的數據量小,但質量高。每一條都是精挑細選的:畫面精美、音頻清晰、口型完全對齊、情緒表達到位

      讓模型學習這些高質量樣本,知道「好的生成結果長什么樣」

      第三步:RLHF(人類反饋強化學習)

      這一步,是讓模型「符合審美」

      RLHF 的邏輯是:讓人來評判模型的生成結果,告訴模型「這個好、那個不好」,模型根據反饋調整自己

      圍繞這個,Seed 團隊訓練了一個「獎勵模型」,這個獎勵模型學會了人類的評判標準,可以自動給生成結果打分

      打分有三個維度:
      動作質量:動作流不流暢、物理上合不合理、有沒有穿模(比如手穿過桌子)
      視覺美學:畫面好不好看、構圖合不合理、色彩協不協調
      音頻保真度:聲音清不清晰、有沒有雜音、情緒表達對不對

      模型每生成一個結果,獎勵模型從這三個維度打分。分數高的,說明方向對了,繼續往這個方向走;分數低的,說明方向錯了,調整策略

      這一步的訓練量很大,Seed 團隊專門優化了訓練管線,速度提升了近 3 倍。同樣的時間,能讓模型學到更多反饋

      推理優化

      視頻生成,通常很慢,生成一個 10 秒的視頻,可能要算好幾分鐘

      因為要一步一步去噪,每一步都是大量計算

      Seedance 1.5 pro 把推理速度提升了 10 倍以上
      怎么做到的?三層優化


      三層優化 第一層:蒸餾

      原本模型生成一個視頻可能要 100 步去噪,太慢了

      蒸餾的做法是:訓練一個「學生模型」,讓它模仿「老師模型」的行為。老師用 100 步才能做到的事,學生可能 10 步就能做到差不多的效果

      步數少了,計算量就少了,速度就快了

      Seed 團隊用的是多階段蒸餾,分好幾輪來壓縮步數,每一輪都盡量保證質量不掉

      第二層:量化

      模型參數通常用 32 位浮點數存儲,精度高,但計算量大

      量化就是把精度降下來,32 位變 16 位,甚至 8 位。精度低了,計算量就小了,速度就快了

      當然不能降太多,否則生成質量會明顯下滑。Seed 團隊找了一個平衡點:精度降到一定程度,速度提升明顯,質量基本不掉

      第三層:并行

      視頻生成的計算量很大,一個 GPU 算不過來

      并行就是把任務拆開,分給多個 GPU 同時干活,最后把結果合起來

      三層優化疊加,端到端加速超過 10 倍

      評測對比

      Seed 團隊建了一套評測基準叫 SeedVideoBench 1.5
      請專業電影導演定標準,請電影制作、攝影、設計領域的專家做人工評測

      與各類模型進行對比:Kling 2.5Kling 2.6Veo 3.1Sora 2Seedance 1.0 Pro


      評測數據

      具體的評測信息如下

      視頻能力

      評測維度:動作質量指令跟隨視覺美學

      T2V 任務(文本生成視頻):


      T2V 視頻評測


      • ? 指令跟隨:Seedance 1.5 pro 領先

      • ? 視覺美學和動作質量:和 Kling 2.6、Veo 3.1 有競爭力

      I2V 任務(圖片生成視頻):

      • ? 各項指標穩定,比上一代 Seedance 1.0 Pro 有明顯提升

      I2V 視頻評測

      音頻能力

      評測維度:音頻指令跟隨音頻質量音視頻同步音頻表現力

      和 Kling 2.6、Veo 3.1、Sora 2 對比:

      中文語境上,Seedance 1.5 pro 在中文對話、方言、獨白的生成上,準確度高于 Veo 3.1。基本沒有吞字、發音錯誤

      口型匹配上,Seedance 1.5 pro 能正確對應說話角色的數量和身份。在這個維度上超過 Veo 3.1 和 Kling 2.6

      音頻表現力上,Sora 2 在情緒表達上更「夸張」,Seedance 1.5 pro 更「克制」。技術報告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩定調性控制的專業制作場景更合適


      T2V 音頻評測 I2V 音頻評測 即將上線:Draft 樣片功能

      AI 生成視頻有個老問題:抽盲盒

      為了一個理想的鏡頭,可能要反復試很多次
      每次都是全分辨率生成,等半天,算力消耗大

      Draft 樣片功能解決這個問題

      • ? 第一步,先生成低分辨率的預覽。速度快,成本低

      • ? 第二步,看預覽。不滿意就調 prompt,重新生成預覽

      • ? 第三步,預覽滿意了,再生成高清成片

      預覽和成片之間,是高保真一致的
      預覽里的畫面構圖、人物動作、口型節奏,成片里都會保留
      不會出現「預覽挺好,成片變樣」的情況

      官方數據:創作效率提升 50%,推理成本最高節約 60%


      Draft 樣片功能 以及


      這個模型,已上線了,帶來了原生的「有聲片」,并且更符合本土需求,可通過多渠道進行訪問

      個人/企業用戶
      可在即夢 AI、豆包 APP、火山方舟體驗中心體驗


      https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo

      API 用戶
      可在 12 月 23 日起可在火山引擎使用 API,模型名稱: Doubao-Seedance-1.5-pro

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      他是上海頂級敗家子,4年敗光千億資產,如今只能靠姐姐力挽狂瀾

      他是上海頂級敗家子,4年敗光千億資產,如今只能靠姐姐力挽狂瀾

      涵豆說娛
      2025-12-20 15:56:38
      洪森威脅拋電詐股東名單,并非揭黑,更多是怕老底被抖出來

      洪森威脅拋電詐股東名單,并非揭黑,更多是怕老底被抖出來

      熱點菌本君
      2025-12-21 15:04:14
      號稱鋼鐵女神!短發天花板,太驚艷了吧

      號稱鋼鐵女神!短發天花板,太驚艷了吧

      伊人河畔
      2025-12-21 21:37:50
      山東14名醫院院長被紀委帶走調查

      山東14名醫院院長被紀委帶走調查

      醫脈圈
      2025-12-20 20:03:59
      2026央視跨年晚會陣容曝光,網友:看完明星名單,廁所都不敢上了

      2026央視跨年晚會陣容曝光,網友:看完明星名單,廁所都不敢上了

      銀河史記
      2025-12-19 12:16:50
      高盛:未來2年房價或再跌10-30%  警告可能出現房價負反饋循環

      高盛:未來2年房價或再跌10-30% 警告可能出現房價負反饋循環

      財富情報局
      2025-12-19 23:06:25
      2026高速免費規則大改?元旦收費實錘,5類車全年免費,千萬注意!

      2026高速免費規則大改?元旦收費實錘,5類車全年免費,千萬注意!

      老特有話說
      2025-12-21 20:46:32
      54歲埃梅里激動脫衣怒吼!率隊10連勝震撼英超 終結對曼聯6場不勝

      54歲埃梅里激動脫衣怒吼!率隊10連勝震撼英超 終結對曼聯6場不勝

      我愛英超
      2025-12-22 02:40:29
      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴已來到大陸

      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴已來到大陸

      娛樂的宅急便
      2025-12-21 13:42:45
      如今回頭來看,他在執政的28年,放在任何時代都堪稱曠世奇跡。

      如今回頭來看,他在執政的28年,放在任何時代都堪稱曠世奇跡。

      鶴羽說個事
      2025-12-20 11:26:15
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      海南封關首日:30克金飾省近萬元,居民排長隊買榴蓮

      海南封關首日:30克金飾省近萬元,居民排長隊買榴蓮

      極目新聞
      2025-12-21 08:11:42
      彈劾已成定局,賴清德時代或結束,臺島百姓覺醒,傅崐萁定調現狀

      彈劾已成定局,賴清德時代或結束,臺島百姓覺醒,傅崐萁定調現狀

      芊芊子吟
      2025-12-21 09:50:05
      北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

      北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

      第一財經資訊
      2025-12-21 08:55:57
      2026年1月1日新治安法落地!6 類日常行為已違法,罰款拘留跑不了

      2026年1月1日新治安法落地!6 類日常行為已違法,罰款拘留跑不了

      老特有話說
      2025-12-21 19:20:40
      龐家后人對《新華社》報道的聲明:不公正、不理解、不接受

      龐家后人對《新華社》報道的聲明:不公正、不理解、不接受

      每日一見
      2025-12-21 14:31:46
      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      火山詩話
      2025-12-20 10:25:37
      能源賣不動,俄羅斯要憋出內傷了

      能源賣不動,俄羅斯要憋出內傷了

      山河路口
      2025-12-21 19:47:44
      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      鋭娛之樂
      2025-12-21 08:30:41
      這是有史以來最大的市場泡沫嗎?

      這是有史以來最大的市場泡沫嗎?

      常滌非觀點
      2025-12-21 07:16:04
      2025-12-22 04:31:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數 12關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      洛熙爸爸看1000遍法醫視頻找女兒 發解剖臺畫面被禁播

      頭條要聞

      洛熙爸爸看1000遍法醫視頻找女兒 發解剖臺畫面被禁播

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      教育
      游戲
      時尚
      旅游
      軍事航空

      教育要聞

      山東理工制藥專業近三年分數線揭秘!穩操勝券

      誰說游戲里只能打怪?這游戲讓你做鬼差推因果,善惡全由你定

      紅色不流行了?今年最火的穿搭居然是它

      旅游要聞

      萬物皆可愛

      軍事要聞

      石破茂:擁核絕不會給日本帶來正面影響

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产又色| 亚洲黄站| 五十路老熟妇| 亚洲人成人无码www| 亚洲国产福利成人一区二区 | 成人亚洲天堂| 亚洲免费人妻| 六枝特区| 久久麻豆精品| 90后极品粉嫩小泬20p| 插鸡网站在线播放免费观看| 2021最新国产精品网站| 亚州成人AⅤ| 国产av天堂| 一区二区三区毛VⅤ| 亚洲综合一二| www亚洲无码| 99插插插| 亚洲精品成a人| 夹江县| 仁化县| 91精品国产成人观看| 午夜黄色| 91福利区| 激情婷婷五月天| 无码久久久| 国产三级a三级三级| 国产亚洲精品久久久久四川人| 色偷偷偷久久伊人大杳蕉| 999久久久国产精品消防器材| 丰顺县| 高碑店市| 赣榆县| 东方市| 亚洲怡春院| 色性av| 日本三级香港三级三级人妇久 | 亚州精品一二区| 小黄片入口| 久久18| 日日碰狠狠躁久久躁96avv|