![]()
智東西
作者 楊京麗
編輯 李水青
智東西4月17日報道,4月15日,字節Seed團隊發布Seedance 2.0技術論文,《Seedance 2.0:推動視頻生成應對復雜世界》(Seedance 2.0: Advancing Video Generation for World Complexity),論文系統展示了這款多模態視頻生成模型的核心能力與評測結果。
![]()
▲字節發布Seedance 2.0論文
今年2月初,Seedance 2.0發布并上線,目前已接入豆包、即夢AI和火山引擎,模型ID為doubao-seedance-2-0-260128。此外,字節還提供了加速版Seedance 2.0 Fast,面向低延遲場景。
相比前代Seedance 1.0和1.5 Pro,Seedance 2.0最大的變化是從“生成短視頻片段”走向了“支持多種控制信號的可控視頻合成”,它采用統一的、大規模的多模態音視頻聯合生成架構,原生支持文本、圖像、音頻、視頻四種輸入模態。在開放平臺上,它最多可同時接收3段視頻+9張圖+3段音頻作為參考,直接輸出4–15秒、480p或720p分辨率的音視頻內容。
![]()
▲Seedance 2.0生成視頻
從字節公布的評測結果看,對比Kling 2.6、Kling 3.0、Sora 2 Pro、Veo 3.1、Seedance 1.5等模型,Seedance 2.0在文生視頻(T2V)、圖生視頻(I2V)、參考生視頻(R2V)三大任務的所有維度上均取得第一;在Arena.AI評測平臺上,Seedance 2.0曾登頂T2V和I2V雙榜,目前T2V榜首已被HappyHorse-1.0反超,Seedance 2.0以微弱差距位列第二。
值得注意的是,這是一篇側重“能力評測與產品落地”的技術論文,并未深入披露模型架構與訓練細節。
論文的評測結果主要基于字節自建評測集SeedVideoBench 2.0。該框架是SeedVideoBench 1.5的升級版,新增了多模態任務評估體系(覆蓋參考、編輯、擴展、組合四大任務組)和敘事質量評價體系(含鏡頭語言、情節設計、風格美學三個子維度),采用客觀+主觀雙軌評分。
論文鏈接:https://arxiv.org/abs/2604.14148
Seedance 2.0官網:https://seed.bytedance.com/seedance2_0
一、遵循真實世界規律,高保真音視頻生成
作為一款原生多模態音視頻生成模型,Seedance 2.0在視頻與音頻生成的所有關鍵子維度上都帶來了實質性、全面的能力提升,并在專家評估和公眾用戶測試中,展現出與行業領先水平相當的表現。字節在論文中介紹了Seedance 2.0的四大核心能力:
1、真實世界復雜性生成。Seedance 2.0在人體運動建模的自然度、時序連貫性與物理合理性方面大幅提升,能生成時序精確的復雜交互場景,嚴格遵循真實世界運動規律,緩解此前常見的生成偽影。特寫鏡頭下,光線折射、人物與環境互動等細節接近實拍素材;多主體交互與復雜運動場景的可用率明顯高于近期商用模型。
2、強多模態能力。模型可準確解析多模態輸入,在畫面構圖、鏡頭設計、運動節奏、聲學特征等維度嚴格遵循指令,并支持直接引用文本分鏡腳本。即便面對大量角色交互和精細動作描述的復雜腳本,也能維持主體身份一致性;同時具備基礎的導演與攝影推理能力,可自主規劃分鏡序列和視覺呈現模板。2.0版本還新增了視頻編輯與續寫功能,支持對指定片段、角色、動作或情節做定向修改,或對已有素材做無縫延展。
3、高保真音視頻生成。搭載升級版音頻生成模塊,集成雙耳音頻技術,可同時輸出背景音、環境音效、角色配音等多軌道內容,對細微自然環境音也能忠實還原,并與畫面節奏精準對齊,為專業級音視頻內容創作提供支撐。
4、生產力場景應用。在商業廣告、影視特效、游戲動畫、解說視頻等多類用例下展現強跨場景適應性。字節認為,以AI生成替代傳統視覺特效與實拍工作流,可顯著降低專業音視頻內容的制作成本、縮短制作周期,幫助創作者與企業落地創意。
從Seedance 1.5到Seedance 2.0,生成框架由音視頻同步生成轉變為統一多模態音視頻聯合生成,字節Seed團隊稱,Seedance系列始終圍繞統一架構構建,核心目標是高保真重建真實世界的復雜性。
二、文生視頻:運動質量斷層領先,物理建模明顯改善
在文生視頻(T2V)任務上,字節團隊將Seedance 2.0與Kling 2.6、Kling 3.0、Sora 2 Pro、Veo 3.1、Seedance 1.5五款同期模型進行了系統對比,評測覆蓋運動質量、視頻指令遵循、美學、音頻質量、音畫同步、音頻指令遵循六個維度。
從整體得分看,Seedance 2.0在全部6個維度上均排名第一,是唯一在所有維度上得分均超過3.4分(5分制) 的模型,平均比Seedance 1.5提升0.86分,其中運動質量維度提升最大,提高1.36分;運動質量與音畫同步兩項均達3.75分,領先第二名至少0.65分。
![]()
▲T2V六維度總體評分對比
運動質量是Seedance 2.0相比1.5版本提升最大的單項。在30個細分類別中,Seedance 2.0在29項上排名第一(僅群體協同運動與Kling 3.0并列),得分區間3.29-4.43,其中多實體特征匹配(4.43)、構圖(4.25)、剪輯節奏(4.21) 三項均超過4.0。
更值得關注的是,Seedance 2.0在物理建模上明顯改善:Seedance 1.5此前在物理反饋(1.69)、自然現象(2.00)、激烈運動(2.00)等維度上得分偏低,2.0版本均提升超過1.5分。
![]()
▲T2V運動質量維度評分
美學是競品差距最小的維度。Seedance 2.0在30個細分類別中的28項上排名第一(包括并列第一),整體得分區間2.79–4.14。得分最高的維度為視覺風格(4.14)、長腳本(4.14)、構圖(4.13)。
從競品看,Kling 3.0在13個美學類別上得分超過3.5,最強項為超現實運動(3.86)、同類型交互(3.79)與構圖(3.75);Sora 2 Pro與Veo 3.1在假日、消費特效等類別上明顯偏弱(均跌至2.5分以下)。
![]()
▲T2V美學維度評分
音頻質量也是Seedance 2.0的優勢之一。在17個細分類別中全部排名第一,得分區間2.82–4.17。其中英語(4.17)、語音+動作交互(4.00)、少數民族語言(3.82)、環境/背景音(3.78) 為最強項。
相比Seedance 1.5,提升最顯著的三項分別是中文戲曲(2.50→3.75)、英語(3.00→4.17)、演唱/說唱(2.71→3.71)。
從競品側看,除Sora 2 Pro的演唱/說唱(3.67)外,沒有任何競品在任何單一類別上得分超過3.2分。Kling 3.0在演唱/說唱和環境/背景音上較前代Kling 2.6出現回退。整體來看,競品普遍存在音頻渾濁、噪聲明顯、層次感弱的問題,尤其在復雜音效與人聲清晰度上短板突出。
![]()
▲T2V音頻質量維度評分
三、圖生視頻:音頻領先較大,圖像保持競爭激烈
在圖生視頻(I2V)任務上,字節將Seedance 2.0與Wan 2.6、Kling 2.6、Veo 3.1、Kling 3.0、Seedance 1.5 Pro五款同期模型對比,評測覆蓋視頻側運動質量、視頻指令遵循、圖像保持和音頻側音頻質量、音畫同步、音頻指令遵循六個維度。
![]()
▲I2V六維度總體評分對比
Seedance 2.0在全部6維度均排名第一,得分區間3.31–3.70,沒有任何競品超過3.18分;其中圖像保持各個視頻模型競爭較為激烈,Kling 3.0僅落后0.13分,運動質量則拉開0.55分差距。音頻依舊是競品的集體短板,Kling 2.6(2.21)、Wan 2.6(2.18–2.55)三項均低于3.0分,排名第二的Seedance 1.5 Pro也落后0.54–0.60分。
![]()
▲視頻及音頻維度下的I2V可用性及滿意度評分
可用率與滿意率上,Seedance 2.0是唯一在全部6個維度可用率均超過87%的模型:運動質量滿意率43.88%,約為次席Kling 3.0(12.00%)的3倍以上;視頻指令遵循滿意率47.48% vs Veo 3.1的20.54%。音頻差距更懸殊——音頻質量滿意率57.08%,而Kling 2.6、Wan 2.6的可用率甚至不足28%,意味著大多數競品音頻輸出直接不可用;音頻指令遵循滿意率63.52%,分別是Seedance 1.5 Pro(37.77%)的1.7倍、Kling 2.6(5.70%)的10倍以上。
除打分外,字節團隊還觀察到Seedance 2.0在格斗、舞蹈等場景能混合慢動作高光與快速動作,人物表情眼神更生動;運鏡多變,新增第一/第三人稱游戲視角與手持呼吸感;在毛氈、油畫、工筆等特殊畫風下保持視覺連貫;中英文對白承載情感層次,四川話、東北話、粵語等方言還原準確;語音、音效與背景音多軌配合自然。
四、參考生視頻:綜合實力強,多模態任務支持范圍廣
在參考生視頻(R2V)任務上,字節將Seedance 2.0與Vidu Q2 Pro、Kling O1、Kling 3.0三款模型對比,評測覆蓋多模態任務遵循、編輯一致性、參考對齊、運動質量、提示遵循五個維度。
![]()
▲R2V總體評分對比
Seedance 2.0在全部5個維度上均排名第一:多模態任務遵循2.50、提示遵循2.52(均為1–3分制),編輯一致性3.54、參考對齊3.03、運動質量3.24(均為1–5分制)。差距最大的是運動質量(領先競品0.86–0.94分)和參考對齊(領先0.66–1.24分),最小的是編輯一致性(Kling 3.0僅落后0.17分)。
![]()
▲不同模型R2V多模態任務支持情況
更值得關注的是多模態任務支持的廣度對比。Seedance 2.0支持22項輸入模態任務中的20項,覆蓋范圍為評測中最廣;相比之下Kling 3 Omni支持9項、Vidu Q2 Pro支持13項、Kling O1僅支持10項。其中視覺特效/創意參考(3種變體)和續寫/擴展(4種變體)合計7類任務完全只有Seedance 2.0能處理,這是Seedance 2.0在R2V任務層面最顯著的差異化優勢。
不過,Seedance 2.0并非沒有短板。在視頻擴展(Extension)任務上,Veo 3.1以2.78的任務遵循得分(88.89%的3分率)明顯領先Seedance 2.0的1.93(31.82%),參考對齊也是Veo 3.1的3.44高于3.28,論文直言這是Seedance 2.0在R2V中最弱的單項。字節解釋,Seedance 2.0可接受任意上傳視頻進行擴展,而Veo 3.1只能擴展自己生成的視頻,輸入范圍更廣的代價是質量穩定性下降。
五、結語:視頻生成更加精細,貼合真實物理世界
從論文來看,Seedance 2.0在視頻生成與音頻生成兩大板塊都展現出相當強的綜合實力,這也是字節在生成式媒體技術上長期積累的集中體現。
不過,還需注意這篇論文有其時效性邊界,論文引用的評測數據截止于2026年4月上旬,并未納入此后涌現的新競爭者——近期登頂榜單的HappyHorse-1.0。字節團隊也承認,Seedance 2.0仍存在輕微形變偽影、邊緣場景運動合理性、高頻視覺噪聲、音頻失真與多人口型同步誤差等問題。
放在更大的視角,視頻生成賽道對于新老玩家的要求正愈發嚴格,對于精確控制、音畫同步、貼近真實物理世界的要求越來越高。不得不說新模型加入的速度,比論文發表的速度快多了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.