![]()
智東西
作者 李水青
編輯 心緣
智東西2月12日報道,千呼萬喚始出來,今天午間,字節跳動終于正式發布其視頻創作模型Seedance 2.0。
![]()
▲Seedance 2.0已正式上線豆包
字節稱,Seedance 2.0采用統一的多模態音視頻聯合生成架構,支持文字、圖片、音頻、視頻四種模態輸入,集成了目前業界最全面的多模態內容參考和編輯能力。該項目的更多的技術測評細節及大量案例Demo也隨之公布。
在過去幾天里,這款在灰度測試階段的模型已經火遍全球。在國內,《黑神話·悟空》背后的游戲科學創始人兼CEO、制作人馮驥盛贊其為“地表最強”,并稱“AIGC的童年時代,結束了。”知名導演賈樟柯在昨晚也發微博稱:“Seedance 2.0確實厲害,我準備用它做個短片。”在各大平臺,網友用Seedance 2.0制作的視頻作品已出現井噴之勢。
![]()
▲知名導演賈樟柯評論Seedance 2.0(圖源:新浪微博)
在國外,a16z的合伙人Justine Moore感嘆“AI視頻模型的圖靈測試已經被攻克了”;就連馬斯克今日也跳出來贊嘆“事情正快速發生”,意指技術發展太快了;許多電影制作領域專業人士表示“這個模型讓人感到害怕”、“所學習到的90%技能Seedance2.0都能實現”。由于該模型在部分國家和地區尚未開放,甚至不少海外網友費盡心思“翻墻”注冊中國手機號來體驗Seedance2.0。
![]()
![]()
▲馬斯克評論Seedance 2.0(圖源:社交平臺X)
Seedance 2.0的爆火頗有當年Sora降世時的沖天態勢。而這款模型到底有什么實質性的技術提升?隨著字節官方項目細節的公布,問題也有了更明確答案。
相比1.5版本,Seedance 2.0的生成質量大幅提升,其在復雜交互和運動場景下的可用率更高,物理準確度、逼真度、可控性顯著增強,更加貼合工業級創作場景的需求。
其核心亮點如下:
1、復雜場景下更高可用率:憑借出色的運動穩定性和物理還原能力,模型在多主體交互和復雜運動場景中表現出色,生成可用率達到業界SOTA水平。
2、多模態能力顯著強化:基于統一的多模態音視頻聯合架構訓練,支持混合模態輸入,允許用戶同時輸入多達9張圖片、3段視頻、3段音頻以及自然語言指令,模型可參考輸入素材中的構圖、動作、運鏡、特效、聲音等元素,打破傳統視頻生成的素材邊界。
3、視頻生成可控性大幅提升:模型的指令遵循與一致性表現全面提升,并支持穩定可控的視頻延長、視頻編輯,讓普通用戶也能像導演一樣,輕松掌控視頻創作全流程。
4、深度支持工業級內容創作:模型支持 15 秒高質量多鏡頭音視頻輸出,具備雙聲道音頻能力,可實現極致擬真的視聽效果,配合參考和編輯能力,能大幅降低影視、廣告、電商、游戲等場景的內容制作成本。
這與智東西此前在灰度測試中的一手實測體驗不謀而合,我們嘗試了從日常場景到超現實場景的多種創作,發現模型對復雜提示詞的理解能力明顯增強,同時音畫同步和視覺效果的呈現也更自然,與前代產品跨代升級明顯;同時,模型生成目前也會出現一些細節穩定性不足、不完全符合物理學規律、多人口型匹配欠缺等問題。
目前,Seedance 2.0已上線即夢AI、豆包、火山方舟體驗中心等平臺。
項目主頁:
https://seed.bytedance.com/seedance2_0
體驗入口:
1、即夢網頁端-視頻生成-選擇 Seedance 2.0;
2、豆包 App 對話框-Seedance2.0-選擇 2.0 模型;
3、火山方舟體驗中心-選擇 Doubao-Seedance-2.0。
一、Seedance 2.0評測結果一覽,運動穩定、指令遵循顯著提升
首先來看看Seedance 2.0評測情況,字節聯合影視專家構建多模態評測體系,聚焦參考生成、指令響應、運動穩定、鏡頭語言及音畫協同等維度進行了模型評測。
1、運動穩定、指令遵循提升,細節穩定及擬真度仍待優化
視頻方面,Seedance 2.0在運動連貫性、指令還原及畫面質感上進步顯著,復雜動作細膩、結構崩壞減少,可精準呈現大動態場景與微表情,并支持專業運鏡與敘事節奏。長腳本響應合理,畫面材質、光影與服化道完成度較高。但細節穩定性、擬真度與動態生動性仍有提升空間。
音頻方面,雙聲道音質層次豐富,其可依據提示詞適配音效與旋律,視聽協同更自然,方言、戲曲及演唱場景的指令識別明顯優化。當前短板集中于多人口型同步與偶發音頻失真。
![]()
▲Seedance 2.0文字生成視頻能力評測
![]()
▲Seedance 2.0圖片生成視頻能力評測
2、多模態編輯指令響應更完整,多主體一致性待升級
Seedance 2.0覆蓋更全面的多模態參考與編輯任務,對參考內容的理解深度和響應精度優勢明顯,編輯任務指令完整度與畫面真實感領先競品。
其在主體形象、聲音還原及動作邏輯、特效風格、劇情敘事等方面一致性表現突出,但多主體一致性、文字還原及復雜編輯效果仍需優化。
![]()
▲Seedance 2.0多模態任務表現評測
二、10大官方案例一覽:多模態輸入是亮點,多人競技運動也能生成
除了測評成績,字節還公布了一大批Seedance 2.0的視頻生成案例。
從這些官方案例可以看到,Seedance 2.0突破前代模型的局限,能實現多人競技等復雜運動生成,音頻沉浸感提升,支持多模態輸入。創作流程更接近導演級操控,兼具自然度與效率。
1、穩定呈現復雜運動和交互,真實還原物理規律
以雙人花滑為例,模型高保真還原同步起跳、空中轉體、落冰等復雜時序動作,且嚴格遵循現實運動規律,有效規避了此前AI視頻常見的物理失真。
T2V prompt:競技級雙人花樣滑冰現場。開場低機位跟隨冰刀滑行,冰屑與反光細節清晰。進入旋轉段,男選手軸線微偏出現失誤,旋轉節奏短暫塌陷。女選手迅速調整重心,眼神冷靜并示意“Stay with me”,主動引導男選手重新對齊節奏。隨后無縫銜接托舉動作,線條干凈穩定。高潮為同步跳躍組合,空中姿態筆直,落冰果斷,音畫完美對齊。女選手身著深藍花滑裙,男選手為競技運動裝。整體呈現從緊張失誤到冷靜完成比賽的完整敘事,體現頂級雙人花樣滑冰中的技術能力與心理強度。
在更細膩的特寫鏡頭中,模型精準還原了光影折射、衣物質感重力反饋及人物環境交互等細微變化,畫面細節逼真、物理邏輯嚴密,幾可亂真。

I2V prompt:女孩優雅地曬衣服,曬完接著在桶里拿出另一件,用力抖一抖衣服。
2、支持多模態“全能參考”,創作自由度大幅提升
Seedance 2.0支持圖文、音視頻等多模態組合輸入,能精準解析并調用其中的構圖、運鏡、動作、音效等元素,甚至可直接遵循文字分鏡生成內容,從而拓展創作自由度。

R2V prompt:@圖片 1 女孩打破次元壁,連續穿越多幅名畫世界,保留真實質感,油畫世界呈現 3D 高飽和度動畫風格。她站在 @圖片 2 的旋轉星空下神情激動;接著好奇看著 @圖片 3 的情侶擁抱,情侶不好意思地用被子將頭遮住;隨后與 @圖片 4 戴珍珠耳環少女一起自拍;緊接著進入 @圖片 5 在兩名武士中間穿過;與 @圖片 6 一起扮鬼臉吶喊;跑到 @圖片 7 蒙娜麗莎身旁,被摸頭貼臉;在 @圖片 8 女人面前轉身換裝,二人互行禮;隨后與 @圖片 9 中的梵高一起畫畫;最后背對鏡頭看夕陽,隨即轉身甜美一笑。對比度高,電影質感,轉場絲滑無縫,人物鮮活。

R2V prompt:參考 @圖片 1 分鏡頭腳本,參考 @圖片 1 的分鏡、景別、運鏡、畫面和文案,人物角色是 @圖片 2,場景是 @圖片 3,道具是 @圖片 4,創作一段 15s 的治愈片。
3、更強可控性,精準遵循生成和編輯指令
Seedance 2.0可控性顯著增強,對復雜腳本的指令還原精準,且能維持主體一致。模型初步具備編導能力,可自主規劃鏡頭與視覺模板。
T2V prompt:馬年新春家庭影像,像翻閱相冊般快速掃過一排家庭成員單人照,每張照片在鏡頭掠過的瞬間“活過來”:爺爺、奶奶、父母及孩子伴隨微表情做出一組專屬動作(如發紅包、舉玩偶、貓咪搖鈴)。不同人物間通過快速平移像翻頁般連貫銜接。隨著背景中紅燈籠與春聯動態點亮,畫面最終匯聚成一張熱鬧的全家福合照,全員全員齊喊“馬年團圓,馬上有福”。音效同步配合歡笑聲,氛圍由溫馨轉為歡騰,光影自然流動。
Seedance 2.0新增視頻編輯功能,支持定向修改片段、角色、動作或劇情,并可按提示延長視頻、生成連貫鏡頭,實現從“生成”到“續拍”。

R2V Prompt:延長視頻,鏡頭跟拍騎棕馬的橙衣男人,他加快速度跑到前方一棵開著橙色花朵的大樹前,將樹枝上的兩朵花折下,隨后其他人也陸續騎著馬跑進鏡頭內。鏡頭推進拍攝這個橙衣男人翻身下馬,鏡頭快速環繞他,他轉身走向騎著白馬的白衣女子,將花獻給白衣女子。中國風仕女圖風格,3D,歡快民樂,皮影風格,黑白橙色為主調。
4、雙聲道音頻能力,高仿真沉浸音效同步生成
Seedance 2.0音頻能力升級,采用雙聲道立體聲技術,支持背景樂、環境音、解說等多軌并行輸出,音效高保真、沉浸感強,并與畫面節奏精準對齊。

T2V prompt:武俠風格視聽大片,竹林里白衣劍客與蓑衣刀客對峙。鏡頭在兩人之間緩慢推移,焦點在雨滴和劍柄之間切換,氣氛壓抑到極點,只能聽見雨聲。突然一道驚雷閃過,兩人同時沖鋒,側拍鏡頭極速平移,捕捉泥漿飛濺的腳步。雙兵相接瞬間畫面切換為極慢動作,清晰展示刀劍震飛雨水形成的圓環激波,以及被劍氣切斷的竹葉。隨后恢復常速兩人背對背落地,蓑衣刀客的斗笠裂開,畫面戛然而止。
模型音效高度擬真,其可細膩還原玻璃輕刮、織物揉搓等細微聲響,沉浸感強。音畫時序嚴格同步,滿足專業視聽創作要求。

T2V prompt:沉浸式第一視角手部 ASMR 視頻。近景特寫鏡頭,暖黃柔光下,一雙纖細的手依次輕輕觸發不同物品:磨砂玻璃輕刮聲、毛絨織物揉搓聲、亞克力板輕敲聲、氣泡紙輕捏聲、木質梳子梳齒輕劃聲。手指動作緩慢輕柔,無背景音樂純自然觸發音,畫面氛圍松弛治愈。
5、全場景廣泛適配,降低專業內容制作門檻
Seedance 2.0場景適配能力強,覆蓋商業廣告、影視特效、游戲動畫等多領域。

I2V prompt:畫中人物心虛,眼睛左右看了看探出畫框,快速地將手伸出畫框拿起可樂喝了一口,并露出一臉滿足的表情。這時傳來腳步聲,畫中的人物趕緊將可樂放回原位,此時一位西部牛仔拿起杯子里的可樂走了。結尾鏡頭推進至純黑背景下的頂光可樂特寫,畫面最下方出現藝術感字幕和旁白:“宜口可樂,不可不嘗!”。
T2V prompt:20 年代爵士俱樂部風格的查爾斯頓舞。身著金色流蘇裙的女舞者與穿條紋西裝的男舞者進行高強度表演。動作包含極速切分音步法、空中拋接與大幅度擺臂。鏡頭采用動態跟隨拍攝,穿插足部特寫動作。重點表現流蘇隨每一次踢腿瘋狂甩動的物理細節、皮膚上的汗水光澤以及煙霧繚繞的復古膠片顆粒電影質感。背景爵士樂隊與歡呼觀眾烘托出狂熱的派對氛圍。
結語:AI視頻生成從“玩具”走向“工具”
隨著Seedance 2.0發布,AI視頻生成正加速從“玩具”向“工具”完成關鍵一躍。產業層面,其統一多模態架構與工業級可控性試圖擊穿影視、廣告、電商等內容生產的高成本壁壘。正如馮驥所說,AIGC的“童年時代”確已結束,賽道競爭正從參數競賽轉向場景落地。
從Seedance 1.5的“音畫一體同步生成”,到 Seedance 2.0 的“統一多模態音視頻聯合生成”,字節在新版本中解決了物理規律遵循及長效一致性的難題,同時也賦予創作者更高的自由度。同時,字節團隊稱Seedance 2.0也仍未達到完美,其生成結果在細節穩定性、擬真度及動態生動性、物理規律遵循、多人口型匹配等方面仍有優化進步的空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.