![]()
智東西
作者 陳駿達
編輯 李水青
智東西2月11日報道,今天,陸續有不少用戶發現,字節跳動已在旗下AI助手App豆包內開啟視頻生成模型Seedance 2.0的灰度測試。
用戶只需打開豆包,點擊下方的創作按鈕,進入視頻生成功能后,已被納入灰度測試的用戶就可看到模型2.0(Seedance 2.0)的選項。

自2月7日在即夢等平臺灰度上線以來,Seedance 2.0就讓整個AI視頻圈炸了鍋。
《黑神話·悟空》背后的游戲科學創始人兼CEO、制作人馮驥在體驗后Seedance2.0后,盛贊該模型為“地表最強”,并判斷道:“AIGC的童年時代,結束了。”a16z的合伙人Justine Moore則感嘆道:“AI視頻模型的圖靈測試已經被攻克了。”一位學習了7年數字電影制作的網友在體驗后說,這個模型讓他感到害怕,他所學習到的90%技能,Seedance2.0都能實現。
過去,往往是國內用戶費盡心思去體驗國外的AI工具,而這次,Seedance 2.0作反而成為海外網友“爭相體驗”的對象。
由于該模型在部分國家和地區尚未開放,不少海外網友在社交平臺頻頻“催上線”、詢問開放時間;還有人專門制作了詳細教程,分享如何通過中國手機號完成注冊,并一步步體驗Seedance 2.0的完整流程。
![]()
Seedance 2.0上線豆包App后,智東西也第一時間進行了體驗。我們嘗試了從日常場景到超現實場景的多種創作,發現模型對復雜提示詞的理解能力明顯增強,同時音畫同步和視覺效果的呈現也更自然,較字節的上一代視頻生成模型,實現了可感知的大幅提升。
一、實測長提示詞指令遵循,高難度樂器演奏、超現實場景也能還原
據字節官方技術文檔,Seedance 2.0在物理規律、動作表現、指令遵循等領域均有明顯提升,還支持了圖像、視頻、音頻、文本四種模態輸入,這意味著用戶能以更多的方式控制模型的輸出,滿足創作需求。
不過,目前在豆包App中,Seedance 2.0暫時僅支持文本和圖像兩個模態的輸入。每個用戶每天可以獲得200視頻生成積分,而用Seedance 2.0生成一個10秒的視頻,需要耗費20積分,也就是說每個人可以體驗10次。
我們的首個測試案例是長文本提示詞輸入,下方提示詞精確定義了畫面里的主體、動作以及音效,看看Seedance 2.0能否準確還原。
提示詞:突然,前方街角的陰影里,一只漆黑的貓像一道閃電般竄出,身形輕盈而敏捷。女孩被嚇得微微后退一步,雨水順著帽沿落在她的肩膀上,濺起一圈細小水花。鏡頭側面緩緩跟隨,捕捉她的手伸出,試圖輕輕觸碰黑貓。貓的耳朵微微豎起,眼睛在昏黃路燈下閃著綠光,它輕巧地一躍,仿佛帶著夜色消失在濕漉漉的街道深處。 女孩愣了一秒,低頭看著自己微濕的手指,嘴角悄悄上揚,露出一絲忍俊不禁的笑意。她輕輕搖搖頭,雨傘下的臉被燈光映出溫暖的光暈。隨后,她重新調整步伐,撐開雨傘,加快了前行的腳步,雨水拍打傘面的聲音伴隨著她鞋底濺起的水花,融入夜晚街道的喧囂中。 音效提示詞:貓叫聲輕響,隨即消失;雨點拍打傘面滴答作響;遠處偶爾傳來汽車轟鳴聲和腳步聲,街道彌漫濕潤氣息。
在大約等待了30秒后,豆包向我們發送了生成結果。提示詞中描述的幾個關鍵動作都在視頻中得到了呈現,同時,畫面中人物的衣著、樣貌在不同的鏡頭中都保持了一致,視覺效果比較穩定。
音效方面,Seedance 2.0的配音與畫面內容調性一致,而像是貓叫聲、腳步聲這些聲音則與畫面內容匹配,基本實現了音畫同步。
美中不足的是,對于“雨水順著帽沿落在她的肩膀上”這部分的描述,Seedance 2.0未能還原。平心而論,液體的渲染對大多數視覺生成模型來說還是較為困難的。
緊接著,我們又嘗試了一個涉及音畫同步的高難度場景:樂器演奏。此前,在我們的體驗中,大部分視頻模型都無法準確地將音樂與畫面的演奏動作同步,要么節奏對不上,要么手指動作與音符不符,要么整體演奏顯得生硬、不自然。
Seedance 2.0拿到的提示詞如下:
街頭音樂表演,鼓手敲擊節奏、吉他手彈奏旋律,觀眾隨節奏輕拍手,音樂是拉美風格。
Seedance 2.0的生成結果可以說是較為驚艷的,在音樂風格上,它滿足了我們的“拉美風格”限定詞,背景中的人物、建筑風格也符合拉美風的要求。
樂器演奏方面,鼓手的桶鼓輪奏動作與音樂的鼓點,基本達到了8成的契合度,這要比我們之前測試的字節視頻生成模型好得多。
而在吉他手的演奏中,畫面中手部按壓的和弦和視頻里模型生成的音樂也是基本契合的,左右手的手法都是自然、連貫且細節豐富,琴弦撥動與音符節奏高度對應。
細看還可以注意到,背景中觀眾拍手的動作和視頻里的聲音是精準卡點的。
我們的最后一個純文本提示詞考察的是一個超現實場景,這種場景在模型訓練數據里可能分布較少,考察的是對罕見視覺元素、超現實組合和非日常場景的生成能力。
畫面開場是一座夜晚的城市,全景俯拍,城市燈光閃爍,街道像河流般流動。隨后,鏡頭慢慢拉近,出現幾棟建筑緩緩離地漂浮,建筑底部閃爍著微光能量。空中漂浮的汽車像魚群般游動,偶爾從建筑間穿梭而過。主角是一位身穿銀色風衣的少年,腳下踩著懸浮板,從高樓之間穿行而過。 鏡頭切換至近景,少年伸手觸碰漂浮的建筑,觸碰瞬間建筑表面出現液態光紋,建筑緩緩旋轉、折疊,隨后化作光粒飛向夜空。背景出現巨大月亮,月亮上投射出城市倒影,光線折射在漂浮建筑和人物身上。
Seedance 2.0遵循了我們的鏡頭提示詞“全景俯拍”,而提示詞中相對少見的“懸浮板”、“漂浮汽車”這些元素,模型也能做到合理、真實地呈現。
而在最后一個動作中,像是“液態光紋”、“化作光粒飛向夜空”這些復雜的畫面要求,Seedance 2.0也能準確還原。
二、圖生視頻出現物理Bug,結合豆包模板后玩法更多
在日常使用中,還有一大需求就是輸入圖像,生成視頻。相比純文本生成,圖生視頻往往對模型的結構理解能力、主體一致性保持能力以及動作補全能力提出更高要求。
模型不僅要“看懂”圖像中的人物、環境和構圖關系,還要在此基礎上合理延展動作與鏡頭。同時,如何在生成過程中保持人物樣貌、服飾細節與整體風格不發生偏移,也是衡量圖生視頻能力的重要標準。
我們首先上傳了一個沙灘場景和一位小男孩的肖像,要求Seedance 2.0生成圖中男孩在沙灘上奔跑的畫面。上傳圖片作為輸入后,可以明顯感覺到模型的生成速度變慢了一些。
![]()
其實,這輪對話中Seedance 2.0的生成效果并沒有此前那么超乎預期。在沒有明確要求的情況下,模型生成的畫面是慢動作的,這是不少AI視頻生成模型的常見問題。
從畫面內容來看,我們上傳的沙灘、男孩的特征基本都得到了保留,不過從物理準確性上來看,男孩在跑過沙灘的時候并沒有留下腳印,有點穿幫了。
并且,在上傳圖片后,豆包會提示無法自定義模型比例,它將根據參考圖自行選擇比例。在這次案例中,它默認選擇了男孩肖像圖的豎版比例,其實并不符合我們的需求。
于是,我們更換了提示詞的順序,把沙灘這一背景前置了。不過,最后模型還是選擇了豎版的視頻比例,而且,第二次生成的畫面出現了更為嚴重的物理規律Bug:男孩踢球的力道明顯不足以讓足球在天空中飛那么久。
上線豆包后,Seedance 2.0還可以與豆包原有的多種視頻生成玩法結合,提供新的體驗。
![]()
比如,我們試著體驗了由Seedance 2.0驅動的AI采訪玩法,這一玩法支持上傳人物圖像,或者選擇已經保存好的“分身”出鏡。
![]()
一開始,我們想試著讓Seedance 2.0生成馬斯克與阿爾特曼這兩位AI圈頂流爭論的畫面,但是或許是由于觸及模型的安全機制,這類需求被模型直接拒絕了。
![]()
于是,我們換了一位相對沒有那么知名的人物,上傳了其照片。拿到生成結果后,可以明顯感覺到這一模板是偏惡搞向的,畫面左側的受訪者突然蹲下,頭部被夸張地“拉長”,隨后又像彈簧一樣猛地“彈”回原位。這樣的變形效果雖然充滿戲劇性,但突兀而荒誕,觀感上多少有些“掉San值”。
之后,我們又上傳了扎克伯格的畫面,并采用官方的全息投影模板。畫面中,扎克伯格帶上了一個類似蘋果Vision Pro的VR頭顯,隨后整個人物逐漸轉為半透明質感,背景中浮現出粒子光效,整體呈現出明顯的“全息投影”視覺風格。
我們又嘗試了另一個模板“游戲追逐”,這個模板會生成一則猛獸追逐畫面中主角的視頻,我們上傳了一只小狗的畫面作為參考圖。
不過,可能由于這一模板是針對人類的,對動物作為主角的畫面并不適配,小狗跑起來的樣子不太符合生物規律。
結語:視頻制作工作流,或將被AI重塑
整體體驗下來,Seedance 2.0的表現確實有明顯提升。無論是長文本指令的理解與還原、復雜音畫同步場景的精準匹配,還是超現實畫面的穩定生成,它都展現出了明顯強于以往模型的綜合能力。
當然,它仍存在一些可以改進的地方,其中物理細節還有明顯的優化空間。但在動作連貫性、人物一致性與鏡頭語言執行力上,Seedance 2.0已經開始接近成為可商用的創作工具。
隨著Seedance 2.0開始進入豆包這樣的大眾產品,普通用戶也開始能低成本、高頻率地嘗試視頻創作。未來,視頻的生產方式、創作門檻乃至內容形態,都可能被重新定義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.