網易首頁 > 網易號 > 正文申請入駐

Seedance 2.0殺入豆包！海外網友翻墻跪求，國內用戶免費用，附一手實測

2026-02-11 21:57:05　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯李水青

智東西2月11日報道，今天，陸續有不少用戶發現，字節跳動已在旗下AI助手App豆包內開啟視頻生成模型Seedance 2.0的灰度測試。

用戶只需打開豆包，點擊下方的創作按鈕，進入視頻生成功能后，已被納入灰度測試的用戶就可看到模型2.0（Seedance 2.0）的選項。

自2月7日在即夢等平臺灰度上線以來，Seedance 2.0就讓整個AI視頻圈炸了鍋。

《黑神話·悟空》背后的游戲科學創始人兼CEO、制作人馮驥在體驗后Seedance2.0后，盛贊該模型為“地表最強”，并判斷道：“AIGC的童年時代，結束了。”a16z的合伙人Justine Moore則感嘆道：“AI視頻模型的圖靈測試已經被攻克了。”一位學習了7年數字電影制作的網友在體驗后說，這個模型讓他感到害怕，他所學習到的90%技能，Seedance2.0都能實現。

過去，往往是國內用戶費盡心思去體驗國外的AI工具，而這次，Seedance 2.0作反而成為海外網友“爭相體驗”的對象。

由于該模型在部分國家和地區尚未開放，不少海外網友在社交平臺頻頻“催上線”、詢問開放時間；還有人專門制作了詳細教程，分享如何通過中國手機號完成注冊，并一步步體驗Seedance 2.0的完整流程。

Seedance 2.0上線豆包App后，智東西也第一時間進行了體驗。我們嘗試了從日常場景到超現實場景的多種創作，發現模型對復雜提示詞的理解能力明顯增強，同時音畫同步和視覺效果的呈現也更自然，較字節的上一代視頻生成模型，實現了可感知的大幅提升。

一、實測長提示詞指令遵循，高難度樂器演奏、超現實場景也能還原

據字節官方技術文檔，Seedance 2.0在物理規律、動作表現、指令遵循等領域均有明顯提升，還支持了圖像、視頻、音頻、文本四種模態輸入，這意味著用戶能以更多的方式控制模型的輸出，滿足創作需求。

不過，目前在豆包App中，Seedance 2.0暫時僅支持文本和圖像兩個模態的輸入。每個用戶每天可以獲得200視頻生成積分，而用Seedance 2.0生成一個10秒的視頻，需要耗費20積分，也就是說每個人可以體驗10次。

我們的首個測試案例是長文本提示詞輸入，下方提示詞精確定義了畫面里的主體、動作以及音效，看看Seedance 2.0能否準確還原。

提示詞：突然，前方街角的陰影里，一只漆黑的貓像一道閃電般竄出，身形輕盈而敏捷。女孩被嚇得微微后退一步，雨水順著帽沿落在她的肩膀上，濺起一圈細小水花。鏡頭側面緩緩跟隨，捕捉她的手伸出，試圖輕輕觸碰黑貓。貓的耳朵微微豎起，眼睛在昏黃路燈下閃著綠光，它輕巧地一躍，仿佛帶著夜色消失在濕漉漉的街道深處。女孩愣了一秒，低頭看著自己微濕的手指，嘴角悄悄上揚，露出一絲忍俊不禁的笑意。她輕輕搖搖頭，雨傘下的臉被燈光映出溫暖的光暈。隨后，她重新調整步伐，撐開雨傘，加快了前行的腳步，雨水拍打傘面的聲音伴隨著她鞋底濺起的水花，融入夜晚街道的喧囂中。音效提示詞：貓叫聲輕響，隨即消失；雨點拍打傘面滴答作響；遠處偶爾傳來汽車轟鳴聲和腳步聲，街道彌漫濕潤氣息。

在大約等待了30秒后，豆包向我們發送了生成結果。提示詞中描述的幾個關鍵動作都在視頻中得到了呈現，同時，畫面中人物的衣著、樣貌在不同的鏡頭中都保持了一致，視覺效果比較穩定。

音效方面，Seedance 2.0的配音與畫面內容調性一致，而像是貓叫聲、腳步聲這些聲音則與畫面內容匹配，基本實現了音畫同步。

美中不足的是，對于“雨水順著帽沿落在她的肩膀上”這部分的描述，Seedance 2.0未能還原。平心而論，液體的渲染對大多數視覺生成模型來說還是較為困難的。

緊接著，我們又嘗試了一個涉及音畫同步的高難度場景：樂器演奏。此前，在我們的體驗中，大部分視頻模型都無法準確地將音樂與畫面的演奏動作同步，要么節奏對不上，要么手指動作與音符不符，要么整體演奏顯得生硬、不自然。

Seedance 2.0拿到的提示詞如下：

街頭音樂表演，鼓手敲擊節奏、吉他手彈奏旋律，觀眾隨節奏輕拍手，音樂是拉美風格。

Seedance 2.0的生成結果可以說是較為驚艷的，在音樂風格上，它滿足了我們的“拉美風格”限定詞，背景中的人物、建筑風格也符合拉美風的要求。

樂器演奏方面，鼓手的桶鼓輪奏動作與音樂的鼓點，基本達到了8成的契合度，這要比我們之前測試的字節視頻生成模型好得多。

而在吉他手的演奏中，畫面中手部按壓的和弦和視頻里模型生成的音樂也是基本契合的，左右手的手法都是自然、連貫且細節豐富，琴弦撥動與音符節奏高度對應。

細看還可以注意到，背景中觀眾拍手的動作和視頻里的聲音是精準卡點的。

我們的最后一個純文本提示詞考察的是一個超現實場景，這種場景在模型訓練數據里可能分布較少，考察的是對罕見視覺元素、超現實組合和非日常場景的生成能力。

畫面開場是一座夜晚的城市，全景俯拍，城市燈光閃爍，街道像河流般流動。隨后，鏡頭慢慢拉近，出現幾棟建筑緩緩離地漂浮，建筑底部閃爍著微光能量。空中漂浮的汽車像魚群般游動，偶爾從建筑間穿梭而過。主角是一位身穿銀色風衣的少年，腳下踩著懸浮板，從高樓之間穿行而過。鏡頭切換至近景，少年伸手觸碰漂浮的建筑，觸碰瞬間建筑表面出現液態光紋，建筑緩緩旋轉、折疊，隨后化作光粒飛向夜空。背景出現巨大月亮，月亮上投射出城市倒影，光線折射在漂浮建筑和人物身上。

Seedance 2.0遵循了我們的鏡頭提示詞“全景俯拍”，而提示詞中相對少見的“懸浮板”、“漂浮汽車”這些元素，模型也能做到合理、真實地呈現。

而在最后一個動作中，像是“液態光紋”、“化作光粒飛向夜空”這些復雜的畫面要求，Seedance 2.0也能準確還原。

二、圖生視頻出現物理Bug，結合豆包模板后玩法更多

在日常使用中，還有一大需求就是輸入圖像，生成視頻。相比純文本生成，圖生視頻往往對模型的結構理解能力、主體一致性保持能力以及動作補全能力提出更高要求。

模型不僅要“看懂”圖像中的人物、環境和構圖關系，還要在此基礎上合理延展動作與鏡頭。同時，如何在生成過程中保持人物樣貌、服飾細節與整體風格不發生偏移，也是衡量圖生視頻能力的重要標準。

我們首先上傳了一個沙灘場景和一位小男孩的肖像，要求Seedance 2.0生成圖中男孩在沙灘上奔跑的畫面。上傳圖片作為輸入后，可以明顯感覺到模型的生成速度變慢了一些。

其實，這輪對話中Seedance 2.0的生成效果并沒有此前那么超乎預期。在沒有明確要求的情況下，模型生成的畫面是慢動作的，這是不少AI視頻生成模型的常見問題。

從畫面內容來看，我們上傳的沙灘、男孩的特征基本都得到了保留，不過從物理準確性上來看，男孩在跑過沙灘的時候并沒有留下腳印，有點穿幫了。

并且，在上傳圖片后，豆包會提示無法自定義模型比例，它將根據參考圖自行選擇比例。在這次案例中，它默認選擇了男孩肖像圖的豎版比例，其實并不符合我們的需求。

于是，我們更換了提示詞的順序，把沙灘這一背景前置了。不過，最后模型還是選擇了豎版的視頻比例，而且，第二次生成的畫面出現了更為嚴重的物理規律Bug：男孩踢球的力道明顯不足以讓足球在天空中飛那么久。

上線豆包后，Seedance 2.0還可以與豆包原有的多種視頻生成玩法結合，提供新的體驗。

比如，我們試著體驗了由Seedance 2.0驅動的AI采訪玩法，這一玩法支持上傳人物圖像，或者選擇已經保存好的“分身”出鏡。

一開始，我們想試著讓Seedance 2.0生成馬斯克與阿爾特曼這兩位AI圈頂流爭論的畫面，但是或許是由于觸及模型的安全機制，這類需求被模型直接拒絕了。

于是，我們換了一位相對沒有那么知名的人物，上傳了其照片。拿到生成結果后，可以明顯感覺到這一模板是偏惡搞向的，畫面左側的受訪者突然蹲下，頭部被夸張地“拉長”，隨后又像彈簧一樣猛地“彈”回原位。這樣的變形效果雖然充滿戲劇性，但突兀而荒誕，觀感上多少有些“掉San值”。

之后，我們又上傳了扎克伯格的畫面，并采用官方的全息投影模板。畫面中，扎克伯格帶上了一個類似蘋果Vision Pro的VR頭顯，隨后整個人物逐漸轉為半透明質感，背景中浮現出粒子光效，整體呈現出明顯的“全息投影”視覺風格。

我們又嘗試了另一個模板“游戲追逐”，這個模板會生成一則猛獸追逐畫面中主角的視頻，我們上傳了一只小狗的畫面作為參考圖。

不過，可能由于這一模板是針對人類的，對動物作為主角的畫面并不適配，小狗跑起來的樣子不太符合生物規律。

結語：視頻制作工作流，或將被AI重塑

整體體驗下來，Seedance 2.0的表現確實有明顯提升。無論是長文本指令的理解與還原、復雜音畫同步場景的精準匹配，還是超現實畫面的穩定生成，它都展現出了明顯強于以往模型的綜合能力。

當然，它仍存在一些可以改進的地方，其中物理細節還有明顯的優化空間。但在動作連貫性、人物一致性與鏡頭語言執行力上，Seedance 2.0已經開始接近成為可商用的創作工具。

隨著Seedance 2.0開始進入豆包這樣的大眾產品，普通用戶也開始能低成本、高頻率地嘗試視頻創作。未來，視頻的生產方式、創作門檻乃至內容形態，都可能被重新定義。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.