![]()
編輯|杜偉、楊文
臨近 2025 年末,視頻生成賽道再次熱鬧了起來,多個新模型接連登場。
我們發現,在國內的頭部廠商中,火山引擎的豆包系列視頻生成模型已經很長時間沒有大的版本更新了。距離前代 Seedance 1.0 pro 的問世已過去半年時間,這也讓大家對其下一代 Seedance 1.5 的關注度越來越高。
![]()
![]()
究竟在蓄什么大招?在今天上午舉辦的火山引擎 2025 年冬季 FORCE 原動力大會上,最新一代豆包視頻生成模型「Seedance 1.5 pro」正式亮相。
![]()
這一次,Seedance 1.5 pro做到了原生音畫高精同步,覆蓋環境音、動作音、合成音、樂器音、背景音樂及人聲等全場景,音畫同步率全球領先。與此同時,該模型能夠更好地遵循復雜指令,支持更多外國語言與中文方言的自然對白,更精準地捕捉運動細節,敘事理解與連貫性更強,人物情緒與表情呈現也更加細膩。
在一系列新能力的加持下,Seedance 1.5 pro 在整體完成度、更細粒度的鏡頭控制與畫面表現力上已經不可同日而語。
如下圖所示,在視頻能力評估中,Seedance 1.5 pro 在文本生成視頻(T2V)的對齊度(Alignment)指標上取得領先,并在其他多項指標(T2V 的畫面美感以及圖像生成視頻 I2V 的對齊度與運動)上位居前列。而在音頻能力評估中,Seedance 1.5 pro 在生成質量、同步性、對齊度、表現力等多項指標上全方位超越 Veo 3.1 和 Kling 2.6。
![]()
目前,Seedance 1.5 pro 已經上線火山方舟體驗中心,預計 12 月 23 日通過火山引擎為企業用戶提供 API。個人用戶則可以通過即夢網頁版和豆包 App 使用。
![]()
鏈接:https://exp.volcengine.com/ark/vision?launch=seedance
接下來,我們就奉上一手實測。
一手實測:
能說 16 種方言,還能飆演技
很長一段時間里,AI 生成的視頻都是「默片」,畫面再精致,沒有聲音,觀感上總覺得差口氣。
直到谷歌 Veo3 率先打破僵局,掀起音畫同步熱潮,其他廠商也紛紛朝著這個方向發力。
字節也不例外。此次 Seedance 1.5 pro 最大更新就是原聲音畫同步,甚至更進一步,不僅實現一個視頻中多人超自然對白、口型做到毫秒級精準對齊,還支持中文、方言、英文及小語種等多種語言。
就拿中文來說,除了普通話,它還可以輕松拿捏陜西話、四川話、東北話、臺灣腔、閩南語、粵語等 16 種方言口音。
這幾天,網友們對 GPT-5.2 的「怨氣」很重,嫌它太平淡、安全過度、「把成年人當幼兒園小孩對待」。
既然大家這么不爽,我們決定整個花活兒,讓 Sam Altman 用美式中文和陜西話吐槽下。
視頻中,Altman 滿臉嫌棄的小表情相當到位,眉毛微皺,嘴巴一撇,用蹩腳的中文吐出「GPT-5.2 不好用」幾個字,末了還聳聳肩,一臉無奈。
后半段,Altman 陜西話說得賊地道、賊帶勁,口音就是《武林外傳》中佟掌柜那味兒。
![]()
提示詞:Sam Altman 分別用美式中文和陜西話吐槽 GPT-5.2。
我們又加點難度,讓它生成一個金發美女唱歌的視頻。
畫面幾乎找不出什么破綻,女歌手表情投入,運鏡也蠻講究,妥妥 MV 質感。唱的歌呢,聽詞兒像是那首經典的《月亮代表我的心》,不用擔心版權問題,因為沒有一句歌詞在原調上。
![]()
提示詞:一位金發歐美美女在錄音棚里對著麥克風唱中文歌。
前面還只是個人秀,多人多語言對白才是重頭戲。
我們搞了個復雜提示詞,里面涵蓋鏡頭運動、人物表現、光影效果、音效層次、跨語言對話等等多個測評要素。
Seedance 1.5 pro 嚴格遵循文本描述,動態的手持拍攝效果,鏡頭轉換絲滑。
男主持與美國游客一個說中文,一個說英文,口型完全對得上,連說話時的氣口、調侃的語調都很自然。
![]()
提示詞:一段動態的手持拍攝鏡頭跟隨一位自信的男主持人穿梭在熙熙攘攘的街頭。他手持麥克風,攔住一位美國游客,咧嘴一笑,問道:“你覺得 Seedance 是目前最好的視頻生成模型嗎?” 美國游客輕笑一聲,回答道:“That depends — can it make me look better than real life?” 鏡頭緩緩拉近,附近的行人發出笑聲,霓虹燈在雨后濕滑的人行道上閃爍。采用手持拍攝的松散跟蹤鏡頭,景深較淺,將拍攝對象從模糊的城市運動背景中分離出來。霓虹燈招牌倒映在水坑和玻璃上,而路燈柔和的氛圍光則突出了人們的臉龐。都市寫實主義,色彩飽和度高,質感濕潤,動感十足。畫面清晰聚焦于人物表情。對話語氣輕松自信,充滿玩笑意味。環境音是汽車喇叭聲、人群熙攘的交談聲、遠處傳來的音樂聲、笑聲。
同樣的邏輯,我們還試了段相聲。只需一句簡單模糊的提示,模型自動腦補出完整的相聲內容,一個捧哏,一個逗哏,一個普通話說得賊準,一個四川話說得賊溜。
![]()
提示詞:兩個年輕人在臺上表演相聲,一個用普通話說,一個用四川話說,臺下時不時發出笑聲。
前段時間,AI 生成 ASMR 視頻非常火,在社交媒體上動輒就能獲得上百萬播放量。
這類視頻主要是通過各種細微聲音刺激,比如敲擊聲、耳語聲等,觸發人們的感官愉悅反應,幫助放松和入睡。
Seedance 在這方面表現也不錯。比如讓 ASMR 創作者敲鍵盤然后對著麥克風吹氣說話,它生成的機械軸聲、吹氣聲、說話聲層次分明,音畫配合的精準度,完全可以媲美谷歌的 Veo3.1。
![]()
提示詞:asmr creator typing on a noisy keyboard and then looking up and blowing into the microphone as she talks .
演技這塊,AI 也越來越「老戲骨」了。Seedance 1.5 pro 實現影視級敘事張力,整個短劇不成問題。
我們上傳一張女生特寫素顏照,分別輸入提示詞:生成女生開懷大笑的表情、憤怒的表情、悲傷的表情、疲憊的表情。
![]()
它生成的每種情緒都挺細膩,大笑時露出眼角紋,憤怒時眉頭緊蹙、呼吸加重,悲傷時不自覺落淚,還有疲憊時深深的嘆息,一看就是老打工人了。
![]()
這架勢,以后演員的飯碗可能真懸了。
在賽車等強調速度動態、或者戰爭這類大場面處理上,Seedance 1.5 Pro 絲毫不打怵。
比如它生成的紅白相間 F1 賽車在城市賽道上疾馳,運動幅度大,但流暢且有張力。畫面自帶 80 年代膠片顆粒感,動態模糊處理得極好,那種速度帶來的視覺沖擊力,還真有老式賽車紀錄片的感覺。
![]()
提示詞:鏡頭高高掠過陽光普照的摩納哥懸崖,幾乎與直升機的飛行高度相當。下方,一輛紅白相間的 20 世紀 80 年代一級方程式賽車疾馳在城市賽道上,閃亮的漆面和澎湃的動力令人目眩神迷。鏡頭展現出一幅由柔和色調的建筑、狹窄的彎道以及遠處波光粼粼的地中海構成的精美畫卷。賽車的速度與精準度令人驚嘆 —— 它的身影在發夾彎和隧道陰影中翩翩起舞,不時被明亮的陽光輕撫。影片的畫面質感粗糲而真實:自然的動態模糊、柔和的膠片顆粒以及陽光照射下的高光,仿佛重現了老式 35 毫米賽車紀錄片的風采。
戰爭場景中,手持鏡頭的劇烈晃動呼應了士兵的奔跑,爆炸聲、腳步聲、喘息聲混在一起,緊迫感撲面而來。
![]()
提示詞:一戰戰場上的電影場景,一名英國士兵在泥濘的地面上全速奔跑,迫擊炮彈在附近爆炸,揚起塵土和硝煙。鏡頭以手持拍攝的方式橫向跟隨他,略微晃動,與他的動作相呼應,營造出緊迫感。爆炸隆隆作響,炮彈呼嘯而過,碎片飛濺,沖擊波席卷整個場景,營造出一種緊張而真實的氛圍。
還有下面的 FPS 追逐戲,這種復雜動態場景對 AI 來說其實挺有挑戰的,既要保證畫面連貫性,又要處理好多層次的運動元素,還得兼顧環境音效和視覺沖擊力。
從生成結果來看,手持攝像機的晃動、樹枝飛掠、引擎轟鳴、奔跑的呼吸聲、腳步聲,它都捕捉得很精準自然,沒有邏輯崩壞和僵硬感。
![]()
提示詞:First-person shaky handheld camera: The viewer runs at full speed through a dense jungle, chasing a man on a speeding motorbike ahead. Branches whip past the camera, leaves crunch underfoot, and the roar of the engine echoes through the trees. Light flickers through the canopy as the pursuit intensifies. cinematic action footage
最后,我們看看它在商業廣告上的潛力。
該模型挺擅長處理復雜空間變化,箱體開啟、汽車顯現、展廳元素組裝,輕輕松松給特斯拉「拍」了個概念大片,最難得的是它能嚴格遵循這么長的復雜提示詞,把極簡風格、科技感、品牌調性這些抽象概念都精準還原出來。
![]()
提示詞:電影級鏡頭,一個極簡風格、帶有特斯拉品牌標識的箱體以魔法般的方式開啟,展現出一輛已完整成型的特斯拉汽車,同時其周圍瞬間組裝出一個流線型、特斯拉主題的展廳。畫面中不出現任何文字。電影感,固定廣角鏡頭,在關鍵變化節點進行細微的變焦推進;可控的高科技燈光氛圍,從昏暗逐漸過渡到明亮、干凈;空曠的未來感空間,逐步轉變為極簡風格的特斯拉展廳,元素包括帶有發光縫隙的特斯拉品牌箱體、特斯拉汽車(如 Model 3 / Model Y / Cybertruck)、充電樁、極簡展示面板、流線型展廳家具、環境氛圍燈光元素;箱體面板順滑、安靜地收回,車輛顯現;展廳元素精準且迅速地升起、展開并完成組裝;結尾畫面干凈、純粹、極具吸引力的特斯拉展廳,汽車作為畫面中心。
測下來整體感覺,Seedance 1.5 pro 生成效果還是穩定靠譜的。
用過 AI 視頻生成的朋友都知道,輸入同樣的提示詞,往往需要生成多次,才能在一堆崩壞的畫面里挑出一個能用的,這也就是所謂的「抽卡」。
在 Seedance 1.5 Pro 測試中,它表現出極高的指令遵循度,基本不需要反復「抽卡」,甚至我們還發現,往往第一次生成的視頻效果就是最佳的,后續為了追求更好而反復重試的版本,反而在自然度和邏輯性上不如初版。
總之,對于日常內容創作、輕量級商業廣告以及 AI 短劇制作,Seedance 1.5 Pro 完全夠用。
Seedance 1.5 pro:
原生音視頻聯合生成的更優解
在上述多個場景的實測中,Seedance 1.5 pro 在多語言與方言適配、運動表現力、鏡頭調度、整體視聽一致性等多個關鍵維度上的表現給我們留下了深刻的印象。
這讓我們更加好奇,相較于前代 Seedance 1.0 pro,新版本在底層能力上實現了哪些實質性的突破?
作為字節跳動豆包大模型團隊(以下簡稱團隊)的最新視頻生成基礎模型,Seedance 1.5 Pro 在架構層面即原生支持音視頻聯合生成,包括文本到音視頻生成和基于圖像引導的音視頻生成。
![]()
技術報告地址:https://arxiv.org/pdf/2512.13507
在實現過程中,Seedance 1.5 pro 融合了幾項關鍵技術創新,包括統一的多模態聯合生成架構、全面的音視頻數據框架、精細化的后訓練優化策略和高效的推理加速方案,從而在架構范式、數據工程、訓練策略與系統效率等層面形成了系統性優化。我們接下來一一來看。
首先在框架層面,團隊提出了一種基于 MMDiT 架構的統一建模框架,這是實現原生音視頻聯合生成的重要基礎。
該框架支持跨模態的深度交互,確保視覺與聽覺信號實現時間維度上的精準同步以及語義層面的高度一致。另外通過在大規模混合模態數據集上進行多任務預訓練,模型在不同類型的下游任務中展現出良好的泛化能力,包括文本生成音視頻、圖像生成音視頻以及單模態的視頻生成。
其次在數據層面,團隊構建了一套面向高質量音視頻生成的整體數據框架。
該框架涵蓋了多階段數據篩選與清洗、先進的數據標注系統以及可規模化的基礎設施。這套數據 pipeline 以實現音畫一致、運動表現力和基于課程學習的數據調度為核心目標,配套的數據標注系統能夠為音視頻模態提供豐富、專業水準的描述。同時,整個框架依托高效的工程架構,針對大規模數據處理進行了深度優化。
接著在后訓練階段,團隊在高質量音視頻數據集上進行了監督微調(SFT),并引入了為音視頻場景定制的基于人類反饋的強化學習(RLHF)算法。
具體來講,團隊利用多維度獎勵模型有效提升了文本到視頻和圖像到視頻生成任務的整體表現,在運動質量、視覺美感和音頻保真度等方面收獲了明顯進步。同時,針對 RLHF 訓練流程進行了專門的工程優化,使得整體訓練速度提升近三倍。
最后在推理階段,團隊進一步優化多階段蒸餾框架,顯著降低了生成過程中所需要的函數評估次數(NFE)。同時結合量化、并行計算等推理基礎設施層面的優化,在保持模型性能的前提下,實現了 10 倍 + 的端到端推理加速。
下圖為 Seedance 1.5 pro 的整體訓推流程,其中通過「聯合預訓練 + SFT+RLHF」學習音視頻生成能力,并在推理階段以「統一文本條件」驅動音視頻聯合生成與精修,進而輸出高質量、強同步、高可控的音視頻內容。
![]()
這一系列技術突破帶來了音視頻生成能力的代際提升,為 Seedance 1.5 pro 在多項核心生成任務中的領先表現奠定了基礎。
下圖 3 和圖 4 分別展示了 Seedance 1.5 pro 與前代 Seedance 1.0 pro、其他競品模型在 T2V 和 I2V 任務中的性能比較結果。在 T2V 生成任務中,Seedance 1.5 Pro 在指令遵循(對齊度)指標上取得了領先表現,在畫面美感、運動質量等指標上也展現出較強競爭力。在 I2V 任務中,Seedance 1.5 Pro 同樣保持了穩定而突出的整體表現。
![]()
![]()
可以說,從 Seedance 1.0 pro 到 1.5 pro,最大的技術進步不在于單點能力的增強,而是完成了從視頻生成模型到原生音視頻聯合生成基礎模型的躍遷。
此次 Seedance 1.5 pro 的亮眼表現,正是自 2024 年初以 Sora 為代表的產品級模型亮相以來,視頻生成領域快速演進的一個縮影。在不到兩年的時間里,視頻生成技術便從學界的研究熱點迅速走入大眾視野,成為普通人也能直觀感受和使用的創作工具。
幾乎每一次重磅模型的發布,都在刷新人們對「AI 視頻可以進化到什么程度」的認知,并帶來超出預期的體驗。
如今,從生成時長、主體物理一致性到音畫同步、鏡頭連續性,一個個技術難點被攻克;加上首尾幀約束、參考角色、分鏡控制等更多樣玩法的出現,視頻生成早已邁過「人類直覺可接受」的階段,而開始真正邁向「創作級、生產級」階段。借助 AI 視頻創作工具,幾個人甚至單人小團隊就可以完成過去需要影視工作室才能完成的視頻內容。
作為推動該領域技術進步與玩法拓展的重要參與者,火山引擎 Seedance 系列視頻生成模型雖然問世時間不長,但一直是業界關注的焦點之一。1.5 pro 在補全模型能力的同時,加快了體系化競爭的步伐。新版本在可玩性、實用性上顯著提升,持續縮小模型輸出與真實視頻制作需求之間的差距。另外,通過 API 對外開放,為模型能力的規模化調用與工程化落地提供穩定的基礎設施支持。
目前,Seedance 1.5 pro 正在多樣化的視頻生成場景釋放巨大的應用潛力,尤其是多鏡頭視頻生成的實際生產。這意味著,該模型在更能滿足日常創意表達需求之外,逐步向支撐專業級視頻內容創作轉變。
在即將到來的 2026 年,業界對視頻生成領域有著更高的期待。馬斯克曾表示其希望旗下大模型 Grok 能在明年年底前產出至少能看的電影,到 2027 年能制作出真正好看的電影。
![]()
我們無法準確地判斷馬斯克的設想是否能如期實現,但可以預見的是,在未來的視頻生產體系中,包括 Seedance 1.5 pro 在內的視頻生成大模型將以更加成熟的方式參與從創意生成到內容制作的全過程,它們的使用比重有望繼續提升,承擔的角色也會更加重要。
文中視頻鏈接:
https://mp.weixin.qq.com/s/JvdQi0vAbDJj0_4Ysvk52w
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.