![]()
新智元報道
編輯:犀牛 Aeneas
【新智元導讀】當Seedance 2.0刷屏全網時,一匹中國黑馬已悄然沖上全球AI視頻榜第二。昆侖天工SkyReels-V4強勢殺入頂級牌桌,多模態輸入、音畫同步直出影院級大片,實力驚艷超群!
最近,全球AI圈風頭最盛的模型當屬Seedance 2.0了。
模型一出,瞬間引爆全網。
就當所有人的目光都聚焦在Seedance 2.0的狂歡與爭議上時,一匹黑馬已悄然殺入了全球AI榜單的頂級牌桌。
就在剛剛,Artificial Analysis更新了文本到視頻(含音頻)全球榜單。
在這份由OpenAI、Google、Anthropic等頭部AI公司共同認可的權威排行榜上,一個來自中國的名字闖入了最前列:
昆侖天工SkyReels-V4,全球現役模型排名第2,歷史所有模型排名第4!
![]()
![]()
Artificial Analysis 榜單: https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true
在這個匯聚了Veo 3.1、Sora 2、Kling 3.0、Wan 2.6等全球頂尖選手的競技場上,SkyReels-V4以實打實的技術硬實力,一舉超越了絕大多數明星產品。
這不是一次偶然的驚艷亮相,而是昆侖天工在 AI 視頻大模型領域厚積薄發的一次集中爆發。
先看效果
SkyReels-V4 到底能做什么?
空談數據,不如直接看能力。
SkyReels-V4的野心遠不止于「生成一段好看的視頻」。
它想要做的,是成為全球首個同時支持多模態輸入、聯合音視頻生成、統一生成/修復/編輯任務的視頻基礎模型。
舉幾個直觀的例子。
比如現在最火的短劇。只需要兩個角色圖片,以及角色的臺詞即可。
![]()
輸入SkyReels-V4后,它直接就生成了一段1080p、32FPS、15秒的影院級視頻。
這個效果,已經基本上沒啥AI味了。
歪果仁也沒問題。
![]()
不得不說,真的很難看出是AI生成的。
同時給多個參考圖像和音頻輸入,三個角色分別是一只黑貓、一只澳大利亞牧牛犬和一只棕熊。
![]()
仔細看,畫面和聲音完全對得上,節奏卡得基準,嘴型都嚴絲合縫,挑不出毛病。
SkyReels-V4最讓人眼前一亮的能力,就是讓你擁有多模態參考的創作自由。
假設你手頭有兩張角色設計圖、一段舞蹈動作的參考視頻,你可以把這三者同時丟給SkyReels-V4,它會忠實地用兩張圖像的角色外觀,執行視頻中的舞蹈動作,配合音頻的節奏律動,生成一段全新的、高質量的視頻作品。
這種跨模態的精準融合控制能力,在當前的視頻大模型中幾乎是獨一份。
比如這段經典電影中男女演員隨音樂起舞的視頻,質感極其驚艷。

舞蹈演員換成邊牧和英短,效果也是同樣自然。
可以說,SkyReels-V4真正做到了角色一致性、高質量動作生成、精準音畫同步、電影級的視覺呈現,幾乎可以直接用于商業級展示。
首幀參考功能,可以讓它的多模態控制更為靈活。
輸入以下首幀,我們就分別得到了喝咖啡的兵馬俑、拉小提琴的陶俑和打排球的labubu。
![]()



運動參考功能,可以把跳舞的舞者一鍵換成動漫角色,動作絕對一致。

![]()

另外,SkyReels-V4的一站式全流程修復編輯功能,也是好用到爆。
如果視頻中有個礙眼的水印,可 以直接去掉。
一句prompt,就能去掉短劇中的特定人物,比如下面鏡頭中穿旗袍和穿紅裙的女演員。
角色的衣服不滿意?直接一鍵修改。比如這位舉杠鈴的老人,白背心一鍵被變成了藍色T恤,畫面自然得看不出改動痕跡。


甚至,你可以把整個視頻的風格從寫實一鍵切換到樂高積木風。
古裝劇這種寫實、厚重的影像風格,都能瞬間變成充滿童趣和創意的視覺表達,而且動作、鏡頭調度和劇情節奏依然保留,風格遷移完成度驚人。
也就是說,從此創作者再也不會被單一美術風格綁定,同一段內容,可以根據商業需求快速切換視覺語言,在史詩、卡通動畫、積木玩具風之間來回切換。
這就打開了IP二次創作和品牌聯名的空間,讓內容的商業想象力空間暴漲。


SkyReels-V4還能幫我們把靜態的鏡頭,變成電影級的推拉搖移。
原本只是一個男人坐在原地拋著橘子,畫面像監控一樣靜止、沒有起伏。
但加入鏡頭語言后,原本靜態的記錄畫面,一下子就有了呼吸感,被轉化為極有敘事張力和節奏設計的電影級運鏡。


更方便的是,過去你需要在Premiere、AE、各種AI工具之間反復切換才能完成的工作。
現在,SkyReels-V4一個模型就能全部搞定了。
三大創新打破行業天花板
SkyReels-V4 的強悍表現背后,是三項關鍵技術突破。
![]()
技術報告入口: https://arxiv.org/pdf/2602.21818
第一,雙流 MMDiT 架構——讓音視頻真正「合為一體」。
當前主流的視頻生成模型在處理音頻時,普遍采用「先生成視頻,再后貼音頻」的淺層融合方案,這種做法導致的結果就是音畫不同步、唇形對不上、音效跟畫面割裂。
SkyReels-V4 徹底換了一種思路。
它采用對稱雙流架構設計:視頻和音頻各有一條獨立的處理分支,但兩條分支共享同一個文本編碼器,并通過雙向跨注意力機制在整個網絡的所有層級上實現深度交互。
![]()
簡單來說,視頻在生成的每一步都在「聽」音頻在做什么,音頻在生成的每一步都在「看」視頻在做什么——它們不是各干各的、最后拼在一起,而是從一開始就在互相引導、協同生長。
為了解決音頻和視頻在時間尺度上的天然不匹配問題(視頻是一幀一幀的,音頻是連續波形的),團隊還創新性地使用了RoPE頻率縮放技術,將音頻的位置編碼頻率精確地調整為與視頻幀率相匹配的比例,實現了毫秒級的時間對齊精度。
這就是為什么SkyReels-V4的唇形同步能做到如此的準確率——因為音視頻從生成機制的底層就是綁定的。
第二,統一拼接框架——一個模型,包攬所有視頻操作。
傳統的視頻AI工具鏈是碎片化的:文生視頻用一個模型,圖生視頻用另一個,視頻修復用第三個,風格遷移用第四個……每切換一個工具,都意味著上下文信息的丟失和創作流程的斷裂。
SkyReels-V4提出了一個精巧的「通道拼接+時序拼接」雙維統一范式。
它的核心思想是:無論你想做什么任務——文字生成視頻、圖片生成視頻、視頻延展、區域修復、風格遷移、物體移除——本質上都可以被轉化為「給定某些已知條件,生成未知區域」的修復問題。
通過一組靈活的輸入組件,模型只需要調整掩碼配置就能在不同任務間無縫切換。
比如文生視頻時掩碼全為0(完全從零生成),圖生視頻時只有首幀掩碼為1(鎖定參考圖,續寫后續畫面),視頻編輯時保留區域掩碼為1、編輯區域掩碼為0(只改你想改的部分)。
這種設計的優雅之處在于:用戶不需要關心底層在調用哪個功能模塊,只需要告訴模型「我想要什么」,模型自己就能理解并執行。
它讓專業級視頻創作從「工具鏈操作」變成了「意圖表達」。
第三,高效生成策略——在質量和速度之間找到最優解。
1080p分辨率、32FPS幀率、15秒時長——這個規格參數放在一年前,光是計算量就足以勸退大多數研究團隊。
SkyReels-V4的工程團隊設計了一套巧妙的「低分辨率全序列 + 高分辨率關鍵幀」聯合生成策略:模型先快速生成低分辨率的完整視頻和高分辨率的關鍵幀,再通過專門的超分辨率和幀插值模塊重構最終的高質量視頻。
配合自研的視頻稀疏注意力(VSA)機制,注意力計算成本降低了約3倍,讓影院級規格的視頻生成真正具備了實用價值。
![]()
此外,模型還采用了多階段漸進式訓練策略——從256px的文本到圖像預訓練起步,逐步擴展到480p、720p、1080p的多分辨率訓練,最后通過大規模多模態數據和精選高質量數據的微調進行精打細磨。
這種「由粗到精」的訓練路徑,確保了模型在每個分辨率等級上都有扎實的基礎能力。
視頻+音樂
未來市場爆發的金礦
SkyReels-V4 并不是一個孤立的產品——它是昆侖天工「全模態 AI 創作生態」拼圖中的關鍵一塊。
昆侖天工旗下還有一個同樣在全球市場打出聲量的產品:AI 音樂創作平臺 Mureka。
Mureka O1 是全球首個引入 CoT(思維鏈)技術的音樂推理大模型,在音樂創作質量上全面超越了 Suno 等競品,登頂 SOTA。
最新的 Mureka V8 在音色、演奏技法、情感表達上持續突破,用戶遍布全球 100 多個國家和地區。
當我們把 SkyReels-V4 的視頻生成能力和 Mureka 的音樂創作能力放在一起看,一個巨大的想象空間打開了:一家公司同時擁有全球頂尖的視頻大模型和音樂大模型,從畫面到聲音、從配樂到人聲、從特效到情感表達,全鏈路打通。
這意味著一個品牌方可以用一句話描述自己想要的廣告創意,從畫面、配樂、旁白到音效,一站式生成完整的視頻廣告。
一個獨立音樂人可以把自己創作的歌曲直接變成高質量MV,不需要再花費數萬元請拍攝團隊。
一個教育機構可以把課程內容自動轉化為配有講解語音、背景音樂和動態畫面的教學視頻。
在當前的 AI 市場上,同時在視頻和音樂兩個賽道都達到全球領先水平的玩家,屈指可數。
可以說,視頻+音樂的未來市場,是一座亟待爆發的金礦。
國外大廠已經紛紛下手,比如谷歌推出的Veo 3與Flow工具鏈,能同時生成視覺內容與音樂軌道,甚至整段視頻和聲音都能按需生成,直接就能一站式創作短片。

Adobe在Firefly中新增了AI Soundtrack與AI Voice-over生成器,可以根據視頻風格自動生成背景音樂,由此,廣告視頻可以自動配樂,影視預告片可以快速做出Demo。
![]()
美國AI語音/音樂公司ElevenLabs發布了與著名音樂人合作的AI生成項目,同時計劃結合視頻和音樂創作。
本質上,這條路線也是視頻+音樂創意協同生成的未來方向。
![]()
ElevenLabs的最新項目:Liza Minnelli和Art Garfunkel
現在,這些大廠嘗試的路徑,昆侖萬維已經完美復現!
SkyReels-V4的出現,恰逢其時
昆侖天工的技術報告已經明確展示,SkyReels-V4和Mureka之間的技術協同已經在實際產品中落地——此前發布的全網首支AI音樂人MV,音樂由Mureka生成,視頻由SkyReels技術支撐,就是這種全模態能力的一次預演。
巧合的是,AI視頻生成市場正處于一個微妙的轉折點。
Seedance 2.0的橫空出世毫無疑問攪動了整個行業,馮驥稱其「Kill the game」,影視颶風的Tim連呼六次「恐怖」,海外社交平臺上一碼難求。
但硬幣的另一面是:Seedance 2.0在爆紅的同時迅速遭遇了風控收緊,大量被Seedance 2.0驚艷效果吸引、但因風控收緊的創作者,正在積極尋找替代方案。
SkyReels-V4恰好在這個時間窗口,交出了一份足夠硬核的成績單。
更重要的是,SkyReels-V4 的「全模態參考」能力——支持文本、圖像、視頻、掩碼、音頻等多種輸入組合——在功能覆蓋度上甚至比Seedance 2.0更為全面。
對于那些需要穩定、專業、全流程視頻創作能力的用戶來說,SkyReels-V4 提供了一個值得認真考慮的選擇。
當然,AI視頻生成是一個百花齊放的賽道,每個模型都有自己的優勢和適用場景。
但SkyReels-V4用這次榜單成績證明了一件事:在這場全球競技中,中國AI視頻技術不只有一個選項。
持續迭代的長期主義
回顧昆侖天工在視頻大模型領域的發展軌跡,你會發現SkyReels-V4的崛起絕非偶然。
2025年2月,開源SkyReels-V1——中國首個面向AI短劇創作的視頻生成模型,基于千萬級級影視數據訓練,支持 33 種微表情和 400 多種動作組合。
2025年4月,發布SkyReels-V2——全球首個使用擴散強迫(Diffusion Forcing)框架的無限時長電影生成模型,在VBench1.0評測中拿下開源最高分。
2026年1月,開源SkyReels-V3——新一代多模態視頻生成系統,支持1-4 張參考圖像輸入,實現多主體視頻生成、音頻驅動和視頻到視頻生成。
2026年2月,SkyReels-V4發布——全球首個同時支持多模態輸入、聯合音視頻生成、統一全場景任務的視頻基礎模型,Artificial Analysis全球榜 TOP2。
從 V1 到 V4,每一代的迭代都不是簡單的參數堆疊,而是架構層面的創新突破。
V1 解決了影視級質感的問題,V2 攻克了無限時長生成的難題,V3 引入了多模態參考能力,V4 則實現了音視頻聯合生成和全場景統一框架的終極整合。
這種持續創新迭代的節奏,配合 Mureka 在 AI 音樂領域的領先地位、Skywork 系列在大語言模型和多模態推理上的突破、以及 DramaWave 短劇平臺的商業化落地,昆侖天工正在構建一個覆蓋「算力—模型—應用」的完整 AI 生態閉環。
AI 視頻創作的
「大一統」時刻正在到來
站在2026年初回望,AI視頻生成領域在過去一年經歷了翻天覆地的變化。
從Sora掀起的第一波浪潮,到Veo、Kling、Seedance等模型的百家爭鳴,再到SkyReels-V4以「全模態參考+音視頻聯合生成+統一任務框架」的三位一體能力沖上全球榜單前列——我們正在見證一個新時代的開啟。
在這個時代里,視頻創作不再是專業團隊的專屬特權,而是每一個有創意的人都能觸及的表達方式。
而SkyReels-V4所代表的技術方向——用一個模型、一次操作,完成從文字構思到音視頻成品的全流程創作——正是通往那個未來的最清晰路徑。
昆侖天工在技術報告中透露了未來三大方向:擴展更長時長(30 秒+)的視頻生成能力、增強實時交互編輯功能、開放模型API接口與更多創作工具生態集成。
這些方向中的每一個,都將進一步拉近AI視頻創作與專業影視制作之間的距離。
AI 視頻的競賽遠未結束,但SkyReels-V4已經用全球TOP2的成績證明:在這條賽道上,來自中國昆侖天工的聲音,值得全世界傾聽。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.