網易首頁 > 網易號 > 正文申請入駐

又一國產全模態視頻大模型殺入Artificial Analysis榜單Top 2

2026-02-27 14:42:39　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda、冷貓

1895 年，盧米埃爾兄弟的無聲電影《火車進站》曾讓觀眾驚嘆甚至驚慌失措；而直到 1927 年，當電影《爵士歌手》讓演員的聲音與嘴唇動作同步時，電影這項藝術才算真正「活」了過來。

爵士歌手片段，1927 年

在人類的感知中，視覺提供空間結構與構圖語境，聽覺則傳遞著時間節奏、情感紋理與敘事的連貫性。如今的 AI 視頻大模型領域，也正在經歷一場從單模態視覺合成向音視頻聯合生成的決定性范式轉變。

2026 年 2 月 27 日，昆侖天工正式發布多模態視頻基礎模型SkyReels-V4。該模型支持最高 1080p 分辨率、32 FPS 幀率、最長 15 秒的電影級畫質輸出，實現了音頻與畫面精準同步，并可全面覆蓋從創意構思到精細修輯的一站式視頻創作工作流。

根據獨立分析機構 Artificial Analysis 最新公布的標準化測試結果，SkyReels-V4 在文本生成視頻 T2V（含音頻）的現役模型榜單中取得全球第 2的成績，并在全球歷史所有 T2V 模型總榜中位列第 4。成績超過了 Veo 3.1、Sora 2、Vidu Q3 以及 Wan 2.6 等當前主流模型。

榜單地址：https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true&include-non-current=true

空口無憑，我們不妨直接看效果。以冬奧會為契機的冰雪運動依然熱度不減，下面這段由 SkyReels-V4 生成的滑雪視頻，直觀展示了其在復雜場景下的生成實力：

文本生成視頻（T2V），簡版提示詞：電影級質感開場：中遠景中，@Actor-1 身穿亮橙色滑雪服、黑色頭盔與橙黃雪鏡，在雪脊上騰躍，遠處雪峰與藍天鋪陳背景。鏡頭切至低角度跟拍：他在陡坡深雪中 carving，雪霧翻飛；中景展現壓低姿態控板，遠景鋪開遼闊山谷。快速剪輯穿插特寫與廣角：急轉彎時雪粒飛濺，側向橫切雪坡掠過松林，騰空跳躍與層疊山脊形成戲劇構圖。最后側后跟拍特寫，毛皮飾邊隨風揚起，手套緊握雪杖，雪沫炸裂。畫面定格在夕陽下，@Actor-1 滑向坡底。

這個視頻是 SkyReels-V4 基于純文本提示詞生成的，其中展現出了模型對高度復雜的多鏡頭敘事指令的驚人理解力。從低角度跟拍到遠景橫切，再到雪沫飛濺的動態特寫，SkyReels-V4 完美扛住了極高頻的鏡頭調度。它不僅保持了人物主體和場景在多重機位切換下的高度一致性，更將提示詞中要求的「電影級質感」與物理運動學特征呈現得淋漓盡致。

如果說復雜的鏡頭調度是對視覺能力的考驗，那么下面這個「關公戰秦瓊」視頻，則直觀展示了其原生音視頻同步生成的硬實力：

圖像生成視頻（I2V），提示詞：史詩級電影鏡頭，@Actor-0 與 @Actor-1 在一片雷鳴交加的荒蕪之地中對峙。@Actor-0 橫刀向前，怒喝道：「來者何人，竟敢擋我去路？！」@Actor-1 高舉雙锏，厲聲回吼：「大唐秦叔寶，看锏！」吼聲在荒野中回蕩。瞬間兩人沖鋒，刀锏相撞，火星四濺。動態動作，激烈的決斗，周圍煙塵旋繞，高對比度光線，慢動作，體積光，史詩氛圍，特寫他們嘴唇翕動和兇狠表情。

這段視頻的初始提示包括兩張人物圖像和一段文本。可以看到，在這個充滿張力的橋段里，模型做到了音畫維度的深度咬合。兵器相撞的清脆音效與火星四濺的視覺反饋嚴絲合縫；更難得的是，在特寫鏡頭下，人物高亢激烈的臺詞發音與嘴唇肌肉的翕動完美對齊。這種原生的視聽耦合能力，讓數字生成的角色具備了真實的生命力。

SkyReels-V4 也能生成高質量的豎屏短視頻：

I2V，同樣使用了兩張人物圖像和一段文本，簡版提示詞：短劇風格，奢華室內場景。#Role_1 近景，神情隱憂。切至 #Role_2 接電話，語氣堅定：「我說我現在回來。好。」大廳遠景，兩人對立而站。#Role_2 放下手機，中近景說道：「那我讓二妹過來，讓她送你回去。」反打 #Role_1，輕搖頭回應：「不用，不用這么麻煩。」回到 #Role_2，伸手欲觸她肩，語氣堅決，背景響起低沉緊張氛圍音樂：「不行。」

在這段主打微表情與對白交互的文戲片段中，模型展現了對內斂情感與視聽同步的精準控制力。從廣角全景的空間調度到逆向機位的特寫反打，鏡頭的連貫性得到了極好維持。更值得探究的是其在中文語境下的聲畫耦合表現，當角色講出「那我讓二妹過來，讓她送你回去」與輕聲婉拒的「不用，不用這么麻煩」時，不僅中文口型咬字準確無誤，連同眉頭微蹙、眼神錯愕等細微的面部肌肉調度，也與臺詞的重音及情緒起伏高度對齊。伴隨著底層富有律動感的低音懸疑配樂適時切入，系統將一段日常的對話拉扯，渲染出了極具沉浸感的戲劇張力。看起來，SkyReels-V4 有望成為短劇制作者們的得力工具。當然，看得出來，SkyReels-V4 在生成畫面中的文字方面還有待提升。

不僅如此，SkyReels-V4 甚至還能編輯視頻，比如我們可以輸入一張圖像、一段視頻和一段簡單指令，讓北極狼跳起邁克爾?杰克遜標志性的捂襠動作。

視頻編輯，提示詞：Replace the dancer in the middle of the stage in @video_1 with the wolf from @image_1, ensuring consistent movements.

目測，要火。

從上面幾個 demo 可以看到，SkyReels-V4 支持文本、圖像、視頻等多種模態的輸入。要知道，在當前的視頻生成生態中，主流系統普遍存在模態割裂與功能分散的痛點。SkyReels-V4 成功實現了突圍，成為了全球首個同時支持多模態輸入、聯合音視頻生成以及統一生成與編輯任務的視頻基礎模型

該模型主打「全模態參考」的核心優勢，能夠無縫接收文本、圖像、視頻片段、掩碼以及音頻參考等豐富指令。

這意味著，創作者無需在多個工具間繁瑣切換，即可在單一網絡內完成從創意構思到專業級音視頻同步輸出的端到端創作。

技術報告：SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
報告地址：https://arxiv.org/abs/2602.21818

三大核心突破，讓 AI 能畫也能說

現階段的 AI 視頻大模型往往像是一個偏科的優等生。它們大多擅長畫面生成，但如果在生成畫面的同時還要配上同步的聲音，往往就會顯得力不從心。這種淺層的技術縫合往往會導致畫面里的人口型對不上，或者音效比動作慢半拍。

針對這個行業通病，昆侖天工團隊在底層架構上進行了大刀闊斧的改進。

新提出的方法概覽

讓音視頻成為「雙胞胎」：雙流 MMDiT 架構與混合注意力

SkyReels-V4 采用了一種對稱的雙流架構，如上圖左側所示。

你可以把它想象成一對雙胞胎，視頻分支和音頻分支擁有各自的獨立通道，但共享著同一個基于 MMLM 的「大腦」來處理文本輸入。

為了平衡模態對齊與參數效率，這套架構包含了混合的雙流與單流處理模塊。在前 M 層中，視頻和音頻保留各自獨立的參數空間（如層歸一化和 MLP 等），但通過聯合自注意力機制進行交互；而在隨后的 N 層里，模型會切換到單流架構，使用共享參數以提高計算效率。

在整個生成過程中，這兩個分支還會通過雙向跨注意力機制不斷地「交換眼神」。音頻流會關注視頻特征，視頻流也會反向關注音頻特征，從而在特征層面上實現了真正的咬合與同步。

現在，雖然架構對稱了，但還有一個問題：音視頻天生的時間流速也完全不同。打個比方，同樣生成 5 秒的內容，視頻潛變量跨越 21 幀，但音頻潛變量卻包含著高達 218 個特征 token （相當于 44.1 kHz ）。

為了解決這種時間尺度的錯位，昆侖天工團隊引入了RoPE 旋轉位置編碼頻率縮放技術

他們將音頻的 RoPE 頻率按照 21 與 218 的比值（約等于 0.09633 ）進行了專門調整，使其與視頻較粗的時間分辨率相匹配。此外，為了區分輸入條件和生成目標，模型還采用了帶偏移的 3D RoPE ，為條件潛變量賦予負數的時間索引。

這種底層的數學對齊可確保兩個模態能夠按照相同的時間節奏去相互關注，徹底治好了 AI 視頻長期以來的音畫不同步頑疾。

把所有復雜編輯變成一道「填空題」：通道拼接統一框架

為了處理繁雜的編輯操作，系統將帶有噪聲的視頻潛變量、VAE 編碼的條件幀以及二進制掩碼在通道維度上直接拼接起來。

于是，一切都被簡化為特定掩碼配置下的修復問題。

例如，如果掩碼全為 0 ，意味著讓模型從頭生成視頻，即文本到視頻（T2V）任務；如果僅第一幀的掩碼為 1 ，那就是讓模型依據首幀向下續寫，即圖像到視頻（I2V）任務。當然，也可以通過讓前 k 幀的掩碼為 1 來實現視頻擴展，或讓需要編輯的區域的掩碼為 0 來實現視頻編輯。

據介紹，通過調整時空掩碼的參數，局部重繪、主體替換甚至是復雜的元素消除都可以被無縫覆蓋。

比如在下面的例子中，一段簡單指令就移除了畫面中兩位指定的角色：

原視頻

移除了其中兩位角色后的視頻，提示詞：Remove the young man with short blond hair holding a flashlight on the far right and the woman with long, wavy blonde hair in a dark purple top in @video_1.

憑此能力，SkyReels-V4 也可成為一個去水印或字幕的利器：

視頻去字幕演示，左為原視頻，右為處理后的視頻，提示詞：Remove the subtitles in @video_1.

更巧妙的是，在處理這類視覺修復任務時，音頻分支還可以根據修改后的視頻內容從零開始生成聲音，確保修改后的視覺和聽覺始終保持邏輯一致。

先起草再精修：引入 VSA 稀疏注意力的超分降本策略

生成 1080p 分辨率、 32 FPS 幀率以及 15 秒時長的視頻對算力的消耗是驚人的。

昆侖天工團隊設計了聯合生成低分辨率全序列與高分辨率關鍵幀的高效機制：系統先快速打好草稿，隨后再交由專用的超分辨率和幀插值模塊來補充細節。

視頻超分辨率與幀插值方法的流程。F 表示基礎模型的輸出隱含表示，KF 表示基礎模型的關鍵幀隱含表示。

這中間最硬核的提效手段是引入了可訓練的視頻稀疏注意力機制（VSA）

VSA 架構概覽，來自 arXiv:2505.13389

VSA 通過兩階段分層處理，先粗略聚合時空塊找到關鍵區域，然后再對這些 top-K 的關鍵塊進行密集的注意力計算。這套方案能在保證畫質不降低的前提下，將注意力計算成本降低約 3 倍！

當然，龐大的視頻基礎模型需要一套嚴謹的學習路徑，昆侖天工團隊為此采用了一種多階段的漸進式訓練范式

為了讓模型穩步掌握空間概念與時間動態，整個訓練過程被拆解為多個明確的階段。

在最初的階段，模型先從基礎的 256px 文本到圖像預訓練開始，這一階段使用了 30 億張圖像，專門用于打好空間構圖和語義理解的底子。隨后模型開始引入基礎的視頻片段，并在后續的訓練中逐步擴展到 480px、720px 以及 1080px 的多分辨率混合訓練。在最后的有監督微調階段，該團隊使用了 500 萬條多模態視頻數據，并疊加了 100 萬條經過人工精選的高質量視頻進行最終打磨。

所有階段的完整訓練規劃。這種漸進策略會逐步提高分辨率、時間長度和任務復雜度。

正是這種精細的策略，最終促成了模型在視覺質量、運動流暢度以及聲音自然度上的全面飛躍。

全場景?全流程?全模態

過去的視頻模型更偏向「單點生成」。

這是比較好理解的。輸入一句提示詞，輸出一段畫面。或者基于一張圖就能夠延展出幾秒視頻。生成、編輯、修復、配音往往分散在不同工具中，音頻多為后期疊加，創作流程也被拆分成多個階段。

雖然說模型能力在不斷提升，也能生成一些讓人眼前一亮的效果，但這距離 AI 視頻生成向真正能用好用的內容創作工具的轉變仍然有一段距離。

真正讓人震撼的是「整合」，是把文本、圖像、視頻片段、音頻參考整合進同一生成體系的能力。也就是 SkyReels-V4 所強調的「全模態參考」，是多模態信息在底層架構中的協同。

柴可夫斯基和《魔獸世界》吉安娜共跳愛樂之城，基于兩張圖像和一段視頻的視頻編輯，提示詞：Replace the skirt-wearing woman on the left in @video_1 with the man from @image_1, and replace the white-shirt-wearing man on the right in @video_1 with the woman from @image_2, ensuring consistent movements.

音頻與視頻在擴散過程中同步生成，多種參考條件在同一時空框架內共同作用，各種生成任務被統一進一套計算邏輯中

創作者因此擁有更高的控制精度。人物形象可以保持，動作可以遷移，音色能夠復刻，局部區域可定向修改，整體風格可以調整，這些控制條件可以在一次生成過程中同時發揮作用。視頻生產從一次性輸出，轉向可控、可迭代的創作流程。

這種架構帶來的直接結果，是創作過程的連續性提升。創作者可以基于參考圖像鎖定人物外觀，利用參考視頻遷移動作，通過音頻樣本保持音色與情緒表達，同時對局部區域進行精細修改。1080p、32FPS、15 秒輸出規格，使這些控制能力具備實際生產價值。音視頻在生成階段深度協同，減少后期補償環節，提升整體一致性。

SkyReels-V4 就像一把瑞士軍刀，真正打造了一個能夠覆蓋全場景，全流程，全模態的生成工具。

還記得 Seedance 2.0 發布，初步讓創作者感受到了全模態「整合」的意義。影視颶風 Tim 在視頻里對全模態整合的生成模型這樣評價：

「這不是一個小的技術革新，這是一個會推走行業所有過去流程和沉淀的一個海嘯，我就會這么形容它。」

而 SkyReels-V4 的發布，標志著 AI 視頻生成技術從「單一功能合成」進入「全流程一體化創作」的新階段

開啟創作「全棧時代」

以 Tim 為代表的創作者們很焦慮，似乎「越努力做越比不過 AI 的進步速度，以前學的東西越沒有價值」。

這種焦慮其實并不必要。過去我們圍繞「素材」進行剪輯，如今開始圍繞「語義」和「意圖」進行調度與生成。模型不再只是執行指令的工具，而逐漸成為理解創作結構、參與創作決策的系統。

AI 生成模型愈發整合，正是行業擴展的強大工具箱，形成覆蓋創意輸入到成片輸出的完整鏈路，而創作者永遠是調用工具的舵手。

在 Seedance 2.0 給行業展示了多模態整合生成的潛力后，產品進入了一個風控收緊的階段。SkyReels-V4 正是在這個時間節點推出，憑借多模態理解和視聽同步生成的底層突破，深刻重塑了內容生產的工作流，為尋求替代方案的專業用戶提供了極具競爭力的選擇。

放眼整個昆侖天工 AI 生態，底層大模型與前端產品正在形成緊密的雙向驅動，構建起一個相輔相成的繁榮生態。目前，昆侖天工已確立了四大模型家族：Skywork 系列大模型、Mureka 音樂音頻模型、SkyReels 視頻大模型和 Matrix Game 游戲世界模型。

在這個矩陣之中，技術基座與應用場景已經實現了深度融合。一方面，Skywork 系列文本大模型與多模態 Skywork R1V 系列等、音樂生成模型 Mureka V8 等前沿基座，為天工超級智能體（Skywork Super Agents）、AI 音樂創作平臺 Mureka、AI 社交 Linky 和 AI 游戲「貓森學園」等業務提供了強大的底層引擎；另一方面，這些高頻活躍的前端產品也在不斷拓展技術的落地邊界，以真實的交互需求反哺大模型的持續進化。

新發布的 SkyReels-V4 填補了這一生態在全模態視聽內容生產上的關鍵拼圖。這種模型賦能產品、產品滋養模型的生態閉環，將實質性地打通廣告與影視等產業的商業鏈路，把內容創作的廣闊想象落到實處。

未來，SkyReels-V4 將支持 60 秒以上的視頻生成、實時交互編輯，并開放 API 與全系產品協同。隨著這一模型工具的迭代進化，內容生產也將進入一個全新的工業化的「全棧時代」

文中視頻鏈接:https://mp.weixin.qq.com/s/bEi9bIHN0z8ebB89Pei5eQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.