![]()
編輯|楊文
AI 網紅們在社交平臺上混得風生水起。
他們手握品牌合作,還坐擁百萬粉絲,但很多人至今不知這些都是 AI 生成的,依然像追真人明星一樣互動、點贊、被種草。
![]()
視頻來源:X 博主 @thetripathi58
這也難怪有博主直呼:虛擬網紅時代已經到來。
![]()
現在,昆侖萬維也來添了把火,直接把背后的技術開源了。
1 月 29 日,Skywork AI 團隊宣布開源 SkyReels-V3 多模態視頻生成模型系列。該系列涵蓋參考圖像轉視頻、視頻延長和音頻驅動虛擬形象三大核心能力,在單一建模架構中實現高保真多模態視頻生成,達到業界領先水平。
比如,只需一張虛擬主播照片配上音頻,就能生成口型精準、表情生動的主播視頻:
![]()
上傳幾張素材圖,輸入文字描述,AI 就能自動編排出一條完整的帶貨短片:
![]()
![]()
還能像專業導演一樣,為視頻設計切入、切出、正反打等電影級轉場效果:


更關鍵的是,這次是完全開源。任何有想法的創作者,都能用這套工具快速搭建自己的虛擬 IP,甚至批量生產內容矩陣。
- GitHub 鏈接: https://github.com/SkyworkAI/SkyReels-V3
- API 鏈接(限時免費):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar
一手實測
SkyReels-V3 的實際表現到底如何?我們第一時間針對三大核心功能進行了全面測試。
參考圖像轉視頻
這個功能允許用戶上傳 1-4 張參考圖像,配合文本提示詞,生成時間連貫、語義一致的視頻。參考圖像可以是人物、物體或場景,模型會精準保留身份特征、空間構圖,并按照提示詞編排敘事邏輯。
我們首先測試了電商應用場景。
上傳馬斯克的照片和小象玩偶圖,輸入提示詞:在溫馨的客廳里,馬斯克坐在沙發上,微笑著拿起身旁的小象玩偶,然后將玩偶舉到鏡頭前展示,陽光從窗戶灑進來,氣氛溫暖。
![]()
生成視頻中,即使更換了背景,馬斯克面部特征也保持高度一致,未出現扭曲或者「換臉」,動作自然流暢,商品展示角度恰到好處。

我們又上傳了手袋商品圖和素顏模特照,輸入提示詞:時尚的都市街頭,這個模特拿著 LV 包,展示包的細節和質感。
![]()
SkyReels-V3 立馬把模特置于車水馬龍的都市夜景中,邊走邊展示產品細節,人物動作優雅,構圖也很專業。

我們還嘗試上傳多張參考圖像,讓不同人物或物體在指定場景下產生互動。
比如把奧特曼的照片丟給它,再來張酷炫智能眼鏡和公園圖片,然后下指令:男人戴著智能眼鏡在公園里散步。
![]()
模型準確識別人物、物體和背景,并根據提示詞編排出合理的交互動作。

最近《怪奇物語》熱度躥升,我們上傳三名小演員的劇照,外加一張上海外灘圖片,輸入提示詞:這三個人在上海外灘自拍。
![]()
SkyReels-V3 能同時處理好幾張完全不同的參考圖,精準還原人物特征,保證整體風格統一,連服飾發型都完美遷移。
生成視頻里三個人一起自拍的互動看起來毫不違和,表情特別自然,動作也流暢得很。

視頻延長
視頻延長功能則可以將輸入的視頻片段延伸為更長內容,同時保持運動動態、場景結構和視覺風格的一致性。它支持單鏡頭延長和鏡頭切換延長兩種模式。
鏡頭延長模式下,我們提供了一段女生開心面對鏡頭的視頻,輸入提示詞:女孩笑著笑著突然嚴肅起來,延長 5 秒鐘。

這種從開心到嚴肅的表情過渡需要模型把握好微表情的變化節奏,不能太突兀。SkyReels-V3 對人臉表情動態和情緒演變的理解相當到位,延長過程中女生的面部特征、光影效果和整體視覺風格都沒走樣。

鏡頭切換延長模式則更具創意空間。它支持切入、切出、多角度、正反鏡頭、切離五種專業轉場。
具體而言,切入鏡頭從廣角過渡到特寫,切出鏡頭則相反;正反打鏡頭指的是在對話場景中,從面向一人的鏡頭切換到面向另一人的鏡頭;多角度鏡頭是切換到不同角度來展示當前場景;切離鏡頭則是過渡到當前場景中的新區域。
就以切入鏡頭為例。我們上傳女殺手狙擊的場面,輸入提示詞「Close-up on the girl's face as she aims, sweating」。

SkyReels-V3 能夠理解 Close-up 這種專業攝影術語,從瞄準動作到面部特寫的過渡保持了敘事的連貫性,又通過景別變化增強了畫面張力。

虛擬形象模型
虛擬形象模型則可以從單張肖像圖和音頻片段生成音視頻同步的視頻,支持分鐘級長度和多角色交互。
我們先測試了最基礎的單角色虛擬形象 。上傳肖像照,配上音樂片段,SkyReels-V3 快速生成一段唱歌 MV,人物唇形與音頻完全同步,并能保持畫面穩定。
![]()
泛化能力同樣出色。我們測試了真實人物、卡通角色等不同風格,模型都能穩定生成高質量結果。
此外,它還支持多人物互動場景。我們上傳了朱迪和尼克在咖啡店喝咖啡的參考圖,為每個對話片段配置音頻。
模型自動識別出圖片形象,精準控制每個角色的開口時機,未出現兩個角色同時張嘴或者對不上口型的尷尬情況。
![]()
技術解讀
Skywork AI 團隊此次開源,為視頻生成領域帶來了新的技術選擇。
該系列模型在單一建模架構中集成了參考圖像轉視頻、視頻延長和音頻驅動虛擬形象三大核心模塊,在保持高保真度的同時實現了多模態的靈活應用。
先說參考圖像轉視頻功能。這一能力的實現建立在三層技術創新之上。在數據構建層面,團隊從海量高質量視頻數據中篩選具有顯著動態運動的素材,隨后通過跨幀配對策略連續視頻序列中選擇參考幀,以確保時間多樣性。
團隊還利用圖像編輯模型進行主體提取、背景補全和語義重寫,有效避免了傳統方法中常見的「復制粘貼」偽影問題,并通過多層過濾機制保障參考圖像質量。
SkyReels-V3 實現了統一的多參考條件策略,能夠聯合編碼視覺和文本信息,支持最多 4 張參考圖像的靈活組合。這意味著開發者無需進行顯式的手動組合,即可實現復雜的多主體、多元素視頻生成。
訓練策略方面,模型采用了圖像 - 視頻混合訓練方案,聯合利用大規模圖像和視頻數據集,并通過多分辨率聯合優化提升了對不同空間尺度和寬高比的魯棒性,原生支持多種輸出配置。
在涵蓋電影電視、電商、廣告等場景的 200 對混合測試集上,SkyReels-V3 在參考一致性和視覺質量方面均處于國內領先位置,驗證了其技術方案的有效性。
視頻延長模塊是 SkyReels-V3 技術實力的另一體現。
其核心創新在于雙模式延長機制的設計。單鏡頭延長模式實現平滑的鏡頭繼續,保持視角和敘事連貫;鏡頭切換延長模式則支持切入、切出、多角度、正反鏡頭、切離等五種專業轉場類型,為視頻創作提供了電影級的敘事工具。
為支撐這一能力,團隊開發了專門的鏡頭切換檢測器,能夠自動分析長視頻中的鏡頭轉場,識別并分類轉場類型,同時支持手動選擇,有效構建了高質量的訓練數據。
技術實現上,SkyReels-V3 采用了統一的多分段位置編碼方案,支持復雜多分段視頻延伸的精確運動建模,并通過分層混合訓練實現平滑的鏡頭切換。魯棒時空建模使其能夠有效處理快速運動、多主體交互和場景劇變等復雜情況,確保生成內容的物理可信度和時間連貫性。
該模塊支持 480p 和 720p 分辨率,單鏡頭延長可調節 5 至 30 秒長度,并支持 1:1、3:4、4:3、16:9、9:16 等多種寬高比,為不同應用場景提供了靈活的輸出選項。
虛擬形象模型的技術方案則聚焦于音視頻精準對齊和關鍵幀約束生成機制
研究團隊開發了專用的音視頻對齊訓練策略,通過區域掩碼建模顯式的語音單元與面部運動的對應關系,實現了對多語言、多風格、快速語速的魯棒性能。
關鍵幀約束生成則通過建立結構重要的關鍵幀,生成幀間平滑過渡,確保長視頻中的角色一致性和自然運動流。
從整體架構來看,SkyReels-V3 的核心優勢在于其模塊化設計理念。三大功能模塊各自經過深度優化,既可以獨立使用,也能根據實際需求靈活組合,為不同應用場景提供了充分的適配空間。
企業級的數據處理管線確保了生成質量的穩定性,而在推理端,團隊融合了蒸餾、量化及算子優化等多項技術,打造出低延遲、高吞吐的推理引擎,使得模型在實際部署中具備更強的可用性。
在訓練效率方面,SkyReels-V3 采用了極致的顯存與計算優化方案,支撐起高分辨率長視頻的千卡級穩定高效訓練。
結語
SkyReels-V3 選擇完全開源,某種程度上反映了 AI 視頻生成領域的競爭態勢。
在 Runway、Pika 等國外產品憑借先發優勢占據市場時,國內團隊通過開源策略快速建立生態、獲取反饋、迭代優化,不失為一種聰明的打法。
而這背后的底氣,自然源于昆侖萬維在視頻生成領域的長期技術積累。
早在 2025 年 2 月,昆侖萬維就開源了中國首個面向 AI 短劇創作的視頻生成模型SkyReels-V1,以及中國首個 SOTA 級別基于視頻基座模型的表情動作可控算法SkyReels-A1
4 月,SkyReels-V2作為全球首個使用擴散強迫(Diffusion-forcing)框架的無限時長電影生成模型正式發布。隨后,SkyReels-A2帶來了可控視頻生成框架,SkyReels-A3則實現了任意時長的全模態音頻驅動數字人創作。
昆侖萬維在視頻生成領域的迭代速度和技術深度可見一斑。
除此之外,昆侖天工還自研了包括語言大模型、多模態大模型、SWE 代碼大模型、Agent 大模型、視頻大模型、3D 大模型、音樂大模型、音頻大模型在內的 8 大模型矩陣,并持續開源幾十個模型,在多個國際評測中取得開源最優成績。
視頻模型只是這個 AI 矩陣中的一環,卻是連接文本、圖像、音頻等多模態能力的關鍵節點。
此次 SkyReels-V3 的開源,預示著 AI 視頻生成的競爭正在進入更激烈的階段。技術壁壘逐漸被打破,真正的較量也才剛剛開始。
文中視頻鏈接:https://mp.weixin.qq.com/s/KU61dqc-Ka8i9hRWF5enBg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.