![]()
新智元報道
編輯:犀牛 KingHZ
【新智元導讀】超越主流商業(yè)模型!SkyReels-V3在參考一致性、視頻質(zhì)量上碾壓對手,構(gòu)建200組測試基準,影視、電商、廣告場景全覆蓋,真正降維打擊。
起猛了!
馬斯克和孫悟空同框了。

更離譜的是:這種「真假難辨」的視頻,現(xiàn)在一張圖 + 幾句話就能做出來。
不僅普通創(chuàng)作者能直接上手,而且開發(fā)者也能二次開發(fā)。
作為迭代自V1(AI短劇創(chuàng)作)、V2(無限時長電影生成)的重磅版本,昆侖天工SkyworkAI團隊正式開源了多模態(tài)視頻生成模型SkyReels-V3:
論文:https://arxiv.org/abs/2601.17323
開源:https://github.com/SkyworkAI/SkyReels-V3
API鏈接(限時免費):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar
這不僅僅是一個模型的發(fā)布,更像是一場對現(xiàn)有AI視頻工具的「降維打擊」。
AI視頻創(chuàng)作三大難事,
一次做全了
以前做AI視頻,你需要在A模型生圖、B模型動效、C模型對口型之間反復橫跳。
而SkyReels-V3這次主打一個全能通吃,在一個架構(gòu)里搞定三大核心能力:
1)參考圖像轉(zhuǎn)視頻:給1–4張圖+文本指令,生成多主體視頻。重點是: 主角不亂變,告別抽卡式創(chuàng)作。
2)視頻延長:把5秒鏡頭擴到30秒,還能加轉(zhuǎn)場。重點是: 畫面連續(xù)、動作不「抽幀」。
3)音頻驅(qū)動虛擬形象:一張肖像+一段音頻,生成分鐘級視頻。重點是: 嘴型對得上、人物穩(wěn)得住 。
AI視頻的門檻正在被鏟平:創(chuàng)作者拿到的是趁手的工具,開發(fā)者拿到的是萬能的模塊。
參考圖像轉(zhuǎn)視頻:主角就是主角
如果一個電商運營今晚就要把新品視頻上架,但他現(xiàn)在手里只有三張圖:商品主圖、模特上身圖、品牌Logo。
傳統(tǒng)做法?要么找外包燒錢,要么自己用剪輯軟件硬搓。
SkyReels-V3的玩法則是:1到4張參考圖+一句文本指令,等待幾分鐘,一條15秒的高保真產(chǎn)品廣告就生成了。
直出一段多主體、高連貫的視頻。
你可以這么下指令:
模特拿起商品轉(zhuǎn)身展示,鏡頭從近景推到中景,背景保持干凈明亮。
Logo始終在右下角,商品紋理要清晰,動作別抽搐。
它要解決的不是「會動」,而是更難的事:「像同一個人、同一個商品、在同一個世界里連續(xù)發(fā)生」。
在SkyReels-V3眼里,參考圖像不再只是靈感,而是一份「身份合同」——主角簽了字,就別想臨場變臉。
其參考一致性得分高達0.6698,視覺質(zhì)量0.8119,這兩個核心指標,直接超越了市面上的主流商業(yè)模型。
比如,讓馬斯克免費給你帶貨,或者生成一段極具質(zhì)感的運動鞋廣告:
沒有任何詭異的形變,只有絲滑的商業(yè)級質(zhì)感。
1簡潔明亮的展區(qū)內(nèi),柔和的燈光均勻灑落,周圍擺放著一些運動相關(guān)的小物件。一位身穿黑色上衣的男士正仔細地向大家展示一雙設(shè)計簡潔、配色亮麗的運動鞋。
之前,Gemini 3生成的硅谷巨頭大合照,很火很逼真:
![]()
現(xiàn)在,SkyReel-V3直接讓圖片動起來了──
這質(zhì)量,這還原度,這一致性,真不是吹!
視頻延長:5秒變30秒, AI 學會了「導演思維」
做過視頻的人都知道,視頻延長是個技術(shù)活。
你有一個5秒的空鏡頭,氛圍很好,但太短了。
傳統(tǒng)做法要么重拍,要么靠后期「魔法」——變速、復制幀、加特效遮掩,但怎么弄都有點假。
SkyReels-V3的視頻延長功能,不僅可以把5秒的素材平滑擴展到30秒,更絕的是,它「懂鏡頭語言」。
它內(nèi)置了5種專業(yè)轉(zhuǎn)場效果:切入、切出、多角度切換、正反鏡頭、切離。
比如,第一個視頻延長到15秒:
你不只是在「拉長」視頻,而是在即時即興剪輯。
比如,將一段小姐姐騎車的3秒視頻延長到9秒:

視頻延展后,無論小姐姐的主體還是視頻背景,都完美保持一致,仿佛攝影師真的扛著攝像機跟拍了一路。

再比如,我們將這個林妹妹與魯智深對話的腦洞視頻,加入「多角度切換」的轉(zhuǎn)場。

The two people sat facing each other and talked.
這種人物一致性,簡直絕了。

Switch to a long shot, with the two people talking face to face.
從技術(shù)上說,這得益于它的「統(tǒng)一多分段位置編碼」和「魯棒時空建模」。
聽起來很硬核,本質(zhì)上就是讓AI理解了視頻里的「時間邏輯」和「空間關(guān)系」,所以延長出來的內(nèi)容才會順滑如絲,沒有那種AI常見的時空扭曲感。
一句話:SkyReels-V3把素材不足從一場災難,變成了一個可控的工程問題。
音頻驅(qū)動虛擬形象:一張圖+一段聲就能「開口說話」
這是SkyReels-V3最讓人興奮的能力之一。
輸入一張人像照片,再配上一段音頻——
可以是你的錄音,可以是AI合成的語音,甚至可以是一段采訪素材。
模型會生成一段視頻,讓照片里的人瞬間「活過來」:
嘴唇動作和音頻精準同步,表情自然變化,頭部還有輕微的擺動,仿佛真人在鏡頭前呼吸。
比如,一張小姐姐的圖片加上一小段音頻,就能生成小姐姐唱歌的片段。
最厲害的是,它不挑食。
不只是真人照片,卡通角色、動物形象、二次元立繪,統(tǒng)統(tǒng)可以驅(qū)動。
比如,使用一張小狗照片+一段音頻,就可以一步生成「小狗深情演唱」的視頻,時長甚至支持分鐘級生成。
你甚至可以讓兩個角色在同一個畫面里對話。
只需上傳一張圖片加上幾段音頻,SkyReels-V3便能夠自行判斷出音頻對應的人物,在說話和聆聽狀態(tài)之間自然切換。
SkyReels-V3這項能力的音視頻同步性得分高達8.18,視覺質(zhì)量4.60,比肩甚至超越了行業(yè)頂尖的OmniHuman 1.5。
為什么是SkyReels-V3?
領(lǐng)先三大維度
在AI視頻生成領(lǐng)域,「全能選手」向來稀缺。
SkyReels-V3的出現(xiàn),打破了這一格局——它是目前少數(shù)能在單一架構(gòu)內(nèi)同時實現(xiàn)參考圖像生成視頻、視頻延展、音頻驅(qū)動虛擬人三大核心能力的模型。
SkyReels-V3敢稱行業(yè)標桿,底氣何在?
在最考驗硬實力的參考圖像轉(zhuǎn)視頻領(lǐng)域,SkyReels研究團隊構(gòu)建了一個包含200組測試數(shù)據(jù)的評估基準,涵蓋影視、電商、廣告等多元場景,參考圖像類型覆蓋人物、動物、物體和背景。
結(jié)果顯示,在參考一致性、視頻質(zhì)量這兩個核心指標上,SkyReels-V3直接超越了市面上的主流商業(yè)模型。
作為一個開源模型,這是對閉源陣營的一次強力挑戰(zhàn)。
![]()
視頻延展是SkyReels-V3的另一大殺手锏。
為實現(xiàn)這一能力,研究團隊開發(fā)了鏡頭切換檢測器,可分析長視頻中是否存在轉(zhuǎn)場及其類型。
配合統(tǒng)一的多片段位置編碼和分層數(shù)據(jù)訓練,模型能夠精準建模運動軌跡,在復雜的多片段視頻延展中實現(xiàn)平滑過渡。
輸出支持720p分辨率,單鏡頭延展時長可達30秒,支持1:1、3:4、4:3、16:9、9:16等多種畫幅比例。
在音頻驅(qū)動虛擬形象生成領(lǐng)域,SkyReels-V3同樣表現(xiàn)亮眼。
音視頻同步性得分8.18,視覺質(zhì)量4.60。這些數(shù)據(jù)比肩甚至在部分指標上超越了行業(yè)頂尖的OmniHuman 1.5。
![]()
虛擬形象生成的難點在于唇形同步和長時序穩(wěn)定性。
SkyReels-V3支持720p、24fps的高清視頻輸出,唇部動作能夠精準對齊音素級別的音頻動態(tài)。
更關(guān)鍵的是,它支持分鐘級視頻的單次生成——不是靠多段拼接,而是一次性前向推理完成,全程保持身份一致、動作連貫、表情穩(wěn)定。這使它天然適用于教學視頻、新聞播報、長篇故事等場景。
值得一提的是,SkyReels-V3還支持多人場景。
在對話場景中,角色能夠正確響應對話音頻,在說話和聆聽狀態(tài)之間自然切換。
SkyReels-V3是真開源
市面上做AI視頻生成的模型不少,但SkyReels-V3是真開源。
很多所謂的「開源」模型,要么只開放部分權(quán)重,要么限制商用,要么文檔稀爛根本跑不起來。
SkyReels-V3是完整開源,代碼托管在GitHub,支持個人和企業(yè)自由下載、本地部署、定制改造。
對于中小團隊來說,這意味著零成本獲得頂級AI視頻能力的可能。無需支付高昂的API調(diào)用費用,無需擔心數(shù)據(jù)隱私問題,完全可以在自己的服務器上跑通全流程。
如果你是開發(fā)者:你要的可能不是「看Demo」,而是把能力接進流程。
把SkyReels-V3當成一個模塊,接到你的腳本生成、素材管理、投放系統(tǒng)里——這就是開源生態(tài)的意義。
最后,真正能把開源模型做成「生態(tài)」的,從來不是發(fā)布那一刻,而是你把作品發(fā)出來的那一刻。
下載、跑通、生成第一條視頻,然后把你的prompt和結(jié)果分享出來——
讓更多人站在你的肩膀上繼續(xù)迭代。
視頻創(chuàng)作的「奇點」時刻
從V1的短劇嘗試,到V2的電影夢想,再到今天V3的全能爆發(fā),SkyworkAI團隊正在用技術(shù)填平專業(yè)視頻制作的溝壑。
SkyReels-V3的出現(xiàn),標志著高保真、長時長、多模態(tài)的視頻生成能力正式從「嘗鮮」走向「實用」。它把原本屬于專業(yè)工作室的權(quán)利,交還給了每一個有故事要講的人。
在AI的輔助下,未來的斯皮爾伯格可能就誕生在你的代碼倉庫里。
工具已經(jīng)備好,現(xiàn)在,請開始你的表演。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.