鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
好家伙,AGI真的「Open」了我的生活。(doge)
想買件海淀風穿搭,模特上身庫庫種草,結(jié)果扒出來是AI。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
聽播客聽上頭了,結(jié)果你猜咋滴,還是AI……
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
不開玩笑,AI視頻現(xiàn)在是真的卷,網(wǎng)友們的腦洞也是一個比一個大~
只要不標AI tag、不仔細看,壓根分不清是AI還是堅持手搓的老師傅。

不賣關子了,這款引起全網(wǎng)瘋玩的AI模型,就是昆侖天工最新發(fā)布的SkyReels-V3。
而剛剛,它正式宣布開源。
![]()
u1s1,每次昆侖天工的開源都還是很值得期待滴~開源即王者,這次也不例外。
作為一款多模態(tài)視頻生成模型,SkyReels-V3可謂十八般武藝樣樣精通:
不僅會文生視頻、圖生視頻,還能把視頻延長再延長,從短視頻到長視頻無縫切換,更有專門的虛擬形象模型,讓音頻更貼臉。
All in all,用一個詞描述,就是——倍兒真實!
拒絕過去AI生成視頻的僵硬感、割裂感,SkyReels-V3將AI創(chuàng)作推向“既全面又專精”的新高度。
而且這么強還開源,妥妥的技術福音。
那么話不多說,我們立馬實測走起。
AI生成效果真假難辨
先來一波圖像轉(zhuǎn)視頻試試水,喂給模型這樣兩張參考圖片:
![]()
![]()
康康這位外國小姐姐能不能成功帶貨咱最近爆火網(wǎng)絡的安徽霉豆腐:
- 在下雪的室外,這位女士正在熱情地切著霉豆腐,并招呼圍觀的路人前來購買。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
霉豆腐這下也是走出國門了。
主體特征還原得相當?shù)轿唬宋锸植縿幼饕埠芰鲿匙匀弧T僮屑毧醇毠?jié),背景中飄落的雪花以及行人身影都被1:1復刻,畫面動態(tài)十足,每一幀都經(jīng)得起推敲,滿昏!
除了帶貨場景,咱再來解鎖名場面——蘿卜紙巾貓!
- 在房間里,貓咪面前擺放著蘿卜和紙巾,當人類手指指向紙巾時,貓咪隨即伸出爪子指向紙巾。
蒸蚌,這是什么聰明的絕世大好貓!昆侖天工快送孩子去高考(doge)
不過這AI也太懂我了,不僅圓滿完成和紙巾盒的互動任務,還貼心地附贈了擼貓環(huán)節(jié)。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
最近看到LeCun、哈薩比斯還有馬斯克關于智能本質(zhì)的爭論,感覺蠻有意思,那不妨讓三位來場線下battle吧。
- 在舞臺上,三個人在激烈爭吵。
結(jié)果是醬紫的:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
哈薩比斯不語,哈薩比斯只是一味嘆氣:
![]()
5s視頻還沒看夠的話,還可以進行語義連貫的視頻延長,這里有兩種延長模式可選:
- 單鏡頭延長:保持鏡頭平滑連續(xù)。
- 鏡頭切換延長:支持專業(yè)轉(zhuǎn)場,包括切入、切出、多角度、正反鏡頭、切離。
也可靈活選擇分辨率(480P或720P)、調(diào)節(jié)長度(5-30秒)和畫幅(1:1、3:4、4:3、16:9、9:16)。
先看一個單鏡頭延長6s的官方示例:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
可見整體效果是連貫一致的,畫面色彩過渡和諧,也沒有明顯的卡頓感,說是一鏡到底也不為過。
鏡頭切換延長上,同樣來看個官方切離效果。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
是不是有《西部世界》那味兒了?
從主要場景切換到次要場景,顯然模型想象力十足,但又不脫離原有劇情,環(huán)境光影、人物形態(tài)通通拿捏。
這下再也不用擔心影視劇創(chuàng)作時靈感枯竭了,可以直接來抄AI作業(yè)(bushi)
![]()
另外還有個王炸功能——虛擬形象生成,簡單來說就是數(shù)字人。
不過,這可不僅僅局限于常見的單人虛擬主播,多人物對話OK,動物塑漫畫風OK,繞口令唱歌也OK。
比如先上才藝:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
不多說了,如聽仙樂耳暫明,開巡演我是會買票支持的那種。
再比如經(jīng)典重現(xiàn):“襯衫的價格為九磅十五便士”,一些死去的記憶在攻擊我……
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
模型輕松駕馭多角色互動的木偶風格,唇形變化也始終與音頻同步,次元壁一下子破了。
最后來個分鐘級長視頻收尾,AI記者全程不卡殼,職業(yè)素質(zhì)一流。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
全方位體驗完這套模型后,我最強烈的感受是,AI終于進化成我看不懂的模樣了。
啥都能做,而且樣樣拔尖,無論是像我這樣的普通玩家頭腦風暴,還是專業(yè)人士用來商業(yè)成片,都細節(jié)度拉滿。
那么是如何做到的呢?
開源的行業(yè)領先技術
首先在回答這個問題前,我們可以先試圖回想一下最近刷到的AI視頻們,它們之間是否有什么共性能夠讓人一眼識別出是AI生成的。
(321)
謎底揭曉,AI視頻普遍“不真”的原因,歸根結(jié)底有三點:
1、高質(zhì)量視頻數(shù)據(jù)稀缺:
現(xiàn)有的訓練數(shù)據(jù)大多建立在粗糙的影視畫面或監(jiān)控視頻上,缺乏高質(zhì)量3D維度的真實世界標注數(shù)據(jù),而且這些數(shù)據(jù)集中在高頻場景,所以對于一些不熟悉的動作,AI只能瞎猜。
2、時空注意力的算力瓶頸:
受限于計算復雜度,當前主流的視頻生成模型難以在長序列中保存記憶,從而導致幀與幀之間缺少連貫性,極易出現(xiàn)空間上的變形和時間上的卡頓。
3、缺乏對底層物理規(guī)律的理解:
AI并沒有真正理解現(xiàn)實世界的運行規(guī)律,只是在概率預測下一幀的畫面,一旦場景變得復雜,就極易出現(xiàn)違反物理規(guī)律的詭異形變。
![]()
為此,SkyReels-V3針對上述問題,結(jié)合精細化數(shù)據(jù)處理和高效訓練架構(gòu),實現(xiàn)了模型在主體一致性、指令遵循度、視頻時長、音頻對齊等多方面的技術突破。
首先在模型架構(gòu)上,采用“一核多支”的方式。
將Multi-modal In Context Learning(多模態(tài)上下文學習)預訓練框架作為統(tǒng)一的基座模型,再針對三大子任務進行差異化精調(diào)。
下面我們一一拆解:
參考圖像任務
SkyReels-V3在圖生視頻上,為維持角色與場景的一致性,主要依靠三個步驟:
(1)數(shù)據(jù)構(gòu)建
這一步的核心是為模型提供高質(zhì)量訓練數(shù)據(jù),為此團隊專門構(gòu)建了一套完整的數(shù)據(jù)處理流程。
先是去掉那些偏靜態(tài)的視頻片段,只保留動作幅度大、視覺信息豐富的內(nèi)容。然后采用跨幀配對(cross-pair)策略,通過從連續(xù)視頻中跨時間選取參考幀,讓模型學會理解長距離的變化邏輯。
再借助圖像編輯模型,對主體區(qū)域進行精準提取,并同步進行背景補全與語義級重構(gòu),從而消除直接拷貝帶來的視覺偽影。
最后通過多層質(zhì)量篩選流程,確保最終圖像可用。
(2)多參考條件融合
簡單來說,就是通過信息統(tǒng)一編碼,將文本和圖像輸入轉(zhuǎn)換成模型能理解的內(nèi)容。
其中參考圖像最多可支持4張,這就意味著可以同時給模型多個參考對象,比如一張人物圖、一張場景圖、一張服裝圖、一張細節(jié)圖,就能實現(xiàn)精準的細節(jié)控制,而無需再費力地寫復雜指令。
模型會自動將其縫合在一個視頻里,生成結(jié)構(gòu)復雜、主體豐富的視頻內(nèi)容。
(3)混合訓練策略
這一步是為了提高模型的泛化能力。
引入圖像-視頻混合訓練機制,能夠讓模型既擁有圖像的高分辨率,又擁有視頻的動態(tài)邏輯。
再結(jié)合多分辨率聯(lián)合優(yōu)化,增強模型對不同空間尺寸和寬高比的魯棒性。以后無論是16:9的電影感還是9:16的短視頻感,模型都能原生支持,不會因為拉伸導致畫面扭曲。
最終從評測結(jié)果看,SkyReels-V3在200對混合測試集上,既保證了視覺質(zhì)量,又顯著提升了對參考圖和指令的遵循能力。
![]()
視頻延長任務
傳統(tǒng)的視頻延長只是在原有視頻結(jié)尾增加幾秒相似的動作,而SkyReels-V3則在此基礎上進階到了智能語義理解階段。
不僅僅是補幀,而是在讀懂前一個鏡頭劇情后,根據(jù)用戶提示詞邏輯,主動創(chuàng)造下一個鏡頭,并且學會使用專業(yè)導演的剪輯手法。
![]()
這主要歸功于兩大技術突破:
(1)統(tǒng)一多分段位置編碼
在多段不同視角的視頻中,借助統(tǒng)一的編碼系統(tǒng),確保物體在不同鏡頭間的運動是符合邏輯的;分層混合訓練讓模型學習切鏡時機和切鏡方法,以實現(xiàn)轉(zhuǎn)場時的鏡頭平滑切換。
(2)魯棒時空建模
該步驟讓模型在面對快速運動(如賽車)、多主體交互(如多人格斗)、場景劇變(如從光線差的室內(nèi)轉(zhuǎn)向室外)等極端情況時,依舊能維持物體形狀和位置,同時確保視頻始終遵循現(xiàn)實世界的物理規(guī)律和視覺連貫性。
總的來說,就是賦予SkyReels-V3導演思維,讓畫面調(diào)度更精細,故事內(nèi)容更具敘事張力。
音頻參考任務
SkyReels-V3虛擬形象模型能夠基于單張參考圖和音頻,生成音視頻同步的高清視頻,不僅支持人物嘴部和音頻對齊、多角色交互,還有分鐘級長視頻生成。
![]()
這也是業(yè)內(nèi)首個支持單鏡頭多人多輪對話的數(shù)字人模型,具體技術依賴于:
(1)精準音視頻對齊
SkyReels-V3改變了以往“全圖對口型”的方式,通過區(qū)域路由機制實現(xiàn)了精準控制。用戶可以指定畫面中的某個特定角色說話,然后將不同角色的音頻按順序排列,就能生成自然的對話過程。
其次,借助專用音視頻對齊訓練策略、語音單元與面部區(qū)域的顯式建模,確保嘴型在不同語速、語言、風格下的魯棒性。
(2)關鍵幀約束生成
由于直接生成長視頻會導致顯存爆炸或邏輯崩壞,SkyReels-V3采用了先骨架后填充的策略。
先通過構(gòu)建等間隔的關鍵幀,確定下視頻的大致動作框架;再以關鍵幀和實時音頻作為約束,分段填充中間幀,實現(xiàn)平滑過渡;最后調(diào)節(jié)給定參考圖的位置編碼,即它與關鍵幀的距離,來靈活控制動作的大小。
這種方式體現(xiàn)在評測指標時,同分辨率場景,SkyReels-V3在畫面質(zhì)量和一致性上均接近主流閉源SOTA模型,具備顯著優(yōu)勢。
![]()
值得注意的是,以上全部技術均已開源,且三大任務模塊之間相互獨立,用戶可根據(jù)自己需求自由組合。
為什么是昆侖天工?
至此,讓我們將目光重新放回AI視頻生成領域。
不難看出,AI視頻生成已經(jīng)從單純的技術展示全面轉(zhuǎn)向商業(yè)增量的白熱化博弈階段。如果說去年是相關國產(chǎn)模型集體爆發(fā)的一年,那么今年則是行業(yè)進入深度洗牌的關鍵時期。
而SkyReels-V3無疑是其中尤為亮眼的一款產(chǎn)品,以優(yōu)秀的多模態(tài)能力、角色一致性和可控精度脫穎而出。
這就引出了一個問題:為什么是昆侖天工先發(fā)制人?
![]()
縱觀昆侖天工的AGI布局,只能說,SkyReels-V3的出現(xiàn)絕非偶然。
從模型層面講,昆侖天工始終堅持自研技術,圍繞MoE架構(gòu)與多模態(tài)技術,逐步迭代形成覆蓋通用+垂直場景的模型矩陣。
目前主要包括八大模型:文本、多模態(tài)、代碼、Agent、視頻、世界模型/3D、音樂、音頻。
![]()
比如說:
- 業(yè)界首款中文邏輯推理大模型:Skywork 4.0 o1
- 能實現(xiàn)低延遲擬人語音對話:Skywork 4.0 4o
- 在同等規(guī)模下比肩DeepSeek-R1:Skywork-OR1
- 國內(nèi)首個面向AI短劇創(chuàng)作的視頻生成模型:SkyReels-V1
- 全面領跑主流評測,收獲Kaggle官方推薦:Skywork R1V2
足以證明,昆侖天工在技術側(cè)的發(fā)力之猛,一方面利用模型架構(gòu)創(chuàng)新降低推理成本,另一方面通過在垂直領域追求行業(yè)頂尖水準,建立起差異化生態(tài)優(yōu)勢。
從產(chǎn)品層面講,依托堅實的大模型技術,昆侖天工兼顧C端普惠與B端定制,打造了天工超級智能體、AI音樂創(chuàng)作平臺Mureka、AI社交Linky等代表性應用。
其中,天工超級智能體的定位是AI辦公賦能,依靠5個專家智能體(文檔、PPT、表格、網(wǎng)頁、播客)和1個通用智能體,可以在5分鐘內(nèi)生成30頁PPT,大幅度提升工作效率,帶來“所見即所得”的高效智能體驗。
繼5月份發(fā)布之后,天工超級智能體在去年下半年更是緊鑼密鼓地開展了一系列迭代過程,不斷追加各種智能體、升級各項功能,成為了Office Agent里不可忽視的一抹新興力量。
![]()
而AI音樂Mureka、AI社交Linky也都在海外反響熱烈。
Mureka自2025年3月起,累計新增全球注冊用戶近700萬,服務超100個國家和地區(qū),昨天剛剛發(fā)布的Mureka V8更是一舉超越Suno V5,登頂垂類世界第一。
Linky作為全球出海TOP3的社交陪伴平臺,在2024年強勢達成單月最高收入突破100萬美元的成績,是海外增長最快的中國AI社交應用之一。
依托深厚的技術積累,昆侖天工在近年陸續(xù)推出了面向不同消費人群的針對性產(chǎn)品,比如對上班族講效率,對Z世代講娛樂,幾乎所有人在昆侖天工都能找到最契合自身的AI應用。
而這恰恰是昆侖天工的優(yōu)勢所在,它長期敏銳洞察市場的同時,也得益于開源積累了一批忠實的用戶,構(gòu)建起“技術-用戶-社區(qū)”的正向可持續(xù)循環(huán):只要用戶積極反饋,就能持續(xù)反哺產(chǎn)品創(chuàng)新。
所以昆侖天工的產(chǎn)品生命周期長、商業(yè)效果好、技術變現(xiàn)快。
![]()
綜合來講,就是打通了技術到產(chǎn)品的轉(zhuǎn)化鏈路,強技術驅(qū)動好產(chǎn)品,好產(chǎn)品迅速盈利回饋技術研發(fā),然后沿著這條主線逐步外擴,形成由大模型、搜索、游戲、音樂、社交、短劇組成的多元AI業(yè)務矩陣。
而事實證明,這條由點及面的擴張路徑頗有成效,昆侖天工已經(jīng)搶先交出了答卷。
GitHub鏈接: https://github.com/SkyworkAI/SkyReels-V3
API鏈接(限時免費):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.