![]()
![]()
![]()
AI不止于炫技,更要賺錢。
作者|劉楊楠
編輯|栗子
還記得我們半年前報道過“最懂表演”的視頻生成大模型SkyReels嗎?它現在可太火了。
發布半年來,SkyReels在開源社區中廣受關注,SkyReels V1獲得2.4k星標,SkyReels V2獲得4.9k星標,相關的音頻及組合模型也都分別獲得了眾多星標。
如今,SkyReels全新版本已經在11月4日上線了。
SkyReels模型之所以能夠對開發者有如此吸引力,本質還是因為其切中了視頻內容賽道的需求要害。
2025年的AI視頻工具市場呈現出刺眼的兩極分化。一類面向資源豐富的專業創作者,流程復雜、需要“抽卡”試錯;另一類則聚焦泛娛樂傳播,難以滿足工作場景的精準需求。
由此導致AI視頻市場陷入一種尷尬境地,需求方和工具方各有各的瑣碎,卻無法有機匹配。無論是廣大普通用戶還是中小企業、專業內容從業者都陷入困境,他們既有超越休閑娛樂的視頻創作需求,又無法承受專業工具的學習成本和試錯時間。
市場急需一個能夠彌合頂尖模型、真實創作需求以及集成工作流程之間鴻溝的平臺。
昆侖萬維最新發布的全新SkyReels,則是其針對市場工具碎片化給出的戰略性答案。作為一個定位為“一站式、零門檻的多模態AI創意平臺”的產品,其核心創新不僅在于單個模型能力的提升,更在于對傳統創意工作流的顛覆。
昆侖萬維的野心,已不止于視頻內容。
1.三大革新,把專業創作拉下神壇
全新SkyReels的網頁版共有“三大件”,分別是無限畫布、智能副駕(Agentic Copilot)以及AI視頻模板,三者共同構成一套覆蓋音視頻創作的全鏈路解決方案。
最具顛覆性的創新便是無限畫布。SkyReels的“無限畫布”則從根本上挑戰了主導音視頻編輯領域長達一個世紀的線性工作流,將所有AI功能和多模態素材集成于一個“所見即所得”的網狀空間。無論是圖片、視頻還是音頻,都不再是軌道上的靜態元素,而是可交互的積木,讓創作者隨取隨用,跟隨創作者的思維流動。更具突破性的是,“無限畫布”支持三種核心創作方式,無縫融合拖拽操作、二次編輯以及與Agent進行自然語言交互,滿足創作者在不同情境下的需求。
![]()
為了同時滿足創作者的即時靈感與復雜的專業任務需求,SkyReels還設計了一套雙核的“智能副駕(Agentic Copilot)”系統,讓AI成為人類創作者的協作伙伴,而非被動執行碎片化指令的工具。
其中,超級智能體 (Super Agent)是一個可以隨時喚起的全能助手,其核心優勢在于深度的多模態理解與生成能力。用戶可以上傳圖片、視頻或音頻,并要求Super Agent分析其風格、為其生成營銷文案,或基于其內容進行頭腦風暴,第一時間響應用戶的創作靈感。
基于上述功能, 「甲子光年」進行了一番深度測試,直觀體現SkyReels 的多模態理解與生成能力,以及無限畫布工作流的便利性,發現效果真的驚艷。
打開圖像生成器,生成一位老者的圖片,輸入Prompt:
一個身穿西裝、面部表情嚴肅的老者。
![]()
將圖片拖拽至視頻生成器中,輸入Prompt:
老人面帶愁容,緩緩向前走。
打開視頻延長功能,輸入Prompt:
Cut in,老人突然停下腳步,眼睛盯著鏡頭,嚴肅的表情逐漸淡去,眼神漸漸柔和,眼角泛起柔和的淚光。
將延長后的視頻拖入Super Agent聊天框,讓它根據畫面內容匹配一段10s的BGM,并給畫面配一個旁白,畫面底部給出搭配旁白字幕。過程中我和Agent經歷了幾輪簡短的對話,選定BGM的主樂器以及旁白的大致梗概和語種。最終得到這樣一條短片:
旁白:Every step carries the weight of memories, every wrinkle tells a story of time.(每一步都承載著回憶的重量,每一道皺紋都訴說著時間的故事)
在整個測試過程中,我們有一個很直觀的感受,就是“及時”。用戶不再需要被迫“像剪輯師一樣思考”,而是平臺主動適應用戶的思維習慣。用戶不用在花大量時間去找到合適的剪輯工具和素材,只需考慮故事的走向。
這也是昆侖萬維SkyReels試圖得到的境界——用戶無需學習AI,只需使用AI。
除通用的Super Agent外,SkyReels還提供超過28個“專家Agent”,每一個都經過特定領域的深度訓練和優化,覆蓋市場營銷、電子商務、虛擬形象和故事創作等高價值場景。
![]()
我們讓“產品演示視頻”的專家Agent生成了一個香奈兒限量版口紅的產品介紹。首先,我們用圖片生成器生成了一支香奈兒限量口紅的圖片:
![]()
將其拖入專家Agent對話框,輸入Prompt,就得到了下面這段視頻:
產品:香奈兒的限量版口紅。 需求:制作一個20秒的短片,全方位展示產品的精致細節以及色號。
對于幾乎沒有視頻剪輯基礎的小白用戶而言,只需一次拖拉拽就能做出一條這樣的視頻,無疑是一次個人生產力的飛升了。這不僅加速了創作進程,更提升了所有用戶的產出質量下限,能確保最終成品符合行業交付標準的平均水平。這不只是工具的平權,更是專業能力的平權。
沿續這套邏輯,當Agent系統越發成熟,全新SkyReels 還給創作者們提供了一個更具想象力的未來。當多Agent協同成為常態,用戶只需發布一個更高級別的指令,例如“為我們的新產品發起一場營銷活動”。SkyReels的Agent團隊便能真正一站式完成任務——Super Agent自動將任務分解,委派給相應的專家Agent執行:電商Agent負責制作產品視頻,營銷Agent撰寫社交媒體文案,Avatar Agent則生成數字代言人。這種自主協作的AI創意團隊愿景,代表了Agentic工作流的終極形態。
不過,在這個終極愿景真正到來前,SkyReels還提供了一個“中間形態”,即AI模板。
AI模板系統為規模化、可復制的高質量內容生產需求而設計的,精準地滿足了營銷和電商領域商業用戶的核心需求。憑借近10個大類、超過150種模板,讓創作者高效地產出商業級視覺素材。
![]()
![]()
AI模板的使用門檻幾乎為零,讓用戶真正“可見即可得”,只需簡單三步:瀏覽模板廣場-選擇心儀模板-進入配置頁面輸入所需文字,點擊“生成”即可。于是,我們用AI模板功能給這只小貓穿的白雪公主裙子做了一套換裝寫真:
![]()
經過和Super Agent的幾輪交流后,我們將模板中的人類模特換成四種不同顏色的小貓模特,最終得到了這樣一套小貓寫真集:
![]()
![]()
![]()
![]()
整體效果還是非常驚艷,只要你對生成結果不滿意,只需將圖片拖拽至Super Agent 對話框,表達你的訴求,Super Agent就會給出你想要的答案。
以上種種都表明,全新SkyReels 真正的價值不僅在于提供了更好用的AI視頻工具,更在于重構創作流程。作為視頻、圖片創作的小白用戶,這種“所見即所得”的體驗確實給我們帶來了前所未有的爽感和創作樂趣。而為了呈現真正的“所見即所得”,昆侖萬維用了大半年的時間來不斷打磨其底層模型能力。
2.拆解SkyReels的技術進化論
SkyReels系列模型雖然發布僅半年,但進化速度卻很快。更重要的是,該模型的進化邏輯并非只就單一功能進行打磨,而是在不斷提高模型理解和生成多模態內容的底層能力。
2025年2月,SkyReels-V1作為國內首個面向AI短劇創作的開源視頻生成模型,在開源領域率先達到SOTA水平,其自研的Human-Centric(以人物為中心的)視頻理解多模態大模型,大幅提升視頻中人物相關的理解能力。
這套基于視頻理解多模態大模型所構建的人物智能解析系統,在影視化的表情識別、人物空間位置感知、行為意圖理解、表演場景理解等不同層次的表演上,都能達到“影帝級別”的人物表演。
SkyReels-V2則構建了“語言理解-分層訓練-動態優化-無限延伸”完整技術鏈條,實現了無限時長和精準的鏡頭控制。
SkyReels-A3作為音頻驅動的數字人模型,將“照片開口說話”的效果推向新高度。基于DiT(Diffusion Transformer)視頻擴散模型,用戶只需要輸入參考圖像/視頻,文本 prompt 和音頻,SkyReels-A3模型就能生成長達一分鐘數字人視頻。
可以看到,此前每一次迭代都補全了視頻生成某個關鍵痛點,而此次發布的SkyReels 則是真正的“集大成者”。
SkyReelsV3代表一系列多模態視頻生成模型,包括基于圖片參考、音頻參考和視頻參考的視頻生成模型。該系列模型都基于同一個Multi-modal In Context Learning框架預訓練模型,然后再進行子任務精調進一步訓練適配優化。
其中,基于多主體參考圖像的視頻生成模型,能夠依據多張主體與背景參考圖及用戶提示語,生成情節連貫、符合組合關系的視頻。
為增強對參考圖像的內容保持能力,昆侖萬維構建了完整的數據處理流程,采用跨幀配對(cross-pair)策略從連續視頻中選取參考幀,并借助圖像編輯模型提取主體、補全背景并進行語義改寫,有效避免“復制粘貼”的效果;在訓練階段,還引入圖像-視頻混合訓練與多分辨率聯合訓練機制,提升模型泛化性能。自V2演進至V3以來,該模型已在多項指標上達到閉源SOTA模型水平。
![]()
基于前代SkyReels-A3,昆侖萬維正式推出全新的音頻驅動視頻生成模型則可根據用戶上傳的音頻與圖像,生成口型精準對齊的高清視頻。
為此,模型采用關鍵幀插幀范式,支持生成包含不同動作幅度、長達分鐘級別的高質量視頻。針對超長視頻生成,模型首先生成等間隔關鍵幀以構建整體動作框架,再以關鍵幀和音頻為條件,生成各片段口型一致的中間視頻。動作幅度通過調節參考圖位置編碼與關鍵幀之間的距離進行控制。
同時,模型還支持復雜運鏡組合,通過監督學習相機運動參數,模型能夠在同一時間內融合多種運鏡效果,并實現不同運鏡間的平滑切換。
自動化評估顯示,在相同分辨率生成場景下,本模型在音畫同步與畫面質量方面已接近主流閉源SOTA視頻模型,并顯著優于當前開源方案。
![]()
接下來我們就上手實測一下新模型的驚艷表現。其中,數字人模型和視頻延長、風格化模型均在各自領域開創先例。
SkyReels V3 數字人最硬核的能力創新,就是覆蓋全場景對口型,支持長達4分鐘的連續口型同步。這與早期模型幾秒鐘的長度限制相比,是巨大的飛躍。此外,它提供了多達32種電影級的運鏡組合,讓數字人形象更立體,更貼合真實世界。
同時,該數字人模型還是業內首個支持單鏡頭多人多輪對話的數字人模型,能夠僅憑一張包含多人的靜態圖片,生成一段無縫的視頻。在視頻中,每個角色都能根據預設的臺詞,進行自然流暢的輪流發言,精確控制說話的時機和節奏。
于是,我們用SkyReels還原了一對情侶的分手現場:
可以看到,視頻中的女生并非僵硬地念臺詞,而是會隨其說話內容的變化有與之匹配的情緒起伏、表情變化,并向人類說話一樣有自然的停頓,整體觀感非常真實且有代入感。
這項能力突破也解鎖了全新的應用場景,能夠制作逼真的雙人電商直播、生成影視或游戲中的對話場景,以及打造更具吸引力的教育內容。
這里預埋一則彩蛋——根據規劃,SkyReels V3將很快實現通過自然語言指令(Prompt)來控制數字人表現的功能。這意味著用戶將能夠通過“用高興的語氣說話”或“看向鏡頭”等簡單指令,來指導數字人的表演,進一步降低了數字人的生成門檻。
除數字人外,V3的視頻參考模型表現也十分驚艷。
視頻參考的視頻任務包括視頻延長,視頻編輯和視頻風格化。為同時支持三項視頻生成任務并控制視頻參考成本,昆侖萬維實施了多項模型改進。
首先,針對各任務對條件理解的不同,設計了差異化的空間位置編碼與任務專屬嵌入,促使模型統一學習多任務特性;其次,通過融合Token拼接的靈活性與通道拼接的高效性,在保證生成質量的同時顯著降低了總Token數;此外,引入歷史增強機制,使模型能夠生成長達分鐘級別的連續視頻。
具體來看,SkyReels V3模型支持下的視頻延長功能不只是“拉長時間”,而是通過分析前一個片段的語義內容和用戶的提示詞,來預測并生成下一個符合邏輯的鏡頭。模型支持多種電影化轉場方式,如切入(Cut-In)、切出(Cut-Out)、反打鏡頭(Reverse Shot)等,從而能夠創造出具有敘事連貫性的鏡頭序列,而非單調的無意義鏡頭。
固定鏡頭,聚焦女人的面部,抬頭面無表情地看著鏡頭:
在視頻風格化方面,不同于LoRA等技術風格化時常出現的“閃爍”問題(即風格在幀與幀之間應用不一致)。事實上,視頻風格化效果不佳的核心原因,就在于高質量風格化數據缺失。
為此,昆侖萬維引入了一套端到端自動化的風格化數據生成與篩選流程,能夠深刻理解場景中的物體及其運動軌跡,確保所應用的風格——剪紙、辛普森、鉤針毛線、樂高、動森、像素、梵高,可廣泛應用于廣告創意、動畫制作、視覺再創作等場景。在時間維度上保持穩定,從而產出質量更高、觀感更專業的風格化視頻。
將原視頻像素化后:
可以看到,SkyReels V3不僅繼承和優化了前代模型的視頻生成能力,更通過“無限畫布”和“Agent”系統,將圖片、音頻、視頻等多模態能力整合進一個統一的工作流。統一工作流的終極目的,實則還是為了讓AI真正從玩具變成工具,賦能更多行業,創造更大的社會效益。
3.AI不止于炫技,更要賺錢
全新SkyReels的發布并非孤立的產品事件,而是昆侖萬維“All in AGI與AIGC”公司戰略的關鍵一環。
公司已系統性地構建了一個覆蓋全產業鏈的AI生態系統,涵蓋底層算力基礎設施,中層算法模型以及多元化AI應用。
具體來看,在算力基礎設施層面,昆侖萬維通過控股AI芯片公司艾捷科芯,完成了AI生態的底層布局。艾捷科芯采用7nm+Chiplet工藝,其SRAM數字可重構存內計算芯片能效達2238TOPS/W,支持千路4K視頻流處理,緊密契合昆侖萬維的視頻戰略。
在算法模型層面,昆侖萬維自主研發的“天工”系列大模型已發展至4.0版本,包含多個針對不同應用場景的子模型,在邏輯推理、多模態處理等方面有顯著提升。
在應用層面,昆侖萬維構建了豐富的AI產品矩陣,覆蓋辦公、創作、娛樂、社交、游戲等多個場景。其核心產品包括:
AI智能助手:2025年5月22日,公司面向全球市場同步發布天工超級智能體(Skywork Super Agents)。天工超級智能體采用AI Agent架構與Deep Research技術,具備一站式生成文檔、PPT、表格、網頁、播客及多媒體內容的能力,在GAIA評測中憑借82.42的高分位列全球榜首,正式開啟“AI Office智能體”時代。
AI音樂與音頻:Mureka音樂生成平臺,年化流水收入ARR達1200萬美元,覆蓋全球100多個國家。
AI社交:Linky AI虛擬角色互動平臺,累計下載量突破2000萬,在31個國家和地區的社交類下載榜中位列前十。
AI視頻:SkyReels平臺,集成了視頻生成、圖像創作等功能,支持從劇本生成到影片合成的全流程創作。
AI游戲:《貓森學園》也正在研發測試中,將結合AI提供開放世界校園生活模擬游戲體驗。
在這個宏大的生態版圖中,SkyReels 在扮演著至關重要的角色,它是將公司在多模態AI領域的深厚研發投入商業化、并觸達全球用戶的核心載體。
這一戰略已經開始顯現出商業價值。公司近期發布的三季度財報顯示,2025年第三季度,昆侖萬維實現營收20.72億元,同比增長56.16%;歸母凈利潤1.9億元,同比增長180.13%。
這些數據有力地證明,昆侖萬維的全球化布局和對AI的堅定投入,正在轉化為實實在在的財務表現。 不過,盡管能讓自己賺錢的企業,足以被稱為一家優秀的企業,但能讓更多企業和自己一起賺錢的企業,或許才能被稱之為偉大的企業。SkyReels憑借其專業化和商業化的明確導向,無疑會更快將公司逐漸推向后者。
此次,SkyReels 中加入了“AI海報”和“虛擬試穿”為代表的平面設計功能,在視頻內容創作之外打開了一條全新的商業路徑。
AI商品海報最實用的一項功能是,能夠支持海報中文本的編輯。海報上的標題、賣點、價格等所有文字均可靈活編輯,完美貼合營銷節點。
![]()
這個看似簡單的功能,卻是一項意義重大的工作流創新。營銷人員面臨的一個主要痛點是,AI生成的圖片一旦完成,便難以進行微調,尤其是文字修改(如價格變動、促銷信息更新)。任何微小的改動都意味著需要重新生成整張圖片,結果往往不盡人意。SkyReels 允許用戶在生成的海報上直接、靈活地編輯所有文本元素,將AI素材從靜態的“一次性”產出,轉變為動態的、可復用的模板。
此外,SkyReels 還支持SOTA級別的虛擬試穿。更重要的是,它支持多件服飾同時試穿(例如上衣和褲子),并能通過AI自動推薦“套裝”組合。
原圖:
![]()
試穿圖:
![]()
![]()
![]()
![]()
這一功能直接與清晰的商業指標掛鉤——提升客單價,展示了技術如何直接服務于商業目標。
這兩項針對平面設計推出的全新功能也意味著標志著SkyReels系列模型正式從一個視頻生成工具,進化為服務于更廣泛商業場景的一站式創意平臺,賦能更多企業、甚至行業完成數字化轉型。
更利好的消息在于,昆侖萬維此前的全球化布局,已經給如今技術和產品的落地鋪墊了足夠的充分的市場基礎。昆侖萬維此前發布的三季度財報顯示,公司實現海外業務收入54億元,同比增長58%,海外收入占比達93.3%,同比提升3.6個百分點,國際競爭力持續增強。
如今,昆侖萬維SkyReels的發布也很好地切中了AI視頻市場當前的重要拐點,有望撬動更大的應用市場。“為技術而技術”的時代已經告一段落,未來屬于那些能夠可靠、高效、規模化地融入專業工作流,以解決真實商業問題的平臺。SkyReels 則給這個新范式,按下了啟動鍵。
(封面圖來源:昆侖萬維)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.