<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Artificial Analysis 榜單第二,SkyReels-V4 宣告 AI 視頻進入「全棧統一」階段

      0
      分享至

      Seedance 2.0 還在持續震驚行業的時候,AI 視頻賽道又有一份權威榜單刷新了,來自昆侖天工的 SkyReels-V4 沖進了最前列。

      Artificial Analysis 是目前 AI 領域最有公信力的第三方評測平臺之一。它的機制,是讓不同模型生成答案,然后由真人用戶盲選投票,誰的作品被選中的次數多,誰的 ELO 分就高。整個過程不看品牌,不接受企業自報成績,OpenAI、Google 這些大廠都在上面被公開打分。

      在這份最新的文生視頻榜單(帶音頻)上,SkyReels-V4 排到了第二。ELO 評分 1090,僅落后第一名快手 Kling 3.0 Pro 三分。Google Veo 3.1、OpenAI Sora 2、xAI grok-imagine-video 都排在了它的身后。


      在包含所有歷史版本的全量排名里,SkyReels-V4 也排到了第四。


      值得注意的是,Text To Video Leaderboard(with Audio)不是一個只看「畫面好不好看」的榜單,它評的是帶音頻的完整視頻,畫面、聲音、兩者的同步程度,全都算分。

      SkyReels-V4 能在這個維度拿到全球第二,說明它做對了一些和大多數視頻模型不太一樣的事情。

      ??關注 Founder Park,最及時最干貨的創業分享

      超 22000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。

      邀請從業者、開發人員和創業者,飛書掃碼加群:

      進群后,你有機會得到:

      • 最新、最值得關注的 AI 新品資訊;

      • 不定期贈送熱門新品的邀請碼、會員碼;

      • 最精準的 AI 產品曝光渠道

      01萬物可參考」的創作自由

      要理解 SkyReels-V4 的能力,最直觀的方式是看一個案例。

      上傳一段邁克爾?杰克遜的經典舞蹈視頻和一張二次元圖片,告訴模型:把舞者替換成這個角色。


      幾秒鐘后,視頻里的舞者變成了那個動漫人物,但每一個轉身和手勢的時機都和原版嚴絲合縫。

      這已經很厲害了,但還沒完。換一張狼的圖片再試一次。

      這回模型需要把一個人類的舞蹈動作,映射到一只四足動物身上。結果狼的動作流暢自然,身體的重心轉移和節拍卡點依然對得上原視頻。

      這說明模型不止是抓取像素的外觀,更是本質上理解了動作的語義。

      難度還可以繼續升級。例如《低俗小說》里烏瑪?瑟曼和約翰?特拉沃爾塔的經典扭扭舞,給模型兩張圖:一只狗,一只貓。指令是把左邊的舞者換成狗,右邊的換成貓。


      這個任務的挑戰在于,模型必須同時跟蹤兩個主體的運動軌跡,分別完成替換,還不能把兩邊的動作搞混。

      SkyReels-V4 交出的結果是:狗和貓各跳各的,動作和原版舞者一一對應,互不干擾。

      這套能力叫「運動參考」。對于短視頻創作來說,它的想象潛力巨大。一旦你有了一段動作素材作為骨架,就可以把任何形象「穿」上去。同一段舞蹈,今天換成品牌 IP 角色做一版廣告素材,明天換成二次元形象做一版粉絲二創,后天換成吉祥物做一版節日版本。

      對于短視頻創作者和內容團隊來說,這意味著素材的復用率被大幅拉高,同一段動作的商業價值可以被反復釋放。

      02全棧能力:整個工作流,一個模型搞定

      運動參考只是 SkyReels-V4 多模態參考能力的一個切面。這個模型真正的野心,是覆蓋整條視頻創作工作流。從生成到編輯,從畫面到聲音,在一個模型里全部完成。

      先看短劇生成。給模型兩三張人物照片,再給一段對話劇本,它能直接輸出一個帶對白、帶背景音樂、有正反打鏡頭切換的短劇片段。


      注意了,這是一個真的有鏡頭語言的視頻。男人說話的時候鏡頭對著男人,切到老人的反應,再切回來,節奏是對的。

      更值得關注的是音頻部分。生成出來的臺詞清晰度很高,口型都對。而且帶有情緒,緊張、警惕、懷疑,這些在劇本里寫的情緒指令,模型都能在語音層面體現出來。仔細聽還能聽到緊張懸疑的背景音樂,完全契合劇情。這種音頻質量放在一年前,單獨拿出來都算得上一個獨立產品的賣點。

      而且它不只支持中文,英文、法語、日語,每種語言的語音都可以由模型原生生成。這意味著同一套角色素材,換一種語言的劇本就能產出另一個版本,對做海外內容的團隊來說效率提升非常明顯。



      同樣,在視頻編輯方面,去水印、抹掉硬字幕、清理臺標,也都能輕松搞定。

      快速去除字幕

      這些過去要靠 After Effects 或者好幾個 AI 小工具拼在一起才能完成的操作,現在一個模型、一條指令就能搞定。

      它還能做更復雜的事情:給一段女團舞蹈視頻里的 C 位舞者憑空加上一頂帽子。


      帽子的顏色和細節都跟參考圖一致,整段舞蹈就像她本來就戴著這頂帽子跳的。

      或者反過來,從一段多人探險視頻里把兩個人直接刪掉,刪完之后背景自然補全,沒有任何穿幫痕跡。

      從生成完整短劇到精細化編輯修復,SkyReels-V4 試圖讓創作者的工具箱大幅簡化:過去需要在好幾個軟件之間來回切換才能完成的工作流,現在可以在一個模型內完成。

      03魔法背后的技術力

      前面展示了這么多能力,一個自然的問題是:為什么這些事情能在同一個模型里完成?

      答案藏 昆侖天工 SkyReels-V4 的技術報告里。如果只挑兩個最關鍵的技術點來講,統一拼接框架解釋了「為什么一個模型能干這么多事」,雙流 MMDiT 架構解釋了「音視頻怎么做到真正同步的」。


      論文:https://arxiv.org/pdf/2602.21818

      先說第一個。SkyReels-V4 之所以能用一個模型干這么多事,核心在于它把所有視頻任務都變成了同一種操作。

      具體怎么做的?模型的輸入被拆成三樣東西拼在一起:一段待生成的視頻底片、你提供的條件畫面、以及一張遮罩。

      遮罩的作用是標記哪些區域保留,哪些讓模型重新生成。文生視頻就是遮罩全空;圖生視頻就是第一幀鎖定;去水印就是把水印的區域挖掉。任務千差萬別,但在模型眼里只是遮罩的配置不同。

      參考素材的注入是另一個維度。如果你提供了角色照片或動作視頻,這些素材會被編碼后拼在生成序列的前面,像一本攤開的參考手冊。模型生成每一幀時都能回頭翻看,從中提取外觀、動作和風格信息。這就是為什么你可以同時給它一張角色圖和一段舞蹈視頻,它能理解「用這個外觀,跳那段舞」。

      兩層拼接配合在一起,就有了一個真正統一的接口:生成、編輯、遷移,全部走同一套框架,同一套參數。

      再說第二個。大多數視頻模型生成畫面之后,音頻是后面單獨加上去的,兩者之間的對齊靠的是后處理。

      SkyReels-V4 不是這么做的,它的架構叫「雙流 MMDiT」:視頻和音頻各有一條生成線,但這兩條線在每一步都能互相看到對方在做什么。


      打個比方,就像兩個樂手看著同一份樂譜在合奏:視頻這邊畫到嘴巴張開,音頻那邊就同步輸出對應的語音;音頻這邊的節拍到了重音的位置,視頻那邊的動作也跟著卡點。兩條線共享同一個文本編碼器來理解指令,再通過雙向交叉注意力機制在每一步互相校準。

      但這里有一個工程上的難題:視頻和音頻的時間尺度完全不同。視頻一秒 32 幀,音頻一秒 44100 個采樣點,兩者的信息密度差了好幾個數量級。

      SkyReels-V4 用了一個叫 RoPE 頻率縮放的技術來解決這個問題。本質上是讓音頻的時間坐標系「壓縮」到和視頻對齊,確保兩邊在注意力計算的時候看到的是同一個時間軸上的對應位置。

      這就是為什么前面短劇案例里,多角色對話的唇形和語音能做到毫秒級的精準對齊,因為音視頻從生成機制的底層就是綁定在一起的。

      04從工具替代到工作流統一

      把視角拉遠一點看,昆侖天工 SkyReels-V4 做的這件事,其實是整個 AI 行業正在發生的一個大趨勢的縮影。

      語言模型從純文本走向多模態,圖像模型從生成走向理解,視頻模型從單項能力走向全流程覆蓋,所有方向都在往「統一」這個詞收斂。SkyReels-V4 的統一框架不只是一家公司的技術選擇,它更像是視頻生成賽道演進方向的一個信號。

      對創作者來說,這種變化的體感可能比技術敘事更直接。過去做一條完整的視頻內容,工作流是「工具鏈串聯」:用這個工具生成畫面,用那個工具配音樂,再換一個工具做剪輯和后期。每切換一次工具就丟失一次上下文,素材在不同軟件之間反復導入導出。

      SkyReels-V4 則是讓這條鏈變成一個框:所有素材進去,成品出來,中間模型始終理解你在做什么。創作的門檻在降低,但更重要的是,創作的連貫性在提升。

      對更廣泛的影視和內容制作行業來說,影響可能比「換一個更好用的工具」更深。傳統影視后期是一條高度分工的流水線。特效、配音、音效設計、字幕處理,每個環節對應專門的軟件、專門的人才、專門的外包預算。當一個模型能同時覆蓋這些過去分屬不同工種的任務,產業鏈里一部分中間環節的存在邏輯就開始松動了。

      尤其在短劇、短視頻、品牌內容、電商素材這些對產出速度和成本高度敏感的中腰部市場,制作的「最低可行團隊」正在被重新定義。過去需要十個人干一周的活,現在可能三個人加一個統一模型,兩天就能交付。當然,高端影視制作對精度和創意的要求,靠當前 AI 還不能完全替代,但「全棧統一」的意義已經從技術架構的故事,變成了產業效率的故事。

      回到昆侖天工自身,SkyReels 系列的迭代節奏也值得留意。V1 主攻人物表演和影視級質感,是中國最早面向 AI 短劇創作的垂直場景視頻生成模型;V2 引入自回歸擴散架構,實現了無限時長的連續視頻生成;V3 強化了多模態參考驅動,支持圖像、視頻、音頻等多種條件輸入;到了 V4,音視頻聯合生成和全場景統一編輯被裝進同一個架構。每一步都不是在某個單項上刷分,而是在把更多能力往同一個框架里收。

      這條路不輕松。統一意味著每一代都要做架構層面的改動,而不是在已有框架上微調;意味著要同時把生成質量、編輯精度、音頻同步這些互相制約的指標都拉上來。但走到 V4 這一步,Artificial Analysis 第二的成績單至少說明了一件事:這條「把所有東西裝進一個模型」的路,昆侖天工走通了。


      轉載原創文章請添加微信:founderparker

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價暴漲不用慌!官方“定調”:中國接得住,底氣全在這兒

      油價暴漲不用慌!官方“定調”:中國接得住,底氣全在這兒

      跳跳歷史
      2026-03-21 16:10:53
      A股:周末,大消息傳來,要做好準備,周一將迎來更大的暴風雨?

      A股:周末,大消息傳來,要做好準備,周一將迎來更大的暴風雨?

      云鵬敘事
      2026-03-21 18:01:08
      真神仙專業!中國道教學院招生了,包含道教歷史與神仙等5個專業,計劃招30名本科生,16名研究生

      真神仙專業!中國道教學院招生了,包含道教歷史與神仙等5個專業,計劃招30名本科生,16名研究生

      觀威海
      2026-03-21 15:43:14
      殲20總師被除名:任央企高管,最近露面照曝出,事發全過程被還原

      殲20總師被除名:任央企高管,最近露面照曝出,事發全過程被還原

      博士觀察
      2026-03-20 12:20:55
      全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

      全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

      新智元
      2026-03-21 10:11:37
      男子蹭飯260頓后續:拒拿2000賠償硬剛,正臉曝光,同學認出社死

      男子蹭飯260頓后續:拒拿2000賠償硬剛,正臉曝光,同學認出社死

      奇思妙想草葉君
      2026-03-20 14:13:32
      爽,公司全員裁撤,就地解散!

      爽,公司全員裁撤,就地解散!

      黯泉
      2026-03-21 12:20:16
      悲劇了!40多萬買游戲裝備跌成8萬!男子哭訴是父母給他結婚錢…

      悲劇了!40多萬買游戲裝備跌成8萬!男子哭訴是父母給他結婚錢…

      火山詩話
      2026-03-21 05:54:08
      普京:俄羅斯是伊朗艱難時刻的忠實伙伴

      普京:俄羅斯是伊朗艱難時刻的忠實伙伴

      新華社
      2026-03-21 17:42:04
      51歲港星廣東縣城賣10元云吞,凌晨5點起床,擦桌子收碗筷超勤快

      51歲港星廣東縣城賣10元云吞,凌晨5點起床,擦桌子收碗筷超勤快

      韓小娛
      2026-03-17 11:28:35
      中俄印三角崩盤,普京推“新三角”:中方攤牌,死穴不破免談

      中俄印三角崩盤,普京推“新三角”:中方攤牌,死穴不破免談

      觀星賞月
      2026-03-22 00:03:03
      突發!伊朗下重手了!

      突發!伊朗下重手了!

      財經要參
      2026-03-21 20:20:03
      山姆官方緊急回應,網友卻不買賬

      山姆官方緊急回應,網友卻不買賬

      中國零售信息
      2026-03-22 00:07:32
      minimax 大肆抄襲kimi!開發者本人吐槽后被光速踢出群聊,怒發律師函誓要剛到底

      minimax 大肆抄襲kimi!開發者本人吐槽后被光速踢出群聊,怒發律師函誓要剛到底

      回旋鏢
      2026-03-21 07:27:27
      蘋果官網標錯價格!大量用戶搶空 2TB 產品

      蘋果官網標錯價格!大量用戶搶空 2TB 產品

      XCiOS俱樂部
      2026-03-20 09:38:29
      醫生告誡:腦梗早期不是手腳麻,而是頻繁出現5癥狀,千萬別忽視

      醫生告誡:腦梗早期不是手腳麻,而是頻繁出現5癥狀,千萬別忽視

      醫學科普匯
      2026-03-19 21:15:03
      回大陸后我才敢講:真正的臺灣省,和網上說的根本不是一回事

      回大陸后我才敢講:真正的臺灣省,和網上說的根本不是一回事

      番外行
      2026-03-21 13:43:52
      2026年2月女神榜:新人輩出,老將穩坐!

      2026年2月女神榜:新人輩出,老將穩坐!

      碧波萬覽
      2026-03-22 01:14:35
      2次落后2次追平!泰國火箭力阻世界第1進決賽,特奧會或泡湯?

      2次落后2次追平!泰國火箭力阻世界第1進決賽,特奧會或泡湯?

      劉姚堯的文字城堡
      2026-03-21 21:11:08
      張康陽現狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

      張康陽現狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

      青杉依舊啊啊
      2026-03-19 22:10:26
      2026-03-22 01:52:49
      FounderPark incentive-icons
      FounderPark
      關注AI創業,專注和創業者聊真問題
      1179文章數 159關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      親子
      教育
      健康
      旅游
      公開課

      親子要聞

      教育部發布通知,幼兒園將迎來大變動,家長:幸福來得太突然!

      教育要聞

      高考地理中的湖岸沉積

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版