<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港中文薛天帆團隊:實現 4K 全景視頻生成,普通視頻也能「長出空間」丨CVPR 2026

      0
      分享至


      CubeComposer:一種基于時空自回歸的360°視頻生成框架,兼顧清晰度、連貫性與沉浸感。

      作者丨鄭佳美

      編輯丨岑 峰

      很多人都經歷過這樣一種落差。現實里的空間是立體的,是包圍人的,是可以轉身、抬頭、回望的,可一旦被手機或相機拍成視頻,世界立刻被壓縮成一個窄窄的取景框。

      暴雨來臨前的天空并不只在鏡頭正前方,深夜街區的壓迫感也不只來自路面,商場中庭、地下車站、展館大廳、建筑內部,這些真正讓人產生現場感的東西,往往恰恰存在于鏡頭之外。我們記錄下了事件,卻沒有真正留住空間,保存了畫面,卻沒有保存身處其中的感覺。

      這也是今天沉浸式內容產業最真實的困境之一。大家已經越來越明確地意識到,未來的視頻不只是給人看,更是給人進入、環視和停留的。VR、數字展陳、虛擬空間、文旅體驗、游戲場景、線上看房、遠程教育,這些領域真正需要的都不是普通平面視頻,而是能夠承載空間感、方向感和臨場感的全景內容。

      問題在于,需求已經跑在前面,生產方式卻還停在后面。要拍攝高質量 360° 視頻,往往仍要依賴專門設備、多機位系統、復雜拼接流程和高昂成本,真正能穩定產出的人和機構始終有限。也就是說,沉浸式內容的想象已經很豐富,但它的供給能力并沒有跟上。

      這也是沉浸式內容行業一直沒有被真正做大的關鍵原因。市場越來越需要 360° 視頻,VR、虛擬空間、數字展陳、互動體驗都在等更豐富的內容供給,可現實生產仍然依賴昂貴設備、復雜流程和高成本制作。大家都知道普通視頻是最豐富、最便宜、最容易獲取的素材,但怎樣把它真正擴展成高質量全景視頻,始終是行業里最難啃的問題之一。

      正是在這樣的背景下,香港中文大學的薛天帆團隊提出了CubeComposer,并在論文《CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video》中,試圖回答一個真正有行業分量的問題,也就是普通視角視頻能否被直接擴展成原生 4K 的 360° 視頻,而且這種擴展不是表面上的放大,不是看起來清楚一點,而是能夠在空間連續性、時間穩定性和整體真實感上都站得住。

      這件事可以想得更具體一點。以后一個商場空間的宣傳視頻,也許不必再靠專門全景設備拍攝;一段城市夜景素材,也不只是單一方向的記錄,而可能被擴展成可以環視的沉浸式場景;很多原本只能平面觀看的內容,未來都有機會變成能讓人重新進入其中的空間體驗。

      CubeComposer 的價值,也正是在這里。它不是單純把模型性能往上推了一點,而是在普通視頻如何變成沉浸式內容這件事上,給出了一條更接近現實應用的路。


      論文鏈接:https://arxiv.org/pdf/2603.04291

      01


      真正拉開差距的,不只是分辨率

      研究團隊在兩個數據集上對方法進行了測試,分別是自建的 4K360Vid 和公開數據集 ODV360。評價指標包括 LPIPS,數值越低表示結果越接近真實;CLIP,數值越高表示語義一致性越強;FID 和 FVD,用于衡量生成質量;以及 VBench 中的美觀度、清晰度和一致性。

      在 4K360Vid 上,與最強基線 Argus 相比,CubeComposer 的 LPIPS 從 0.4074 降到 0.3696,CLIP 從 0.8858 提高到 0.9234,FID 從 141 降到 119,FVD 從 4.07 降到 3.90,說明生成結果在感知質量、語義一致性以及視頻穩定性上都有明顯提升。

      進一步看最關鍵的 4K 版本,FVD 繼續降到 2.22,清晰度指標 I.Q. 提升到 0.56 以上,美觀度指標 A.Q. 提升到 0.40 以上,這說明分辨率更高的同時,質量不但沒有下降,反而進一步提升。

      在 ODV360 上也呈現出同樣趨勢。LPIPS 大約從 0.43 降到 0.42,CLIP 從大約 0.88 提升到 0.90 以上,FID 從大約 140 降到 123,FVD 更是從 Argus 的 12 以上降到 CubeComposer 的 3.5。這里尤其值得注意的是,FVD 從 12 降到 3.5,反映出視頻時序穩定性和整體連貫性出現了非常顯著的提升。


      研究人員還比較了這種方法與超分辨率方案之間的差別。以往常見做法是先生成 1K 視頻,再用 VEnhancer 放大到 2K,但這種方式并沒有真正帶來更高質量的結果。例如 FID 會從 141 上升到 168,指標反而變差,視覺效果也更不自然。這說明后處理放大并不等于真正的高分辨率生成,CubeComposer體現的是原生高質量,而不是放大之后形成的表面清晰。

      除了定量結果,研究還給出了定性對比。傳統方法普遍存在遠處細節模糊的問題,例如樹木和建筑不夠清晰,運動過程中容易出現畫面抖動,拼接區域會出現斷裂,經過超分辨率處理之后還會產生明顯的“涂抹感”。

      相比之下,CubeComposer 生成的結果在遠景區域依然保持較高銳度,畫面運動更加連續,沒有明顯的拼接縫,整體觀感也更接近真實的 360° 視頻。這說明這種提升不僅體現在指標上,也能在視覺上直接感受到更強的真實性。


      研究團隊還通過消融實驗驗證了核心機制的作用。對于上下文機制,研究人員比較了三種設置,分別是完整方法 Ours、去掉未來信息的 w/o future tokens,以及使用全量上下文的 Full tokens。

      結果表明,一旦去掉未來信息,FVD 會從 4.25 上升到 6.03,性能明顯變差;而 Full tokens 的性能雖然與完整方法接近,但計算開銷更高。這說明未來信息對視頻生成非常關鍵,不過并不需要把所有未來信息全部輸入,只需要保留關鍵片段,就可以在性能和效率之間取得更好的平衡。


      在連續性設計,也就是防止拼接痕跡的實驗中,研究人員同樣比較了三種版本,分別是去掉位置編碼、去掉 padding 和 blending,以及完整模型。結果顯示,只要去掉其中任意一個組件,FID 就會從 157 上升到 190 以上,同時 LPIPS 也會變差,生成結果顯得更不真實。

      從可視化現象來看,最直接的問題就是邊界位置出現明顯裂縫。由此可以看出,連續性設計是 360° 視頻生成中非常關鍵的一部分,對于保證不同區域之間的自然銜接具有決定性作用。


      02


      一套不止于模型的完整打法

      在數據集構建方面,研究團隊首先建立了 4K360Vid 數據集。這一數據集包含 11,832 段視頻,分辨率均達到 4K 及以上,來源是在 Argus 數據集基礎上進一步擴展得到。

      為提升數據可用性,研究人員使用 Qwen-VL 自動生成視頻描述,并對低質量視頻進行了過濾,因此這個數據集具有高質量、有語義標注、適合生成模型訓練等特點。除 4K360Vid 之外,研究中還使用了 ODV360 數據集,這是一套標準的 360° 視頻數據集,主要用于訓練和測試。

      在訓練設置方面,研究團隊首先從 360° 視頻中構造輸入數據。每個訓練樣本都經歷了幾個步驟:先從原始 360° 視頻中隨機生成相機軌跡,再據此生成普通視角視頻,用來模擬手機或常規相機拍攝的效果,之后再把這種普通視角視頻轉換成帶缺失區域的 360° 視頻。

      于是,模型面對的任務就變成了對缺失區域進行補全,同時還要保證時間上的一致性和空間上的一致性。為了更貼近真實拍攝場景,研究中將相機視角范圍設置為 60° 到 120°,軌跡由 3 到 5 個關鍵點構成。


      在訓練方法上,研究人員以 Wan 2.2 5B 視頻模型作為基礎模型。在具體訓練過程中,系統會隨機選擇一個時間窗口以及 cubemap 中的某一個面,然后圍繞這一目標構建上下文信息,上下文由歷史信息、當前信息和未來信息共同組成,在這種條件下訓練模型去預測視頻內容。

      在推理,也就是生成階段,研究團隊采用分步生成策略。首先把整段視頻劃分成多個時間窗口,然后在每個時間窗口內,按照 F、R、B、L、U、D 六個面的順序逐步生成內容。

      每一次生成時,系統都會利用上下文信息,尤其是歷史信息和未來信息,最后再把六個面重新拼接起來,形成完整的 360° 視頻。從本質上看,這個過程就是把整個球形視頻一點一點補全出來。


      在對比實驗設計上,研究團隊選擇了 Argus、Imagine360 和 ViewPoint 作為主要比較對象。為了保證對比公平,所有方法都使用相同的輸入視頻,并盡量控制在相同視角范圍,也就是 90°×45° 的設置下進行比較。由于 ViewPoint 只能處理 90°×90° 的輸入,因此研究人員針對這一方法單獨采用了相應設置。

      在評測方式上,研究使用了三類指標。第一類是參考指標,包括 LPIPS 和 CLIP;第二類是分布指標,包括圖像層面的 FID 和視頻層面的 FVD;第三類是主觀質量指標,也就是 VBench,其中包括美觀度 A.Q.、清晰度 I.Q. 和一致性 O.C.。研究人員還特別說明,為了避免比較不公平,每個模型都按照自身支持的分辨率進行評測。


      03


      從少數人能做,到更多人能用

      回到實驗意義層面,這項研究并不只是把分辨率從 1K 提高到 4K,更重要的是研究團隊真正突破了 360° 視頻生成長期卡住的技術上限。

      過去的擴散模型往往要一次性生成整段 360° 視頻,計算量非常大,顯存和算力壓力也極高,所以結果通常只能停留在較低分辨率,畫面細節不足,離真正可用還有明顯距離。

      研究人員把原本整體生成的任務拆開,在空間上分成 6 個面,在時間上分成多個窗口,再按照順序逐步完成生成,這樣一來,原本難以承受的計算壓力就被分散了,高分辨率生成也從理論上的困難問題變成了實際可落地的方案。也就是說,這項研究的價值不只是生成得更清楚,而是證明了高質量 360° 視頻生成這件事終于可以做成。

      從研究方法來看,這項工作也提出了一種很有代表性的思路。以往很多生成模型追求一次性把完整內容做出來,而研究團隊轉向了時空自回歸方式,把視頻生成理解為一個逐步推進、不斷補全的過程。

      這種變化非常重要,因為它說明復雜的視頻生成任務未必一定要整體完成,也可以像寫文章、拼地圖一樣,一部分一部分地構建起來。這樣的思路對未來的視頻生成、3D 生成,甚至世界模型研究都有啟發意義,因為很多更復雜的生成任務,本質上都可能受益于這種分步驟、分區域、分時段的處理方式。

      對于 360° 視頻本身,這項研究還真正碰到了最難的幾個核心問題,并且給出了比較完整的解決路徑。普通視頻只能拍到局部視野,所以生成 360° 內容時最先遇到的問題就是看不見的區域怎么補。

      不同方向上的內容又必須彼此連貫,否則用戶一轉頭就會感覺場景是假的。再往下,多個區域拼接在一起時還很容易在邊界位置出現裂縫、錯位和跳變。研究團隊分別用上下文機制、未來信息、生成順序設計和連續性設計去處理這些問題,說明這項工作不是只在單一指標上提升,而是在朝著真正可觀看、可使用、可沉浸的 360° 視頻邁進。

      更值得強調的是,這項研究對普通人的影響其實很直接。過去如果想做 360° 視頻,通常需要專門的 360° 相機或者復雜的多機位設備,成本高,操作門檻也高,真正能用的人并不多。現在按照這項研究展示出來的方向,未來普通人拿著手機、運動相機,或者一臺普通攝像設備拍下來的視角視頻,就有可能被自動擴展成 360° 內容。

      這意味著很多原本只有專業團隊才能完成的事情,以后普通用戶也可能做到。比如旅行時拍的一段風景視頻,未來不只是平面的記錄,而可能被做成可以自由轉動視角的沉浸式回憶;家里的日常生活、聚會、演出、婚禮,也有機會被保存成更有現場感的內容;老師、博物館、景區、創作者和小型工作室,也不一定非要購買昂貴設備,照樣有可能制作出更有沉浸感的展示材料。

      從應用層面看,這項研究會影響的不只是實驗室里的模型性能,還會影響普通人接觸內容的方式。對于 VR 內容制作來說,它降低了制作門檻,讓更多內容來源不再依賴專業拍攝設備。對于游戲和虛擬場景生成來說,它意味著環境構建可能更快、更便宜。對于數字孿生和虛擬旅游來說,它意味著現實世界中的一個普通視頻片段,未來就有機會被擴展成更完整、更可交互的空間體驗。

      換句話說,這項研究推動的不是單純的算法升級,而是讓沉浸式內容從少數專業機構手里,逐漸走向更多普通人可用、可看、可創作的方向。

      從更深一層看,研究真正重要的地方在于三個關鍵設計被結合到了一起,也就是時空自回歸、包含未來信息的上下文機制,以及用來降低計算復雜度的稀疏注意力。單獨看其中任何一個設計,都很難徹底解決問題,但三者合在一起,才讓 4K 360° 視頻生成第一次真正具備了現實可行性。

      所以,這項研究的意義不僅在于做出了一個效果更好的模型,更在于它給未來高分辨率沉浸式視頻生成提供了一條清晰可行的技術路線。

      04


      CubeComposer 背后的人

      這篇文章的通訊錄作者為薛天帆,目前任職于香港中文大學信息工程系助理教授。他的研究主要集中在計算攝影、計算機視覺、機器學習以及計算機圖形學等方向,長期關注如何讓機器更好地理解和重建視覺世界。

      在學術經歷上,薛天帆本科畢業于清華大學,隨后在香港中文大學獲得碩士學位,并在麻省理工學院計算機科學與人工智能實驗室完成博士研究,師從計算機視覺領域知名學者 William T. Freeman。

      在進入高校任教之前,他曾在 Google Research 工作多年,從事圖像與視頻處理相關研究,并參與多項實際落地的影像算法開發,例如移動設備夜景成像、圖像增強和編輯系統等,這些技術已經被應用在真實產品中。

      在科研成果方面,他在計算機視覺與圖形學頂級會議和期刊上發表了大量論文,研究方向覆蓋視頻生成、3D 重建、圖像增強等多個領域,累計被引用超過一萬次。同時,其團隊近年來在多個國際頂級會議中獲得重要認可,例如 SIGGRAPH、CVPR、NeurIPS 等會議的論文獎項和展示榮譽,體現出持續的研究影響力。


      參考鏈接:https://tianfan.info/


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      以色列回應為何猛烈襲擊黎巴嫩真主黨

      以色列回應為何猛烈襲擊黎巴嫩真主黨

      近距離
      2026-04-09 11:58:14
      為什么網球是地球上最性感的運動?貝雷蒂尼:因為有很多呻吟聲

      為什么網球是地球上最性感的運動?貝雷蒂尼:因為有很多呻吟聲

      網球之家
      2026-04-09 22:56:07
      全紅嬋報警:澳門運動員退群,被扣大帽子,多位隊友被牽連,太慘

      全紅嬋報警:澳門運動員退群,被扣大帽子,多位隊友被牽連,太慘

      眼光很亮
      2026-04-08 14:06:24
      恩比德確診急性闌尾炎!在休城接受緊急手術 相似病例平均歇23天

      恩比德確診急性闌尾炎!在休城接受緊急手術 相似病例平均歇23天

      羅說NBA
      2026-04-10 05:46:36
      你的親戚能壞到啥地步?網友:只要你有道理,千萬別怕,發瘋到底

      你的親戚能壞到啥地步?網友:只要你有道理,千萬別怕,發瘋到底

      帶你感受人間冷暖
      2026-04-08 00:40:03
      600萬鎊1球!桑喬讓曼聯血虧1.38億鎊,堪稱英超史上最爛簽約!

      600萬鎊1球!桑喬讓曼聯血虧1.38億鎊,堪稱英超史上最爛簽約!

      田先生籃球
      2026-04-09 06:34:41
      終于出手!委內瑞拉代總統正式宣布:5月1日起全國迎來上調

      終于出手!委內瑞拉代總統正式宣布:5月1日起全國迎來上調

      斜煙風起雨未
      2026-04-10 04:37:05
      巴基斯坦怒了:巴基斯坦不是卡塔爾,動我們的人,打到你服!

      巴基斯坦怒了:巴基斯坦不是卡塔爾,動我們的人,打到你服!

      人生錄
      2026-04-08 00:37:17
      全紅嬋遭霸凌升級,4年沒人阻止,2位省隊友被揪,難怪她想離隊

      全紅嬋遭霸凌升級,4年沒人阻止,2位省隊友被揪,難怪她想離隊

      奇思妙想草葉君
      2026-04-09 13:47:19
      油價漲幅收窄、美股指數集體轉漲 特朗普要求內塔尼亞胡減少對黎巴嫩的打擊

      油價漲幅收窄、美股指數集體轉漲 特朗普要求內塔尼亞胡減少對黎巴嫩的打擊

      財聯社
      2026-04-09 23:37:04
      塌房?周杰倫多首歌曲被曝涉嫌抄襲,網友:敢不敢扒譜實錘?

      塌房?周杰倫多首歌曲被曝涉嫌抄襲,網友:敢不敢扒譜實錘?

      老張聊設計
      2026-04-09 09:12:20
      知名服裝公司資不抵債,老板套現212億迎娶女星住豪宅

      知名服裝公司資不抵債,老板套現212億迎娶女星住豪宅

      何氽簡史
      2026-04-08 19:44:09
      甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

      甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

      鄉野小珥
      2026-04-08 00:48:57
      油價新選擇!每升便宜3元,12個省份先行試點,車主有福了

      油價新選擇!每升便宜3元,12個省份先行試點,車主有福了

      小李子體育
      2026-04-10 02:29:58
      陳麗華追悼會這天,江湖地位、人情冷暖,在她身上展現的淋漓盡致

      陳麗華追悼會這天,江湖地位、人情冷暖,在她身上展現的淋漓盡致

      阿纂看事
      2026-04-09 17:06:27
      剛從蒙古國回來,說點不中聽的:蒙古國真實面目,可能讓你很意外

      剛從蒙古國回來,說點不中聽的:蒙古國真實面目,可能讓你很意外

      復轉這些年
      2026-04-06 22:24:11
      廣東3消息!贊助商力撐杜鋒,跟隊記者披露新大外,焦泊喬新進展

      廣東3消息!贊助商力撐杜鋒,跟隊記者披露新大外,焦泊喬新進展

      多特體育說
      2026-04-09 23:18:22
      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      特約前排觀眾
      2026-02-09 00:05:05
      張雪峰團隊復播,全網淚目!

      張雪峰團隊復播,全網淚目!

      銷售與管理
      2026-04-09 19:45:03
      男演員最新聲明:已退出美國國籍,正式成為中國公民

      男演員最新聲明:已退出美國國籍,正式成為中國公民

      美芽
      2026-04-08 18:02:54
      2026-04-10 08:15:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7178文章數 20743關注度
      往期回顧 全部

      藝術要聞

      這位清末大家,筆下盡是江南風骨!

      頭條要聞

      伊朗最高領袖發表最新聲明 提出三點主張

      頭條要聞

      伊朗最高領袖發表最新聲明 提出三點主張

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      停火又懸了,最糟糕的情況要來了?

      科技要聞

      Meta凌晨首發閉源大模型 扎克伯格又行了?

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      家居
      親子
      教育
      數碼
      軍事航空

      家居要聞

      清新自然 復古風尚

      親子要聞

      別把孩子喉炎當感冒,這3個信號別忽視!

      教育要聞

      中考體育將與語數外同分,國家正式定調,家長必看!

      數碼要聞

      華為多款新品在路上:Pura 90、闊折疊、AI眼鏡、平板耳機全都有

      軍事要聞

      黎真主黨發射火箭彈 回應以違反停火協議

      無障礙瀏覽 進入關懷版