文章來源:我愛計算機視覺(ID:aicvml)
今天,我們來聊一篇遙感領域的新工作,它來自香港大學、北京理工大學和特拉華大學的研究團隊。他們共同提出了一個名為 UniTS 的模型,這個名字是 Unified Time Series 的縮寫,意為“統一的時間序列模型”。顧名思義,它的核心亮點就是“統一”。
在遙感領域,我們經常需要處理各種時間序列數據,比如分析地表植被的季節性變化、重建被云層遮擋的區域、或是預測未來的土地覆蓋情況。通常,這些任務——例如時間序列重建、去云、語義變化檢測和預測——都需要設計和訓練各自專用的模型,這不僅耗時耗力,而且模型之間無法共享知識。
而 UniTS 的出現,正是為了打破這種“一任務一模型”的傳統范式。它提供了一個通用的生成式框架,第一次實現用一個模型統一處理上述四大核心時間序列任務,并且在各項任務上都取得了當前最佳(SOTA)的性能。這無疑為遙感智能解譯領域帶來了新的想象空間。
![]()
論文標題 : UniTS: Unified Time Series Generative Model for Remote Sensing
所屬機構 : 香港大學、北京理工大學、美國特拉華大學
論文地址 : https://arxiv.org/abs/2512.04461
項目主頁 : https://yuxiangzhang-bit.github.io/UniTS-website/
UniTS 的成功并非偶然,它建立在一個高效的生成范式——流匹配(Flow Matching)之上,并巧妙地設計了幾個關鍵模塊來增強其時空特征的建模能力。
流匹配:更穩定高效的生成范式
你可能對擴散模型(Diffusion Models)比較熟悉,它們通過從噪聲中逐步去噪來生成數據。而流匹配(Flow Matching)則是一種更新、更直接的思路。
簡單來說,它不再依賴隨機的去噪過程,而是旨在學習一個確定的、從純噪聲分布到真實數據分布的“路徑”或“流”。這個路徑由一個常微分方程(ODE)定義。在訓練時,模型學習預測這個路徑上的速度場;在推理時,只需通過數值求解器(如 ODE solver)沿著學到的路徑“流動”,就能高效地從一個隨機噪聲樣本直接生成高質量的目標數據。
![]()
相比于傳統擴散模型需要數百上千步的采樣,基于流匹配的 UniTS 僅需 10 個采樣步驟 就能生成高質量的結果,極大地提升了推理效率。
UniTS 的核心架構
UniTS 的主體架構基于一個帶有時空塊(spatio-temporal blocks)的 Transformer 模型(類似于 DiT)。為了讓這個統一的模型能夠靈活適應不同任務的需求,并精確地捕捉遙感數據復雜的時空依賴關系,研究者設計了兩個核心創新模塊:
![]()
自適應條件注入器 (Adaptive Condition Injector, ACor)在遙感任務中,我們常常需要利用多模態數據作為輔助信息,比如用不受云層影響的SAR(合成孔徑雷達)影像來幫助恢復被遮擋的光學影像。ACor 的作用就是高效地將這些條件信息(如 SAR 影像、歷史影像序列等)融入到生成過程中。它通過動態生成仿射變換參數(縮放和平移),對主干網絡中的特征圖進行調制。這種方式比傳統的拼接或交叉注意力機制更靈活、更精細,能讓模型更好地感知和利用條件信息,實現高質量的可控生成。
時空感知調制器 (Spatiotemporal-aware Modulator, STM)遙感時間序列數據不僅在空間上具有結構性,在時間上也存在動態演化規律。STM 模塊就是為了增強模型對這種復雜時空依賴的捕捉能力。它巧妙地利用輔助數據(如 Sentinel-1 影像)作為先驗知識,生成一個動態的“注意力偏置”(attention bias)。這個偏置項會直接作用于 Transformer 的自注意力計算中,引導模型在注意力的分配上,不僅考慮特征的相似性,還兼顧時空上的結構先驗。這使得 UniTS 能夠更準確地理解地物的幾何關系和時間演化模式。
通過這套組合拳,UniTS 能夠根據不同任務的輸入(比如去云任務輸入帶云影像和SAR影像,預測任務輸入歷史影像序列),在統一的框架下,生成相應的目標輸出(無云影像或未來影像序列)。
新的基準數據集:TS-S12 與 TS-S12CR
高質量的數據集是推動算法發展的基石。研究團隊發現,現有的遙感時間序列數據集在多模態數據對齊、樣本質量和任務覆蓋范圍上存在不足,尤其缺少專為時間序列去云任務設計的大規模高質量基準。
為此,他們構建了兩個全新的數據集:TS-S12 和 TS-S12CR。
![]()
TS-S12 : 包含全球 14,973 個區域的 Sentinel-1 和無云 Sentinel-2 影像對,用于時間序列重建和預測任務。
TS-S12CR : 包含全球 12,126 個區域的 Sentinel-1、有云 Sentinel-2 和無云 Sentinel-2 影像三元組,專為時間序列去云任務設計。值得注意的是,該數據集的平均云量高達 84.02% ,為模型提供了極具挑戰性的真實場景。
這兩個數據集的發布,填補了現有基準的空白,無疑將推動相關領域的研究。
全面領先的實驗結果
UniTS 在四大任務上與現有的一系列專用模型和遙感大模型進行了廣泛比較,結果堪稱“全面開花”。
時間序列重建與去云
在時間序列重建任務中,即便是與最強的基線模型 SeedVR 在同等的多模態輸入下比較,UniTS 仍能將 PSNR 指標提升 1.09 dB。
以下是時間序列重建在 TS-S12 數據集上的定量比較結果:
![]()
定性結果:
![]()
而在更具挑戰的真實去云任務(TS-S12CR 數據集)上,UniTS 的優勢更加明顯。相較于次優方法,它的 PSNR 指標高出 1.88 dB 以上,能夠更好地恢復被大面積厚云覆蓋區域的地表細節,生成的影像在紋理和光譜上都更為逼真。
以下是時間序列去云在 TS-S12CR 數據集上的定量比較結果:
![]()
定性結果:
![]()
更有趣的是,實驗證明 UniTS 具有很強的魯棒性。即使在推理時缺少了 SAR 這一模態的輸入,其性能僅出現輕微下降,依然遠超那些僅使用單模態訓練的模型。這表明 UniTS 在多模態訓練中學會了靈活平衡不同信息源,而不是過度依賴某一特定模態。
以下是不同缺失率下的重建結果。
![]()
以下是UniTS在模態缺失情況下的魯棒性表現。
![]()
![]()
時間序列語義變化檢測
在這個高層語義任務上,UniTS 同樣表現出色。它通過生成連續時間點的語義分割圖,來分析地物類型的變化。在 DynamicEarthNet 和 MUDS 這兩個主流數據集上,UniTS 的多項關鍵指標(如 mIoU、SCS)均超越了現有的專用變化檢測模型和一些知名的遙感基礎模型。
以下是時間序列語義變化檢測在 DynamicEarthNet 數據集上的定量比較結果。
![]()
以下是時間序列語義變化檢測在 MUDS 數據集上的定量比較結果。
![]()
![]()
![]()
這證明 UniTS 不僅擅長像素級的恢復(低階視覺任務),在理解和推理高層語義信息方面也同樣強大。
時間序列預測
在預測未來遙感影像序列的任務上,UniTS 采用自回歸的方式,將歷史序列和噪聲一同輸入,逐步生成未來的影像幀。實驗結果顯示,UniTS 生成的未來影像不僅空間上清晰、細節豐富,而且能更準確地捕捉到氣候和物候的動態演變規律。在 TS-S12 數據集上,其 PSNR 比次優的 SyncVP 模型高出 1.52 dB。
以下是時間序列預測在 TS-S12 數據集上的定量比較結果。
![]()
以下是時間序列預測在 GreenEarthNet 數據集上的定量比較結果。
![]()
![]()
一點思考
UniTS 的提出,不僅僅是各項指標的刷新,更重要的是它為遙感領域乃至更廣泛的時空數據分析領域,提供了一種“化繁為簡”的全新思路。通過一個統一的、強大的生成模型來解決多個相關任務,可以極大地降低研發和維護成本,促進不同任務知識的共享和遷移。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.