![]()
西南財經大學在讀碩士、上智院實習生胡澳,是本文第一作者,其主要研究方向為多變量長時序預測;西南財經大學教授、成都恒圖科技創始人段江,為共同第一作者。西南財經大學副教授溫良劍,上智院 AI 科學家、復旦大學教授徐增林,為本文通訊作者。
長期時間序列預測(Long-term Time Series Forecasting, LTSF)是能源管理、金融市場和交通預測等領域的核心任務。現有基于 Patch 的 Transformer 模型面臨一個根本性挑戰:非平穩時序數據中,Patch 之間的尺度差異會嚴重干擾注意力機制對形狀相似性的捕捉,導致模型學習到錯誤的相關關系,預測精度受限。
為此,西南財經大學、上海科學智能研究院(下稱上智院)、復旦大學、成都恒圖科技等機構最新聯合提出 PMDformer—— 一種基于 Patch 均值解耦(PMD)的創新時序預測框架。通過三大核心模塊的協同設計,它在多項權威基準上全面超越現有最優方法。
![]()
- 論文地址:https://openreview.net/forum?id=rfJ41gK9Ct
- 代碼地址:https://github.com/aohu1105/PMDformer
目前,該成果已被 ICLR 2026 接收。
現有方法的痛點:尺度差異如何「扭曲」形狀建模?
長期時序預測中,研究者常用 Patch 分割策略來捕捉長序列中的局部語義,但時序數據的非平穩性帶來顯著挑戰 —— 同一序列在不同時段的數值尺度差異懸殊。這一特性帶來了兩個關鍵問題:
- 尺度偏差遮蔽形狀相似性:注意力權重受 Patch 均值影響,導致形狀相似但尺度不同的 Patch 被錯誤地判為不相關,而形狀迥異的 Patch 反而獲得高注意力權重。模型捕捉到的并非真正的模式,而是由尺度「幻覺」造成的誤導。如論文圖 1 所示,P1 與 P2 形狀高度相似,但在解耦前,P1 與 P3 的注意力權重反而更高。
- 跨變量依賴建模失準:變量間的相關性隨時間演變,歷史早期的相關關系對預測近期走勢的參考價值有限,但現有模型通常在全局歷史窗口上計算變量交互,引入大量噪聲,容易過擬合。
![]()
圖 1:PMD 解耦前后的注意力權重對比。上:原始序列中,尺度差異導致注意力偏向 P3;下:均值解耦后,注意力正確反映形狀相似性
PMDformer:三位一體的解決方案
PMDformer 由三個協同工作的核心模塊組成,分別解決上述不同層面的問題,形成完整的技術閉環。
![]()
圖 2:PMDformer 整體架構圖
一、Patch 均值解耦(PMD):還原形狀本質
PMD 的核心操作簡潔而高效:對每個 Patch 減去其時間均值,將原始 Patch 分解為長期趨勢(均值)和殘差形狀兩部分。與現有 Normalization 方法不同,PMD 僅做均值減法,完整保留了 Patch 內部的振幅變化和形狀結構。
二、近鄰變量注意力(PVA):聚焦最相關的跨變量依賴
PVA 模塊基于一個直覺洞察:預測目標序列時,變量間在最近時間段的交互關系最具參考價值。因此,PVA 將跨變量的自注意力計算嚴格限制在最近一個 Patch(第 N 個 Patch)的時序詞元(Tokens)上,而非全局歷史序列。
這一設計帶來雙重優勢:
- 一是捕捉最相關的近期跨變量形狀相似性,避免早期弱相關或虛假相關對預測的干擾;
- 二是將計算復雜度從 O (C2N) 降低至 O (C2),顯著提升計算效率。
三、趨勢恢復注意力(TRA):兼顧形狀與趨勢
PMD 在提升形狀相似性建模的同時,客觀上削弱了長期趨勢信號。TRA 模塊專門針對此問題設計:在注意力計算中,Query/Key 通道僅使用形狀嵌入(確保注意力分數反映形狀相似性),而 Value 通道則通過加法注入 PMD 分離出的 Patch 均值(趨勢信息)。
這種分離式設計使模型能夠同時編碼局部形狀模式和全局趨勢動態,輸出更穩定的預測結果。
實驗結果:在 8 個權威基準上全面領先
研究團隊在 8 個廣泛使用的真實世界數據集上進行了系統評估,涵蓋電力、天氣、能源、交通等多個應用領域。與 8 個最新基線方法的比較表明,PMDformer 在 7/8 個數據集上取得最低 MSE 和 MAE,展現出穩定且全面的性能優勢。
![]()
表 1:長時間序列預測任務結果對比。包含 8 個數據集、4 個預測長度(96/192/336/720 步)、MSE 與 MAE 雙指標的完整對比數據
計算效率:以更少資源實現更高性能
PMDformer 在計算效率方面同樣表現突出。在變量數量從 100 增至 3000、以及序列長度從 144 增至 5400 的兩組擴展實驗中,PMDformer 相比 PatchTST、iTransformer、ModernTCN 均需要更少的 GPU 顯存。這一優勢源于 PVA 模塊將跨變量注意力復雜度從 O (C2N) 壓縮至 O (C2),在高維多變量場景下尤為顯著。
![]()
圖 3:計算效率對比:不同變量數量(左)與不同序列長度(右)下,各模型 GPU 顯存占用對比
總結與展望
PMDformer 的成功揭示了時序預測領域一個長期被忽視但至關重要的問題:Patch 的均值(趨勢)與殘差(形狀)耦合在一起,會系統性地損害注意力機制對形狀相似性的建模能力。
通過一個簡潔的均值減法操作,配合精心設計的趨勢恢復機制和近鄰變量注意力,PMDformer 在不增加模型復雜度的前提下,全面提升了預測精度與計算效率。
接下來,研究團隊計劃將 PMDformer 擴展至更高維度的多變量時序數據建模,并探索與多模態數據(如文本、圖像)的融合應用,為能源、金融、交通等領域的智能預測持續提供新動力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.