網易首頁 > 網易號 > 正文申請入駐

PMDformer：一個簡單減法實現長時序預測注意力機制糾偏

2026-04-07 13:31:21　來源: 機器之心Pro

河北舉報

分享至

西南財經大學在讀碩士、上智院實習生胡澳，是本文第一作者，其主要研究方向為多變量長時序預測；西南財經大學教授、成都恒圖科技創始人段江，為共同第一作者。西南財經大學副教授溫良劍，上智院 AI 科學家、復旦大學教授徐增林，為本文通訊作者。

長期時間序列預測（Long-term Time Series Forecasting, LTSF）是能源管理、金融市場和交通預測等領域的核心任務。現有基于 Patch 的 Transformer 模型面臨一個根本性挑戰：非平穩時序數據中，Patch 之間的尺度差異會嚴重干擾注意力機制對形狀相似性的捕捉，導致模型學習到錯誤的相關關系，預測精度受限。

為此，西南財經大學、上海科學智能研究院（下稱上智院）、復旦大學、成都恒圖科技等機構最新聯合提出 PMDformer—— 一種基于 Patch 均值解耦（PMD）的創新時序預測框架。通過三大核心模塊的協同設計，它在多項權威基準上全面超越現有最優方法。

論文地址：https://openreview.net/forum?id=rfJ41gK9Ct
代碼地址：https://github.com/aohu1105/PMDformer

目前，該成果已被 ICLR 2026 接收。

現有方法的痛點：尺度差異如何「扭曲」形狀建模？

長期時序預測中，研究者常用 Patch 分割策略來捕捉長序列中的局部語義，但時序數據的非平穩性帶來顯著挑戰 —— 同一序列在不同時段的數值尺度差異懸殊。這一特性帶來了兩個關鍵問題：

尺度偏差遮蔽形狀相似性：注意力權重受 Patch 均值影響，導致形狀相似但尺度不同的 Patch 被錯誤地判為不相關，而形狀迥異的 Patch 反而獲得高注意力權重。模型捕捉到的并非真正的模式，而是由尺度「幻覺」造成的誤導。如論文圖 1 所示，P1 與 P2 形狀高度相似，但在解耦前，P1 與 P3 的注意力權重反而更高。
跨變量依賴建模失準：變量間的相關性隨時間演變，歷史早期的相關關系對預測近期走勢的參考價值有限，但現有模型通常在全局歷史窗口上計算變量交互，引入大量噪聲，容易過擬合。

圖 1：PMD 解耦前后的注意力權重對比。上：原始序列中，尺度差異導致注意力偏向 P3；下：均值解耦后，注意力正確反映形狀相似性

PMDformer：三位一體的解決方案

PMDformer 由三個協同工作的核心模塊組成，分別解決上述不同層面的問題，形成完整的技術閉環。

圖 2：PMDformer 整體架構圖

一、Patch 均值解耦（PMD）：還原形狀本質

PMD 的核心操作簡潔而高效：對每個 Patch 減去其時間均值，將原始 Patch 分解為長期趨勢（均值）和殘差形狀兩部分。與現有 Normalization 方法不同，PMD 僅做均值減法，完整保留了 Patch 內部的振幅變化和形狀結構。

二、近鄰變量注意力（PVA）：聚焦最相關的跨變量依賴

PVA 模塊基于一個直覺洞察：預測目標序列時，變量間在最近時間段的交互關系最具參考價值。因此，PVA 將跨變量的自注意力計算嚴格限制在最近一個 Patch（第 N 個 Patch）的時序詞元（Tokens）上，而非全局歷史序列。

這一設計帶來雙重優勢：

一是捕捉最相關的近期跨變量形狀相似性，避免早期弱相關或虛假相關對預測的干擾；
二是將計算復雜度從 O (C2N) 降低至 O (C2)，顯著提升計算效率。

三、趨勢恢復注意力（TRA）：兼顧形狀與趨勢

PMD 在提升形狀相似性建模的同時，客觀上削弱了長期趨勢信號。TRA 模塊專門針對此問題設計：在注意力計算中，Query/Key 通道僅使用形狀嵌入（確保注意力分數反映形狀相似性），而 Value 通道則通過加法注入 PMD 分離出的 Patch 均值（趨勢信息）。

這種分離式設計使模型能夠同時編碼局部形狀模式和全局趨勢動態，輸出更穩定的預測結果。

實驗結果：在 8 個權威基準上全面領先

研究團隊在 8 個廣泛使用的真實世界數據集上進行了系統評估，涵蓋電力、天氣、能源、交通等多個應用領域。與 8 個最新基線方法的比較表明，PMDformer 在 7/8 個數據集上取得最低 MSE 和 MAE，展現出穩定且全面的性能優勢。

表 1：長時間序列預測任務結果對比。包含 8 個數據集、4 個預測長度（96/192/336/720 步）、MSE 與 MAE 雙指標的完整對比數據

計算效率：以更少資源實現更高性能

PMDformer 在計算效率方面同樣表現突出。在變量數量從 100 增至 3000、以及序列長度從 144 增至 5400 的兩組擴展實驗中，PMDformer 相比 PatchTST、iTransformer、ModernTCN 均需要更少的 GPU 顯存。這一優勢源于 PVA 模塊將跨變量注意力復雜度從 O (C2N) 壓縮至 O (C2)，在高維多變量場景下尤為顯著。

圖 3：計算效率對比：不同變量數量（左）與不同序列長度（右）下，各模型 GPU 顯存占用對比

總結與展望

PMDformer 的成功揭示了時序預測領域一個長期被忽視但至關重要的問題：Patch 的均值（趨勢）與殘差（形狀）耦合在一起，會系統性地損害注意力機制對形狀相似性的建模能力。

通過一個簡潔的均值減法操作，配合精心設計的趨勢恢復機制和近鄰變量注意力，PMDformer 在不增加模型復雜度的前提下，全面提升了預測精度與計算效率。

接下來，研究團隊計劃將 PMDformer 擴展至更高維度的多變量時序數據建模，并探索與多模態數據（如文本、圖像）的融合應用，為能源、金融、交通等領域的智能預測持續提供新動力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.