![]()
解決標(biāo)簽自相關(guān)和任務(wù)過(guò)載的雙重挑戰(zhàn)。
![]()
在時(shí)間序列預(yù)測(cè)領(lǐng)域,研究者們熱衷于設(shè)計(jì)復(fù)雜的網(wǎng)絡(luò)架構(gòu)——Transformer、線性模型輪番登場(chǎng)。 然而,當(dāng)大家把注意力都放在模型結(jié)構(gòu)創(chuàng)新時(shí),卻忽略了一個(gè)關(guān)鍵問(wèn)題:訓(xùn)練這些模型時(shí)使用的損失函數(shù),幾乎都選擇了時(shí)域均方誤差(TMSE),這正在悄悄拖累模型性能。
NeurIPS 2025的最新研究揭示了TMSE存在的兩大局限:其一,預(yù)測(cè)標(biāo)簽序列普遍存在自相關(guān)性,但TMSE默認(rèn)各預(yù)測(cè)步相互獨(dú)立,導(dǎo)致損失函數(shù)有偏;其二,隨著預(yù)測(cè)步數(shù)增加,任務(wù)數(shù)量線性增長(zhǎng),優(yōu)化難度上升。來(lái)自北京大學(xué)、小紅書(shū)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了Time-o1方法,通過(guò)巧妙的標(biāo)簽正交變換技術(shù),解決了這兩大難題,在多個(gè)主流模型上實(shí)現(xiàn)了顯著的性能提升。
論文題目: Time-o1: Time-series Forecasting Needs Transformed Label Alignment
發(fā)表會(huì)議: NeurIPS 2025
作者單位: 小紅書(shū)、浙江大學(xué)、北京大學(xué)、松鼠AI等
代碼鏈接: https://github.com/Master-PLC/Time-o1
01
問(wèn)題分析:被忽視的損失函數(shù)設(shè)計(jì)
在時(shí)間序列預(yù)測(cè)任務(wù)中,構(gòu)建高精度的預(yù)測(cè)模型需解決兩個(gè)核心問(wèn)題:(1)如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)以有效捕捉歷史信息;(2)如何制定合理的損失函數(shù)以高效指導(dǎo)模型訓(xùn)練。 近年來(lái),研究重點(diǎn)主要集中在模型結(jié)構(gòu)創(chuàng)新,例如提出了Transformer、線性模型等眾多架構(gòu),而損失函數(shù)的設(shè)計(jì)卻鮮有深入探討。
現(xiàn)有主流方法普遍采用直接預(yù)測(cè)范式(Direct Forecast,DF)。 在該范式下,模型以一段歷史觀測(cè)為輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)主體提取表征,再配合線性輸出頭,一次性并行預(yù)測(cè)未來(lái)T步的標(biāo)簽序列,即輸出一個(gè)長(zhǎng)度為T(mén)的預(yù)測(cè)向量。 與傳統(tǒng)的迭代預(yù)測(cè)(iterative forecast)相比,直接預(yù)測(cè)法因并行性和效率優(yōu)勢(shì)而得到廣泛應(yīng)用。
在損失函數(shù)層面,DF方法通常選用時(shí)域均方誤差(TMSE)作為主要優(yōu)化目標(biāo),定義如下:
然而,TMSE類損失函數(shù)在訓(xùn)練時(shí)序預(yù)測(cè)模型時(shí)存在兩個(gè)關(guān)鍵問(wèn)題,使其成為了性能提升的“天花板” 。
1.1 挑戰(zhàn)一:標(biāo)簽自相關(guān)性導(dǎo)致?lián)p失函數(shù)有偏
時(shí)間序列中,任一觀測(cè)值往往與其過(guò)去觀測(cè)值高度相關(guān),呈現(xiàn)顯著的自相關(guān)特點(diǎn)——這是時(shí)間序列數(shù)據(jù)的基本特性。然而,TMSE在計(jì)算損失時(shí)默認(rèn)各預(yù)測(cè)步之間相互獨(dú)立,忽略了標(biāo)簽序列中各時(shí)間步之間的自相關(guān),從而導(dǎo)致其作為損失函數(shù)是有偏的。具體見(jiàn)下方定理:
[定理1:自相關(guān)偏差]設(shè)標(biāo)簽序列 ,其步間相關(guān)系數(shù)矩陣為 ,則TMSE與真實(shí)標(biāo)簽的負(fù)對(duì)數(shù)似然之間的偏差為:
其中 。當(dāng)且僅當(dāng) 的不同步不相關(guān)時(shí),該偏差才會(huì)消失。
1.2 挑戰(zhàn)二:任務(wù)數(shù)量激增導(dǎo)致優(yōu)化難度加大
TMSE將每個(gè)預(yù)測(cè)步視為獨(dú)立任務(wù),導(dǎo)致整體任務(wù)數(shù)量隨預(yù)測(cè)步數(shù)T線性增長(zhǎng)。當(dāng)任務(wù)數(shù)過(guò)多時(shí),多任務(wù)學(xué)習(xí)過(guò)程中各任務(wù)梯度容易沖突,影響優(yōu)化收斂,最終降低模型性能。長(zhǎng)期預(yù)測(cè)場(chǎng)景(如制造業(yè)生產(chǎn)排期、交通流量預(yù)測(cè)等)對(duì)此問(wèn)題尤為敏感。
02
Time-o1:在變換域定義損失函數(shù)
2.1 實(shí)現(xiàn)方法Time-o1的核心思想是使用主成分分析(PCA),將標(biāo)簽序列變換為按重要性排序的正交主成分。通過(guò)對(duì)齊主成分,Time-o1不僅能夠有效降低標(biāo)簽之間的自相關(guān)性(問(wèn)題一),還可以減少并行優(yōu)化的任務(wù)數(shù)量(問(wèn)題二),同時(shí)依然保留DF方法高效和易于實(shí)現(xiàn)的優(yōu)勢(shì)。
具體來(lái)說(shuō),對(duì)于第 個(gè)主成分,其投影向量可通過(guò)如下優(yōu)化問(wèn)題得到:
其中 表示第 個(gè)主成分。優(yōu)化目標(biāo)在于最大化 的方差,也就是最大化該成分承載的信息量。對(duì)于 ,則要求新的投影軸需與此前各軸保持正交,避免主成分之間的冗余。
理論分析:可以證明,經(jīng)PCA得到的主成分彼此去相關(guān),從而消除了標(biāo)簽自相關(guān)性在損失計(jì)算中帶來(lái)的偏差(問(wèn)題一)。此外,主成分的方差會(huì)依序遞減( 到 ),確保了得到的主成分自然按重要性排序,因此損失函數(shù)可以只關(guān)注最重要的K個(gè)主成分,從而降低優(yōu)化復(fù)雜度(問(wèn)題二)。所有最優(yōu)投影向量 可以通過(guò)一次奇異值分解(SVD)直接獲得,因此Time-o1可以高效計(jì)算。
2.2 實(shí)現(xiàn)流程
Time-o1的具體流程可分為以下幾個(gè)步驟:
1. 標(biāo)準(zhǔn)化標(biāo)簽序列:首先對(duì)標(biāo)簽序列進(jìn)行標(biāo)準(zhǔn)化處理,以確保后續(xù)PCA的有效性。
2. 計(jì)算投影矩陣:對(duì)標(biāo)準(zhǔn)化后的標(biāo)簽序列執(zhí)行SVD,保留與最大奇異值對(duì)應(yīng)的 個(gè)右奇異向量,拼接得到最優(yōu)投影矩陣 。
3. 空間變換:將預(yù)測(cè)序列及標(biāo)簽序列一同變換至主成分空間,得到標(biāo)簽序列和預(yù)測(cè)序列的主成分 , 。
4. 計(jì)算損失函數(shù):定義變換域損失為:
5. 目標(biāo)融合:將主成分空間損失與原空間MSE加權(quán)融合, 用于平衡兩者貢獻(xiàn):
Time-o1是一種模型無(wú)關(guān)的損失函數(shù),可以支持各類預(yù)測(cè)模型。
2.3 案例分析
![]()
針對(duì)問(wèn)題一,上圖對(duì)比了原始標(biāo)簽序列和主成分序列的自相關(guān)性。 左圖可見(jiàn),原空間中大量非對(duì)角元素明顯偏大,約50.5%超過(guò)0.25,顯示標(biāo)簽序列之間存在強(qiáng)自相關(guān)。 右圖則基本實(shí)現(xiàn)去相關(guān),非對(duì)角元素趨近于零,說(shuō)明將標(biāo)簽變換至主成分空間可有效消除自相關(guān)性(問(wèn)題一)。
![]()
針對(duì)問(wèn)題二,上圖展示了原標(biāo)簽與主成分的方差對(duì)比。左圖中,標(biāo)簽序列各步方差分布較為平均,表明不同步在優(yōu)化時(shí)同等重要。右圖中,只有少數(shù)幾個(gè)主成分方差較大,表明主成分的重要性可以清晰區(qū)分,可以通過(guò)關(guān)注最重要的成分,犧牲極少的標(biāo)簽信息來(lái)降低優(yōu)化復(fù)雜度(問(wèn)題二)。
03
實(shí)驗(yàn)結(jié)果
![]()
Time-o1可以顯著提升預(yù)測(cè)性能。以ETTh1為例,Time-o1將Fredformer的MSE降低了0.016。在其他數(shù)據(jù)集上的類似提升進(jìn)一步驗(yàn)證了其有效性。這些結(jié)果表明,改進(jìn)損失函數(shù)可以產(chǎn)生與改進(jìn)架構(gòu)相當(dāng)甚至超過(guò)的性能提升。
![]()
可視化預(yù)測(cè)序列發(fā)現(xiàn),雖然使用MSE訓(xùn)練的DF模型捕獲了一般趨勢(shì),但其預(yù)測(cè)在處理大變化時(shí)(如步驟100-400內(nèi)的峰值)存在困難。這反映了其在建模高方差分量方面的不足。相比之下,Time-o1通過(guò)明確區(qū)分和對(duì)齊這些重要分量,生成的預(yù)測(cè)能夠準(zhǔn)確捕獲這些高方差分量,對(duì)大幅波動(dòng)的擬合能力更強(qiáng)。
![]()
Time-o1相比現(xiàn)有損失函數(shù)也取得了較大的性能提升。形狀對(duì)齊目標(biāo)(Dilate、Soft-DTW、DPTA)相比DF提供的性能提升很小,這一現(xiàn)象的原因是它們既不緩解標(biāo)簽相關(guān)性,也不減少任務(wù)數(shù)量以簡(jiǎn)化優(yōu)化。Time-o1直接解決了這兩個(gè)問(wèn)題,從而實(shí)現(xiàn)了整體性能的大幅提升。
![]()
論文還進(jìn)行了消融實(shí)驗(yàn),研究標(biāo)簽正交化和減少任務(wù)數(shù)量對(duì)損失函數(shù)性能的貢獻(xiàn)。結(jié)果表明:僅標(biāo)簽正交化或僅減少任務(wù)數(shù)量相比DF都有改進(jìn),而結(jié)合兩者取得了最佳結(jié)果,展示了兩者的協(xié)同效應(yīng)。
![]()
除了PCA,Time-o1還支持其他統(tǒng)計(jì)變換方法,如SVD、RPCA、FA等。對(duì)比實(shí)驗(yàn)表明,不同的統(tǒng)計(jì)變換方法相比不做變換的DF方法性能均有提升。相較而言,PCA因能同時(shí)實(shí)現(xiàn)標(biāo)簽正交化和降維,取得了最佳性能。
![]()
論文還測(cè)試了Time-o1在不同神經(jīng)網(wǎng)絡(luò)架構(gòu)上的表現(xiàn),包括FredFormer、iTransformer、FreTS、Dlinear等,證明了其與模型無(wú)關(guān)的特性:可以切實(shí)有效提升大多數(shù)主流時(shí)序預(yù)測(cè)模型的精度。
04
結(jié)論
時(shí)間序列預(yù)測(cè)中的損失函數(shù)設(shè)計(jì)存在兩個(gè)關(guān)鍵挑戰(zhàn):其一,標(biāo)簽自相關(guān)導(dǎo)致?lián)p失函數(shù)有偏;其二,任務(wù)數(shù)量過(guò)多導(dǎo)致優(yōu)化困難。為此,Time-o1創(chuàng)新性地提出了基于標(biāo)簽變換的損失函數(shù)。該方法首先將標(biāo)簽序列映射為按重要性排序的正交主成分,再將模型預(yù)測(cè)對(duì)準(zhǔn)最重要的主成分,從而同時(shí)解決了兩個(gè)上述挑戰(zhàn)。
Time-o1不僅驗(yàn)證了優(yōu)化損失函數(shù)能提升時(shí)序預(yù)測(cè)性能,還首次將特征工程的思想應(yīng)用于標(biāo)簽端,為該領(lǐng)域的未來(lái)發(fā)展提供了新思路。
快來(lái)試試Time-o1,讓正交損失成為你性能優(yōu)化的“最后一棒”!
![]()
共同第一作者王浩現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生,研究方向聚焦于可信學(xué)習(xí)、多任務(wù)學(xué)習(xí)技術(shù)及其在大模型中的應(yīng)用,以第一作者發(fā)表ICML、NeurIPS、KDD等CCF-A類論文十余篇。2022年-2023 年,他曾在螞蟻金服、微軟亞洲研究院科研實(shí)習(xí),從事推薦系統(tǒng)理論和實(shí)踐研究。2025 年起,他在小紅書(shū)參加RedStar實(shí)習(xí)項(xiàng)目,進(jìn)行可信獎(jiǎng)勵(lì)模型、垂域智能體領(lǐng)域的研究工作。
![]()
共同第一作者潘黎鋮現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生,研究方向聚焦于可信學(xué)習(xí)技術(shù)及其在大語(yǔ)言模型中的應(yīng)用。2024-2025年,他曾在螞蟻金服、微軟亞洲研究院科研實(shí)習(xí),從事推薦系統(tǒng)和智能體理論和實(shí)踐研究。2025 年起,他在小紅書(shū)參與科研實(shí)習(xí),進(jìn)行可信獎(jiǎng)勵(lì)模型、智能體領(lǐng)域的研究工作。
![]()
通訊作者林宙辰博士現(xiàn)任北京大學(xué)智能學(xué)院、通用人工智能全國(guó)重點(diǎn)實(shí)驗(yàn)室教授。他的研究領(lǐng)域包括機(jī)器學(xué)習(xí)和數(shù)值優(yōu)化。他已發(fā)表論文360余篇,谷歌學(xué)術(shù)引用超過(guò)42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會(huì)士,多次擔(dān)任CVPR、NeurIPS、ICML等會(huì)議的Senior Area Chair,現(xiàn)任ICML Board Member。
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.