網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Time-o1：時(shí)序架構(gòu)難突破，損失函數(shù)辟蹊徑

2026-02-05 20:20:25　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

解決標(biāo)簽自相關(guān)和任務(wù)過(guò)載的雙重挑戰(zhàn)。

在時(shí)間序列預(yù)測(cè)領(lǐng)域，研究者們熱衷于設(shè)計(jì)復(fù)雜的網(wǎng)絡(luò)架構(gòu)——Transformer、線性模型輪番登場(chǎng)。然而，當(dāng)大家把注意力都放在模型結(jié)構(gòu)創(chuàng)新時(shí)，卻忽略了一個(gè)關(guān)鍵問(wèn)題：訓(xùn)練這些模型時(shí)使用的損失函數(shù)，幾乎都選擇了時(shí)域均方誤差（TMSE），這正在悄悄拖累模型性能。

NeurIPS 2025的最新研究揭示了TMSE存在的兩大局限：其一，預(yù)測(cè)標(biāo)簽序列普遍存在自相關(guān)性，但TMSE默認(rèn)各預(yù)測(cè)步相互獨(dú)立，導(dǎo)致損失函數(shù)有偏;其二，隨著預(yù)測(cè)步數(shù)增加，任務(wù)數(shù)量線性增長(zhǎng)，優(yōu)化難度上升。來(lái)自北京大學(xué)、小紅書(shū)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了Time-o1方法，通過(guò)巧妙的標(biāo)簽正交變換技術(shù)，解決了這兩大難題，在多個(gè)主流模型上實(shí)現(xiàn)了顯著的性能提升。

論文題目： Time-o1: Time-series Forecasting Needs Transformed Label Alignment

發(fā)表會(huì)議： NeurIPS 2025

作者單位：小紅書(shū)、浙江大學(xué)、北京大學(xué)、松鼠AI等

代碼鏈接： https://github.com/Master-PLC/Time-o1

01
問(wèn)題分析：被忽視的損失函數(shù)設(shè)計(jì)

在時(shí)間序列預(yù)測(cè)任務(wù)中，構(gòu)建高精度的預(yù)測(cè)模型需解決兩個(gè)核心問(wèn)題：（1）如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)以有效捕捉歷史信息；（2）如何制定合理的損失函數(shù)以高效指導(dǎo)模型訓(xùn)練。近年來(lái)，研究重點(diǎn)主要集中在模型結(jié)構(gòu)創(chuàng)新，例如提出了Transformer、線性模型等眾多架構(gòu)，而損失函數(shù)的設(shè)計(jì)卻鮮有深入探討。

現(xiàn)有主流方法普遍采用直接預(yù)測(cè)范式（Direct Forecast，DF）。在該范式下，模型以一段歷史觀測(cè)為輸入，通過(guò)神經(jīng)網(wǎng)絡(luò)主體提取表征，再配合線性輸出頭，一次性并行預(yù)測(cè)未來(lái)T步的標(biāo)簽序列，即輸出一個(gè)長(zhǎng)度為T(mén)的預(yù)測(cè)向量。與傳統(tǒng)的迭代預(yù)測(cè)（iterative forecast）相比，直接預(yù)測(cè)法因并行性和效率優(yōu)勢(shì)而得到廣泛應(yīng)用。

在損失函數(shù)層面，DF方法通常選用時(shí)域均方誤差（TMSE）作為主要優(yōu)化目標(biāo)，定義如下：

然而，TMSE類損失函數(shù)在訓(xùn)練時(shí)序預(yù)測(cè)模型時(shí)存在兩個(gè)關(guān)鍵問(wèn)題，使其成為了性能提升的“天花板” 。

1.1 挑戰(zhàn)一：標(biāo)簽自相關(guān)性導(dǎo)致?lián)p失函數(shù)有偏

時(shí)間序列中，任一觀測(cè)值往往與其過(guò)去觀測(cè)值高度相關(guān)，呈現(xiàn)顯著的自相關(guān)特點(diǎn)——這是時(shí)間序列數(shù)據(jù)的基本特性。然而，TMSE在計(jì)算損失時(shí)默認(rèn)各預(yù)測(cè)步之間相互獨(dú)立，忽略了標(biāo)簽序列中各時(shí)間步之間的自相關(guān)，從而導(dǎo)致其作為損失函數(shù)是有偏的。具體見(jiàn)下方定理：

[定理1：自相關(guān)偏差]設(shè)標(biāo)簽序列，其步間相關(guān)系數(shù)矩陣為，則TMSE與真實(shí)標(biāo)簽的負(fù)對(duì)數(shù)似然之間的偏差為：

其中。當(dāng)且僅當(dāng) 的不同步不相關(guān)時(shí)，該偏差才會(huì)消失。

1.2 挑戰(zhàn)二：任務(wù)數(shù)量激增導(dǎo)致優(yōu)化難度加大

TMSE將每個(gè)預(yù)測(cè)步視為獨(dú)立任務(wù)，導(dǎo)致整體任務(wù)數(shù)量隨預(yù)測(cè)步數(shù)T線性增長(zhǎng)。當(dāng)任務(wù)數(shù)過(guò)多時(shí)，多任務(wù)學(xué)習(xí)過(guò)程中各任務(wù)梯度容易沖突，影響優(yōu)化收斂，最終降低模型性能。長(zhǎng)期預(yù)測(cè)場(chǎng)景（如制造業(yè)生產(chǎn)排期、交通流量預(yù)測(cè)等）對(duì)此問(wèn)題尤為敏感。

02
Time-o1：在變換域定義損失函數(shù)

2.1 實(shí)現(xiàn)方法Time-o1的核心思想是使用主成分分析（PCA），將標(biāo)簽序列變換為按重要性排序的正交主成分。通過(guò)對(duì)齊主成分，Time-o1不僅能夠有效降低標(biāo)簽之間的自相關(guān)性（問(wèn)題一），還可以減少并行優(yōu)化的任務(wù)數(shù)量（問(wèn)題二），同時(shí)依然保留DF方法高效和易于實(shí)現(xiàn)的優(yōu)勢(shì)。

具體來(lái)說(shuō)，對(duì)于第個(gè)主成分，其投影向量可通過(guò)如下優(yōu)化問(wèn)題得到：

其中表示第個(gè)主成分。優(yōu)化目標(biāo)在于最大化的方差，也就是最大化該成分承載的信息量。對(duì)于，則要求新的投影軸需與此前各軸保持正交，避免主成分之間的冗余。

理論分析：可以證明，經(jīng)PCA得到的主成分彼此去相關(guān)，從而消除了標(biāo)簽自相關(guān)性在損失計(jì)算中帶來(lái)的偏差（問(wèn)題一）。此外，主成分的方差會(huì)依序遞減（到），確保了得到的主成分自然按重要性排序，因此損失函數(shù)可以只關(guān)注最重要的K個(gè)主成分，從而降低優(yōu)化復(fù)雜度（問(wèn)題二）。所有最優(yōu)投影向量可以通過(guò)一次奇異值分解（SVD）直接獲得，因此Time-o1可以高效計(jì)算。

2.2 實(shí)現(xiàn)流程

Time-o1的具體流程可分為以下幾個(gè)步驟：

1. 標(biāo)準(zhǔn)化標(biāo)簽序列：首先對(duì)標(biāo)簽序列進(jìn)行標(biāo)準(zhǔn)化處理，以確保后續(xù)PCA的有效性。

2. 計(jì)算投影矩陣：對(duì)標(biāo)準(zhǔn)化后的標(biāo)簽序列執(zhí)行SVD，保留與最大奇異值對(duì)應(yīng)的個(gè)右奇異向量，拼接得到最優(yōu)投影矩陣。

3. 空間變換：將預(yù)測(cè)序列及標(biāo)簽序列一同變換至主成分空間，得到標(biāo)簽序列和預(yù)測(cè)序列的主成分，。

4. 計(jì)算損失函數(shù)：定義變換域損失為：

5. 目標(biāo)融合：將主成分空間損失與原空間MSE加權(quán)融合，用于平衡兩者貢獻(xiàn)：

Time-o1是一種模型無(wú)關(guān)的損失函數(shù)，可以支持各類預(yù)測(cè)模型。

2.3 案例分析

針對(duì)問(wèn)題一，上圖對(duì)比了原始標(biāo)簽序列和主成分序列的自相關(guān)性。左圖可見(jiàn)，原空間中大量非對(duì)角元素明顯偏大，約50.5%超過(guò)0.25，顯示標(biāo)簽序列之間存在強(qiáng)自相關(guān)。右圖則基本實(shí)現(xiàn)去相關(guān)，非對(duì)角元素趨近于零，說(shuō)明將標(biāo)簽變換至主成分空間可有效消除自相關(guān)性（問(wèn)題一）。

針對(duì)問(wèn)題二，上圖展示了原標(biāo)簽與主成分的方差對(duì)比。左圖中，標(biāo)簽序列各步方差分布較為平均，表明不同步在優(yōu)化時(shí)同等重要。右圖中，只有少數(shù)幾個(gè)主成分方差較大，表明主成分的重要性可以清晰區(qū)分，可以通過(guò)關(guān)注最重要的成分，犧牲極少的標(biāo)簽信息來(lái)降低優(yōu)化復(fù)雜度（問(wèn)題二）。

03
實(shí)驗(yàn)結(jié)果

Time-o1可以顯著提升預(yù)測(cè)性能。以ETTh1為例，Time-o1將Fredformer的MSE降低了0.016。在其他數(shù)據(jù)集上的類似提升進(jìn)一步驗(yàn)證了其有效性。這些結(jié)果表明，改進(jìn)損失函數(shù)可以產(chǎn)生與改進(jìn)架構(gòu)相當(dāng)甚至超過(guò)的性能提升。

可視化預(yù)測(cè)序列發(fā)現(xiàn)，雖然使用MSE訓(xùn)練的DF模型捕獲了一般趨勢(shì)，但其預(yù)測(cè)在處理大變化時(shí)（如步驟100-400內(nèi)的峰值）存在困難。這反映了其在建模高方差分量方面的不足。相比之下，Time-o1通過(guò)明確區(qū)分和對(duì)齊這些重要分量，生成的預(yù)測(cè)能夠準(zhǔn)確捕獲這些高方差分量，對(duì)大幅波動(dòng)的擬合能力更強(qiáng)。

Time-o1相比現(xiàn)有損失函數(shù)也取得了較大的性能提升。形狀對(duì)齊目標(biāo)（Dilate、Soft-DTW、DPTA）相比DF提供的性能提升很小，這一現(xiàn)象的原因是它們既不緩解標(biāo)簽相關(guān)性，也不減少任務(wù)數(shù)量以簡(jiǎn)化優(yōu)化。Time-o1直接解決了這兩個(gè)問(wèn)題，從而實(shí)現(xiàn)了整體性能的大幅提升。

論文還進(jìn)行了消融實(shí)驗(yàn)，研究標(biāo)簽正交化和減少任務(wù)數(shù)量對(duì)損失函數(shù)性能的貢獻(xiàn)。結(jié)果表明：僅標(biāo)簽正交化或僅減少任務(wù)數(shù)量相比DF都有改進(jìn)，而結(jié)合兩者取得了最佳結(jié)果，展示了兩者的協(xié)同效應(yīng)。

除了PCA，Time-o1還支持其他統(tǒng)計(jì)變換方法，如SVD、RPCA、FA等。對(duì)比實(shí)驗(yàn)表明，不同的統(tǒng)計(jì)變換方法相比不做變換的DF方法性能均有提升。相較而言，PCA因能同時(shí)實(shí)現(xiàn)標(biāo)簽正交化和降維，取得了最佳性能。

論文還測(cè)試了Time-o1在不同神經(jīng)網(wǎng)絡(luò)架構(gòu)上的表現(xiàn)，包括FredFormer、iTransformer、FreTS、Dlinear等，證明了其與模型無(wú)關(guān)的特性：可以切實(shí)有效提升大多數(shù)主流時(shí)序預(yù)測(cè)模型的精度。

04
結(jié)論

時(shí)間序列預(yù)測(cè)中的損失函數(shù)設(shè)計(jì)存在兩個(gè)關(guān)鍵挑戰(zhàn)：其一，標(biāo)簽自相關(guān)導(dǎo)致?lián)p失函數(shù)有偏；其二，任務(wù)數(shù)量過(guò)多導(dǎo)致優(yōu)化困難。為此，Time-o1創(chuàng)新性地提出了基于標(biāo)簽變換的損失函數(shù)。該方法首先將標(biāo)簽序列映射為按重要性排序的正交主成分，再將模型預(yù)測(cè)對(duì)準(zhǔn)最重要的主成分，從而同時(shí)解決了兩個(gè)上述挑戰(zhàn)。

Time-o1不僅驗(yàn)證了優(yōu)化損失函數(shù)能提升時(shí)序預(yù)測(cè)性能，還首次將特征工程的思想應(yīng)用于標(biāo)簽端，為該領(lǐng)域的未來(lái)發(fā)展提供了新思路。

快來(lái)試試Time-o1，讓正交損失成為你性能優(yōu)化的“最后一棒”！

共同第一作者王浩現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生，研究方向聚焦于可信學(xué)習(xí)、多任務(wù)學(xué)習(xí)技術(shù)及其在大模型中的應(yīng)用，以第一作者發(fā)表ICML、NeurIPS、KDD等CCF-A類論文十余篇。2022年-2023 年，他曾在螞蟻金服、微軟亞洲研究院科研實(shí)習(xí)，從事推薦系統(tǒng)理論和實(shí)踐研究。2025 年起，他在小紅書(shū)參加RedStar實(shí)習(xí)項(xiàng)目，進(jìn)行可信獎(jiǎng)勵(lì)模型、垂域智能體領(lǐng)域的研究工作。

共同第一作者潘黎鋮現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生，研究方向聚焦于可信學(xué)習(xí)技術(shù)及其在大語(yǔ)言模型中的應(yīng)用。2024-2025年，他曾在螞蟻金服、微軟亞洲研究院科研實(shí)習(xí)，從事推薦系統(tǒng)和智能體理論和實(shí)踐研究。2025 年起，他在小紅書(shū)參與科研實(shí)習(xí)，進(jìn)行可信獎(jiǎng)勵(lì)模型、智能體領(lǐng)域的研究工作。

通訊作者林宙辰博士現(xiàn)任北京大學(xué)智能學(xué)院、通用人工智能全國(guó)重點(diǎn)實(shí)驗(yàn)室教授。他的研究領(lǐng)域包括機(jī)器學(xué)習(xí)和數(shù)值優(yōu)化。他已發(fā)表論文360余篇，谷歌學(xué)術(shù)引用超過(guò)42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會(huì)士，多次擔(dān)任CVPR、NeurIPS、ICML等會(huì)議的Senior Area Chair，現(xiàn)任ICML Board Member。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.