![]()
“全局交互” 幾乎等同于 self-attention:每個(gè) token 都能和所有 token 對(duì)話,效果強(qiáng),但代價(jià)也直觀 —— 復(fù)雜度隨 token 數(shù)平方增長(zhǎng),分辨率一高就吃不消。現(xiàn)有方法大多從 “相似度匹配” 出發(fā)(attention),或從 “擴(kuò)散 / 傳導(dǎo)” 出發(fā)(熱方程類方法)。但熱方程本質(zhì)上是一個(gè)強(qiáng)低通濾波器:隨著傳播時(shí)間增加,高頻細(xì)節(jié)(邊緣、紋理)會(huì)迅速消失,導(dǎo)致特征過(guò)平滑。
我們是否能找到一種既能實(shí)現(xiàn)全局交互,又能精準(zhǔn)保留高頻細(xì)節(jié)的物理建模方式?
來(lái)自北京大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)給出了答案:波動(dòng)方程(Wave Equation):把特征圖當(dāng)作空間信號(hào),讓語(yǔ)義在網(wǎng)絡(luò)深度對(duì)應(yīng)的 “傳播時(shí)間” 里,遵循欠阻尼波動(dòng)方程演化。這樣一來(lái),低頻的全局結(jié)構(gòu)與高頻的邊緣紋理不再是 “此消彼長(zhǎng)” 的犧牲關(guān)系,而可以在可控的波動(dòng)傳播中共同存在。在 AAAI 2026 Oral 論文《WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation》中,研究者首次將視覺(jué)特征圖視為在波動(dòng)傳播時(shí)間下演化的空間信號(hào),受欠阻尼波動(dòng)方程支配。
![]()
- 論文鏈接:https://arxiv.org/abs/2601.08602
- 代碼倉(cāng)庫(kù):https://github.com/ZishanShu/WaveFormer
WaveFormer 首次將波動(dòng)方程作為視覺(jué)主干網(wǎng)絡(luò)的核心全局建模機(jī)制。
![]()
方法拆解:把圖片當(dāng)作 “波場(chǎng)”,特征當(dāng)作 “波”,讓語(yǔ)義振蕩傳播
WaveFormer 的關(guān)鍵思想可以用一句話概括:
全局交互不一定要靠 “相似度匹配”(attention),也可以靠 “波傳播動(dòng)力學(xué)”。
WaveFormer 將特征傳播寫成一個(gè)欠阻尼波動(dòng)方程:
- u (x, y, t):語(yǔ)義場(chǎng)(可以理解為特征圖隨 “傳播時(shí)間” 演化)
- v:傳播速度(控制傳播范圍)
- :阻尼系數(shù)(控制衰減強(qiáng)弱)
它還引入了一個(gè)很有意思的設(shè)定:除了初始語(yǔ)義場(chǎng)u0,還允許一個(gè) “初始速度場(chǎng)”v0,表示不同區(qū)域語(yǔ)義被激活 / 抑制的變化趨勢(shì)。
這個(gè)設(shè)定帶來(lái)的最大變化是:空間頻率被顯式建模了
論文里明確把 “頻率” 對(duì)應(yīng)到 2D 特征圖的空間頻率:低頻是全局布局,高頻是邊緣與紋理。
WaveFormer 不再把不同頻率的信息一股腦丟給網(wǎng)絡(luò)自己 “學(xué)著處理”,而是把它們寫進(jìn)了傳播方程的解里:不同頻率以不同方式振蕩、衰減,但都參與全局語(yǔ)義的長(zhǎng)程運(yùn)輸。
關(guān)鍵在于,團(tuán)隊(duì)推導(dǎo)了波動(dòng)方程在頻域下的閉式解:
![]()
熱傳導(dǎo)方程和擴(kuò)散方程的閉式解的對(duì)比:
![]()
WPO:把閉式解變成一個(gè) O (N log N) 的全局模塊
更 “工程友好” 的部分在這里:作者把欠阻尼波動(dòng)方程的頻域解,做成了一個(gè)可以直接替換 attention 的算子 WPO。
WPO 的實(shí)現(xiàn)流程非常清晰:
1. 把輸入特征圖變換到頻域;
2. 用欠阻尼波動(dòng)方程的頻率–時(shí)間解耦的閉式解,對(duì)每個(gè)頻率分量做 “振蕩式調(diào)制”;
3. 再逆變換回空間域,從而完成一次 “全局語(yǔ)義傳播”。
因?yàn)楹诵挠?jì)算發(fā)生在頻域(FFT /iFFT),WPO 的全局建模復(fù)雜度是O (N log N),論文在摘要里明確對(duì)比 “遠(yuǎn)低于 attention”。
在網(wǎng)絡(luò)結(jié)構(gòu)上,WaveFormer 走的是層級(jí)式骨干:stem + 四個(gè)階段,每個(gè)階段由 WPO Block 組成(WPO + FFN + 下采樣),整體可以作為 ViT 或 CNN 的 drop-in backbone。
![]()
為什么 “波傳播” 適合視覺(jué)?一個(gè)更直觀的理解
如果把一張圖像看成 “由低頻骨架 + 高頻細(xì)節(jié)疊加” 的信號(hào),那么視覺(jué)建模很多時(shí)候在做兩件事:
- 低頻:抓住整體結(jié)構(gòu)、主體布局、長(zhǎng)程一致性;
- 高頻:保住邊緣、紋理、細(xì)粒度辨別線索。
WaveFormer 的 “波動(dòng)方程建模” 給了一個(gè)很直接的機(jī)制:
在頻域里,每個(gè)頻率分量按 “阻尼振蕩” 傳播:低頻衰減慢、負(fù)責(zé)全局結(jié)構(gòu);高頻振蕩快、在阻尼控制下仍能保留邊緣紋理。
論文把這種機(jī)制稱為一種新的、物理一致的建模偏置(physics-inspired inductive bias),用于同時(shí)捕捉全局一致性與高頻細(xì)節(jié)。
實(shí)驗(yàn)結(jié)果:速度、效率與精度的全面超越
![]()
WaveFormer 在三類核心任務(wù)上驗(yàn)證:ImageNet 分類、COCO 檢測(cè) / 實(shí)例分割、ADE20K 語(yǔ)義分割。
ImageNet-1K 分類:
WaveFormer-B 在10.8G FLOPs / 68M 參數(shù)下達(dá)到84.2% Top-1
論文同時(shí)給出整體結(jié)論:在保持競(jìng)爭(zhēng)精度的同時(shí),最高可帶來(lái)1.6× 吞吐提升、30% FLOPs 降低
COCO 檢測(cè)與實(shí)例分割(Mask R-CNN):
WaveFormer 在 box AP 與 mask AP 上整體優(yōu)于 Swin/ConvNeXt,并且推理 FPS 更高。例如WaveFormer-B 達(dá)到 47.9% APb、43.2% APm,推理速度20.4 img/s,比 Swin-B/ConvNeXt-B 分別快48%/45%
ADE20K 語(yǔ)義分割(UperNet):
WaveFormer-B 達(dá)到50.5% mIoU,同時(shí) FLOPs 與 FPS 也具備優(yōu)勢(shì);論文把這種提升與 “頻率意識(shí)的波傳播能同時(shí)保全局結(jié)構(gòu)與細(xì)節(jié)邊界” 直接關(guān)聯(lián)起來(lái)。
![]()
![]()
總結(jié)與展望
WaveFormer 證明了經(jīng)典的物理波動(dòng)規(guī)律能夠?yàn)楝F(xiàn)代人工智能提供強(qiáng)大的歸納偏置 。這種基于波動(dòng)方程建模的新范式,不僅為視覺(jué)基礎(chǔ)模型開(kāi)辟了頻域處理的新路徑,也為未來(lái)多模態(tài)語(yǔ)義傳播的研究提供了深刻的啟示。
WaveFormer 最值得被記住的,可能不是某個(gè)單點(diǎn)指標(biāo),而是它把 “視覺(jué)全局建模” 換了一種語(yǔ)言來(lái)描述:
- 從 “token 相似度交互” 轉(zhuǎn)向 “語(yǔ)義場(chǎng)的動(dòng)力學(xué)傳播”;
- 從 “隱式處理頻率” 轉(zhuǎn)向 “顯式建模低頻 / 高頻及其隨深度演化”;
- 從 “黑盒的全局模塊” 轉(zhuǎn)向 “可解釋、可控(v 與 α 可調(diào))的傳播過(guò)程”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.