![]()
機器之心報道
編輯:張倩
模型架構(gòu)的重要性可能遠超我們之前的認知。
最近,約翰斯?霍普金斯大學的一項研究發(fā)現(xiàn):1100 多個不同的神經(jīng)網(wǎng)絡,即使在完全不同的數(shù)據(jù)集上訓練、用不同的初始化和超參數(shù),最終學到的權(quán)重都會收斂到一個共享的低維子空間。
這似乎是說明:存在一個「先驗的」數(shù)學結(jié)構(gòu),所有神經(jīng)網(wǎng)絡都在逼近它。訓練不是在「創(chuàng)造」什么,而是在「發(fā)現(xiàn)」一個早已存在的幾何形式。換句話說,神經(jīng)網(wǎng)絡「想學的東西」似乎高度一致,架構(gòu)決定了它能學什么,比數(shù)據(jù)影響更大。
![]()
這一發(fā)現(xiàn)有助于解釋很多「神秘」現(xiàn)象,比如為什么過參數(shù)化的模型(參數(shù)遠多于訓練樣本)還能泛化?為什么不同初始化最終學到相似的表示?為什么 LoRA、權(quán)重共享這些技術能 work?如果神經(jīng)網(wǎng)絡確實在共享子空間內(nèi)學習,這將為隱式正則化、可遷移性以及稀疏訓練方法的有效性提供支持性解釋,同時也為諸如高效合并、新的優(yōu)化技術、更快更高效的學習和推理等應用開辟道路。
![]()
- 論文標題:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
- 論文鏈接:https://www.arxiv.org/pdf/2512.05117
這篇論文在 Alphaxiv、X 等平臺上吸引了很多關注,一度攀升到 Alphaxiv 榜一的位置。
![]()
有人說,柏拉圖又贏了一回。(注:柏拉圖的理念論認為:我們看到的具體事物(桌子、馬、圓形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圓存在于一個抽象的理念世界,現(xiàn)實中的圓只是對它的模仿。其核心主張是:抽象結(jié)構(gòu)先于具體實例。)
![]()
也有人從中讀出了一些令人擔憂的信號:如果所有模型都收斂到同一個子空間,那意味著當前架構(gòu)存在內(nèi)在的天花板,再多的數(shù)據(jù)和算力也只是在同一個「盆地」里打轉(zhuǎn)。
![]()
論文概覽
在具體研究中,作者首先聚焦于 LoRA 適配器,因其易于訓練且能大量收集,在 Mistral-7B 模型的約 500 個適配器中觀察到了通用子空間的涌現(xiàn)。隨后,研究擴展到完整權(quán)重空間,從約 500 個 Vision Transformer 和 50 個 LLaMA3-8B 模型中提取出相似的低秩通用子空間,這些模型各自使用不同數(shù)據(jù)集和初始化方式訓練。
![]()
此前已有多條線索暗示這一現(xiàn)象:神經(jīng)正切核理論表明,在無限寬度極限下,網(wǎng)絡訓練動態(tài)由一個與具體任務基本無關的核函數(shù)主導;機制可解釋性研究在視覺網(wǎng)絡的特定層中發(fā)現(xiàn)了反復出現(xiàn)的電路模式;彩票假說和模式連通性也指向可復用的低維結(jié)構(gòu);早在 2012 年就有人觀察到,卷積網(wǎng)絡第一層在各種視覺任務中都會學到類 Gabor 濾波器。但這些工作要么聚焦于表示層面,要么未涉及不同模型間參數(shù)性質(zhì)的收斂。
這項研究的獨特之處在于:首次在權(quán)重層面提供了具體證據(jù)和明確通用假設,為深度神經(jīng)網(wǎng)絡參數(shù)空間中 「通用性」的存在提供了最為嚴謹?shù)膶嵶C證據(jù)。
盡管這種通用性的根本成因仍有待探索,但即便是初步理解也具有深遠意義。共享子空間有望實現(xiàn):大規(guī)模模型壓縮(只需存儲子空間系數(shù)而非完整權(quán)重)、在已學習子空間內(nèi)快速適應新任務、對泛化邊界和優(yōu)化景觀的理論洞察,以及通過減少訓練和推理計算需求帶來的環(huán)境效益。此外,這種幾何通用性也為研究泛化、頓悟(grokking)、災難性遺忘和數(shù)據(jù)效率等基本問題提供了新視角。
作者也坦承了若干開放問題:不同架構(gòu)的通用子空間如何相互區(qū)別?能否通過顯式設計架構(gòu)來優(yōu)化子空間的幾何結(jié)構(gòu)?更根本的是,如果所有網(wǎng)絡都坍縮到同一子空間,它們就會繼承共同的偏見、能力邊界和失效模式 —— 這種多樣性的缺失本身是否構(gòu)成了一個根本瓶頸?是否應該開發(fā)專門用于打破這種收斂的方法?
方法與結(jié)果概覽
作者證明,與架構(gòu)相關、逐層分布的通用子空間在各類神經(jīng)模型中持續(xù)涌現(xiàn)。無論模型是從頭訓練、完全微調(diào)還是通過低秩方法適配,對通用子空間假說的遵循都表現(xiàn)穩(wěn)健,未見顯著偏離。這一現(xiàn)象在不同的初始化策略、模態(tài)、數(shù)據(jù)格式和數(shù)據(jù)集內(nèi)容之間保持不變。
值得注意的是,所提取子空間的精度與可用模型的數(shù)量和質(zhì)量相關。基于此,作者推測每種架構(gòu)內(nèi)在地存在一個「理想」通用子空間,各個模型實例都在向其收斂。作者假設,更優(yōu)的算法、更干凈的數(shù)據(jù)和更有效的優(yōu)化策略能使模型更接近這一理想狀態(tài)。盡管本文未正式驗證「理想通用子空間」假說,但作者認為這一子空間代表了當代反向傳播訓練的神經(jīng)網(wǎng)絡最穩(wěn)定的配置,因此這一規(guī)則的例外情況可能為進一步的研究提供沃土。
分析方法
由于目前尚無方法能夠比較不同架構(gòu)模型的子空間,作者聚焦于在同一架構(gòu)上訓練的大量模型,對 LoRA 適配器以及 Transformer 和 CNN 的經(jīng)典權(quán)重進行分析。除非另有說明,所有實驗僅執(zhí)行 1-2 階的高階奇異值分解(HOSVD),以確保方法在最簡單情況下也能奏效。譜分析依賴高效的譜分解庫,甚至可在 CPU 上運行,作者的所有分析和實驗均在單塊 Nvidia A5000 GPU 上完成。通過對數(shù)千個公開可用模型進行分析,作者無需任何訓練成本即可提取通用子空間。
以下是作者所實現(xiàn)的算法:
![]()
聯(lián)合子空間分析結(jié)果
在 CNN 實驗中,作者從隨機初始化開始,在五個互不重疊的數(shù)據(jù)集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上訓練 ResNet-50 進行圖像分類。盡管理論分析表明少量模型可能導致對聯(lián)合通用子空間的欠近似,但從頭訓練 CNN 的規(guī)模限制了可納入研究的模型數(shù)量。
即便如此,對 ResNet-50 所有層的平均解釋方差(圖 2b)分析揭示了一個跨越這些不相交任務的獨特共享低秩結(jié)構(gòu):大部分信息僅存在于 16 個(或更少)不同的子空間方向中。此外,將模型投影到這一子空間以獲得低秩 ResNet-50(從而減少參數(shù))后,其性能相對于完全微調(diào)仍具競爭力,進一步支持了聯(lián)合子空間的存在和實用性(圖 2a)。
![]()
為進行更大規(guī)模的真實世界實驗,作者選擇對 LoRA 模型進行子空間分析,因為它們在公共領域大量存在。鑒于 LoRA 模型明確捕獲任務特定方向且與原始權(quán)重對齊較弱,它們是驗證假說的良好替代。
在首個實驗中,作者使用基于 Mistral-7B-Instruct-v0.2 訓練的 500 個自然指令任務的 LoRA 模型,每個 LoRA 單獨至少為 16 秩。分析結(jié)果(圖 3)顯示,所有 500 個模型的參數(shù)都可被一個有限的低秩子空間良好近似,且這一模式在所有層中一致存在。
![]()
為測試通用子空間的表達能力,作者通過將隨機選擇的已見(IID)和未見(OOD)任務的 LoRA 參數(shù)投影到通用子空間來解析重構(gòu)它們,結(jié)果(圖 4)表明通用子空間模型在兩種情況下都表現(xiàn)穩(wěn)健。作為對照,使用譜分解剩余分量(稱為次級子空間)重做實驗時,性能大幅落后。值得一提的是,通用子空間模型的內(nèi)存效率提升了 19 倍,因為不再需要保存全部 500 個 LoRA。
![]()
接下來,作者進一步將分析擴展到使用 Stable Diffusion-XL 的文生圖任務。從 HuggingFace 上公開可用的 LoRA 中提取通用子空間后,將單個 LoRA 投影到該子空間,生成的圖像保持了視覺質(zhì)量和風格(圖 5)。
![]()
基于 CLIP 的評估顯示,通用子空間在某些情況下甚至優(yōu)于單個 LoRA,這可能歸因于先前研究中觀察到的去噪效應。
![]()
為測試將多個模型壓縮到單一通用子空間的能力,作者將其方法與最先進的模型合并方法進行比較,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。這些基線方法通常需要調(diào)整縮放系數(shù)、剪枝閾值或在驗證集上進行迭代調(diào)優(yōu)。
相比之下,通用子空間方法僅基于跨模型識別的共享低秩子空間的幾何結(jié)構(gòu)來解析計算合并系數(shù),無需迭代調(diào)優(yōu)或驗證數(shù)據(jù)。由于子空間本質(zhì)上是低秩的,合并后的模型參數(shù)顯著少于任何單個模型。實驗結(jié)果(表 2)表明,該方法在降低參數(shù)數(shù)量的同時取得了更高的平均準確率,實現(xiàn)了無需啟發(fā)式剪枝或驗證開銷的可擴展、穩(wěn)健的模型合并。
![]()
總而言之,這四組實驗為通用子空間假說提供了強有力的實證支持,并展示了其在內(nèi)存效率、模型合并、模型可復用性以及跨任務跨模態(tài)可擴展部署方面的實際優(yōu)勢。
不過,也有人提醒說,這篇論文雖然有價值,但結(jié)論需要經(jīng)過更加嚴格的驗證。首先,任務多樣性不夠真實,研究沒有在真正異質(zhì)的任務(如 MIDI 生成、英語文本、MNIST 像素生成)之間尋找共享子空間,所以發(fā)現(xiàn)的可能只是「任務子宇宙特定的子空間」而非真正的通用子空間;二是沒有跨架構(gòu)比較的方法,無法聲稱 ViT 和 LLaMA3 擁有相同子空間。
![]()
為什么通用子空間會涌現(xiàn)?
在論文中,作者對于通用子空間涌現(xiàn)的原因也給出了自己的推論。他們認為,若干理論因素可能促成了這些共享結(jié)構(gòu)的出現(xiàn)。
首先,神經(jīng)網(wǎng)絡已知表現(xiàn)出對低頻函數(shù)的譜偏好,產(chǎn)生特征值的多項式衰減,從而將學習動態(tài)集中到少數(shù)主導方向上。其次,現(xiàn)代架構(gòu)施加了強烈的歸納偏置,約束了解空間:卷積結(jié)構(gòu)天然偏好局部的、類 Gabor 模式,而注意力機制則優(yōu)先處理反復出現(xiàn)的關系回路。第三,基于梯度的優(yōu)化方法的普遍性 —— 在無限寬度極限下由與具體任務基本無關的核函數(shù)主導 —— 內(nèi)在地偏好平滑解,將多樣的學習軌跡引導向共享的幾何流形。
如果這些假說成立,通用子空間很可能捕獲了超越特定任務的基本計算模式,這或許能解釋遷移學習的有效性,以及為何多樣化的問題往往能從相似的架構(gòu)改進中受益。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.