文章來源:我愛計算機視覺(ID:aicvml)
當我們在談論微調巨大的預訓練視覺模型時,計算資源和內存總是繞不開的話題。為了讓這些“大塊頭”能更輕巧地適應下游任務,參數高效微調(PEFT)技術應運而生。而在眾多PEFT方法中,稀疏微調(只調整模型中最關鍵的一部分權重)因其出色的性能備受關注。不過,傳統方法通常采用“兩步走”策略:先定位、再更新,這不僅過程繁瑣,還特別耗內存。
今天,我們介紹一項來自中國科學院和中國科學院大學的最新研究,他們提出了一種名為 SNELLA 的全新方法,徹底改變了這一現狀。它將稀疏微調變成了一個優雅的“一步式”端到端過程,不僅性能達到了新的SOTA,還實現了高達 31.1%-39.9% 的內存節省。
![]()
論文標題 : Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models
作者 : Shufan Shen, Junshu Sun, Shuhui Wang, Qingming Huang
機構 : 中國科學院, 中國科學院大學
論文地址 : https://arxiv.org/abs/2510.24037
代碼倉庫 : https://github.com/ssfgunner/SNELL
讓我們先看看老路子是怎么走的。傳統的稀疏微調方法通常分兩步:
定位權重 :首先根據梯度信息,找出與下游任務最相關的那些權重。但這個過程忽略了微調過程中參數本身的變化,有點“刻舟求劍”的意思,限制了最終的性能。
更新權重 :找到權重后,通過一個稀疏掩碼(sparse mask)只更新這些被選中的權重。問題在于,優化器為了計算梯度,仍然需要存儲整個模型的全量權重矩陣,導致內存開銷居高不下。
![]()
上圖直觀展示了傳統兩階段范式與SNELLA一體化方法的區別。
SNELLA:一步到位的優雅解決方案
SNELLA巧妙地將權重的定位和更新融合在一個端到端的框架中,既省內存,又提性能。它的核心思想可以分解為兩大創新點。
![]()
核化低秩適應(Kernelized Low-Rank Adaptation)
為了降低內存,SNELLA并沒有直接更新龐大的權重矩陣,而是通過加上一個稀疏的“增量矩陣”來實現。這個增量矩陣本身不是直接學習的,而是由兩個更小的低秩矩陣通過一個非線性核函數(non-linear kernel function)合成的。
這有點像LoRA的升級版。傳統的LoRA用兩個低秩矩陣的乘積來近似權重的更新,但表達能力有限。SNELLA引入的核函數,相當于將低秩矩陣映射到更高維的空間再做運算,極大地增強了模型的表達能力,讓權重的更新更加靈活和強大,從而更好地適應下游任務。
![]()
上圖展示了不同核函數的表達能力,可以看出非線性核(如Mix-K)能夠更好地擬合復雜的稀疏矩陣。
自適應雙層稀疏分配(Adaptive Bi-level Sparsity Allocation)
那么,模型如何智能地決定哪些權重“值得”更新呢?SNELLA設計了一套精妙的“競爭上崗”機制。
層間競爭 :首先,模型中的不同層會根據各自的“重要性”來競爭可調整的參數預算。這個重要性分數綜合了該層對任務損失的敏感性(sensitivity)和不確定性(uncertainty),越重要的層能分到越多的更新名額。
層內競爭 :在每一層內部,所有權重更新的重要性也會被評估,只有那些得分最高的“優勝者”才會被保留,其余的則被置為零。
這套雙層競爭機制是完全自適應的,并且貫穿整個訓練過程,確保了最寶貴的計算資源總是花在最關鍵的參數上。
實驗效果:性能與效率的雙重勝利
SNELLA在圖像分類、息肉分割和文生圖等多種任務上都進行了廣泛驗證,并與多種主流PEFT方法進行了對比。
在標準的FGVC和VTAB-1k分類基準測試中,SNELLA全面超越了之前的方法。特別是在細粒度視覺分類(FGVC)任務上,相比強大的SPT-LoRA,SNELLA的Top-1準確率提升了整整 1.8%(從90.1%提升到91.9%),這是一個非常顯著的進步。
![]()
更令人印象深刻的是它的內存效率。實驗表明,隨著模型參數規模從86M增長到632M,SNELLA相比全量微調等方法,能夠節省 31.1%到39.9% 的內存。這意味著我們可以在消費級硬件上微調更大、更強的模型。
![]()
在下游任務的定性評估中,SNELLA同樣表現出色。例如,在醫療影像的息肉分割任務中,它能更準確地識別和分割出病變區域。
![]()
在個性化的文生圖任務中,SNELLA也能更好地學習和還原特定概念的視覺特征,生成與文本描述更一致的圖像。
![]()
總結
CV君認為,SNELLA提出的這種將核方法與動態稀疏性結合的思路非常新穎,它不僅解決了現有稀疏微調方法的痛點,也為未來如何更高效地利用大模型提供了寶貴的啟發。作者已經開源了代碼,強烈推薦感興趣的同學去嘗試和探索。
大家對這種端到端的稀疏微調方法怎么看?歡迎在評論區一起交流!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.