網易首頁 > 網易號 > 正文申請入駐

中科院SNELLA：視覺模型微調新范式，性能超越SOTA，內存占用降低近40%

2025-10-29 21:47:01　來源: 算法與數學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

當我們在談論微調巨大的預訓練視覺模型時，計算資源和內存總是繞不開的話題。為了讓這些“大塊頭”能更輕巧地適應下游任務，參數高效微調（PEFT）技術應運而生。而在眾多PEFT方法中，稀疏微調（只調整模型中最關鍵的一部分權重）因其出色的性能備受關注。不過，傳統方法通常采用“兩步走”策略：先定位、再更新，這不僅過程繁瑣，還特別耗內存。

今天，我們介紹一項來自中國科學院和中國科學院大學的最新研究，他們提出了一種名為 SNELLA 的全新方法，徹底改變了這一現狀。它將稀疏微調變成了一個優雅的“一步式”端到端過程，不僅性能達到了新的SOTA，還實現了高達 31.1%-39.9% 的內存節省。

論文標題 : Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models
作者 : Shufan Shen, Junshu Sun, Shuhui Wang, Qingming Huang
機構 : 中國科學院, 中國科學院大學
論文地址 : https://arxiv.org/abs/2510.24037
代碼倉庫 : https://github.com/ssfgunner/SNELL

現有方法的局限

讓我們先看看老路子是怎么走的。傳統的稀疏微調方法通常分兩步：

定位權重 ：首先根據梯度信息，找出與下游任務最相關的那些權重。但這個過程忽略了微調過程中參數本身的變化，有點“刻舟求劍”的意思，限制了最終的性能。
更新權重 ：找到權重后，通過一個稀疏掩碼（sparse mask）只更新這些被選中的權重。問題在于，優化器為了計算梯度，仍然需要存儲整個模型的全量權重矩陣，導致內存開銷居高不下。

上圖直觀展示了傳統兩階段范式與SNELLA一體化方法的區別。

SNELLA：一步到位的優雅解決方案

SNELLA巧妙地將權重的定位和更新融合在一個端到端的框架中，既省內存，又提性能。它的核心思想可以分解為兩大創新點。

核化低秩適應（Kernelized Low-Rank Adaptation）

為了降低內存，SNELLA并沒有直接更新龐大的權重矩陣，而是通過加上一個稀疏的“增量矩陣”來實現。這個增量矩陣本身不是直接學習的，而是由兩個更小的低秩矩陣通過一個非線性核函數（non-linear kernel function）合成的。

這有點像LoRA的升級版。傳統的LoRA用兩個低秩矩陣的乘積來近似權重的更新，但表達能力有限。SNELLA引入的核函數，相當于將低秩矩陣映射到更高維的空間再做運算，極大地增強了模型的表達能力，讓權重的更新更加靈活和強大，從而更好地適應下游任務。

上圖展示了不同核函數的表達能力，可以看出非線性核（如Mix-K）能夠更好地擬合復雜的稀疏矩陣。

自適應雙層稀疏分配（Adaptive Bi-level Sparsity Allocation）

那么，模型如何智能地決定哪些權重“值得”更新呢？SNELLA設計了一套精妙的“競爭上崗”機制。

層間競爭 ：首先，模型中的不同層會根據各自的“重要性”來競爭可調整的參數預算。這個重要性分數綜合了該層對任務損失的敏感性（sensitivity）和不確定性（uncertainty），越重要的層能分到越多的更新名額。

層內競爭 ：在每一層內部，所有權重更新的重要性也會被評估，只有那些得分最高的“優勝者”才會被保留，其余的則被置為零。

這套雙層競爭機制是完全自適應的，并且貫穿整個訓練過程，確保了最寶貴的計算資源總是花在最關鍵的參數上。

實驗效果：性能與效率的雙重勝利

SNELLA在圖像分類、息肉分割和文生圖等多種任務上都進行了廣泛驗證，并與多種主流PEFT方法進行了對比。

在標準的FGVC和VTAB-1k分類基準測試中，SNELLA全面超越了之前的方法。特別是在細粒度視覺分類（FGVC）任務上，相比強大的SPT-LoRA，SNELLA的Top-1準確率提升了整整 1.8%（從90.1%提升到91.9%），這是一個非常顯著的進步。

更令人印象深刻的是它的內存效率。實驗表明，隨著模型參數規模從86M增長到632M，SNELLA相比全量微調等方法，能夠節省 31.1%到39.9% 的內存。這意味著我們可以在消費級硬件上微調更大、更強的模型。

在下游任務的定性評估中，SNELLA同樣表現出色。例如，在醫療影像的息肉分割任務中，它能更準確地識別和分割出病變區域。

在個性化的文生圖任務中，SNELLA也能更好地學習和還原特定概念的視覺特征，生成與文本描述更一致的圖像。

總結

CV君認為，SNELLA提出的這種將核方法與動態稀疏性結合的思路非常新穎，它不僅解決了現有稀疏微調方法的痛點，也為未來如何更高效地利用大模型提供了寶貴的啟發。作者已經開源了代碼，強烈推薦感興趣的同學去嘗試和探索。

大家對這種端到端的稀疏微調方法怎么看？歡迎在評論區一起交流！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.