![]()
微調(diào)后的視覺語言模型在眾多計(jì)算機(jī)視覺任務(wù)中展現(xiàn)出卓越性能。然而,反向傳播作為微調(diào)過程中調(diào)整模型權(quán)重的標(biāo)準(zhǔn)方法,從輸出誤差開始反向計(jì)算,計(jì)算成本昂貴,在資源受限的邊緣設(shè)備上難以實(shí)現(xiàn)。
一種替代方案是僅依賴前向傳播的微調(diào)策略,這能顯著降低計(jì)算需求。零階估計(jì)是其中一種方法,但現(xiàn)有的基于零階估計(jì)的視覺語言模型微調(diào)方法在準(zhǔn)確性和收斂性方面仍遠(yuǎn)遜于基于反向傳播的訓(xùn)練。
一個(gè)主要挑戰(zhàn)是零階估計(jì)的高方差,這可能導(dǎo)致從一批訓(xùn)練數(shù)據(jù)中得出的梯度估計(jì)(權(quán)重調(diào)整方向)不一致且充滿噪聲。這會(huì)導(dǎo)致訓(xùn)練動(dòng)態(tài)不穩(wěn)定,使模型難以收斂到最優(yōu)解。此外,零階估計(jì)傾向于局部搜索動(dòng)態(tài),意味著它可能困在局部最優(yōu)但全局次優(yōu)的損失景觀區(qū)域。
在今年神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表的論文中,研究團(tuán)隊(duì)提出了SharpZO,這是一種混合銳度感知零階優(yōu)化方法,僅使用前向傳播來微調(diào)視覺語言模型。SharpZO采用兩階段優(yōu)化過程:第一階段是全局探索階段,使用進(jìn)化策略平滑損失景觀,構(gòu)建強(qiáng)初始化;第二階段是局部搜索階段,使用零階估計(jì)來抑制異常梯度估計(jì)。
在實(shí)驗(yàn)中,SharpZO將僅使用前向傳播方法如ZIP和BlackVIP的準(zhǔn)確率平均提高了7%,在多項(xiàng)任務(wù)中,其性能接近需要梯度反向傳播的一階方法CoOP。
損失景觀的概念
給定模型和一組訓(xùn)練數(shù)據(jù),模型的每個(gè)可能參數(shù)(權(quán)重和偏置)都可以映射到訓(xùn)練數(shù)據(jù)上相應(yīng)的損失或誤差,在高維空間中產(chǎn)生單個(gè)點(diǎn)。參數(shù)設(shè)置與損失的圖形可以想象為具有峰值(高損失區(qū)域)和谷底(低損失區(qū)域)的景觀。訓(xùn)練的目標(biāo)是將參數(shù)設(shè)置引導(dǎo)到景觀中最低谷的底部。
計(jì)算完整景觀是不可行的,但給定特定位置(參數(shù)設(shè)置集),可以計(jì)算局部斜率方向(梯度)并推動(dòng)損失下降。這就是反向傳播的工作原理。
零階估計(jì)是通過在景觀中各個(gè)附近點(diǎn)采樣損失來估計(jì)(而非計(jì)算)局部梯度的方法。但零階估計(jì)的高方差使景觀看起來比實(shí)際更加鋸齒狀或更尖銳,具有更多更高的峰值。這增加了優(yōu)化算法困在局部最小值的幾率,即損失實(shí)際上顯著大于全局最小值的局部谷底。
研究方法是使用進(jìn)化算法,特別是銳度感知協(xié)方差矩陣自適應(yīng)進(jìn)化策略,來平滑損失景觀的銳度。然后使用略微修改的零階算法找到全局最小值。
銳度感知協(xié)方差矩陣自適應(yīng)進(jìn)化策略
協(xié)方差矩陣自適應(yīng)進(jìn)化策略不僅估計(jì)局部梯度,還估計(jì)整個(gè)可能參數(shù)值集合上損失的分布。它還估計(jì)分布的協(xié)方差矩陣,這是描述參數(shù)值之間相關(guān)性的矩陣。分布的均值和協(xié)方差矩陣的值都在每輪訓(xùn)練后更新。
研究團(tuán)隊(duì)通過在損失函數(shù)中包含額外項(xiàng)來修改普通的協(xié)方差矩陣自適應(yīng)進(jìn)化策略方法,該項(xiàng)考慮了給定當(dāng)前分布和協(xié)方差矩陣估計(jì)下模型可能產(chǎn)生的最壞損失。最小化這一項(xiàng)有助于平滑估計(jì)的損失景觀。
應(yīng)用協(xié)方差矩陣自適應(yīng)進(jìn)化策略后,使用修改的稀疏零階算法進(jìn)行更精細(xì)的局部搜索。傳統(tǒng)稀疏零階通過丟棄低幅度項(xiàng)來降低梯度估計(jì)的維度。研究團(tuán)隊(duì)通過根據(jù)梯度向量的均值和標(biāo)準(zhǔn)差對(duì)其進(jìn)行歸一化來修改這一過程,這再次有助于平滑損失景觀。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在11個(gè)不同的下游任務(wù)上使用具有各種骨干網(wǎng)絡(luò)的CLIP模型評(píng)估了SharpZO。除了相比ZIP和BlackVIP等僅前向傳播方法平均準(zhǔn)確率提升7%,以及與CoOP競(jìng)爭(zhēng)的性能外,該方法還實(shí)現(xiàn)了顯著更快的收斂。例如,在ImageNet數(shù)據(jù)集上,SharpZO在15.3分鐘內(nèi)達(dá)到目標(biāo)準(zhǔn)確率,而ZIP需要19分鐘,BlackVIP需要170分鐘。
SharpZO不僅通過避免梯度存儲(chǔ)減少了內(nèi)存占用,還確保這種效率不以準(zhǔn)確性為代價(jià)。研究還發(fā)現(xiàn)該方法對(duì)分布偏移具有魯棒性,在分布外任務(wù)上表現(xiàn)優(yōu)于基線方法,如識(shí)別素描圖像或圖像對(duì)抗樣本。
目前,SharpZO針對(duì)提示調(diào)優(yōu)進(jìn)行了優(yōu)化,其中可訓(xùn)練參數(shù)數(shù)量相對(duì)較小,擴(kuò)展到完整模型微調(diào)仍是未來挑戰(zhàn)。此外,銳度感知協(xié)方差矩陣自適應(yīng)進(jìn)化策略預(yù)熱階段需要坐標(biāo)方向梯度估計(jì),這在高維設(shè)置中可能計(jì)算成本昂貴。這使得SharpZO成為參數(shù)高效微調(diào)的合適候選。
Q&A
Q1:SharpZO是什么?它解決了什么問題?
A:SharpZO是一種混合銳度感知零階優(yōu)化方法,專門用于在內(nèi)存受限設(shè)備上微調(diào)視覺語言模型。它解決了傳統(tǒng)反向傳播方法計(jì)算成本高昂,以及現(xiàn)有零階估計(jì)方法準(zhǔn)確性和收斂性不足的問題,僅使用前向傳播就能實(shí)現(xiàn)高效微調(diào)。
Q2:SharpZO相比其他方法有什么優(yōu)勢(shì)?
A:SharpZO在實(shí)驗(yàn)中將僅前向傳播方法的準(zhǔn)確率平均提高了7%,性能接近需要反向傳播的CoOP方法。同時(shí)實(shí)現(xiàn)更快收斂,在ImageNet數(shù)據(jù)集上僅需15.3分鐘達(dá)到目標(biāo)準(zhǔn)確率,遠(yuǎn)快于其他前向傳播方法,還能減少內(nèi)存占用并對(duì)分布偏移具有魯棒性。
Q3:SharpZO的兩階段優(yōu)化過程是如何工作的?
A:第一階段是全局探索階段,使用銳度感知協(xié)方差矩陣自適應(yīng)進(jìn)化策略來平滑損失景觀,構(gòu)建強(qiáng)初始化;第二階段是局部搜索階段,使用修改的稀疏零階算法進(jìn)行精細(xì)的局部搜索,通過梯度向量歸一化進(jìn)一步平滑損失景觀。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.