神經(jīng)網(wǎng)絡(luò)中的非線性激活函數(shù),長期以來被視為深度學(xué)習(xí)成功的基石。然而,這些激活模型的工作原理一直缺乏清晰的解釋框架。本文從全新的多準(zhǔn)則決策理論角度,重新審視神經(jīng)特征激活的本質(zhì)。當(dāng)我們把激活函數(shù)視為一種選擇性特征重校準(zhǔn)器時(shí),一個(gè)被長期忽視的關(guān)鍵問題浮出水面:特征評分不匹配問題。傳統(tǒng)激活函數(shù)無法有效解耦特征和過濾器的范數(shù)差異,導(dǎo)致特征重要性評估偏差。這一發(fā)現(xiàn)引領(lǐng)我們設(shè)計(jì)了瞬時(shí)重要性估計(jì)單元(IIEU),通過自適應(yīng)范數(shù)解耦的相似度測量,有效提升了神經(jīng)網(wǎng)絡(luò)性能。在多個(gè)計(jì)算機(jī)視覺基準(zhǔn)測試中,IIEU展現(xiàn)出顯著優(yōu)勢。
![]()
激活函數(shù)的局限
在深度學(xué)習(xí)的世界里,非線性激活函數(shù)扮演著不可或缺的角色。它們就像神經(jīng)網(wǎng)絡(luò)中的"開關(guān)",決定哪些信息可以傳遞,哪些信息需要被抑制。沒有這些激活函數(shù),再深的網(wǎng)絡(luò)也只能表達(dá)線性關(guān)系,無法學(xué)習(xí)復(fù)雜的模式。
自2012年AlexNet在ImageNet競賽上取得突破性成績以來,神經(jīng)網(wǎng)絡(luò)在圖像識別、物體檢測等任務(wù)中的表現(xiàn)持續(xù)提升。這些成功很大程度上歸功于ReLU(修正線性單元)等激活函數(shù)的應(yīng)用。ReLU的簡單公式f(x)=max(0,x)意味著它只傳遞正值,將負(fù)值變?yōu)榱恪_@種設(shè)計(jì)使得網(wǎng)絡(luò)訓(xùn)練速度加快,也緩解了梯度消失問題。
傳統(tǒng)的激活函數(shù)主要受到生物神經(jīng)元行為的啟發(fā)。比如Softplus函數(shù)試圖模擬神經(jīng)元從完全不激活到完全激活的平滑過渡過程。ReLU則可看作是Softplus的一個(gè)簡化近似。這些基于生物學(xué)的啟發(fā)雖然有效,但缺乏對其為何能在人工神經(jīng)網(wǎng)絡(luò)中有效工作的清晰解釋。
隨著研究的深入,學(xué)術(shù)界提出了多種激活函數(shù)的改進(jìn)版本。LeakyReLU允許負(fù)值以一個(gè)小系數(shù)傳遞,以避免"死亡ReLU"問題。PReLU則進(jìn)一步將這個(gè)小系數(shù)設(shè)為可學(xué)習(xí)參數(shù)。GELU引入了高斯誤差線性單元,結(jié)合了高斯分布的累積分布函數(shù)。Swish函數(shù)使用Sigmoid函數(shù)對輸入進(jìn)行門控,形成了自門控激活函數(shù)。
這些改進(jìn)方向主要集中在三個(gè)方面:增加通道上下文(如FReLU、DyReLU)、采用統(tǒng)計(jì)策略(如GELU、Pserf)和任務(wù)特定的周期函數(shù)。盡管這些方法取得了一定進(jìn)展,但它們?nèi)匀蝗狈σ粋€(gè)統(tǒng)一的解釋框架,來指導(dǎo)如何設(shè)計(jì)更有效的激活函數(shù)。
更為核心的問題是,現(xiàn)有的激活函數(shù)改進(jìn)主要基于經(jīng)驗(yàn)嘗試,缺乏對神經(jīng)網(wǎng)絡(luò)中激活機(jī)制本質(zhì)的深入理解。它們往往只關(guān)注激活函數(shù)的形式,而忽視了激活過程背后的深層原理。這導(dǎo)致了研究方向的分散和改進(jìn)效果的有限。
![]()
在實(shí)際應(yīng)用中,這些激活函數(shù)面臨著各種挑戰(zhàn)。比如在淺層網(wǎng)絡(luò)中表現(xiàn)良好的激活函數(shù)在深層網(wǎng)絡(luò)中可能效果不佳;為圖像任務(wù)優(yōu)化的激活函數(shù)可能不適用于自然語言處理任務(wù);計(jì)算復(fù)雜度與性能提升之間的權(quán)衡也是一個(gè)實(shí)際問題。
究其根本,現(xiàn)有激活函數(shù)發(fā)展的瓶頸在于缺乏理論指導(dǎo)。沒有清晰的解釋框架,我們難以系統(tǒng)地理解不同激活函數(shù)的優(yōu)劣勢,也難以有針對性地設(shè)計(jì)更有效的激活機(jī)制。這就像在黑暗中摸索前進(jìn),可能會有所收獲,但效率低下且方向不明。
決策理論新視角
傳統(tǒng)上,我們理解神經(jīng)網(wǎng)絡(luò)激活函數(shù)的方式主要來自神經(jīng)科學(xué),但這種視角有其局限性。如果從多準(zhǔn)則決策理論(MCDM)的角度重新思考,我們可以獲得全新的理解。
MCDM是一種在多個(gè)標(biāo)準(zhǔn)下評估和選擇最佳方案的理論框架。在這個(gè)視角下,神經(jīng)網(wǎng)絡(luò)的特征激活過程可以理解為一種選擇性重校準(zhǔn)過程——根據(jù)特征的重要性來選擇性地抑制或強(qiáng)調(diào)不同的特征。
![]()
具體來說,我們可以把每個(gè)濾波器看作一個(gè)可更新的"理想候選",而特征向量則是需要評估的"替代候選"。特征和濾波器之間的內(nèi)積(即相似度)就成為了評估特征重要性的一種度量。這種相似度越高,表明特征越符合濾波器所代表的標(biāo)準(zhǔn),應(yīng)當(dāng)被賦予更高的權(quán)重;相似度低或?yàn)樨?fù)值的特征則可能對學(xué)習(xí)有害,應(yīng)被抑制。
在這個(gè)框架下,激活函數(shù)的非線性特性可以被理解為一種"松散選擇性",它是區(qū)分特征重要性的必要但非充分條件。理想的激活函數(shù)應(yīng)能根據(jù)特征的真實(shí)重要性來靈活調(diào)整其影響力。
然而,當(dāng)我們深入分析特征-濾波器內(nèi)積作為重要性度量時(shí),發(fā)現(xiàn)了一個(gè)被長期忽視的關(guān)鍵問題:特征評分不匹配問題。這個(gè)問題源于特征和濾波器的范數(shù)(即向量的長度)差異。
想象這樣一個(gè)場景:兩個(gè)特征向量x和y與兩個(gè)濾波器w和u,滿足x與w高度相似,而y與u和w都不相似。但由于范數(shù)差異,計(jì)算出的內(nèi)積可能會有〈u,y〉=〈w,x〉并且〈w,y〉=〈w,x〉的情況。這意味著,盡管y對u和w都不相似,但它獲得了與x相同的"重要性得分"。這顯然不合理,會導(dǎo)致網(wǎng)絡(luò)對特征重要性的錯誤判斷。
為了解決這個(gè)問題,我們提出了瞬時(shí)重要性(II)和傳遞性重要性(TI)兩個(gè)概念。TI分?jǐn)?shù)就是傳統(tǒng)的特征-濾波器內(nèi)積,它包含了由先前層傳遞過來的信息,但容易受到范數(shù)差異的影響。II分?jǐn)?shù)則試圖測量特征與濾波器之間的范數(shù)獨(dú)立相似度,能更準(zhǔn)確地反映特征的當(dāng)前重要性。
一個(gè)自然的解決方案是使用余弦相似度(內(nèi)積除以兩者范數(shù)的乘積)作為II分?jǐn)?shù)。但簡單的余弦相似度假設(shè)濾波器是其標(biāo)準(zhǔn)的完美代表,這在訓(xùn)練早期階段往往不成立。因此,我們需要一個(gè)更靈活的解決方案,能夠適應(yīng)不同的訓(xùn)練狀態(tài)。
這就引出了我們的IIEU(瞬時(shí)重要性估計(jì)單元)設(shè)計(jì)。IIEU通過結(jié)合傳遞性重要性分?jǐn)?shù)和自適應(yīng)范數(shù)解耦的瞬時(shí)重要性分?jǐn)?shù),實(shí)現(xiàn)了更準(zhǔn)確的特征重要性評估。具體來說,IIEU使用公式φ(x?)=?(x?/(||x||||w||)+ν)x?,其中x?是特征-濾波器內(nèi)積,?是調(diào)節(jié)函數(shù),ν是可學(xué)習(xí)的偏置項(xiàng)。
這種設(shè)計(jì)讓IIEU能夠有效處理特征評分不匹配問題。通過使用x?/(||x||||w||)作為主相似度項(xiàng)(項(xiàng)-S),IIEU解耦了特征和濾波器的范數(shù)影響;通過引入適應(yīng)性偏置項(xiàng)ν(項(xiàng)-B),IIEU進(jìn)一步提高了相似度估計(jì)的靈活性。最終,IIEU實(shí)現(xiàn)了對特征重要性的更準(zhǔn)確評估,從而能更有效地選擇性重校準(zhǔn)特征。
與傳統(tǒng)激活函數(shù)相比,IIEU從根本上改變了特征激活的方式。它不再是簡單地應(yīng)用一個(gè)固定或可學(xué)習(xí)的非線性函數(shù),而是基于特征的真實(shí)重要性進(jìn)行動態(tài)調(diào)整。這種方法能夠更好地利用跨通道信息,并在濾波器更新過程中提供更豐富的指導(dǎo)信號。
在實(shí)踐中,IIEU表現(xiàn)出了明顯的優(yōu)勢。在ImageNet圖像分類任務(wù)上,使用IIEU的ResNet-26網(wǎng)絡(luò)能達(dá)到或超過使用其他最先進(jìn)激活函數(shù)的ResNet-101網(wǎng)絡(luò)的性能,同時(shí)具有更少的參數(shù)和計(jì)算量。這一成果充分證明了從決策理論角度重新思考神經(jīng)特征激活的價(jià)值。
IIEU的設(shè)計(jì)之道
在理解了特征激活的本質(zhì)和發(fā)現(xiàn)特征評分不匹配問題后,我們需要設(shè)計(jì)一個(gè)能解決這些問題的新型激活函數(shù)。IIEU(瞬時(shí)重要性估計(jì)單元)就是為此而生的。它不僅僅是對已有激活函數(shù)的簡單修改,而是基于全新理論框架構(gòu)建的激活機(jī)制。
![]()
IIEU的核心思想很直觀:我們希望激活函數(shù)能夠準(zhǔn)確評估特征的重要性,并據(jù)此進(jìn)行選擇性重校準(zhǔn)。為此,IIEU引入了一個(gè)關(guān)鍵公式:φ(x?)=?(x?/(||x||||w||)+ν)x?。這個(gè)看似復(fù)雜的公式其實(shí)包含了兩個(gè)主要部分:范數(shù)解耦的相似度測量(x?/(||x||||w||))和可學(xué)習(xí)的偏置項(xiàng)(ν)。
范數(shù)解耦的相似度測量(被稱為"項(xiàng)-S")解決了特征評分不匹配問題。傳統(tǒng)的特征-濾波器內(nèi)積會受到向量長度(范數(shù))的影響,導(dǎo)致重要性評估偏差。通過除以兩者范數(shù)的乘積,IIEU消除了這種影響,使得相似度測量更加準(zhǔn)確。
可學(xué)習(xí)的偏置項(xiàng)(被稱為"項(xiàng)-B")則增加了靈活性。理想情況下,濾波器應(yīng)該是其標(biāo)準(zhǔn)的完美代表,但在實(shí)際訓(xùn)練中特別是早期階段,這一點(diǎn)難以保證。偏置項(xiàng)允許模型根據(jù)訓(xùn)練狀態(tài)動態(tài)調(diào)整相似度評估,從而更好地適應(yīng)不同階段的需求。
在IIEU的實(shí)際實(shí)現(xiàn)中,我們有兩個(gè)版本:基礎(chǔ)版IIEU-B和增強(qiáng)版IIEU-DC。IIEU-B直接實(shí)現(xiàn)了上述設(shè)計(jì)理念,其中偏置項(xiàng)ν通過對通道統(tǒng)計(jì)量應(yīng)用LayerNorm和Sigmoid函數(shù)得到。這確保了偏置項(xiàng)是有界且為正的,避免了其對主相似度項(xiàng)的過度干擾。
IIEU-B還使用了一個(gè)條件調(diào)節(jié)函數(shù)?。當(dāng)估計(jì)的相似度大于等于學(xué)習(xí)閾值η時(shí),函數(shù)直接輸出該相似度;當(dāng)小于η時(shí),函數(shù)應(yīng)用一個(gè)指數(shù)衰減,確保低重要性特征的影響被適當(dāng)抑制。這種設(shè)計(jì)滿足了我們之前提出的有效激活模型的多項(xiàng)屬性。
IIEU-DC是對IIEU-B的進(jìn)一步增強(qiáng),專門針對包含捷徑連接(shortcut connections)的現(xiàn)代網(wǎng)絡(luò)架構(gòu)。在這些網(wǎng)絡(luò)中,來自主分支和捷徑的特征需要融合,但它們的重要性評估可能不具可比性。IIEU-DC通過動態(tài)耦合器(Dynamic Coupler)解決了這個(gè)問題。
動態(tài)耦合器是一個(gè)輕量級模塊,它利用主分支和捷徑特征的通道上下文信息,動態(tài)估計(jì)它們的融合權(quán)重。與傳統(tǒng)方法不同,IIEU-DC不僅對主分支應(yīng)用權(quán)重,還同時(shí)為捷徑特征分配權(quán)重,實(shí)現(xiàn)了更智能的特征融合。
![]()
IIEU的設(shè)計(jì)不僅在理論上合理,在實(shí)踐中也表現(xiàn)出色。與傳統(tǒng)激活函數(shù)不同,IIEU能夠建模詳細(xì)的跨通道特征-濾波器交互,并利用這些信息指導(dǎo)濾波器更新。這種能力使IIEU特別適合處理復(fù)雜的模式識別任務(wù)。
值得注意的是,盡管IIEU引入了新的計(jì)算組件,但其額外開銷相當(dāng)有限。在標(biāo)準(zhǔn)網(wǎng)絡(luò)中,IIEU-B僅增加約0.3%的參數(shù)和1.3%的計(jì)算量。這種低開銷高回報(bào)的特性使IIEU成為各種神經(jīng)網(wǎng)絡(luò)的理想激活函數(shù)選擇。
性能實(shí)證檢驗(yàn)
理論再完美,最終也要靠實(shí)際效果說話。IIEU在各種計(jì)算機(jī)視覺任務(wù)上的表現(xiàn)如何?我們通過一系列實(shí)驗(yàn)來回答這個(gè)問題。
在ImageNet圖像分類測試中,IIEU顯示出了令人印象深刻的性能。以ResNet-50為例,使用ReLU的基準(zhǔn)模型能達(dá)到76.0%的Top-1準(zhǔn)確率,而使用IIEU-B和IIEU-DC的模型分別達(dá)到了79.2%和80.0%的準(zhǔn)確率,提升了3.2%和4.0%。這種提升幅度遠(yuǎn)超過其他最先進(jìn)的激活函數(shù),如Swish(77.3%)和SMU(77.5%)。
更為驚人的是,使用IIEU的較小網(wǎng)絡(luò)能夠匹配甚至超過使用其他激活函數(shù)的更大網(wǎng)絡(luò)。例如,配備IIEU-DC的ResNet-26(僅有16.0M參數(shù))達(dá)到了78.7%的準(zhǔn)確率,超過了使用ReLU的ResNet-50(76.0%,25.6M參數(shù))。而配備IIEU-DC的ResNet-50(28.3M參數(shù))則達(dá)到了80.3%的準(zhǔn)確率,超過了使用最先進(jìn)激活函數(shù)的ResNet-101(約44.5M參數(shù),準(zhǔn)確率在77.2%-78.9%之間)。
在輕量級網(wǎng)絡(luò)上,IIEU的效果更加顯著。對于MobileNetV2 0.17,使用IIEU-B和IIEU-DC分別將基準(zhǔn)準(zhǔn)確率從49.7%提升到了58.0%和58.1%,增幅高達(dá)8.3%和8.4%。對于ShuffleNetV2 1.0,準(zhǔn)確率從69.4%提升到了73.3%和74.0%,增幅為3.9%和4.6%。
除了ImageNet外,IIEU在CIFAR-100數(shù)據(jù)集上也表現(xiàn)出色。對于CIFAR版本的ResNet-56,使用IIEU-B和IIEU-DC分別將準(zhǔn)確率從74.4%提升到了77.2%和78.1%。對于ShuffleNetV2,準(zhǔn)確率從72.9%提升到了76.0%和76.8%。這些結(jié)果表明IIEU在不同規(guī)模的數(shù)據(jù)集上都能穩(wěn)定發(fā)揮作用。
為了驗(yàn)證IIEU各組件的有效性,我們進(jìn)行了一系列消融實(shí)驗(yàn)。當(dāng)移除范數(shù)解耦的相似度測量(項(xiàng)-S)時(shí),模型性能從77.2%驟降至32.6%,證明了這一組件的關(guān)鍵性。當(dāng)替換調(diào)節(jié)函數(shù)時(shí),性能也有不同程度的下降,驗(yàn)證了我們設(shè)計(jì)的條件調(diào)節(jié)函數(shù)的合理性。
特別值得一提的是,即使在沒有調(diào)節(jié)函數(shù)的情況下,僅使用范數(shù)解耦的相似度測量也能將準(zhǔn)確率提升到76.6%,遠(yuǎn)高于ReLU基準(zhǔn)的74.4%。這再次證明了特征評分不匹配問題的重要性及我們解決方案的有效性。
![]()
在偏置項(xiàng)的設(shè)計(jì)上,我們嘗試了不同的正約束方式。使用Sigmoid函數(shù)的原始設(shè)計(jì)(準(zhǔn)確率77.2%)優(yōu)于使用Softplus函數(shù)(76.8%)和完全移除正約束(75.8%)的變體。這驗(yàn)證了我們關(guān)于偏置項(xiàng)應(yīng)當(dāng)有界且為正的理論推斷。
除了圖像分類,IIEU在其他視覺任務(wù)上也表現(xiàn)出色。在COCO對象檢測任務(wù)中,用IIEU替換Faster R-CNN中的ReLU將平均精度(AP)從37.4%提升到了40.1%。在KITTI-Materials道路場景材料分割任務(wù)中,使用IIEU的DeepLabV3+網(wǎng)絡(luò)比使用ReLU的基準(zhǔn)提高了1.7%的平均IoU。
這些實(shí)驗(yàn)結(jié)果不僅證明了IIEU的有效性和通用性,也驗(yàn)證了我們從多準(zhǔn)則決策理論出發(fā)重新解釋神經(jīng)特征激活的合理性。通過解決特征評分不匹配問題,IIEU能夠更準(zhǔn)確地評估特征重要性,從而實(shí)現(xiàn)更有效的選擇性重校準(zhǔn)。
在訓(xùn)練穩(wěn)定性方面,IIEU也表現(xiàn)出明顯優(yōu)勢。與一些復(fù)雜的激活函數(shù)可能導(dǎo)致訓(xùn)練不穩(wěn)定或失敗不同,IIEU在各種訓(xùn)練配置下都能穩(wěn)定收斂。這種穩(wěn)定性使IIEU特別適合實(shí)際應(yīng)用場景。
總的來說,實(shí)驗(yàn)結(jié)果表明IIEU不僅在理論上合理,在實(shí)踐中也能帶來顯著的性能提升。通過重新思考神經(jīng)特征激活的本質(zhì),我們找到了一條提升神經(jīng)網(wǎng)絡(luò)性能的新路徑。
參考資料來源:
Cai, S. (2021). IIEU: Rethinking Neural Feature Activation from Decision-Making. ICCV 2021.
Relu, Softplus等基礎(chǔ)激活函數(shù)相關(guān)研究
多準(zhǔn)則決策理論(MCDM)相關(guān)文獻(xiàn)
神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的最新進(jìn)展(2021-2023)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.