<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      華為諾亞實(shí)驗(yàn)室:非平滑組件提升Vision Transformer學(xué)習(xí)效率

      0
      分享至


      在機(jī)器學(xué)習(xí)的世界里,一直存在著一個(gè)看似矛盾的現(xiàn)象。就像烹飪中我們通常追求食材的均勻混合和口感的平滑一樣,傳統(tǒng)的深度學(xué)習(xí)理論告訴我們,模型越"平滑"越好——這意味著輸入稍微改變時(shí),輸出也只會(huì)平緩地變化。然而,華為諾亞方舟實(shí)驗(yàn)室聯(lián)合多家歐洲知名研究機(jī)構(gòu)的一項(xiàng)最新研究卻發(fā)現(xiàn)了一個(gè)顛覆性的結(jié)論:在視覺(jué)變換器(Vision Transformer,簡(jiǎn)稱ViT)的微調(diào)過(guò)程中,那些"不平滑"的組件反而表現(xiàn)得更加出色。

      這項(xiàng)研究由華為諾亞方舟實(shí)驗(yàn)室牽頭,聯(lián)合法國(guó)國(guó)家信息與自動(dòng)化研究所(Inria)、法國(guó)雷恩大學(xué)以及法國(guó)農(nóng)業(yè)科學(xué)院共同完成,并于2026年2月發(fā)表。研究團(tuán)隊(duì)提出了一個(gè)全新的概念——"可塑性"(Plasticity),用來(lái)衡量模型組件對(duì)輸入變化的敏感程度。正如陶泥在陶藝師手中越柔軟越容易塑形一樣,研究發(fā)現(xiàn)可塑性越強(qiáng)的組件在適應(yīng)新任務(wù)時(shí)效果越好。

      這一發(fā)現(xiàn)對(duì)于當(dāng)前火熱的大模型時(shí)代具有重要意義。當(dāng)我們擁有一個(gè)在海量數(shù)據(jù)上預(yù)訓(xùn)練的強(qiáng)大模型時(shí),如何高效地將其適應(yīng)到特定任務(wù)上,一直是研究者和工程師們關(guān)注的焦點(diǎn)。傳統(tǒng)的做法往往需要大量的計(jì)算資源和時(shí)間,而這項(xiàng)研究為我們指明了一條更加精確和高效的道路。

      研究團(tuán)隊(duì)通過(guò)嚴(yán)謹(jǐn)?shù)睦碚摲治龊痛笠?guī)模實(shí)驗(yàn)驗(yàn)證,系統(tǒng)地比較了視覺(jué)變換器中五個(gè)核心組件的表現(xiàn):多頭自注意力機(jī)制、兩個(gè)前饋網(wǎng)絡(luò)層以及兩個(gè)層歸一化模塊。結(jié)果令人驚訝地發(fā)現(xiàn),傳統(tǒng)上被認(rèn)為應(yīng)該保持穩(wěn)定的"平滑"組件,在模型適應(yīng)新任務(wù)時(shí)反而成為了"拖后腿"的存在,而那些變化劇烈的"叛逆分子"卻成為了學(xué)習(xí)的主力軍。

      這項(xiàng)研究不僅在理論上具有突破性意義,更在實(shí)際應(yīng)用中展現(xiàn)出巨大潛力。研究團(tuán)隊(duì)使用了一個(gè)擁有8600萬(wàn)參數(shù)的視覺(jué)變換器模型,在11個(gè)不同的圖像分類任務(wù)上進(jìn)行了詳盡的測(cè)試。實(shí)驗(yàn)結(jié)果一致表明,專門(mén)訓(xùn)練那些高可塑性組件能夠獲得更好且更穩(wěn)定的性能表現(xiàn)。這意味著在有限的計(jì)算資源下,我們可以通過(guò)更精準(zhǔn)的策略來(lái)提升模型性能,而不必盲目地增加訓(xùn)練數(shù)據(jù)或延長(zhǎng)訓(xùn)練時(shí)間。

      更重要的是,這一發(fā)現(xiàn)打破了我們對(duì)"平滑性"的固有認(rèn)知。研究表明,在特定的學(xué)習(xí)場(chǎng)景下,保持一定程度的"不穩(wěn)定性"反而有助于模型更好地探索和適應(yīng)新的數(shù)據(jù)分布。這就像登山時(shí),過(guò)于平穩(wěn)的步伐可能會(huì)讓我們困在某個(gè)平臺(tái)上,而適度的"冒險(xiǎn)"和變化反而能幫助我們攀登到更高的峰頂。

      一、理論基礎(chǔ):用"可塑性"重新理解模型學(xué)習(xí)

      在深入探討這項(xiàng)研究的具體發(fā)現(xiàn)之前,我們需要理解一個(gè)核心概念——可塑性。研究團(tuán)隊(duì)借鑒了神經(jīng)科學(xué)中大腦可塑性的概念,提出了衡量模型組件適應(yīng)能力的新指標(biāo)。

      可塑性本質(zhì)上衡量的是一個(gè)組件對(duì)輸入變化的敏感程度。設(shè)想你正在調(diào)節(jié)收音機(jī)的頻道,有些旋鈕輕輕一轉(zhuǎn)就能帶來(lái)明顯的變化,而有些旋鈕需要用力轉(zhuǎn)動(dòng)很久才有微小的改變。前者就具有高可塑性,后者則可塑性較低。在數(shù)學(xué)上,可塑性被定義為組件輸出變化與輸入變化比值的平均值。

      研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)看似簡(jiǎn)單的指標(biāo)實(shí)際上與模型的學(xué)習(xí)能力密切相關(guān)。當(dāng)一個(gè)組件具有高可塑性時(shí),它能夠產(chǎn)生較大的梯度值,從而在反向傳播過(guò)程中推動(dòng)更顯著的參數(shù)更新。這就像一個(gè)敏感的溫度計(jì)能夠快速響應(yīng)環(huán)境溫度的細(xì)微變化一樣,高可塑性組件能夠敏銳地捕捉到數(shù)據(jù)中的細(xì)微模式,并迅速調(diào)整自身的行為來(lái)適應(yīng)新的任務(wù)需求。

      傳統(tǒng)的深度學(xué)習(xí)理論強(qiáng)調(diào)平滑性,認(rèn)為模型應(yīng)該對(duì)輸入的小幅擾動(dòng)保持穩(wěn)定的輸出。這種觀點(diǎn)在模型的泛化性能和對(duì)抗魯棒性方面確實(shí)有其合理性。然而,在微調(diào)場(chǎng)景下,情況卻截然不同。當(dāng)我們需要將一個(gè)預(yù)訓(xùn)練模型適應(yīng)到新的數(shù)據(jù)分布時(shí),過(guò)度的平滑性反而會(huì)成為學(xué)習(xí)的障礙。

      這種現(xiàn)象可以通過(guò)一個(gè)生動(dòng)的比喻來(lái)理解。平滑的組件就像是已經(jīng)凝固的混凝土,雖然穩(wěn)定可靠,但很難再進(jìn)行改造。而具有高可塑性的組件則像是尚未完全干燥的黏土,雖然看起來(lái)不夠"穩(wěn)重",但正是這種"不穩(wěn)定性"使它們能夠被重新塑形,適應(yīng)新的需求。

      研究團(tuán)隊(duì)通過(guò)深入的理論分析,為不同類型的組件建立了可塑性的數(shù)學(xué)上界。對(duì)于層歸一化這類平滑組件,其可塑性受到歸一化參數(shù)的嚴(yán)格限制。而對(duì)于多頭自注意力機(jī)制,由于其內(nèi)在的非線性特性和對(duì)序列長(zhǎng)度的依賴,具有更高的可塑性上界。前饋網(wǎng)絡(luò)層則介于兩者之間,其可塑性主要由權(quán)重矩陣的譜范數(shù)決定。

      這些理論分析不僅為實(shí)驗(yàn)觀察提供了數(shù)學(xué)基礎(chǔ),更重要的是揭示了不同組件在學(xué)習(xí)過(guò)程中扮演的不同角色。層歸一化更多地承擔(dān)"穩(wěn)定器"的功能,確保訓(xùn)練過(guò)程的穩(wěn)定性;而自注意力機(jī)制則更像是"探索者",負(fù)責(zé)發(fā)現(xiàn)和學(xué)習(xí)新的模式;前饋網(wǎng)絡(luò)則是"執(zhí)行者",將學(xué)到的知識(shí)轉(zhuǎn)化為具體的預(yù)測(cè)結(jié)果。

      這種角色分工在微調(diào)過(guò)程中變得尤為重要。當(dāng)面臨新的任務(wù)時(shí),我們需要的不是所有組件都保持穩(wěn)定,而是讓最具探索能力的組件去主導(dǎo)學(xué)習(xí)過(guò)程。這就像在一個(gè)探險(xiǎn)隊(duì)伍中,當(dāng)遇到未知地形時(shí),應(yīng)該讓最有經(jīng)驗(yàn)和最敏感的向?qū)?lái)帶路,而不是讓整個(gè)隊(duì)伍都保持謹(jǐn)慎的步伐。

      二、實(shí)驗(yàn)設(shè)計(jì):全方位驗(yàn)證"可塑性"理論

      為了驗(yàn)證可塑性理論,研究團(tuán)隊(duì)設(shè)計(jì)了一套全面而嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方案。他們選擇了視覺(jué)變換器作為研究對(duì)象,這是目前計(jì)算機(jī)視覺(jué)領(lǐng)域最重要的架構(gòu)之一。實(shí)驗(yàn)使用了兩種不同規(guī)模的模型:一個(gè)擁有8600萬(wàn)參數(shù)的ViT-Base模型和一個(gè)擁有6.32億參數(shù)的ViT-Huge模型。

      實(shí)驗(yàn)的核心思路是將視覺(jué)變換器中的五個(gè)主要組件分別進(jìn)行獨(dú)立訓(xùn)練,然后比較它們?cè)诓煌蝿?wù)上的表現(xiàn)。這些組件包括:預(yù)處理自注意力的層歸一化(LN1)、多頭自注意力機(jī)制(MHA)、預(yù)處理前饋網(wǎng)絡(luò)的層歸一化(LN2)、前饋網(wǎng)絡(luò)的第一層(FC1)和第二層(FC2)。這種"分而治之"的方法讓研究團(tuán)隊(duì)能夠精確地評(píng)估每個(gè)組件的貢獻(xiàn)。

      為了確保實(shí)驗(yàn)結(jié)果的可靠性和普適性,研究團(tuán)隊(duì)精心選擇了11個(gè)不同的圖像分類數(shù)據(jù)集。這些數(shù)據(jù)集涵蓋了從經(jīng)典的CIFAR-10和CIFAR-100,到具有挑戰(zhàn)性的領(lǐng)域適應(yīng)任務(wù)如DomainNet的Clipart和Sketch域,再到專門(mén)的細(xì)粒度分類任務(wù)如Flowers102和Oxford-IIIT Pet。每個(gè)數(shù)據(jù)集都代表了不同的視覺(jué)挑戰(zhàn)和學(xué)習(xí)難度,這樣的多樣性確保了實(shí)驗(yàn)結(jié)論的廣泛適用性。

      在實(shí)驗(yàn)的具體執(zhí)行過(guò)程中,研究團(tuán)隊(duì)采用了嚴(yán)格的對(duì)照原則。對(duì)于每個(gè)組件,他們凍結(jié)模型的其他部分,僅訓(xùn)練目標(biāo)組件的參數(shù)。這種做法類似于控制變量實(shí)驗(yàn),確保觀察到的性能差異確實(shí)來(lái)源于不同組件的內(nèi)在特性,而非其他因素的干擾。

      實(shí)驗(yàn)的另一個(gè)重要方面是對(duì)可塑性的直接測(cè)量。研究團(tuán)隊(duì)開(kāi)發(fā)了一套計(jì)算方法,能夠量化每個(gè)組件在面對(duì)不同輸入時(shí)的輸出變化率。這個(gè)過(guò)程就像測(cè)量不同材料的彈性系數(shù)一樣,通過(guò)施加標(biāo)準(zhǔn)化的"應(yīng)力"(輸入變化),測(cè)量產(chǎn)生的"應(yīng)變"(輸出變化),從而得出每個(gè)組件的可塑性指標(biāo)。

      測(cè)量過(guò)程使用了12800張來(lái)自ImageNet預(yù)訓(xùn)練數(shù)據(jù)的圖像和各個(gè)下游任務(wù)的圖像,通過(guò)比較組件在處理這些不同來(lái)源圖像時(shí)的輸出差異,計(jì)算出平均變化率。這種設(shè)計(jì)巧妙地模擬了實(shí)際微調(diào)場(chǎng)景中的數(shù)據(jù)分布偏移情況,使得可塑性測(cè)量結(jié)果更具現(xiàn)實(shí)意義。

      實(shí)驗(yàn)結(jié)果的呈現(xiàn)也極其詳盡。除了最終的性能比較,研究團(tuán)隊(duì)還記錄了訓(xùn)練過(guò)程中梯度范數(shù)的變化、驗(yàn)證損失的下降曲線,以及不同學(xué)習(xí)率設(shè)置下的穩(wěn)定性表現(xiàn)。這些豐富的細(xì)節(jié)不僅支持了主要結(jié)論,更為深入理解學(xué)習(xí)動(dòng)態(tài)提供了寶貴的洞察。

      通過(guò)這套全面的實(shí)驗(yàn)設(shè)計(jì),研究團(tuán)隊(duì)獲得了強(qiáng)有力的證據(jù)支持。實(shí)驗(yàn)結(jié)果清晰地顯示,可塑性越高的組件在微調(diào)任務(wù)中表現(xiàn)越好,而且這種優(yōu)勢(shì)在不同的數(shù)據(jù)集、不同的模型規(guī)模和不同的訓(xùn)練設(shè)置下都保持一致。這種一致性是科學(xué)發(fā)現(xiàn)可信度的重要指標(biāo),表明研究團(tuán)隊(duì)確實(shí)發(fā)現(xiàn)了一個(gè)普遍適用的規(guī)律。

      三、驚人發(fā)現(xiàn):注意力機(jī)制和前饋層的優(yōu)勢(shì)地位

      實(shí)驗(yàn)結(jié)果揭示了一個(gè)令人意外但清晰的模式:多頭自注意力機(jī)制始終占據(jù)可塑性排行榜的首位,緊隨其后的是前饋網(wǎng)絡(luò)的兩個(gè)線性層,而層歸一化組件則排在最后。這個(gè)發(fā)現(xiàn)不僅驗(yàn)證了理論預(yù)測(cè),更重要的是為實(shí)際應(yīng)用提供了明確的指導(dǎo)。

      多頭自注意力機(jī)制的卓越表現(xiàn)源于其獨(dú)特的架構(gòu)特性。與傳統(tǒng)的卷積層或全連接層不同,自注意力機(jī)制能夠動(dòng)態(tài)地調(diào)整對(duì)輸入序列中不同位置的關(guān)注程度。這種動(dòng)態(tài)性使它天然具備了高可塑性。當(dāng)面對(duì)新的視覺(jué)任務(wù)時(shí),自注意力機(jī)制可以迅速重新配置其注意力模式,就像一個(gè)經(jīng)驗(yàn)豐富的攝影師能夠迅速調(diào)整焦點(diǎn)來(lái)捕捉不同的拍攝主題一樣。

      更具體地說(shuō),自注意力機(jī)制的可塑性體現(xiàn)在其查詢、鍵、值三個(gè)矩陣的交互過(guò)程中。這個(gè)過(guò)程產(chǎn)生的注意力權(quán)重矩陣具有很高的敏感性,輸入的微小變化可能導(dǎo)致注意力分布的顯著重組。這種敏感性在預(yù)訓(xùn)練階段可能被視為潛在的不穩(wěn)定因素,但在微調(diào)階段卻成為了快速適應(yīng)的優(yōu)勢(shì)。

      前饋網(wǎng)絡(luò)層的表現(xiàn)同樣令人印象深刻。研究發(fā)現(xiàn),第一個(gè)前饋層(FC1)的可塑性略高于第二個(gè)前饋層(FC2),這與它們?cè)诰W(wǎng)絡(luò)中的功能定位相符。第一個(gè)前饋層更多地承擔(dān)特征提取和轉(zhuǎn)換的任務(wù),需要對(duì)輸入變化保持較高的敏感性;而第二個(gè)前饋層更多地負(fù)責(zé)特征整合和輸出生成,相對(duì)需要更多的穩(wěn)定性。

      有趣的是,實(shí)驗(yàn)還發(fā)現(xiàn)了可塑性與模型大小之間的關(guān)系。在更大的ViT-Huge模型中,自注意力機(jī)制的可塑性優(yōu)勢(shì)更加明顯。這種現(xiàn)象可以從兩個(gè)角度來(lái)理解:首先,更大的模型具有更長(zhǎng)的序列長(zhǎng)度,理論分析表明這會(huì)放大自注意力機(jī)制的可塑性;其次,更大的模型擁有更多的注意力頭,這增加了系統(tǒng)的整體靈活性。

      層歸一化組件的低可塑性表現(xiàn)符合其設(shè)計(jì)初衷。層歸一化的核心功能是穩(wěn)定訓(xùn)練過(guò)程,通過(guò)歸一化操作減少內(nèi)部協(xié)變量偏移。這種穩(wěn)定性在預(yù)訓(xùn)練階段至關(guān)重要,但在微調(diào)階段卻成為了快速適應(yīng)的阻礙。研究結(jié)果顯示,無(wú)論是預(yù)處理自注意力的LN1還是預(yù)處理前饋網(wǎng)絡(luò)的LN2,它們的可塑性都明顯低于其他組件,這解釋了為什么僅訓(xùn)練這些組件時(shí)性能提升有限。

      這些發(fā)現(xiàn)的實(shí)際意義非常深遠(yuǎn)。在資源受限的情況下,工程師們現(xiàn)在知道應(yīng)該優(yōu)先訓(xùn)練哪些組件來(lái)獲得最大的性能提升。這不僅能顯著減少計(jì)算成本,還能提高訓(xùn)練效率。更重要的是,這種精準(zhǔn)的組件選擇策略有助于避免過(guò)擬合現(xiàn)象,因?yàn)槲覀冎桓伦钣欣谌蝿?wù)適應(yīng)的參數(shù),而保持其他參數(shù)的穩(wěn)定性。

      研究還揭示了一個(gè)有趣的優(yōu)化動(dòng)態(tài)。高可塑性組件在訓(xùn)練過(guò)程中表現(xiàn)出更大的梯度范數(shù),這意味著它們的參數(shù)更新更加活躍。同時(shí),這些組件也展現(xiàn)出更陡峭的損失下降曲線,表明它們能夠更快地收斂到更好的解。這種現(xiàn)象在具有挑戰(zhàn)性的數(shù)據(jù)集上特別明顯,如Clipart和Sketch這類風(fēng)格差異較大的圖像分類任務(wù)。

      四、深層機(jī)制:梯度動(dòng)力學(xué)的奧秘

      研究團(tuán)隊(duì)不滿足于僅僅觀察到現(xiàn)象,他們深入探索了可塑性優(yōu)勢(shì)背后的機(jī)制。通過(guò)詳細(xì)記錄訓(xùn)練過(guò)程中的梯度變化,研究人員發(fā)現(xiàn)了一個(gè)重要的規(guī)律:可塑性與梯度大小之間存在密切的正相關(guān)關(guān)系。

      這個(gè)發(fā)現(xiàn)揭示了學(xué)習(xí)過(guò)程的一個(gè)基本原理。在神經(jīng)網(wǎng)絡(luò)的反向傳播算法中,梯度的大小直接決定了參數(shù)更新的幅度。高可塑性組件能夠產(chǎn)生更大的梯度,這就像給參數(shù)更新提供了更強(qiáng)的"推動(dòng)力"。在微調(diào)場(chǎng)景下,這種強(qiáng)大的推動(dòng)力使得模型能夠更快地?cái)[脫預(yù)訓(xùn)練時(shí)的參數(shù)配置,向著適應(yīng)新任務(wù)的方向調(diào)整。

      具體來(lái)說(shuō),當(dāng)輸入數(shù)據(jù)從預(yù)訓(xùn)練域轉(zhuǎn)移到目標(biāo)域時(shí),高可塑性組件能夠敏銳地察覺(jué)到這種分布差異,并產(chǎn)生相應(yīng)的大幅度輸出變化。這種變化通過(guò)損失函數(shù)傳播到梯度計(jì)算中,產(chǎn)生較大的梯度值。相比之下,低可塑性組件對(duì)這種分布變化的反應(yīng)較為遲鈍,產(chǎn)生的梯度相對(duì)較小,因此參數(shù)更新也更加緩慢。

      研究團(tuán)隊(duì)通過(guò)可視化梯度范數(shù)的演化軌跡,展示了這一現(xiàn)象的動(dòng)態(tài)過(guò)程。在訓(xùn)練初期,高可塑性組件的梯度范數(shù)會(huì)出現(xiàn)明顯的峰值,隨后逐漸穩(wěn)定在一個(gè)較高的水平。這個(gè)過(guò)程可以理解為模型在"探索"新任務(wù)的特征空間,高可塑性組件承擔(dān)了主要的探索工作。

      更深層的分析還發(fā)現(xiàn),不同學(xué)習(xí)率設(shè)置下,高可塑性組件的優(yōu)勢(shì)更加突出。在較低的學(xué)習(xí)率條件下,低可塑性組件幾乎無(wú)法產(chǎn)生有意義的參數(shù)更新,而高可塑性組件仍能維持有效的學(xué)習(xí)進(jìn)展。這種現(xiàn)象解釋了為什么在實(shí)際應(yīng)用中,選擇合適的學(xué)習(xí)率對(duì)不同組件的影響差異巨大。

      損失景觀的分析提供了另一個(gè)有趣的視角。研究團(tuán)隊(duì)發(fā)現(xiàn),高可塑性組件能夠幫助模型更好地探索損失函數(shù)的景觀,避免陷入次優(yōu)的局部最小值。這種探索能力源于高可塑性組件產(chǎn)生的較大梯度,這些梯度就像給優(yōu)化過(guò)程注入了更多的"動(dòng)能",使得參數(shù)能夠越過(guò)一些較小的局部極值點(diǎn)。

      這種機(jī)制在處理具有挑戰(zhàn)性的任務(wù)時(shí)特別有價(jià)值。當(dāng)預(yù)訓(xùn)練模型和目標(biāo)任務(wù)之間存在較大差異時(shí),僅依靠低可塑性組件進(jìn)行微調(diào)往往難以跳出預(yù)訓(xùn)練時(shí)形成的參數(shù)配置。而高可塑性組件的強(qiáng)大適應(yīng)能力能夠推動(dòng)整個(gè)模型向著更適合新任務(wù)的參數(shù)空間移動(dòng)。

      訓(xùn)練穩(wěn)定性分析進(jìn)一步證實(shí)了這些發(fā)現(xiàn)。雖然高可塑性組件在單次訓(xùn)練中可能表現(xiàn)出更大的波動(dòng),但在多次獨(dú)立訓(xùn)練的統(tǒng)計(jì)意義上,它們展現(xiàn)出了更好的穩(wěn)定性和可重復(fù)性。這種看似矛盾的現(xiàn)象實(shí)際上反映了優(yōu)化過(guò)程的本質(zhì):適度的波動(dòng)有助于找到更好的解,而過(guò)度的平滑可能導(dǎo)致優(yōu)化過(guò)程困在次優(yōu)區(qū)域。

      這些機(jī)制層面的洞察不僅加深了我們對(duì)深度學(xué)習(xí)的理解,也為未來(lái)的方法設(shè)計(jì)提供了重要啟示。它們表明,在設(shè)計(jì)自適應(yīng)學(xué)習(xí)算法時(shí),我們應(yīng)該考慮不同組件的內(nèi)在特性,為不同類型的組件設(shè)置不同的學(xué)習(xí)策略,而不是采用一刀切的uniform approaches。

      五、實(shí)用價(jià)值:高效微調(diào)的新策略

      這項(xiàng)研究的實(shí)用價(jià)值遠(yuǎn)超其理論貢獻(xiàn)。在當(dāng)前大模型時(shí)代,如何高效地將預(yù)訓(xùn)練模型適應(yīng)到具體任務(wù)上是每個(gè)AI從業(yè)者都面臨的實(shí)際挑戰(zhàn)。傳統(tǒng)的全參數(shù)微調(diào)不僅計(jì)算成本高昂,還容易導(dǎo)致過(guò)擬合問(wèn)題。而這項(xiàng)研究提供的可塑性指導(dǎo)原則,為解決這些挑戰(zhàn)開(kāi)辟了新的道路。

      基于研究發(fā)現(xiàn),工程師們現(xiàn)在可以采用一種"精準(zhǔn)打擊"的微調(diào)策略。與其盲目地更新所有參數(shù),不如將計(jì)算資源集中在最具適應(yīng)潛力的組件上。具體來(lái)說(shuō),優(yōu)先訓(xùn)練多頭自注意力機(jī)制和前饋網(wǎng)絡(luò)層,而保持層歸一化參數(shù)凍結(jié),這種策略能夠在大幅減少可訓(xùn)練參數(shù)的同時(shí),實(shí)現(xiàn)接近甚至超越全參數(shù)微調(diào)的性能。

      成本效益分析顯示了這種策略的巨大優(yōu)勢(shì)。在研究使用的8600萬(wàn)參數(shù)ViT模型中,僅訓(xùn)練注意力機(jī)制或前饋層需要更新約2800萬(wàn)參數(shù),相比全參數(shù)微調(diào)減少了約67%的參數(shù)量。這種減少直接轉(zhuǎn)化為內(nèi)存使用量的降低、訓(xùn)練時(shí)間的縮短和能源消耗的減少。對(duì)于資源受限的研究團(tuán)隊(duì)或初創(chuàng)公司來(lái)說(shuō),這種效率提升具有重要的現(xiàn)實(shí)意義。

      更重要的是,這種策略在性能上并沒(méi)有妥協(xié)。實(shí)驗(yàn)結(jié)果顯示,僅訓(xùn)練高可塑性組件不僅能夠達(dá)到與全參數(shù)微調(diào)相近的性能,在某些任務(wù)上甚至表現(xiàn)更好。這種"少即是多"的現(xiàn)象可能源于避免了低可塑性組件的干擾,使得模型能夠更專注于學(xué)習(xí)任務(wù)相關(guān)的特征。

      對(duì)于不同難度的任務(wù),這種策略的優(yōu)勢(shì)表現(xiàn)不同。在具有挑戰(zhàn)性的任務(wù)如Clipart和Sketch風(fēng)格轉(zhuǎn)換中,高可塑性組件的優(yōu)勢(shì)更加明顯。這些任務(wù)需要模型學(xué)習(xí)全新的視覺(jué)特征和模式,正是高可塑性組件擅長(zhǎng)的領(lǐng)域。而在相對(duì)簡(jiǎn)單的任務(wù)中,不同策略之間的差異較小,但高可塑性組件仍然保持著輕微但一致的優(yōu)勢(shì)。

      魯棒性分析進(jìn)一步證實(shí)了這種方法的可靠性。研究團(tuán)隊(duì)在不同的學(xué)習(xí)率、批次大小和初始化設(shè)置下重復(fù)實(shí)驗(yàn),發(fā)現(xiàn)高可塑性組件的優(yōu)勢(shì)具有很好的一致性。這種魯棒性對(duì)于實(shí)際應(yīng)用極其重要,因?yàn)樗馕吨こ處焸儫o(wú)需進(jìn)行復(fù)雜的超參數(shù)調(diào)優(yōu)就能獲得穩(wěn)定的性能提升。

      除了直接的性能和效率優(yōu)勢(shì),這種方法還具有更好的可解釋性。由于我們明確知道哪些組件在驅(qū)動(dòng)學(xué)習(xí)過(guò)程,因此更容易理解模型的適應(yīng)機(jī)制和失敗模式。這種可解釋性在需要高可信度的應(yīng)用場(chǎng)景中特別有價(jià)值,如醫(yī)療診斷、金融風(fēng)控等領(lǐng)域。

      研究還探索了將這種策略與其他參數(shù)高效方法結(jié)合的可能性。例如,可以將LoRA(Low-Rank Adaptation)等技術(shù)專門(mén)應(yīng)用于高可塑性組件,進(jìn)一步提高效率。這種組合策略有望在保持性能的同時(shí),將可訓(xùn)練參數(shù)數(shù)量降低到原模型的1%以下,為大規(guī)模部署提供更大的可能性。

      從更廣闊的視角來(lái)看,這項(xiàng)研究為構(gòu)建更智能的自適應(yīng)學(xué)習(xí)系統(tǒng)提供了基礎(chǔ)。未來(lái)的AI系統(tǒng)可能會(huì)自動(dòng)識(shí)別不同任務(wù)對(duì)不同組件的需求,動(dòng)態(tài)調(diào)整訓(xùn)練策略。這種自適應(yīng)能力將使AI系統(tǒng)更加高效和靈活,能夠在有限的計(jì)算資源下處理更加多樣化的任務(wù)需求。

      六、理論突破:重新定義"平滑性"的價(jià)值

      這項(xiàng)研究最深刻的貢獻(xiàn)可能在于它挑戰(zhàn)了深度學(xué)習(xí)領(lǐng)域長(zhǎng)期以來(lái)的一個(gè)核心假設(shè):平滑性總是有益的。傳統(tǒng)理論認(rèn)為,模型的平滑性與其泛化能力正相關(guān),因此研究者們一直致力于開(kāi)發(fā)各種正則化技術(shù)來(lái)促進(jìn)模型的平滑性。然而,這項(xiàng)研究表明,在特定的學(xué)習(xí)情景下,適度的"非平滑性"反而更有價(jià)值。

      這一發(fā)現(xiàn)促使我們重新審視平滑性在不同學(xué)習(xí)階段的作用。在預(yù)訓(xùn)練階段,平滑性確實(shí)有助于模型學(xué)習(xí)穩(wěn)定而泛化的特征表示,這是因?yàn)轭A(yù)訓(xùn)練通常涉及大規(guī)模、多樣化的數(shù)據(jù),需要模型保持對(duì)各種輸入變化的魯棒性。然而,在微調(diào)階段,情況發(fā)生了根本性的變化。此時(shí)模型面臨的是一個(gè)相對(duì)狹窄但具體的任務(wù)域,需要的不是廣泛的魯棒性,而是對(duì)特定任務(wù)特征的敏感性和適應(yīng)性。

      這種認(rèn)知的轉(zhuǎn)變可以類比為工具的使用場(chǎng)景。一把瑞士軍刀雖然功能全面、結(jié)構(gòu)穩(wěn)定,適合應(yīng)對(duì)各種不確定的情況,但當(dāng)我們需要進(jìn)行精密雕刻時(shí),一把專門(mén)的雕刻刀雖然看起來(lái)更"脆弱",但其鋒利度和靈敏度卻能提供更好的效果。同樣,在微調(diào)階段,我們需要的是組件的"鋒利度"而非"鈍刀"式的穩(wěn)定性。

      研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析揭示了這種現(xiàn)象的理論基礎(chǔ)。他們證明了在分布偏移場(chǎng)景下,組件的可塑性與其學(xué)習(xí)效率之間存在正相關(guān)關(guān)系。這個(gè)數(shù)學(xué)關(guān)系不僅解釋了實(shí)驗(yàn)觀察到的現(xiàn)象,更為理解遷移學(xué)習(xí)的本質(zhì)提供了新的視角。

      更進(jìn)一步地,研究發(fā)現(xiàn)不同類型的組件在這種平滑性權(quán)衡中扮演著不同的角色。層歸一化等組件保持其平滑性有助于維持整個(gè)網(wǎng)絡(luò)的訓(xùn)練穩(wěn)定性,而自注意力機(jī)制等組件的高可塑性則負(fù)責(zé)驅(qū)動(dòng)任務(wù)特定的學(xué)習(xí)。這種"分工合作"的機(jī)制表明,優(yōu)秀的深度學(xué)習(xí)架構(gòu)應(yīng)該包含具有不同特性的組件,而不是讓所有組件都追求同樣的特性。

      這一理論洞察對(duì)未來(lái)的架構(gòu)設(shè)計(jì)具有重要啟示。研究者們?cè)谠O(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)時(shí),應(yīng)該有意識(shí)地平衡不同組件的平滑性特征。一些組件應(yīng)該保持高可塑性以便快速適應(yīng),而另一些組件則應(yīng)該保持穩(wěn)定性以確保系統(tǒng)的整體魯棒性。

      從更宏觀的角度來(lái)看,這項(xiàng)研究反映了深度學(xué)習(xí)理論的日趨成熟。早期的深度學(xué)習(xí)研究更多地依賴經(jīng)驗(yàn)觀察和試錯(cuò),而現(xiàn)在我們開(kāi)始能夠從理論層面理解和預(yù)測(cè)不同設(shè)計(jì)選擇的影響。這種理論進(jìn)步不僅有助于解釋現(xiàn)有現(xiàn)象,更重要的是能夠指導(dǎo)未來(lái)的研究方向和技術(shù)發(fā)展。

      研究還揭示了評(píng)估深度學(xué)習(xí)系統(tǒng)時(shí)需要考慮的復(fù)雜性。傳統(tǒng)的評(píng)估指標(biāo)往往關(guān)注最終的性能表現(xiàn),但這項(xiàng)研究表明,我們也需要關(guān)注系統(tǒng)的適應(yīng)性和可塑性。一個(gè)在靜態(tài)評(píng)估中表現(xiàn)優(yōu)秀的模型,在面臨新的任務(wù)需求時(shí)可能表現(xiàn)不佳,反之亦然。因此,建立更全面的評(píng)估框架,同時(shí)考慮性能和適應(yīng)性,將是未來(lái)研究的重要方向。

      這種理論層面的突破也為其他機(jī)器學(xué)習(xí)領(lǐng)域提供了啟示。例如,在強(qiáng)化學(xué)習(xí)中,探索與利用的平衡問(wèn)題可能也需要從可塑性的角度重新審視。在自然語(yǔ)言處理中,不同類型的語(yǔ)言模型組件可能也存在類似的可塑性差異,值得進(jìn)一步研究。

      說(shuō)到底,這項(xiàng)研究最重要的貢獻(xiàn)在于它提醒我們,機(jī)器學(xué)習(xí)中的許多"常識(shí)"都是有條件的。在不同的應(yīng)用場(chǎng)景下,我們可能需要完全不同的策略和方法。這種靈活性和情境意識(shí)將是推動(dòng)人工智能技術(shù)持續(xù)進(jìn)步的關(guān)鍵因素。研究團(tuán)隊(duì)通過(guò)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)和深入的分析,為我們打開(kāi)了重新理解深度學(xué)習(xí)基本原理的大門(mén),這無(wú)疑將激發(fā)更多創(chuàng)新性的研究工作。

      對(duì)于那些希望在有限資源下最大化AI系統(tǒng)性能的從業(yè)者來(lái)說(shuō),這項(xiàng)研究提供了清晰而實(shí)用的指導(dǎo)原則。對(duì)于致力于推進(jìn)人工智能理論發(fā)展的研究者而言,這項(xiàng)工作展示了如何將理論洞察轉(zhuǎn)化為實(shí)際價(jià)值的優(yōu)秀范例。無(wú)論從哪個(gè)角度來(lái)看,這都是一項(xiàng)具有深遠(yuǎn)影響的重要研究。

      Q&A

      Q1:什么是可塑性,它與傳統(tǒng)的平滑性概念有什么區(qū)別?

      A:可塑性是衡量模型組件對(duì)輸入變化敏感程度的指標(biāo),就像陶泥的柔軟程度一樣。與傳統(tǒng)強(qiáng)調(diào)的平滑性不同,高可塑性意味著組件能夠?qū)斎胱兓a(chǎn)生較大的輸出響應(yīng)。研究發(fā)現(xiàn)在微調(diào)階段,這種敏感性反而有助于模型快速適應(yīng)新任務(wù),而傳統(tǒng)認(rèn)為有益的平滑性卻可能成為學(xué)習(xí)的障礙。

      Q2:Vision Transformer中哪些組件的可塑性最高,實(shí)際應(yīng)用中應(yīng)該優(yōu)先訓(xùn)練哪些部分?

      A:研究發(fā)現(xiàn)多頭自注意力機(jī)制的可塑性最高,其次是前饋網(wǎng)絡(luò)的兩個(gè)線性層,而層歸一化組件的可塑性最低。在實(shí)際應(yīng)用中,應(yīng)該優(yōu)先訓(xùn)練注意力機(jī)制和前饋層,這樣既能獲得更好的性能表現(xiàn),又能顯著減少計(jì)算成本和訓(xùn)練時(shí)間。

      Q3:這種基于可塑性的微調(diào)策略能帶來(lái)多大的效率提升?

      A:研究表明,僅訓(xùn)練高可塑性組件可以減少約67%的可訓(xùn)練參數(shù),同時(shí)在性能上達(dá)到甚至超過(guò)全參數(shù)微調(diào)的效果。這意味著顯著降低內(nèi)存使用、訓(xùn)練時(shí)間和能源消耗,對(duì)于資源受限的團(tuán)隊(duì)具有重要的現(xiàn)實(shí)價(jià)值,同時(shí)還能避免過(guò)擬合問(wèn)題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      牢A還能蹦跶幾天?

      牢A還能蹦跶幾天?

      不正確
      2026-02-10 09:52:58
      俄特種部隊(duì)指揮官艾克被消滅!曾被普京接見(jiàn)嘉獎(jiǎng)

      俄特種部隊(duì)指揮官艾克被消滅!曾被普京接見(jiàn)嘉獎(jiǎng)

      項(xiàng)鵬飛
      2026-02-10 20:30:38
      750萬(wàn)發(fā):俄羅斯炮彈產(chǎn)能大漲!頻繁掉炸彈,俄博主要求百姓克制

      750萬(wàn)發(fā):俄羅斯炮彈產(chǎn)能大漲!頻繁掉炸彈,俄博主要求百姓克制

      鷹眼Defence
      2026-02-12 17:22:05
      伊朗政權(quán)生存邏輯:靠反美立權(quán),用貧窮維穩(wěn),道歉只是演戲

      伊朗政權(quán)生存邏輯:靠反美立權(quán),用貧窮維穩(wěn),道歉只是演戲

      老馬拉車莫少裝
      2026-02-12 17:38:03
      古代甕城的作用

      古代甕城的作用

      喜之春
      2026-02-11 06:28:46
      上上簽!中國(guó)U17與印尼卡塔爾同組:避開(kāi)朝鮮,世少賽穩(wěn)了

      上上簽!中國(guó)U17與印尼卡塔爾同組:避開(kāi)朝鮮,世少賽穩(wěn)了

      邱澤云
      2026-02-12 18:38:51
      看,誰(shuí)回來(lái)了!

      看,誰(shuí)回來(lái)了!

      國(guó)際米蘭足球俱樂(lè)部
      2026-02-12 19:14:56
      1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來(lái)

      1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來(lái)

      紀(jì)實(shí)文錄
      2025-06-21 14:47:10
      孫穎莎奪冠僅3天!王曼昱突遭無(wú)妄之災(zāi),真實(shí)處境看哭球迷

      孫穎莎奪冠僅3天!王曼昱突遭無(wú)妄之災(zāi),真實(shí)處境看哭球迷

      野渡舟山人
      2026-02-12 19:21:35
      高崗身亡多年,周總理為其妻子安排工作,毛主席為何表態(tài):不同意

      高崗身亡多年,周總理為其妻子安排工作,毛主席為何表態(tài):不同意

      大運(yùn)河時(shí)空
      2026-01-18 07:10:03
      2-10!印尼本想邀請(qǐng)中國(guó)隊(duì)增強(qiáng)信心被雙殺 亞洲杯又同組 賽程如下

      2-10!印尼本想邀請(qǐng)中國(guó)隊(duì)增強(qiáng)信心被雙殺 亞洲杯又同組 賽程如下

      侃球熊弟
      2026-02-12 16:24:46
      過(guò)年保存饅頭,不要直接放冰箱,學(xué)會(huì)這招,放1個(gè)月不干硬不發(fā)霉

      過(guò)年保存饅頭,不要直接放冰箱,學(xué)會(huì)這招,放1個(gè)月不干硬不發(fā)霉

      江江食研社
      2026-02-10 08:30:11
      固態(tài)電池吹牛無(wú)底線,美國(guó)電車4680干電池刺穿遮羞布

      固態(tài)電池吹牛無(wú)底線,美國(guó)電車4680干電池刺穿遮羞布

      柏銘銳談
      2026-02-11 19:03:33
      下課僅 1 個(gè)月!曼聯(lián)棄帥竟要接手歐洲豪門(mén),穆里尼奧成最大推手

      下課僅 1 個(gè)月!曼聯(lián)棄帥竟要接手歐洲豪門(mén),穆里尼奧成最大推手

      瀾歸序
      2026-02-12 03:14:56
      Seedance2.0海外爆火!馬斯克驚嘆:發(fā)展速度太快了!美國(guó)導(dǎo)演:可能會(huì)搞垮好萊塢……

      Seedance2.0海外爆火!馬斯克驚嘆:發(fā)展速度太快了!美國(guó)導(dǎo)演:可能會(huì)搞垮好萊塢……

      每日經(jīng)濟(jì)新聞
      2026-02-12 17:50:21
      白宮擺下四大必殺局!中國(guó)直接逆天,美媒氣炸了!

      白宮擺下四大必殺局!中國(guó)直接逆天,美媒氣炸了!

      毛豆論道
      2026-02-12 02:58:57
      湖北女孩遠(yuǎn)嫁法國(guó),想把農(nóng)村母親接到法國(guó),洋女婿:我們房子太小

      湖北女孩遠(yuǎn)嫁法國(guó),想把農(nóng)村母親接到法國(guó),洋女婿:我們房子太小

      談史論天地
      2026-02-10 16:40:10
      貴有貴的道理!曼城7200萬(wàn)簽塞梅尼奧血賺,8場(chǎng)5球2助穩(wěn)坐主力!

      貴有貴的道理!曼城7200萬(wàn)簽塞梅尼奧血賺,8場(chǎng)5球2助穩(wěn)坐主力!

      田先生籃球
      2026-02-12 16:27:13
      他們譴責(zé)馬斯克星鏈的邏輯有多荒唐

      他們譴責(zé)馬斯克星鏈的邏輯有多荒唐

      李未熟擒話2
      2026-02-12 16:50:06
      杰我睿用戶曬補(bǔ)償方案,3.3萬(wàn)可兌付1.1萬(wàn),同意立馬優(yōu)先安排

      杰我睿用戶曬補(bǔ)償方案,3.3萬(wàn)可兌付1.1萬(wàn),同意立馬優(yōu)先安排

      映射生活的身影
      2026-02-12 13:38:17
      2026-02-12 20:28:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      7245文章數(shù) 550關(guān)注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節(jié)前的暗戰(zhàn)

      頭條要聞

      女子返鄉(xiāng)"打順風(fēng)車卻打到大貨車"視頻爆火 當(dāng)事人發(fā)聲

      頭條要聞

      女子返鄉(xiāng)"打順風(fēng)車卻打到大貨車"視頻爆火 當(dāng)事人發(fā)聲

      體育要聞

      31歲首次參加冬奧,10年前她是個(gè)水管工

      娛樂(lè)要聞

      體操運(yùn)動(dòng)員墜樓涉事教練被立案調(diào)查

      財(cái)經(jīng)要聞

      “影子萬(wàn)科”如何掘金萬(wàn)科?

      汽車要聞

      開(kāi)212 T01柴油版去穿越 連牧馬人都跟不上

      態(tài)度原創(chuàng)

      數(shù)碼
      房產(chǎn)
      親子
      教育
      公開(kāi)課

      數(shù)碼要聞

      AMD發(fā)布26.2.1可選顯卡驅(qū)動(dòng):新增支持《仁王3》等、修復(fù)游戲崩潰問(wèn)題

      房產(chǎn)要聞

      999元開(kāi)線上免稅店?海南爆出免稅大騙局,多人已被抓!

      親子要聞

      2026年水解奶粉選購(gòu)指南:平衡防敏需求與寶寶成長(zhǎng)的科學(xué)之選

      教育要聞

      “這不是導(dǎo)師,是親爹!”女博士吐槽被導(dǎo)師PUA,塊畢業(yè)卻傻眼了

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版