<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      訓(xùn)練AI只需要跑完前10%,剩下的90%都能在小模型上跑

      0
      分享至


      (來源:麻省理工科技評論)

      訓(xùn)練一個大型 AI 模型的代價很高,不只是錢,還包括時間、能源和算力。

      要得到一個更小、更快的模型,傳統(tǒng)做法要么是先訓(xùn)練一個龐大的模型再削減它,要么是直接從頭訓(xùn)練一個小模型,但接受性能上的妥協(xié)。

      MIT 計算機科學(xué)與人工智能實驗室(CSAIL)、馬克斯·普朗克智能系統(tǒng)研究所、歐洲學(xué)習(xí)與智能系統(tǒng)實驗室(ELLIS)、蘇黎世聯(lián)邦理工學(xué)院(ETH)和 Liquid AI 的研究人員共同提出了一種新方法,直接繞過了這個二選一的難題:在訓(xùn)練過程中就對模型進(jìn)行壓縮,而不是在訓(xùn)練之后。

      這項技術(shù)叫 CompreSSM,針對的是一類叫做“狀態(tài)空間模型”(state-space models)的 AI 架構(gòu)。這類架構(gòu)支撐著從語言處理、音頻生成到機器人控制的廣泛應(yīng)用。研究人員借用控制論里的數(shù)學(xué)工具,在訓(xùn)練早期就能識別出模型中哪些部分是在真正發(fā)揮作用、哪些是累贅,然后把那些多余的部分精準(zhǔn)地切除掉。

      “本質(zhì)上這是一種讓模型在訓(xùn)練過程中變小、變快的技術(shù),”論文第一作者、CSAIL 成員、電氣工程與計算機科學(xué)系的博士生馬克拉姆·查希內(nèi)(Makram Chahine)說,“學(xué)習(xí)過程中,模型也在同時扔掉那些對它的發(fā)展沒有幫助的部分。”

      這項研究的關(guān)鍵洞察是:一個狀態(tài)空間模型里哪些組件更重要、哪些更次要,這個格局在訓(xùn)練過程中很早就穩(wěn)定下來了。研究團隊使用一種叫“漢克爾奇異值”(Hankel singular values)的數(shù)學(xué)量來衡量每個內(nèi)部狀態(tài)對模型整體行為的貢獻(xiàn)程度,結(jié)果表明只需完成大約 10% 的訓(xùn)練,就能可靠地排出哪些維度重要、哪些不重要。一旦排序確定,那些不重要的組件就可以被安全地丟棄,剩下 90% 的訓(xùn)練則以一個小得多的模型的速度繼續(xù)進(jìn)行。

      “這項工作有意思的地方在于,它把壓縮這件事從‘事后再說’變成了學(xué)習(xí)過程本身的一部分,”論文通訊作者、MIT 教授、CSAIL 主任丹妮拉·魯斯(Daniela Rus)說,“我們不再是先訓(xùn)練一個大模型再想辦法把它縮小,而是讓 CompreSSM 在模型學(xué)習(xí)的過程中自己發(fā)現(xiàn)高效的結(jié)構(gòu)。這是一種構(gòu)建 AI 系統(tǒng)的全新思路。”

      結(jié)果令人印象深刻。在圖像分類基準(zhǔn)測試中,壓縮后的模型保持了與完整版幾乎相同的準(zhǔn)確率,訓(xùn)練速度最高提升 1.5 倍。一個被壓縮到原始狀態(tài)維度四分之一左右的模型,在 CIFAR-10 基準(zhǔn)上達(dá)到 85.7% 的準(zhǔn)確率,而一個從一開始就以這么小的規(guī)模訓(xùn)練的模型只能達(dá)到 81.8%。在目前應(yīng)用最廣的狀態(tài)空間架構(gòu)之一 Mamba上,這種方法實現(xiàn)了大約 4 倍的訓(xùn)練加速,把一個 128 維的模型壓縮到約 12 維,性能仍然具有競爭力。

      “你能拿到大模型的性能,因為在熱身階段你就捕獲了大部分復(fù)雜的動力學(xué)特征,之后只保留最有用的那些狀態(tài),”查希內(nèi)說,“模型的表現(xiàn)仍然優(yōu)于從一開始就訓(xùn)練小模型。”

      CompreSSM 與現(xiàn)有方法的不同之處在于它有堅實的理論支撐。常規(guī)的剪枝方法是先把完整模型訓(xùn)練完,再把參數(shù)剔掉,這意味著你仍然要承擔(dān)訓(xùn)練大模型的全部算力成本。另一種流行的技術(shù)是知識蒸餾,需要先訓(xùn)練好一個大的“教師”模型,再在它的基礎(chǔ)上訓(xùn)練一個更小的“學(xué)生”模型,相當(dāng)于訓(xùn)練成本翻倍。CompreSSM 在訓(xùn)練過程中就做出明智的壓縮決策,從而避免了這兩種額外成本。

      研究團隊把 CompreSSM 與這兩種方法分別做了對比。對比一種最近提出的、用于引導(dǎo)緊湊狀態(tài)空間模型的譜方法“漢克爾核范數(shù)正則化”,CompreSSM 速度超過它 40 倍以上,同時準(zhǔn)確率更高。那種正則化方法會把訓(xùn)練速度拖慢約 16 倍,因為它在每一次梯度更新時都需要做昂貴的特征值計算,即便如此,最終得到的模型性能還是不如 CompreSSM。

      在 CIFAR-10 上與知識蒸餾對比時,CompreSSM 在高壓縮率下的優(yōu)勢非常明顯:當(dāng)狀態(tài)維度很小時,蒸餾出的模型準(zhǔn)確率大幅下降,而 CompreSSM 壓縮后的模型幾乎保持了完整版的性能。而且由于蒸餾在每一步訓(xùn)練中都需要讓教師模型和學(xué)生模型各做一次前向傳播,即便它的學(xué)生模型更小,訓(xùn)練速度反而比完整的基線模型還慢。

      研究人員用 Weyl 定理證明了一件事:在訓(xùn)練過程中,單個模型狀態(tài)的重要性是平滑變化的,這些狀態(tài)的相對排序是穩(wěn)定的。這兩點結(jié)合在一起,讓使用者可以放心:那些在早期被判定為無關(guān)緊要的維度,不會在后面突然變得關(guān)鍵。

      這項方法還帶有一個務(wù)實的安全機制。如果某次壓縮意外導(dǎo)致性能下降,使用者可以退回到此前保存的檢查點。“這讓人們對愿意付出多少性能代價擁有主動權(quán),而不是去定義一個不那么直觀的能量閾值,”查希內(nèi)解釋說。

      這項技術(shù)也有一些實際邊界。CompreSSM 在那些“內(nèi)部狀態(tài)維度與整體性能強相關(guān)”的模型上效果最好,而這種相關(guān)性在不同任務(wù)和架構(gòu)之間差異較大。該方法對多輸入多輸出(MIMO)模型特別有效,因為這類模型中狀態(tài)規(guī)模與表達(dá)能力之間的關(guān)系最強。對于每通道、單輸入單輸出的架構(gòu),收益就比較有限,因為這類模型本身對狀態(tài)維度變化就不太敏感。

      這套理論最適用于線性時不變系統(tǒng),不過團隊也已經(jīng)開發(fā)出適用于輸入依賴、時變架構(gòu)的擴展版本——后者正在變得越來越流行。由于狀態(tài)空間模型這一大家族還延伸到了“線性注意力”等新興架構(gòu)(一種作為傳統(tǒng) Transformer 替代方案、關(guān)注度日益上升的方向),CompreSSM 的潛在應(yīng)用范圍相當(dāng)廣泛。

      查希內(nèi)和合作者把這項工作看作一塊墊腳石。團隊已經(jīng)展示了向 Mamba 等線性時變系統(tǒng)的擴展,未來的方向是把 CompreSSM 進(jìn)一步推廣到線性注意力機制中使用的矩陣值動力系統(tǒng),這會讓這項技術(shù)更接近支撐當(dāng)今絕大多數(shù)大型 AI 系統(tǒng)的 Transformer 架構(gòu)。

      “這必須是第一步,因為在這里理論是干凈的,方法能保持原則性,”查希內(nèi)說,“這是一塊墊腳石,之后再向業(yè)界今天實際使用的其他架構(gòu)擴展。”

      “查希內(nèi)和同事的工作,為現(xiàn)代狀態(tài)空間模型(SSM)的壓縮問題提供了一個有趣且理論扎實的視角,”ELLIS 圖賓根研究所首席研究員、馬普智能系統(tǒng)研究所獨立課題組組長安東尼奧·奧爾維耶托(Antonio Orvieto)評價道。他未參與這項研究。“這項方法提供了證據(jù),證明這類模型的狀態(tài)維度可以在訓(xùn)練過程中被有效降低,而且控制論視角可以成功地指導(dǎo)這一過程。這項工作為未來研究開辟了新方向,所提出的算法有潛力成為預(yù)訓(xùn)練大型 SSM 模型的標(biāo)準(zhǔn)做法。”

      這項研究已被 ICLR 2026 接收,將于本月晚些時候在會議上發(fā)表。研究部分由馬克斯·普朗克-ETH 學(xué)習(xí)系統(tǒng)中心和 Hector 基金會資助。

      https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      600889,將被“*ST”!

      600889,將被“*ST”!

      中國基金報
      2026-04-22 23:13:56
      據(jù)美高官透露,伊朗在過去48小時內(nèi),應(yīng)是發(fā)生了一場“內(nèi)部政變”

      據(jù)美高官透露,伊朗在過去48小時內(nèi),應(yīng)是發(fā)生了一場“內(nèi)部政變”

      阿七說史
      2026-04-20 15:13:06
      恒大集團許家印坑的最慘的8位大佬

      恒大集團許家印坑的最慘的8位大佬

      新浪財經(jīng)
      2026-04-20 22:07:12
      蘋果換CEO原因:庫克不夠果斷、搞垮了Vision Pro、汽車等項目

      蘋果換CEO原因:庫克不夠果斷、搞垮了Vision Pro、汽車等項目

      Switch2來了
      2026-04-22 17:00:33
      5-1!C羅失良機,科曼大演帽子戲法,豪取19連勝,勝利劍指雙冠王

      5-1!C羅失良機,科曼大演帽子戲法,豪取19連勝,勝利劍指雙冠王

      我的護(hù)球最獨特
      2026-04-23 02:01:15
      竄訪取消后,賴清德無能狂怒,馬達(dá)加斯加表態(tài),民進(jìn)黨徹底破防

      竄訪取消后,賴清德無能狂怒,馬達(dá)加斯加表態(tài),民進(jìn)黨徹底破防

      影孖看世界
      2026-04-22 23:28:19
      中組部人社部規(guī)定:公職人員違紀(jì)后待遇一文講清

      中組部人社部規(guī)定:公職人員違紀(jì)后待遇一文講清

      笑熬漿糊111
      2026-04-23 00:05:18
      太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復(fù)仇”

      太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復(fù)仇”

      青梅侃史啊
      2026-04-21 19:37:02
      深夜,全線上漲!霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲

      深夜,全線上漲!霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲

      新浪財經(jīng)
      2026-04-22 22:09:06
      卡戴珊和漢密爾頓海邊熱吻被拍 兩人是相隔8000公里的40歲+異地戀

      卡戴珊和漢密爾頓海邊熱吻被拍 兩人是相隔8000公里的40歲+異地戀

      勁爆體壇
      2026-04-22 07:28:05
      悲催!一女生意外懷孕,因家中殘疾弟弟,被男方花費15000元放棄

      悲催!一女生意外懷孕,因家中殘疾弟弟,被男方花費15000元放棄

      火山詩話
      2026-04-22 11:32:17
      痛心!湖南澧縣發(fā)生悲劇:夫妻在魚塘消毒時,丈夫不慎落水,妻子施救,雙雙溺亡留下兩孩子

      痛心!湖南澧縣發(fā)生悲劇:夫妻在魚塘消毒時,丈夫不慎落水,妻子施救,雙雙溺亡留下兩孩子

      大風(fēng)新聞
      2026-04-22 15:33:09
      罰款3000元、拘10天!無錫一男子網(wǎng)購這東西被查

      罰款3000元、拘10天!無錫一男子網(wǎng)購這東西被查

      最江陰
      2026-04-22 19:33:40
      5月1日起!巨額財產(chǎn)來源不明罪,立案標(biāo)準(zhǔn)從30萬大幅提高到300萬

      5月1日起!巨額財產(chǎn)來源不明罪,立案標(biāo)準(zhǔn)從30萬大幅提高到300萬

      今朝牛馬
      2026-04-22 21:09:48
      《歌手2026》網(wǎng)傳陣容,擬邀6位頂尖歌手,這季堪稱神仙打架

      《歌手2026》網(wǎng)傳陣容,擬邀6位頂尖歌手,這季堪稱神仙打架

      娛樂圈十三太保
      2026-04-22 17:58:49
      張雪機車發(fā)布召回通告

      張雪機車發(fā)布召回通告

      界面新聞
      2026-04-22 15:28:06
      老球王戴維斯:純競技水平亨得利無緣歷史前三,甚至打不過塞爾比

      老球王戴維斯:純競技水平亨得利無緣歷史前三,甚至打不過塞爾比

      楊華評論
      2026-04-22 21:05:33
      一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

      一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

      新東方
      2026-04-22 17:13:22
      美國提三大要求全被中國拒絕!特朗普放狠話:中國有牌,美國也有

      美國提三大要求全被中國拒絕!特朗普放狠話:中國有牌,美國也有

      娛樂的宅急便
      2026-04-22 11:23:38
      工業(yè)和信息化部:將以更大力度超前布局未來產(chǎn)業(yè)

      工業(yè)和信息化部:將以更大力度超前布局未來產(chǎn)業(yè)

      新華社
      2026-04-21 20:43:03
      2026-04-23 02:47:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16613文章數(shù) 514897關(guān)注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

      頭條要聞

      伊朗:特朗普“又說謊了”

      頭條要聞

      伊朗:特朗普“又說謊了”

      體育要聞

      網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      蜜雪冰城泰國代言人 被扒出辱華黑歷史

      財經(jīng)要聞

      醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

      汽車要聞

      純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      時尚
      旅游
      本地

      教育要聞

      3分鐘學(xué)會一個雅思7分句/段(第340期)

      藝術(shù)要聞

      看!這些美女的眼神能讓你心醉神迷!

      用了8年還心動,這筆錢是花得真值啊

      旅游要聞

      “運上行”周五首航

      本地新聞

      春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

      無障礙瀏覽 進(jìn)入關(guān)懷版