<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      訓(xùn)練AI只需要跑完前10%,剩下的90%都能在小模型上跑

      0
      分享至


      (來(lái)源:麻省理工科技評(píng)論)

      訓(xùn)練一個(gè)大型 AI 模型的代價(jià)很高,不只是錢,還包括時(shí)間、能源和算力。

      要得到一個(gè)更小、更快的模型,傳統(tǒng)做法要么是先訓(xùn)練一個(gè)龐大的模型再削減它,要么是直接從頭訓(xùn)練一個(gè)小模型,但接受性能上的妥協(xié)。

      MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)、馬克斯·普朗克智能系統(tǒng)研究所、歐洲學(xué)習(xí)與智能系統(tǒng)實(shí)驗(yàn)室(ELLIS)、蘇黎世聯(lián)邦理工學(xué)院(ETH)和 Liquid AI 的研究人員共同提出了一種新方法,直接繞過(guò)了這個(gè)二選一的難題:在訓(xùn)練過(guò)程中就對(duì)模型進(jìn)行壓縮,而不是在訓(xùn)練之后。

      這項(xiàng)技術(shù)叫 CompreSSM,針對(duì)的是一類叫做“狀態(tài)空間模型”(state-space models)的 AI 架構(gòu)。這類架構(gòu)支撐著從語(yǔ)言處理、音頻生成到機(jī)器人控制的廣泛應(yīng)用。研究人員借用控制論里的數(shù)學(xué)工具,在訓(xùn)練早期就能識(shí)別出模型中哪些部分是在真正發(fā)揮作用、哪些是累贅,然后把那些多余的部分精準(zhǔn)地切除掉。

      “本質(zhì)上這是一種讓模型在訓(xùn)練過(guò)程中變小、變快的技術(shù),”論文第一作者、CSAIL 成員、電氣工程與計(jì)算機(jī)科學(xué)系的博士生馬克拉姆·查希內(nèi)(Makram Chahine)說(shuō),“學(xué)習(xí)過(guò)程中,模型也在同時(shí)扔掉那些對(duì)它的發(fā)展沒(méi)有幫助的部分。”

      這項(xiàng)研究的關(guān)鍵洞察是:一個(gè)狀態(tài)空間模型里哪些組件更重要、哪些更次要,這個(gè)格局在訓(xùn)練過(guò)程中很早就穩(wěn)定下來(lái)了。研究團(tuán)隊(duì)使用一種叫“漢克爾奇異值”(Hankel singular values)的數(shù)學(xué)量來(lái)衡量每個(gè)內(nèi)部狀態(tài)對(duì)模型整體行為的貢獻(xiàn)程度,結(jié)果表明只需完成大約 10% 的訓(xùn)練,就能可靠地排出哪些維度重要、哪些不重要。一旦排序確定,那些不重要的組件就可以被安全地丟棄,剩下 90% 的訓(xùn)練則以一個(gè)小得多的模型的速度繼續(xù)進(jìn)行。

      “這項(xiàng)工作有意思的地方在于,它把壓縮這件事從‘事后再說(shuō)’變成了學(xué)習(xí)過(guò)程本身的一部分,”論文通訊作者、MIT 教授、CSAIL 主任丹妮拉·魯斯(Daniela Rus)說(shuō),“我們不再是先訓(xùn)練一個(gè)大模型再想辦法把它縮小,而是讓 CompreSSM 在模型學(xué)習(xí)的過(guò)程中自己發(fā)現(xiàn)高效的結(jié)構(gòu)。這是一種構(gòu)建 AI 系統(tǒng)的全新思路。”

      結(jié)果令人印象深刻。在圖像分類基準(zhǔn)測(cè)試中,壓縮后的模型保持了與完整版幾乎相同的準(zhǔn)確率,訓(xùn)練速度最高提升 1.5 倍。一個(gè)被壓縮到原始狀態(tài)維度四分之一左右的模型,在 CIFAR-10 基準(zhǔn)上達(dá)到 85.7% 的準(zhǔn)確率,而一個(gè)從一開始就以這么小的規(guī)模訓(xùn)練的模型只能達(dá)到 81.8%。在目前應(yīng)用最廣的狀態(tài)空間架構(gòu)之一 Mamba上,這種方法實(shí)現(xiàn)了大約 4 倍的訓(xùn)練加速,把一個(gè) 128 維的模型壓縮到約 12 維,性能仍然具有競(jìng)爭(zhēng)力。

      “你能拿到大模型的性能,因?yàn)樵跓嵘黼A段你就捕獲了大部分復(fù)雜的動(dòng)力學(xué)特征,之后只保留最有用的那些狀態(tài),”查希內(nèi)說(shuō),“模型的表現(xiàn)仍然優(yōu)于從一開始就訓(xùn)練小模型。”

      CompreSSM 與現(xiàn)有方法的不同之處在于它有堅(jiān)實(shí)的理論支撐。常規(guī)的剪枝方法是先把完整模型訓(xùn)練完,再把參數(shù)剔掉,這意味著你仍然要承擔(dān)訓(xùn)練大模型的全部算力成本。另一種流行的技術(shù)是知識(shí)蒸餾,需要先訓(xùn)練好一個(gè)大的“教師”模型,再在它的基礎(chǔ)上訓(xùn)練一個(gè)更小的“學(xué)生”模型,相當(dāng)于訓(xùn)練成本翻倍。CompreSSM 在訓(xùn)練過(guò)程中就做出明智的壓縮決策,從而避免了這兩種額外成本。

      研究團(tuán)隊(duì)把 CompreSSM 與這兩種方法分別做了對(duì)比。對(duì)比一種最近提出的、用于引導(dǎo)緊湊狀態(tài)空間模型的譜方法“漢克爾核范數(shù)正則化”,CompreSSM 速度超過(guò)它 40 倍以上,同時(shí)準(zhǔn)確率更高。那種正則化方法會(huì)把訓(xùn)練速度拖慢約 16 倍,因?yàn)樗诿恳淮翁荻雀聲r(shí)都需要做昂貴的特征值計(jì)算,即便如此,最終得到的模型性能還是不如 CompreSSM。

      在 CIFAR-10 上與知識(shí)蒸餾對(duì)比時(shí),CompreSSM 在高壓縮率下的優(yōu)勢(shì)非常明顯:當(dāng)狀態(tài)維度很小時(shí),蒸餾出的模型準(zhǔn)確率大幅下降,而 CompreSSM 壓縮后的模型幾乎保持了完整版的性能。而且由于蒸餾在每一步訓(xùn)練中都需要讓教師模型和學(xué)生模型各做一次前向傳播,即便它的學(xué)生模型更小,訓(xùn)練速度反而比完整的基線模型還慢。

      研究人員用 Weyl 定理證明了一件事:在訓(xùn)練過(guò)程中,單個(gè)模型狀態(tài)的重要性是平滑變化的,這些狀態(tài)的相對(duì)排序是穩(wěn)定的。這兩點(diǎn)結(jié)合在一起,讓使用者可以放心:那些在早期被判定為無(wú)關(guān)緊要的維度,不會(huì)在后面突然變得關(guān)鍵。

      這項(xiàng)方法還帶有一個(gè)務(wù)實(shí)的安全機(jī)制。如果某次壓縮意外導(dǎo)致性能下降,使用者可以退回到此前保存的檢查點(diǎn)。“這讓人們對(duì)愿意付出多少性能代價(jià)擁有主動(dòng)權(quán),而不是去定義一個(gè)不那么直觀的能量閾值,”查希內(nèi)解釋說(shuō)。

      這項(xiàng)技術(shù)也有一些實(shí)際邊界。CompreSSM 在那些“內(nèi)部狀態(tài)維度與整體性能強(qiáng)相關(guān)”的模型上效果最好,而這種相關(guān)性在不同任務(wù)和架構(gòu)之間差異較大。該方法對(duì)多輸入多輸出(MIMO)模型特別有效,因?yàn)檫@類模型中狀態(tài)規(guī)模與表達(dá)能力之間的關(guān)系最強(qiáng)。對(duì)于每通道、單輸入單輸出的架構(gòu),收益就比較有限,因?yàn)檫@類模型本身對(duì)狀態(tài)維度變化就不太敏感。

      這套理論最適用于線性時(shí)不變系統(tǒng),不過(guò)團(tuán)隊(duì)也已經(jīng)開發(fā)出適用于輸入依賴、時(shí)變架構(gòu)的擴(kuò)展版本——后者正在變得越來(lái)越流行。由于狀態(tài)空間模型這一大家族還延伸到了“線性注意力”等新興架構(gòu)(一種作為傳統(tǒng) Transformer 替代方案、關(guān)注度日益上升的方向),CompreSSM 的潛在應(yīng)用范圍相當(dāng)廣泛。

      查希內(nèi)和合作者把這項(xiàng)工作看作一塊墊腳石。團(tuán)隊(duì)已經(jīng)展示了向 Mamba 等線性時(shí)變系統(tǒng)的擴(kuò)展,未來(lái)的方向是把 CompreSSM 進(jìn)一步推廣到線性注意力機(jī)制中使用的矩陣值動(dòng)力系統(tǒng),這會(huì)讓這項(xiàng)技術(shù)更接近支撐當(dāng)今絕大多數(shù)大型 AI 系統(tǒng)的 Transformer 架構(gòu)。

      “這必須是第一步,因?yàn)樵谶@里理論是干凈的,方法能保持原則性,”查希內(nèi)說(shuō),“這是一塊墊腳石,之后再向業(yè)界今天實(shí)際使用的其他架構(gòu)擴(kuò)展。”

      “查希內(nèi)和同事的工作,為現(xiàn)代狀態(tài)空間模型(SSM)的壓縮問(wèn)題提供了一個(gè)有趣且理論扎實(shí)的視角,”ELLIS 圖賓根研究所首席研究員、馬普智能系統(tǒng)研究所獨(dú)立課題組組長(zhǎng)安東尼奧·奧爾維耶托(Antonio Orvieto)評(píng)價(jià)道。他未參與這項(xiàng)研究。“這項(xiàng)方法提供了證據(jù),證明這類模型的狀態(tài)維度可以在訓(xùn)練過(guò)程中被有效降低,而且控制論視角可以成功地指導(dǎo)這一過(guò)程。這項(xiàng)工作為未來(lái)研究開辟了新方向,所提出的算法有潛力成為預(yù)訓(xùn)練大型 SSM 模型的標(biāo)準(zhǔn)做法。”

      這項(xiàng)研究已被 ICLR 2026 接收,將于本月晚些時(shí)候在會(huì)議上發(fā)表。研究部分由馬克斯·普朗克-ETH 學(xué)習(xí)系統(tǒng)中心和 Hector 基金會(huì)資助。

      https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      胡錫進(jìn)代言知名汽車品牌!

      胡錫進(jìn)代言知名汽車品牌!

      電動(dòng)知家
      2026-04-15 08:14:06
      長(zhǎng)的太漂亮了,真正的珠圓玉潤(rùn),標(biāo)準(zhǔn)的東方美

      長(zhǎng)的太漂亮了,真正的珠圓玉潤(rùn),標(biāo)準(zhǔn)的東方美

      生活新鮮市
      2026-03-27 07:21:32
      特朗普已做好開戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只有1個(gè)

      特朗普已做好開戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只有1個(gè)

      史行途
      2026-04-12 12:15:00
      徐向前到山東當(dāng)司令,為何基本不指揮陳光??jī)煞怆妶?bào)讓他思緒萬(wàn)千

      徐向前到山東當(dāng)司令,為何基本不指揮陳光??jī)煞怆妶?bào)讓他思緒萬(wàn)千

      舊書卷里的長(zhǎng)安
      2026-04-14 23:10:09
      注意!公職人員再做這些事,將被開除!

      注意!公職人員再做這些事,將被開除!

      微法官
      2026-03-18 00:03:02
      特朗普已做好開戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只剩一個(gè)

      特朗普已做好開戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只剩一個(gè)

      微風(fēng)輕拂面
      2026-04-14 15:44:00
      79 年廖漢生回鄉(xiāng)到大女兒家吃飯,大女兒指著公公介紹:這是我爸

      79 年廖漢生回鄉(xiāng)到大女兒家吃飯,大女兒指著公公介紹:這是我爸

      近史談
      2026-04-10 11:39:39
      凌晨3點(diǎn),世界級(jí)大橋轟然倒塌!13死3失聯(lián)。

      凌晨3點(diǎn),世界級(jí)大橋轟然倒塌!13死3失聯(lián)。

      新浪財(cái)經(jīng)
      2026-04-14 15:38:34
      等你老了,不管有錢沒(méi)錢,孩子的這三個(gè)忙一定要幫

      等你老了,不管有錢沒(méi)錢,孩子的這三個(gè)忙一定要幫

      阿鄭的讀書日常
      2025-06-16 10:36:07
      俄外長(zhǎng)訪華不到12小時(shí),特朗普服軟,要趕在中俄攜手前與伊談判

      俄外長(zhǎng)訪華不到12小時(shí),特朗普服軟,要趕在中俄攜手前與伊談判

      嘆知
      2026-04-15 09:23:12
      不尋常!男子一連9次乘坐同一郵輪,一天逛十幾次免稅店,上海民警一查,果然不簡(jiǎn)單

      不尋常!男子一連9次乘坐同一郵輪,一天逛十幾次免稅店,上海民警一查,果然不簡(jiǎn)單

      新民晚報(bào)
      2026-04-10 13:56:07
      高興太早,廣東隊(duì)險(xiǎn)勝寧波卻收壞消息,球迷呼吁讓杜鋒下課

      高興太早,廣東隊(duì)險(xiǎn)勝寧波卻收壞消息,球迷呼吁讓杜鋒下課

      宗介說(shuō)體育
      2026-04-15 09:42:53
      恭喜俄羅斯和烏克蘭!打了1500多天,終于打成全世界都喜歡的樣子

      恭喜俄羅斯和烏克蘭!打了1500多天,終于打成全世界都喜歡的樣子

      浠浠熱評(píng)
      2026-04-15 08:12:17
      增重20斤,膀大腰圓,素面朝天,章子怡的狠,從來(lái)不在紅毯上

      增重20斤,膀大腰圓,素面朝天,章子怡的狠,從來(lái)不在紅毯上

      喵喵娛樂(lè)團(tuán)
      2026-04-14 16:08:34
      張本智和:我放心讓實(shí)力變強(qiáng)的松島當(dāng)主力,世乒賽和中國(guó)隊(duì)五五開

      張本智和:我放心讓實(shí)力變強(qiáng)的松島當(dāng)主力,世乒賽和中國(guó)隊(duì)五五開

      懂球帝
      2026-04-14 13:46:04
      奧沙利文盛贊亨德利是斯諾克歷史最佳,卻被當(dāng)面反駁“你說(shuō)錯(cuò)了”

      奧沙利文盛贊亨德利是斯諾克歷史最佳,卻被當(dāng)面反駁“你說(shuō)錯(cuò)了”

      海闊山遙YAO
      2026-04-15 10:26:42
      直接炸場(chǎng)!中國(guó)女籃集訓(xùn)名單公布,豪華陣容全力沖雙冠

      直接炸場(chǎng)!中國(guó)女籃集訓(xùn)名單公布,豪華陣容全力沖雙冠

      慢歌輕步謠
      2026-04-15 07:20:41
      潛逃印度以販賣艷照為生的女曱甴,拿BNO護(hù)照在中東被拒入境

      潛逃印度以販賣艷照為生的女曱甴,拿BNO護(hù)照在中東被拒入境

      俠客棧
      2026-04-14 11:36:31
      911年,那個(gè)自稱"宇宙之主"的軍閥,被24歲戰(zhàn)神打到跪地求饒

      911年,那個(gè)自稱"宇宙之主"的軍閥,被24歲戰(zhàn)神打到跪地求饒

      輿圖司馬
      2026-04-13 21:00:03
      失敗了這一生,卻偉大了千年

      失敗了這一生,卻偉大了千年

      最愛(ài)歷史
      2026-04-12 13:02:51
      2026-04-15 12:04:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16576文章數(shù) 514876關(guān)注度
      往期回顧 全部

      科技要聞

      手機(jī)無(wú)死角上網(wǎng)?亞馬遜砸百億硬剛馬斯克

      頭條要聞

      媒體:蘇林剛到北京就乘坐高鐵 不難看出是為了什么

      頭條要聞

      媒體:蘇林剛到北京就乘坐高鐵 不難看出是為了什么

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊(duì)道歉”

      娛樂(lè)要聞

      曾志偉辦73歲生日派對(duì),逾百藝人到場(chǎng)

      財(cái)經(jīng)要聞

      特朗普稱美國(guó)對(duì)伊朗的戰(zhàn)爭(zhēng)已經(jīng)結(jié)束

      汽車要聞

      海豹08內(nèi)飾首秀 大滿配“海王”旗艦

      態(tài)度原創(chuàng)

      游戲
      家居
      本地
      公開課
      軍事航空

      《Replaced》多平臺(tái)發(fā)售 2.5D賽博朋克動(dòng)作冒險(xiǎn)

      家居要聞

      簡(jiǎn)而不減 暖居之道

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      萬(wàn)斯:對(duì)當(dāng)前美伊局勢(shì)進(jìn)展“感到樂(lè)觀”

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版