<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MIT與UCLA聯(lián)手破解:超大模型訓(xùn)練不穩(wěn)定性難題

      0
      分享至


      當(dāng)我們想要訓(xùn)練一個人工智能模型時,就像在調(diào)配一道復(fù)雜的菜肴。你需要掌握火候(學(xué)習(xí)率)、調(diào)味料的分量(各種參數(shù)),還要知道什么時候該減少某些成分的用量(權(quán)重衰減)。問題在于,當(dāng)你想要做一份更大的菜(訓(xùn)練更大的模型)時,原來的配方往往就不管用了。這正是來自麻省理工學(xué)院(MIT)電氣工程與計(jì)算機(jī)科學(xué)系的范志遠(yuǎn)、加州大學(xué)洛杉磯分校(UCLA)計(jì)算機(jī)科學(xué)系的劉一峰、趙青越、袁安琪,以及通訊作者顧全全教授面臨的挑戰(zhàn)。

      這項(xiàng)研究發(fā)表于2025年10月17日的arXiv預(yù)印本平臺,論文編號為arXiv:2510.15262v1。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個在AI訓(xùn)練領(lǐng)域長期存在卻被忽視的問題:當(dāng)我們把神經(jīng)網(wǎng)絡(luò)模型做得越來越大時,原本在小模型上調(diào)好的訓(xùn)練參數(shù)就會失效,就像用小鍋炒菜的調(diào)料配比直接用到大鍋上,結(jié)果往往是要么太淡要么太咸。

      在深度學(xué)習(xí)的世界里,有一套被廣泛認(rèn)可的訓(xùn)練準(zhǔn)則叫做"最大更新參數(shù)化"(μP),它的核心思想是確保模型在訓(xùn)練過程中每一步的變化幅度保持合理。這就像開車時要保持合適的速度,既不能太快導(dǎo)致失控,也不能太慢影響效率。μP的巧妙之處在于,它能讓我們在小模型上找到最佳的學(xué)習(xí)率,然后直接應(yīng)用到大模型上,大大節(jié)省了調(diào)參的時間和計(jì)算資源。

      然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個關(guān)鍵問題:μP雖然在訓(xùn)練初期工作得很好,但當(dāng)訓(xùn)練進(jìn)入穩(wěn)定階段后,情況就變得復(fù)雜了。在這個階段,模型的行為不再主要由初始設(shè)置決定,而是由優(yōu)化器(特別是AdamW)的內(nèi)在機(jī)制主導(dǎo)。這就像一輛車在起步時需要司機(jī)精心控制,但上了高速公路后,路況和車輛性能就成了主要影響因素。

      研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)了一個有趣的現(xiàn)象:在訓(xùn)練的穩(wěn)定階段,每個權(quán)重矩陣的奇異值譜(可以理解為矩陣的"指紋")會按照學(xué)習(xí)率與權(quán)重衰減比值的平方根進(jìn)行縮放,而且形狀保持基本不變。這個發(fā)現(xiàn)讓他們意識到,要保持不同大小模型的訓(xùn)練效果一致,關(guān)鍵不僅在于調(diào)整學(xué)習(xí)率,更在于同時調(diào)整權(quán)重衰減。

      權(quán)重衰減是深度學(xué)習(xí)中的一個重要概念,可以理解為給模型參數(shù)施加一種"拉回力",防止它們變得過大而導(dǎo)致過擬合。就像給一個容易沖動的人戴上理性的枷鎖,讓他們的行為更加穩(wěn)定和可控。傳統(tǒng)的μP理論主要關(guān)注學(xué)習(xí)率的調(diào)整,但對權(quán)重衰減的處理相對簡單。

      通過深入分析,研究團(tuán)隊(duì)提出了一個新的權(quán)重衰減縮放規(guī)則:對于矩陣型參數(shù)(如神經(jīng)網(wǎng)絡(luò)中的線性變換層),權(quán)重衰減應(yīng)該按照模型寬度的平方根進(jìn)行縮放。具體來說,如果模型寬度增加4倍,那么權(quán)重衰減就應(yīng)該增加2倍。這個規(guī)則確保了不同大小模型在訓(xùn)練過程中的"內(nèi)在平衡"保持一致。

      為了驗(yàn)證這個理論,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)。他們使用了類似LLaMA的Transformer模型,在FineWeb數(shù)據(jù)集上進(jìn)行訓(xùn)練,模型大小從256維到2048維不等。實(shí)驗(yàn)結(jié)果清楚地顯示,當(dāng)使用新的權(quán)重衰減縮放規(guī)則時,不同大小模型的奇異值譜能夠很好地對齊,這意味著它們的"內(nèi)在結(jié)構(gòu)"保持了一致性。

      更重要的是,這種對齊直接轉(zhuǎn)化為實(shí)際的性能提升。研究團(tuán)隊(duì)發(fā)現(xiàn),使用新的縮放規(guī)則后,在小模型上調(diào)優(yōu)的超參數(shù)能夠成功地遷移到大模型上,而不需要重新進(jìn)行耗時耗力的參數(shù)搜索。這就像找到了一個通用的菜譜比例轉(zhuǎn)換公式,讓廚師能夠輕松地將小份菜譜擴(kuò)展到大份制作。

      為了進(jìn)一步驗(yàn)證理論的普適性,研究團(tuán)隊(duì)還設(shè)計(jì)了一個極簡的合成實(shí)驗(yàn)。他們創(chuàng)建了一個兩層的前饋神經(jīng)網(wǎng)絡(luò),使用完全隨機(jī)的數(shù)據(jù)進(jìn)行訓(xùn)練。即使在這種人工設(shè)計(jì)的環(huán)境中,平方根權(quán)重衰減縮放規(guī)則依然有效。這個結(jié)果特別有意義,因?yàn)樗砻鬟@個規(guī)則不是數(shù)據(jù)特有的現(xiàn)象,而是源于模型架構(gòu)本身的內(nèi)在性質(zhì)。

      研究團(tuán)隊(duì)的貢獻(xiàn)不僅在于發(fā)現(xiàn)了新的縮放規(guī)則,還在于提供了一個簡單的診斷工具。他們建議通過比較不同大小模型的頂部奇異值來檢查"子層增益不變性"。如果這些值能夠?qū)R,就說明縮放是成功的;如果不能,就需要調(diào)整權(quán)重衰減的設(shè)置。這為實(shí)踐者提供了一個直觀、易用的驗(yàn)證方法。

      這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)細(xì)節(jié)的改進(jìn)。在當(dāng)前大模型訓(xùn)練成本日益高昂的背景下,任何能夠減少重復(fù)調(diào)參需求的方法都具有巨大的實(shí)用價值。傳統(tǒng)上,每當(dāng)我們想要訓(xùn)練一個更大的模型時,都需要重新進(jìn)行大量的超參數(shù)搜索,這不僅消耗計(jì)算資源,也延長了研發(fā)周期。新的縮放規(guī)則讓我們能夠更加自信地將小模型的成功經(jīng)驗(yàn)直接應(yīng)用到大模型上。

      當(dāng)然,這項(xiàng)研究也有其局限性。目前的結(jié)果主要基于AdamW優(yōu)化器和LLaMA風(fēng)格的Transformer架構(gòu)。對于其他優(yōu)化器、混合專家模型,或者當(dāng)批次大小和訓(xùn)練token數(shù)量也隨模型大小縮放時,這些規(guī)則是否依然適用,還需要進(jìn)一步的研究。研究團(tuán)隊(duì)也承認(rèn),將這些經(jīng)驗(yàn)規(guī)律轉(zhuǎn)化為嚴(yán)格的理論預(yù)測,仍然是一個有待解決的挑戰(zhàn)。

      研究團(tuán)隊(duì)特別強(qiáng)調(diào)了一個重要觀點(diǎn):他們主張將大語言模型的訓(xùn)練視為一個動態(tài)物理系統(tǒng)來研究,使用動力學(xué)系統(tǒng)和統(tǒng)計(jì)物理的工具。這種觀點(diǎn)認(rèn)為,理論的作用類似于流體力學(xué),不需要在每個細(xì)節(jié)上都完全精確,但能夠在適當(dāng)?shù)某叨壬咸峁╊A(yù)測性的洞察。這種"有用的模型勝過完美的模型"的研究哲學(xué),為未來的工作指明了方向。

      此外,研究還揭示了學(xué)習(xí)率和權(quán)重衰減之間存在有趣的權(quán)衡關(guān)系。實(shí)驗(yàn)顯示,最優(yōu)的學(xué)習(xí)率會隨著權(quán)重衰減的增加而減少,形成一個近似對角線的"最優(yōu)脊"。這意味著這兩個參數(shù)不是獨(dú)立的,而是緊密相關(guān)的。了解這種關(guān)系不僅有助于更有效的參數(shù)調(diào)優(yōu),也為理解深度學(xué)習(xí)的內(nèi)在機(jī)制提供了新的視角。

      說到底,這項(xiàng)研究解決的是一個看似簡單卻極其重要的問題:如何讓AI模型的訓(xùn)練變得更加可預(yù)測和高效。雖然表面上只是調(diào)整了權(quán)重衰減的計(jì)算方式,但背后體現(xiàn)的是對深度學(xué)習(xí)動力學(xué)更深入的理解。隨著模型規(guī)模持續(xù)增長,這種理解變得越來越寶貴。

      對于普通人來說,這項(xiàng)研究的意義在于它可能會加速AI技術(shù)的發(fā)展和應(yīng)用。當(dāng)研究人員和工程師能夠更高效地訓(xùn)練大模型時,新的AI應(yīng)用就能更快地從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。無論是更智能的語音助手、更準(zhǔn)確的翻譯軟件,還是更強(qiáng)大的內(nèi)容生成工具,都可能因?yàn)橛?xùn)練效率的提升而更快地惠及普通用戶。

      這項(xiàng)研究也提醒我們,即使在AI快速發(fā)展的今天,仍然有許多基礎(chǔ)問題等待解決。每一個看似微小的技術(shù)改進(jìn),都可能在整個行業(yè)產(chǎn)生連鎖反應(yīng)。正如研究團(tuán)隊(duì)所說,未來的工作還包括將這些規(guī)則擴(kuò)展到其他優(yōu)化器、研究模型深度的縮放規(guī)律,以及建立數(shù)據(jù)分布、優(yōu)化器統(tǒng)計(jì)和譜形狀之間的預(yù)測性聯(lián)系。

      有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2510.15262v1查詢完整論文,其中包含了詳細(xì)的實(shí)驗(yàn)設(shè)計(jì)、數(shù)學(xué)推導(dǎo)和補(bǔ)充結(jié)果。這項(xiàng)由MIT和UCLA聯(lián)合完成的研究,為深度學(xué)習(xí)領(lǐng)域貢獻(xiàn)了一個既實(shí)用又優(yōu)雅的解決方案,展現(xiàn)了基礎(chǔ)研究在推動技術(shù)進(jìn)步中的重要作用。

      Q&A

      Q1:權(quán)重衰減縮放規(guī)則具體是什么?

      A:權(quán)重衰減縮放規(guī)則是指當(dāng)模型寬度增加時,權(quán)重衰減參數(shù)應(yīng)該按照寬度的平方根進(jìn)行縮放。比如模型寬度從256增加到1024(增加4倍),權(quán)重衰減就應(yīng)該從原來的值增加到2倍(4的平方根)。這個規(guī)則確保不同大小模型在訓(xùn)練過程中保持一致的內(nèi)在平衡。

      Q2:這項(xiàng)研究對普通AI用戶有什么影響?

      A:這項(xiàng)研究能夠讓AI模型訓(xùn)練變得更加高效,減少重復(fù)的參數(shù)調(diào)優(yōu)工作。這意味著新的AI應(yīng)用能夠更快地開發(fā)出來,從語音助手到翻譯軟件再到內(nèi)容生成工具,都可能因?yàn)橛?xùn)練效率的提升而更快地普及和改進(jìn),最終讓普通用戶受益。

      Q3:為什么之前的μP方法在大模型上會失效?

      A:μP方法主要針對訓(xùn)練初期進(jìn)行優(yōu)化,但當(dāng)訓(xùn)練進(jìn)入穩(wěn)定階段后,模型行為主要由優(yōu)化器內(nèi)在機(jī)制決定,而不是初始設(shè)置。在這個階段,不同大小模型的內(nèi)在結(jié)構(gòu)會發(fā)生偏離,導(dǎo)致原本在小模型上有效的參數(shù)設(shè)置在大模型上失效,就像小鍋炒菜的調(diào)料比例直接用到大鍋上會出問題一樣。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      這件事后果其實(shí)非常嚴(yán)重,可為什么沒人敢說!

      這件事后果其實(shí)非常嚴(yán)重,可為什么沒人敢說!

      胖胖說他不胖
      2025-12-11 10:00:19
      女孩曬出已故父親合影,沒想到卻是網(wǎng)友先繃不住了:這不是……

      女孩曬出已故父親合影,沒想到卻是網(wǎng)友先繃不住了:這不是……

      譚老師地理大課堂
      2025-12-11 22:20:25
      浙江大學(xué)26歲博導(dǎo)引關(guān)注,網(wǎng)友爆料他高考加分讀鄭大,確有此事嗎

      浙江大學(xué)26歲博導(dǎo)引關(guān)注,網(wǎng)友爆料他高考加分讀鄭大,確有此事嗎

      平老師666
      2025-12-11 21:49:24
      張水華已離職?醫(yī)院回應(yīng):沒這回事;她近50天4次參賽,獲得超20萬元獎金

      張水華已離職?醫(yī)院回應(yīng):沒這回事;她近50天4次參賽,獲得超20萬元獎金

      每日經(jīng)濟(jì)新聞
      2025-12-11 20:18:05
      中央最新定調(diào)!事關(guān)降準(zhǔn)降息、股市樓市等新表述

      中央最新定調(diào)!事關(guān)降準(zhǔn)降息、股市樓市等新表述

      南方都市報(bào)
      2025-12-11 20:06:05
      郭德綱被約談6天后,曲協(xié)18字表態(tài),難怪郭麒麟多次拒絕接班!

      郭德綱被約談6天后,曲協(xié)18字表態(tài),難怪郭麒麟多次拒絕接班!

      烏娛子醬
      2025-12-11 16:19:14
      美的、海爾、小米等聯(lián)手:推動“鋁代銅”標(biāo)準(zhǔn)落地、禁止互相惡意攻擊

      美的、海爾、小米等聯(lián)手:推動“鋁代銅”標(biāo)準(zhǔn)落地、禁止互相惡意攻擊

      第一財(cái)經(jīng)資訊
      2025-12-11 15:32:10
      63萬補(bǔ)償曬不得?中山佳能員工發(fā)視頻因”炫富”違規(guī)下架

      63萬補(bǔ)償曬不得?中山佳能員工發(fā)視頻因”炫富”違規(guī)下架

      雷科技
      2025-12-11 17:07:10
      磷蝦油磷脂含量實(shí)測為0!北京同仁堂涉嫌造假,企業(yè)將被約談

      磷蝦油磷脂含量實(shí)測為0!北京同仁堂涉嫌造假,企業(yè)將被約談

      南方都市報(bào)
      2025-12-11 16:54:13
      剛打開陳曉新劇,我兩眼一黑:女主這是穿著優(yōu)衣庫穿越來的嗎?

      剛打開陳曉新劇,我兩眼一黑:女主這是穿著優(yōu)衣庫穿越來的嗎?

      桑葚愛動畫
      2025-12-11 13:11:11
      中山要起飛!走了佳能,來了東鵬!年產(chǎn)21億超級工廠即將上線…

      中山要起飛!走了佳能,來了東鵬!年產(chǎn)21億超級工廠即將上線…

      火山詩話
      2025-12-11 12:04:49
      嫁大47歲甲骨文總裁,生二胎保一生富貴,朱可人比鄧文迪高明得多

      嫁大47歲甲骨文總裁,生二胎保一生富貴,朱可人比鄧文迪高明得多

      查爾菲的筆記
      2025-12-11 23:32:52
      無恥!百色教師性侵當(dāng)庭翻供,女孩日記曝光:我說痛他以為是情趣

      無恥!百色教師性侵當(dāng)庭翻供,女孩日記曝光:我說痛他以為是情趣

      派大星紀(jì)錄片
      2025-12-11 15:05:51
      廣東汕頭一五金店火災(zāi)致12人死亡,知情人士稱遇難者系四代同堂,幸存家屬發(fā)聲:不需要同情,生者很堅(jiān)強(qiáng)

      廣東汕頭一五金店火災(zāi)致12人死亡,知情人士稱遇難者系四代同堂,幸存家屬發(fā)聲:不需要同情,生者很堅(jiān)強(qiáng)

      揚(yáng)子晚報(bào)
      2025-12-11 14:38:36
      靠頭發(fā)增高硬演男主,央視《風(fēng)與潮》男主成敗筆,換掉他近乎完美

      靠頭發(fā)增高硬演男主,央視《風(fēng)與潮》男主成敗筆,換掉他近乎完美

      洲洲影視娛評
      2025-12-10 16:58:56
      錄音曝光!美國一飛行員高空欲關(guān)閉客機(jī)發(fā)動機(jī),機(jī)艙混亂傳來搏斗聲,機(jī)上載有84人

      錄音曝光!美國一飛行員高空欲關(guān)閉客機(jī)發(fā)動機(jī),機(jī)艙混亂傳來搏斗聲,機(jī)上載有84人

      中國能源網(wǎng)
      2025-12-11 10:27:06
      大小金川之戰(zhàn)清朝慘勝,但對如今的中國來說,卻是賺麻了的戰(zhàn)爭!

      大小金川之戰(zhàn)清朝慘勝,但對如今的中國來說,卻是賺麻了的戰(zhàn)爭!

      小豫講故事
      2025-12-09 06:00:09
      為何中國急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

      為何中國急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

      西虹市閑話
      2025-12-09 14:22:19
      “約談風(fēng)波”不到3天,郭德綱再迎噩耗!中國曲協(xié)的態(tài)度說明一切

      “約談風(fēng)波”不到3天,郭德綱再迎噩耗!中國曲協(xié)的態(tài)度說明一切

      知法而形
      2025-12-10 10:55:43
      中央明確:普通高中、優(yōu)質(zhì)本科擴(kuò)招

      中央明確:普通高中、優(yōu)質(zhì)本科擴(kuò)招

      第一財(cái)經(jīng)資訊
      2025-12-11 20:06:08
      2025-12-12 06:51:00
      至頂AI實(shí)驗(yàn)室 incentive-icons
      至頂AI實(shí)驗(yàn)室
      一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
      751文章數(shù) 151關(guān)注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關(guān)鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細(xì)節(jié)!

      財(cái)經(jīng)要聞

      明年經(jīng)濟(jì)工作怎么干 中央經(jīng)濟(jì)工作會議定調(diào)

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態(tài)度原創(chuàng)

      數(shù)碼
      時尚
      教育
      藝術(shù)
      公開課

      數(shù)碼要聞

      華為Sound X獲HarmonyOS 6.0 Beta升級,新增AI搜歌等功能

      12月的奇跡,是“白”給的!

      教育要聞

      5分鐘掌握函數(shù)積分三大方法!從此不再怕積分題

      藝術(shù)要聞

      嶺南畫派畫雪

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 黄片视频国产| 国模一区二区| 92自拍视频| 国内成人无码,| 中文字幕人妻少妇引诱隔壁| 欧美乱妇高清无乱码免费| 亚洲AV无码成人| 亚洲精品自拍| 欧美自拍视频| 日本欧美大码aⅴ在线播放| 激情97综合亚洲色婷婷五| 久热这里只有精品12| 三浦在线| 成人综合网址| 成人区人妻精品一区二区不卡视频| 日韩精品国产二区三区| 国产V视频| 成人AV综合网| 十八禁在线观看视频播放免费 | 久久露脸国语精品国产91| 儋州市| 日本www一道久久久免费| 中文字幕在线影视| 亚洲香蕉av一区二区蜜桃| 欧美607080| 国产成人av乱码在线观看| 中文字幕人成无码免费视频| 你懂的国产在线| 亚洲成人中出| 无码人妻少妇久久中文字幕| 99久热在线精品996热是什么| 亚洲精品日韩中文字幕| 高安市| 亚洲综合网国产精品一区| 女同AV在线播放| 免费vA片| 国产午夜视频在线观看| 2022国产成人精品视频人| 一本久久a久久精品综合| 麦盖提县| 末发育娇小性色xxxxx视频|