<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MIT最新發現:這十年,算法進步被高估了

      0
      分享至



      機器之心報道

      機器之心編輯部

      在過去十年中,AI 的進步主要由兩股緊密相關的力量推動:迅速增長的計算預算,以及算法創新。

      相比之下,計算量的增長較容易衡量,但我們仍然缺乏對算法進步的清晰量化,究竟哪些變化帶來了效率提升,這些提升的幅度有多大,以及它們在不同計算規模下是否依然成立。

      2024 年,有研究通過分析數百個語言模型,他們估計在過去十年里,算法進步在所謂的有效計算量(effective compute)方面貢獻了超過 4 個數量級的提升;而根據對歷史 AI 文獻的分析,計算規模本身增長了 7 個數量級。

      具體而言,所有算法創新加起來使模型的效率提高了大約 22,000 倍,這意味著在理論上可以用少得多的浮點運算次數(FLOPs)達到相同的性能水平。

      然而,我們仍然缺乏對這類進步的精確分解,而關于算法進步來源的許多關鍵問題仍未得到充分研究。例如:各種算法改進之間是如何相互作用的?算法進步是由一系列小改動累積而成,還是由少數幾次重大突破推動的?算法改進是像摩爾定律那樣平滑持續地發展,還是呈現間斷平衡(即長時間停滯 + 突然大跳躍)的模式?

      為回答這些問題,來自 MIT 等機構的研究者采用了三種互補的方法:

      • 對語言模型中的重要算法改進進行消融實驗;
      • 開展 scaling 實驗,以測量不同架構在最優 scaling 行為上的差異;
      • 對數據與參數 scaling 轉換進行理論分析。



      • 論文地址:https://arxiv.org/pdf/2511.21622
      • 論文標題:On the Origin of Algorithmic Progress in AI

      最終得到三條結論:

      1:經過實驗評估的大多數算法創新都只帶來了小幅的、與規模無關的效率提升,總體計算效率提升不到 10 倍,并且在推算到 2025 年的計算能力極限(2 × 1023 FLOPs)時,這些提升僅占總改進的不到 10%。這表明,與規模無關的算法進步在整體效率提升中所占的份額很小

      2:本文發現有兩項強烈依賴規模(scale-dependent)的算法創新:從 LSTM 到 Transformer,以及從 Kaplan 到 Chinchilla 。當將其外推到 2025 年的計算前沿時,這兩項創新合計占據了全部效率提升的 91%。這意味著:對于小規模模型而言,算法進步的幅度比此前認為的要小幾個數量級。

      3:在規模依賴型創新的情況下,效率提升不僅需要持續的計算投入,而且算法進步的速度還強烈依賴于你選擇的參考算法。換句話說,相對于某一個基線算法,連續模型之間的進步率可能看起來是指數級的;但相對于另外一個基線算法,它卻可能完全為零。

      總體來看,這些發現表明:算法進步可能本質上就是依賴規模的,要真正體現其效益需要不斷增長計算規模。同時,這也意味著算法進步對大模型開發者的益處遠大于對小規模參與者的益處。



      規模不變型算法

      本文首先通過大量的消融實驗來分析單個算法的影響,從而繪制出算法改進的細粒度圖景。此外,本文還嘗試估計了多項算法組合后的聯合效果。

      本文發現:原始論文(即提出某項算法改進的那篇論文)所聲稱的效率提升,往往遠高于后續文獻給出的估計,也高于本文的實驗結果。



      規模不變型算法的效率提升既小且分布高度不均

      實驗中發現,從 LSTM 切換到 Modern Transformer 的總效率提升為 6.28×,而從 LSTM 切換到 Retro Transformer 的效率提升為 4.69×。這比 Ho 等人(2024)的估計(他們認為 LSTM→Transformer 的提升約 60×)小得多。

      雖然本文確實觀察到一些改進(例如 Adam 優化器、以及從 post-layernorm 切換到 pre-RMSNorm)帶來了大約 2× 的效率提升,但作者測量的大多數創新帶來的提升都很小。

      有趣的是,他們看到一個高度偏斜的效率提升分布:盡管所有被消融的創新帶來的提升都低于 4×,但提升倍數卻極不均勻,主要集中在少數幾項改進上,例如 Adam 或 pre-layernorm。

      從這個角度來看,算法進步比之前想象的更加斷裂 / 不連續:多年小幅改進之后,會出現一次較大的算法躍遷。

      許多改進的效率提升幅度很小,這也推動本文開展第二部分實驗,比較算法變化在不同規模下的影響,從而揭示這些變化對神經網絡 scaling laws 的作用。

      依賴于規模的算法

      前文提到,算法改進在小規模模型上帶來的收益非常有限。因此自然會產生一個問題:在大規模下,算法收益會變得更大嗎?

      因此,本文對不同架構、優化器,以及算法創新進行了 scaling 實驗,以更好地理解它們的效率提升如何隨計算規模變化。

      實驗模型主要為 LSTM、Transformer,以及兩種 Transformer 變體:Modern Transformer、Retro Transformer。

      規模擴展實驗:從 LSTM 到 Transformer

      圖 4A 展示了 LSTM 與現代 Transformer 在 scaling 上的差異,圖 4B 展示了現代 Transformer 與 Retro Transformer 的 scaling 差異。



      Scaling 圖表表明,神經網絡架構的改進并不是規模不變的,而是具有隨規模增加而回報提升的特性(increasing returns to scale)。

      算法進步強烈依賴于算力規模與參考基線

      算法進步可能主要由算力提升所驅動

      本文提出一個疑問:此前將算法進步與時間掛鉤的說法,是否其實是由算力投入的持續增長所驅動?

      已有估計表明,前沿模型的計算預算正以每年 4.2 倍的速度呈指數增長。因此,隨著算力預算呈指數級提升,算法進步的速率可能更多是受這一規律性的算力擴張所推動,而不是源于不斷涌現的算法創新。

      本文發現:在 2017–2025 年間,幾乎所有可解釋的算法進步都來自兩項規模依賴型的創新:從 LSTM 換成 Transformer,以及從 Kaplan 換成 Chinchilla 的訓練策略。其他所有算法改進加起來只占很小一部分。

      在總計 21,400 倍(相對于 LSTM 模型)的性能提升中,本文發現 846 倍的提升是通過從 LSTM 模型轉向 Kaplan Transformer 模型實現的,而近 10 倍的提升則歸功于 Chinchilla 調整訓練策略。這兩項創新共同構成了總相對效率提升的 91%。



      算法進步的速度,取決于你拿誰當對照組

      如果算法變得更強,是不是意味著進步更快,其實這完全取決于你選誰來當參照物。換個參照物,算法進步的速度立刻就變了。

      因為有些算法改進是規模依賴型(scale-dependent) 的:在大模型、大算力下提升巨大;但在小模型、小算力下幾乎沒作用。

      這導致一個有趣現象:如果你用 LSTM 當參照:Transformer 系列(尤其是更大模型)會顯得算法進步是指數增長的(論文測到一年增長率大約 63%,非常快);但如果你用 Transformer 自己當參照,隨著規模變大,你只看到算法只比以前好 2 倍,幾乎沒增長。

      也就是說:換個對照組,算法進步就從指數增長變成增長幅度很少。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      驢肉中摻入馬肉、豬肉銷售,店主獲刑七年,罰金、賠償金超百萬元

      驢肉中摻入馬肉、豬肉銷售,店主獲刑七年,罰金、賠償金超百萬元

      新京報
      2025-12-11 19:07:11
      四川一茶樓被端,老板娘遭刑拘,小姐僅罰200塊錢

      四川一茶樓被端,老板娘遭刑拘,小姐僅罰200塊錢

      據說說娛樂
      2025-12-11 02:03:00
      歷史首次!英偉達H100在太空跑通了:太空算力賽道正式開啟

      歷史首次!英偉達H100在太空跑通了:太空算力賽道正式開啟

      AI寒武紀
      2025-12-11 07:08:37
      泰軍敢死隊血拼柬軍,摧毀童子山高地!柬埔寨萬人部隊開赴前線

      泰軍敢死隊血拼柬軍,摧毀童子山高地!柬埔寨萬人部隊開赴前線

      科普大世界
      2025-12-08 23:48:19
      社保斷繳1次,這些待遇全部取消!12月起正式執行

      社保斷繳1次,這些待遇全部取消!12月起正式執行

      會計人
      2025-12-11 12:04:25
      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

      李健政觀察
      2025-12-11 09:22:16
      日方果然咽不下這口氣,12架戰機掛載48枚導彈,擺明要針對遼寧艦

      日方果然咽不下這口氣,12架戰機掛載48枚導彈,擺明要針對遼寧艦

      軍機Talk
      2025-12-11 14:26:26
      湖南省衛健委主任李小松出任國家疾病預防控制局副局長

      湖南省衛健委主任李小松出任國家疾病預防控制局副局長

      澎湃新聞
      2025-12-11 17:46:31
      心理咨詢師鄭穎穎去世,年僅46歲未婚,死前遺言:希望公司倒閉

      心理咨詢師鄭穎穎去世,年僅46歲未婚,死前遺言:希望公司倒閉

      180視角
      2025-12-11 11:30:20
      他在國宴上喊首長“老頭子”,周總理當場拍案而起:誰給你的膽子?

      他在國宴上喊首長“老頭子”,周總理當場拍案而起:誰給你的膽子?

      史海孤雁
      2025-12-11 15:25:10
      就在剛剛!澤連斯基發表粗暴言論,公開指責中國!應該怎么看?

      就在剛剛!澤連斯基發表粗暴言論,公開指責中國!應該怎么看?

      翻開歷史和現實
      2025-12-11 09:41:12
      “新國標”讓人感覺一夜回到計劃經濟

      “新國標”讓人感覺一夜回到計劃經濟

      作家加野
      2025-12-10 19:20:24
      三峽大壩還能撐多少年?美專家:已出現裂紋,一枚導彈直接瓦解?

      三峽大壩還能撐多少年?美專家:已出現裂紋,一枚導彈直接瓦解?

      顧史
      2025-12-05 19:57:35
      A股:做好準備吧,今天調整到3862,不出意外,周五很可能這樣走

      A股:做好準備吧,今天調整到3862,不出意外,周五很可能這樣走

      好賢觀史記
      2025-12-11 15:55:12
      還打個屁啊!7個聯盟第1!總冠軍+狀元簽我都要!8.22億真沒白花

      還打個屁啊!7個聯盟第1!總冠軍+狀元簽我都要!8.22億真沒白花

      毒舌NBA
      2025-12-11 14:19:37
      給女同事發不雅“小視頻”被開除!男子:我是下班后發的!反將公司告上法庭!法院怎么判?

      給女同事發不雅“小視頻”被開除!男子:我是下班后發的!反將公司告上法庭!法院怎么判?

      極目新聞
      2025-12-11 12:21:48
      MiniMax 閆俊杰和羅永浩四小時訪談:走出中國 AI 的第三條路,大山并非不可翻越

      MiniMax 閆俊杰和羅永浩四小時訪談:走出中國 AI 的第三條路,大山并非不可翻越

      愛范兒
      2025-12-11 12:02:30
      自稱男友趁自己身體不適時發生關系致抑郁 女研究生索賠7萬元 一審被駁回

      自稱男友趁自己身體不適時發生關系致抑郁 女研究生索賠7萬元 一審被駁回

      極目新聞
      2025-12-11 14:58:18
      范曾宣布與女兒、繼子斷絕關系,有法律效力嗎?律師:自然血親關系無法斷絕

      范曾宣布與女兒、繼子斷絕關系,有法律效力嗎?律師:自然血親關系無法斷絕

      紅星新聞
      2025-12-11 13:47:17
      11號收評:中興通訊遭遇黑天鵝!所有人都注意,大盤后市或這樣走

      11號收評:中興通訊遭遇黑天鵝!所有人都注意,大盤后市或這樣走

      春江財富
      2025-12-11 15:34:02
      2025-12-11 20:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11898文章數 142509關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      公司涉嫌逃稅被罰后 千萬粉絲網紅3個月直播帶貨29場

      頭條要聞

      公司涉嫌逃稅被罰后 千萬粉絲網紅3個月直播帶貨29場

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      本地
      健康
      時尚
      手機
      公開課

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      甲狀腺結節到這個程度,該穿刺了!

      今年流行的這件“短外套”美爆了,怎么搭都優雅貴氣!

      手機要聞

      蘋果的“空間魔法”,A19/Pro芯片Die Size較前代縮小9%/10%

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: bt天堂新版中文在线| 日韩av一区二区精品不卡| 中文字字幕在线中文乱码| 亚欧美无遮挡hd高清在线视频| 超碰人人干| 99草草国产熟女视频在线| 国产精品亚洲一区二区三区喷水| 亚洲第一无码AV无码专区| 亚洲日本韩国| 亚洲一区av在线观看| 亚洲人妻人| 彰化市| 亚洲中文在线观看| 亚洲精品日韩在线观看| 精品国产性色无码av网站| 在线观看的网站| 亚洲最大福利视频网| 午夜dj在线观看免费视频| 无码成a毛片免费| 精品九九视频| 上海av电影在线观看| 高级艳妇交换俱乐部小说| 青柠影院免费观看高清电视剧丁香| 亚洲乱码av中文一区二区| 亚洲精品日本| 连城县| 一区色| 亚洲精品mv免费网站| 少妇被多人c夜夜爽爽av| 亚洲国产高清第一第二区| 久久久久国产精品熟女影院| 成人网站免费看黄a站视频| 桦甸市| 桃园县| 亚洲无码2025| www日韩| 国产av成人精品播放| 人妻丰满熟妇无码区免费 | 婷婷伊人綜合中文字幕小说| 亚洲三级香港三级久久| 国产伦孑沙发午休精品|