<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Nature子刊:大模型進入“密度時代”

      0
      分享至


      導語

      大語言模型已成為人工智能發展的重要里程碑。既有的規模法則表明,隨著模型規模的擴大,LLM的性能會持續提升,但這也對訓練與部署帶來顯著挑戰。盡管業界不斷嘗試提升模型效率,卻仍缺乏關于不同規模LLM的效率發展趨勢與評價體系的統一共識。為解決性能與效率之間的張力,本文提出“能力密度”這一概念,用以衡量模型在單位參數上所體現的有效能力,從而在性能與效率兩個維度上提供統一的評價框架。我們進一步給出一項經驗性發現,即“密度定律”:LLM的能力密度隨時間呈指數增長。基于多個主流基準的評估結果顯示,開源LLM的最大能力密度大約每3.5個月翻倍。這意味著,實現同等性能所需的參數規模與推理成本均在指數下降,為高效LLM的開發策略提供了新的啟示。

      關鍵詞:大語言模型(LLMs)、規模法則(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率評估(Efficiency Evaluation)

      鄭鴻盛丨作者

      趙思怡丨審校


      論文題目:Densing law of LLMs 論文鏈接:https://www.nature.com/articles/s42256-025-01137-0 發表時間:2025年11月6日 論文來源:Nature Machine Intelligence

      能力密度的指數躍遷,

      正在悄悄改變 AI 的未來

      近兩年,大模型的突飛猛進讓人切身感受到“技術狂飆”,然而一個更耐人尋味的現象也隨之浮現:模型能力不斷提高,推理成本卻在飛速下降;小模型越來越頻繁地逼近甚至超越大模型;而“繼續堆參數”似乎不再是性能提升的唯一途徑。2025年11月6日發表于Nature Machine Intelligence 的論文《Densing Law of LLMs》給出了一種顛覆性的解釋——大模型正在從拼“規模”轉向拼“密度”。研究發現,LLM的“能力密度”(capability density)正以指數速度增長,約每3.5個月翻一倍,這意味著達到同等性能所需的參數量大幅減少,推理成本呈指數級下降,端側智能(在手機、PC等本地設備運行大模型)將比預期更早成熟。這不是簡單的性能提升,而是一場關于效率的革命。讓我們從這篇可能深刻影響未來五年的論文開始,重新理解大模型的進化方向。

      過去衡量模型能力,業界普遍遵循“參數越大,性能越強”的直覺,但隨著大量開源模型的涌現,這一直覺邏輯開始失靈,出現7B模型逼近甚至匹敵70B模型,4B模型在部分任務上超過13B模型,手機端模型也逐漸具備ChatGPT3.5的水平,而訓練數據質量與訓練策略的重要性日益凸顯。這些現象共同指向一個事實——參數量已無法充分解釋模型能力的差異,規模不再等同于質量。因此,真正需要關注的已不再是“模型有多大”,而是“模型的效率有多高”。

      什么是“能力密度”?簡單來說,它衡量的是模型“每個參數的含金量”。其定義為:能力密度 = 模型的有效能力 ÷ 實際參數量。這里的“有效能力”并非模型自身的參數規模,而是一個反推值:如果某模型達到特定性能,那么一套參考模型需要多少參數才能取得相同表現,這個等效參數量記為 N?(此處的參考模型為研究者自建的一系列不同參數規模、結構一致、訓練流程一致的小參數規模模型)。于是能力密度可寫為 ρ = N? / N,用來刻畫模型訓練得是否“緊實”。例如,一個3B模型若達到參考模型6B的能力,則密度 ρ = 6 / 3 = 2,代表其單位參數效率極高;反之,若一個7B模型只能達到參考模型3B的水平,則 ρ < 1,說明其參數利用率偏低。本質上,能力密度回答的就是那一句:模型的每個參數到底“值不值錢”?

      密度定律:能力密度正以指數方式增長

      本研究中最重要的發現之一,是大模型的能力密度隨時間呈現穩定的指數增長趨勢。研究者選取五十余個近年來發布的開源基礎模型,覆蓋多個系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多個主流基準(MMLU、BBH、MATH、HumanEval、MBPP)上進行統一評估。結果顯示,模型的最大能力密度大約每 3.5 個月翻一倍,這一趨勢在不同任務和不同模型之間都十分一致。


      圖 1|近年來開源大模型的能力密度趨勢。每個點代表一個模型,圓點越大參數量越大。從圖中可以看到,隨著時間推移,能力密度的上界呈現清晰的指數增長。

      這一指數增長趨勢意味著:未來達到相同性能所需的參數量將持續減少。換言之,人們慣常認為的“大模型能力強、但成本高”的認知,將在未來不斷被弱化。更令人興奮的是,這種指數增長在新模型中體現得更為突出,特別是數據質量、訓練策略更為精細的小模型,往往展現出遠超其規模的能力密度。

      能力密度提升的一個自然結果,是實現相同性能所需的實際參數量不斷減少。與此同時,推理成本也正在以類似的指數速度下降。文章對多個高性能模型的API調用價格進行了整理,并展示了一個同樣令人驚訝的趨勢:模型的推理價格大約每2.6個月減半。2022 年 GPT-3.5 的價格約為每百萬token需要20美元,而到了 2024 年,Gemini Flash的推理價格僅為0.075美元,相當于下降了超過260倍。


      圖 2|近年來幾個主流語言模型的推理價格變化。性能優于 GPT-3.5 的大語言模型(LLMs)的應用程序接口(API)定價。線條連接各時間點定價最低的模型,最便宜模型的API定價呈指數下降。

      推理成本的下降不僅來自模型能力密度的提升,也來自底層推理技術的優化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架構等。隨著模型本身越來越“緊實”,推理成本的下降幅度也將持續擴大。

      當密度定律遇上 Moore 定律:

      端側智能將提前爆發

      當能力密度的指數增長與硬件性能的指數增長疊加時,一個更加激進的趨勢會出現。過去數十年里,硬件晶體管密度大約每兩年翻一倍;如今,大模型的能力密度每3.5個月翻一倍。兩者的乘積效果意味著:在固定價格的硬件上,能夠運行的“有效模型規模”約每88天翻一倍。

      這預示著什么?預示著過去需要云端大模型才能實現的能力,未來將能在手機、電腦、平板等設備上高效運行。端側 AI 的普及速度可能遠超過我們目前的想象,隱私計算、低成本部署、離線大模型應用將因此迎來爆發式發展。


      圖 3|大模型的高性能正向小規模模型遷移,同時端側可運行模型的能力快速提升(圖片源于網絡)。紅色虛線區域代表接近GPT-4V水平的模型帶寬,隨著時間推移,越來越小的模型逐漸逼近這一性能區間;下方藍色虛線趨勢線展示了能夠在端側設備運行的模型能力不斷上升。

      高密度模型不是“壓”出來的,而是“練”出來的

      在參數規模快速被重新評估的背景下,一個看似合理的猜想是:既然參數越少越高效,那么剪枝、蒸餾、量化等模型壓縮技術應該更容易得到高能力密度的小模型。但論文的實驗結果卻指向相反方向——壓縮后的模型能力密度整體上并不比原模型高,甚至往往更低。其根本原因在于,壓縮過程雖然減少了模型的實際參數量,卻沒有讓模型獲得足夠的再訓練,從而無法讓這些“更輕”的參數真正承擔起更高的能力負載。尤其是量化,雖然降低了內存和推理成本,但不可避免地帶來一定的性能損失。因此,真正高密度的小模型,并不是“從大模型壓縮而來”,而是“從一開始就為高密度而訓練”的結果。

      能力密度之所以能夠持續提升,主要源于三方面的共同推動。首先,訓練數據的規模與質量顯著提高。以Llama系列為例,Llama-3 所使用的15萬億token數據不僅規模遠超Llama-1的1.4萬億token,且在清洗與篩選流程上更加精細,這使模型能夠在同樣結構下學習到更豐富、更可靠的知識。其次,模型結構日益高效。以稀疏專家模型(MoE)為代表的新架構,使模型在推理時僅激活部分專家,從而以更低的計算量獲得更強的表達能力,大幅提高“參數的利用率”。最后,訓練算法不斷演進。無論是將強化學習前移到預訓練階段,還是利用高質量的合成數據和“弱到強”(weak-to-strong)訓練策略,這些方法都讓模型能夠在固定參數量下挖掘出更高的能力上限。這些因素共同作用,使得模型在“單位參數上可以學習到更多能力”,從而推動能力密度不斷攀升。

      當然,謹慎來說能力密度的增長不可能無限持續。信息論告訴我們,每個參數能夠存儲的信息量是有限的,模型參數的表達能力也有理論上界。隨著模型的訓練方式、數據質量和結構不斷提升,能力密度的增長最終將遇到瓶頸。屆時,如果要繼續突破當前框架的限制,可能需要依賴全新的技術范式,例如量子計算、類腦計算或其他尚未成熟的計算架構。盡管如此,在可預見的未來幾年中,能力密度仍會保持高速增長,模型變“密”的趨勢不會減弱。

      密度定律不僅是一個科學觀察,更是一個具有產業指導意義的趨勢。對于模型研發而言,它提示我們,未來的競爭不再是單純擴大參數規模,而是追求“更高密度”的訓練方法與更高質量的數據;對于企業而言,可以據此預測未來模型成本的下降趨勢,從而更合理安排AI投入;對于硬件和應用產業,則意味著端側智能將迎來快速擴張,本地運行大模型將從技術挑戰變成新常態。

      從“大”到“密”,AI 的進化正在加速重寫

      《Densing Law of LLMs》揭示的,是一種隱藏在大模型演化背后的“效率革命”。在這個新的發展階段,模型不再依賴“堆大”,而是通過更智能的訓練、更優的數據、更精細的結構獲得更高的效率。能力密度的指數提升讓我們看到:未來的大模型既可能更強,也可能更輕、更快、更便宜,甚至隨時運行在每個人的口袋里。

      我們正在見證語言模型從“規模時代”邁向“密度時代”,而這一轉變,或許將深刻改變未來五年乃至整個AI產業的面貌。

      大模型2.0讀書會

      o1模型代表大語言模型融合學習與推理的新范式。集智俱樂部聯合北京師范大學系統科學學院教授張江、Google DeepMind研究科學家馮熙棟、阿里巴巴強化學習研究員王維塤和中科院信工所張杰共同發起,本次讀書會將關注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優化、基于強化學習的大模型優化、思維鏈方法與內化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現的技術路徑,幫助我們更好的理解機器推理和人工智能的本質。讀書會已完結,現在報名可加入社群并解鎖回放視頻權限。

      詳情請見:

      1.

      2.

      3.

      4.

      5.

      6.

      7.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      星鏈斷供!俄軍無人機集體“失明”,俄軍方怒批馬斯克:混蛋!

      星鏈斷供!俄軍無人機集體“失明”,俄軍方怒批馬斯克:混蛋!

      老馬拉車莫少裝
      2026-02-05 19:53:15
      這種飲料除了“上癮”,還會讓你抑郁、焦慮!尤其女性要少喝

      這種飲料除了“上癮”,還會讓你抑郁、焦慮!尤其女性要少喝

      南粵女聲
      2026-02-05 17:43:45
      ESPN:C羅繼續罷賽!記者:C羅認為本澤馬應該來輔佐自己!

      ESPN:C羅繼續罷賽!記者:C羅認為本澤馬應該來輔佐自己!

      氧氣是個地鐵
      2026-02-05 11:02:25
      亞洲“烏克蘭”出現,東亞局勢緊急,中國搶先行動

      亞洲“烏克蘭”出現,東亞局勢緊急,中國搶先行動

      毛豆論道
      2026-02-04 18:56:18
      交易達成?馬杜羅拿自由換石油,中方罕見撂重話,女總統光速掌權

      交易達成?馬杜羅拿自由換石油,中方罕見撂重話,女總統光速掌權

      奇思妙想生活家
      2026-02-05 14:16:38
      李凱馨:原來“大粗腿”才是性感天花板!

      李凱馨:原來“大粗腿”才是性感天花板!

      白色得季節
      2026-02-03 13:20:01
      片甲不留給巴拿馬,港澳辦罕見發聲,認錯機會只有一次

      片甲不留給巴拿馬,港澳辦罕見發聲,認錯機會只有一次

      米果說識
      2026-02-05 17:01:15
      后怕!如果當初決策層相信了許小年,中國可能會比現在落后二十年

      后怕!如果當初決策層相信了許小年,中國可能會比現在落后二十年

      藍色海邊
      2026-02-05 07:55:38
      受權發布|中華人民共和國國務院令  第829號

      受權發布|中華人民共和國國務院令  第829號

      新華社
      2026-02-05 17:02:04
      《血戰臺兒莊》拍完后,中央不許公映,程思遠力爭:該片符合史實

      《血戰臺兒莊》拍完后,中央不許公映,程思遠力爭:該片符合史實

      文史季季紅
      2026-02-05 10:40:03
      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      洲洲影視娛評
      2025-12-08 19:52:00
      錢再多也沒用,林子祥葉倩文如今現狀,給“老少戀”夫妻提了個醒

      錢再多也沒用,林子祥葉倩文如今現狀,給“老少戀”夫妻提了個醒

      查爾菲的筆記
      2026-01-24 20:06:02
      經濟下行,身邊返貧的朋友越來越多了

      經濟下行,身邊返貧的朋友越來越多了

      霹靂炮
      2026-01-28 22:52:29
      官宣!第33艘052D驅逐艦甘孜艦(128)亮相,也是2025年服役的第7艘052D型驅逐艦!

      官宣!第33艘052D驅逐艦甘孜艦(128)亮相,也是2025年服役的第7艘052D型驅逐艦!

      藍海夢想
      2026-02-05 20:56:40
      宋太祖趙匡胤下令善待柴氏后人,柴榮后人在宋朝到底過得怎樣呢?

      宋太祖趙匡胤下令善待柴氏后人,柴榮后人在宋朝到底過得怎樣呢?

      今日養生之道
      2026-02-04 14:30:40
      英國王室丑聞升級,新證人爆料:安德魯完事后,竟帶她去白金漢宮

      英國王室丑聞升級,新證人爆料:安德魯完事后,竟帶她去白金漢宮

      看盡人間百態
      2026-02-05 17:27:45
      ESPN為泰厄斯·瓊斯交易評級:魔術被評C,黃蜂收獲高評A

      ESPN為泰厄斯·瓊斯交易評級:魔術被評C,黃蜂收獲高評A

      去山野間追風
      2026-02-05 19:31:13
      平型關戰日軍輜重隊傷亡慘重,因隊藏五百精兵且六千援軍將至

      平型關戰日軍輜重隊傷亡慘重,因隊藏五百精兵且六千援軍將至

      嘮叨說歷史
      2026-01-26 15:07:49
      王欣瑜意外,張帥澳網奪冠24小時內口碑暴漲

      王欣瑜意外,張帥澳網奪冠24小時內口碑暴漲

      日落于西
      2026-02-05 20:07:57
      2026-02-05 21:28:49
      集智俱樂部 incentive-icons
      集智俱樂部
      科普人工智能相關知識技能
      5647文章數 4662關注度
      往期回顧 全部

      科技要聞

      美團7.17億元收購叮咚買菜

      頭條要聞

      男子從著火電車救下3人未獲評見義勇為 當地:系過錯方

      頭條要聞

      男子從著火電車救下3人未獲評見義勇為 當地:系過錯方

      體育要聞

      奇才:我學生……獨行俠:成交!

      娛樂要聞

      微博之夜卷入座位風波!楊冪超話淪陷

      財經要聞

      中美"只會有好消息" 經濟冷暖看房價

      汽車要聞

      李想為全新L9預熱 all in AI造更好的車

      態度原創

      旅游
      藝術
      教育
      家居
      軍事航空

      旅游要聞

      直擊現場!好玩好逛!2026嶺南年貨節明天在佛山南海開幕

      藝術要聞

      他熱愛繪畫,生活中的每一刻都充滿激情!

      教育要聞

      夫妻雙方都是公立學校的老師,真的會很幸福嗎?

      家居要聞

      簡雅序章 自然且閑適

      軍事要聞

      54歲荷蘭王后以預備役軍人身份參軍 王室解釋原因

      無障礙瀏覽 進入關懷版