![]()
Nature Machine Intelligence 封面
《Densing Law of LLMs》 論文,登上 Nature Machine Intelligence 封面
這篇論文,提出了一個很有趣的點
Densing Law 模型的能力密度,每 3.5 個月翻倍
通過分析了 51 個開源模型,量化了一個現象:
? 模型能力密度,呈指數級增長, 倍增周期約 3.5 個月
? 這意味著達到同等性能水平,所需的參數量 每 3.5 個月減少一半
? 伴隨參數效率的提升,同等性能下的 推理成本每 2.6 個月腰斬
本論文的第一作者為肖朝軍,通訊作者為韓旭、劉知遠、孫茂松,來自清華TsinghuaNLP團隊
論文回顧
讓我先用簡明的方式,簡單講下論文:能力密度,每 3.5 個月翻倍,這里的能力密度是什么?
能力密度 = 等效參數量 ÷ 實際參數量
![]()
「能力密度」是怎么得來的
換句話說:
2B 模型跑出 4B 的成績,密度就是 2
Llama-1 發布時,密度不到 0.1
兩年后,Gemma-2-9B 和 MiniCPM-3-4B 接近 2
![]()
模型能力密度趨勢圖
兩年,能力密度提高 20 倍
和體感是不是很接近?模型咔咔在變聰明
那么...怎么漲的?
你可能聽說過小模型變強的兩種做法:
? 剪枝 :把大模型參數砍掉一部分
? 量化 :把參數精度從 32 位降到 8 位
但論文發現,這兩種方法都會讓密度下降
? Llama-3.2-3B/1B 從 8B 剪枝來,密度比原模型低
? Llama-3.1-minitron-4B 也是,密度也低
? GPTQ 量化后,密度同樣下降
論文解釋:
壓縮過程中訓練不充分,能力沒塞回去
密度提升靠的是更好的預訓練數據,更好的架構,后期壓縮是沒用的
那如果 3.5 個月翻倍這個規律持續下去,會怎樣?
論文給了幾個推論
密度提升靠的是更好的預訓練數據,更好的架構,后期壓縮是沒用的
那如果 3.5 個月翻倍這個規律持續下去,會怎樣?
論文給了幾個推論
推論一:推理成本指數下降
密度翻倍,同等性能所需參數量減半,算力顯存跟著減半
論文算了一下:同等性能的推理成本,每 2.6 個月腰斬
![]()
各種模型的調用價格,飛速下降,圖自論文 Fig.3a 推論二:ChatGPT 加速了密度增長
ChatGPT 發布前,密度增長斜率是 0.0048,發布后變成了 0.0073
![]()
ChatGPT 發布后,斜率明顯上升,圖自論文 Fig.3c
增速提升 50%
這說明... AI 大火之后,人、錢、資源都涌了進來,增速實打實提高了
推論三:端側設備會越來越能打
在過去幾年里,相同價格芯片的計算能力大約每 2.1 年翻一番
而根據上面的結論,模型密度每 3.5 個月翻倍
疊加一下:固定價格端側設備,能跑的有效參數量每 88 天翻番
emmmmnm...未來可期
![]()
又不是不可能... 歷史回顧
這部分和論文無關,是我自己整理的行業數據,我們來看看實際價格
![]()
先說量販式
2022 年底,ChatGPT 發布的時候,能用到的模型叫text-davinci-003 ,后面也被稱作 GPT-3,定價是 20 美元/百萬 token
2024 年 7 月,GPT-4o mini 出來了,0.15 美元/百萬輸入 token,比 GPT-3.5 Turbo 便宜 60%,MMLU 跑分還更高——82% vs 69.8%
2024 年 8 月,Gemini-1.5-Flash,0.075 美元/百萬 token
從 text-davinci-003 到 Gemini Flash,20 個月,降了 266 倍
旗艦模型呢?
最開始的 GPT-4,是 23年6月13日發布的,輸入是 60 美元/百萬 token。還有個更貴的 GPT-4-32k,輸入是 60美金/百萬 token
而最新的 GPT-5.1 則只需要 1.25 美元/百萬 token
![]()
OpenAI 的模型價格
順便說一下,國產平替 GLM-4.6 更是低至 0.3 美元/百萬 token,要啥自行車
![]()
GLM 的模型價格
不僅僅是價格巨幅降低,性能也是節節攀升,曾經的模型能力,從現在的角度,完全不夠看
![]()
模型能力進化史 再看小模型
2024 年 2 月,MiniCPM-2.4B 發布,參數量只有 Mistral-7B 的 35%,跑分接近 Mistral-7B,中文、數學、代碼還更強,整體超過 Llama2-13B、MPT-30B、Falcon-40B
![]()
還是看這個圖,圈子大小表示參數量
考慮到 Mistral-7B 是 2023 年 9 月發布的,那么...
4 個月,參數量砍到 35%,性能不降
這樣的例子還很多,大致都可以和論文的 Densing Law 對得上,未來大模型的發展都可以參照這個來評判
穿插個題外話:Dense vs MoE
上文中,我提到過兩種模型,一種是幾百B的,另一種則是幾B的...
一些朋友可能會好奇,為啥都是大模型,有的賊大,有的賊小...
這其實是個架構問題,有些是 MoE 架構,體積大,適合服務器部署(訓練/規模化推理成本有優勢);有些是 Dense 架構,體積小,適合本地部署(尺寸上有優勢),詳細的解釋可以看這里:
總結
一句話展望
按這個發展速度,在小天才手表上,跑 Nano Banana,指日可待
![]()
圖是ai畫的,但我是認真的...現在的小天才,已經比安尼亞克(ENIAC)強太多了
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.