<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華TsinghuaNLP團隊,登上Nature子刊封面:“模型的能力密度,每3.5個月翻倍”

      0
      分享至


      Nature Machine Intelligence 封面

      《Densing Law of LLMs》 論文,登上 Nature Machine Intelligence 封面

      這篇論文,提出了一個很有趣的點

      Densing Law 模型的能力密度,每 3.5 個月翻倍

      通過分析了 51 個開源模型,量化了一個現象:

      • ? 模型能力密度,呈指數級增長, 倍增周期約 3.5 個月

      • ? 這意味著達到同等性能水平,所需的參數量 每 3.5 個月減少一半

      • ? 伴隨參數效率的提升,同等性能下的 推理成本每 2.6 個月腰斬

      本論文的第一作者為肖朝軍,通訊作者為韓旭、劉知遠、孫茂松,來自清華TsinghuaNLP團隊

      論文回顧

      讓我先用簡明的方式,簡單講下論文:能力密度,每 3.5 個月翻倍,這里的能力密度是什么?

      能力密度 = 等效參數量 ÷ 實際參數量


      「能力密度」是怎么得來的

      換句話說:
      2B 模型跑出 4B 的成績,密度就是 2

      Llama-1 發布時,密度不到 0.1

      兩年后,Gemma-2-9B 和 MiniCPM-3-4B 接近 2


      模型能力密度趨勢圖

      兩年,能力密度提高 20 倍
      和體感是不是很接近?模型咔咔在變聰明

      那么...怎么漲的?
      你可能聽說過小模型變強的兩種做法:

      • ? 剪枝 :把大模型參數砍掉一部分

      • ? 量化 :把參數精度從 32 位降到 8 位

      但論文發現,這兩種方法都會讓密度下降

      • ? Llama-3.2-3B/1B 從 8B 剪枝來,密度比原模型低

      • ? Llama-3.1-minitron-4B 也是,密度也低

      • ? GPTQ 量化后,密度同樣下降

      剪枝/量化都沒啥用,圖自論文 Fig.3b

      論文解釋:
      壓縮過程中訓練不充分,能力沒塞回去

      密度提升靠的是更好的預訓練數據,更好的架構,后期壓縮是沒用的
      那如果 3.5 個月翻倍這個規律持續下去,會怎樣?
      論文給了幾個推論

      密度提升靠的是更好的預訓練數據,更好的架構,后期壓縮是沒用的

      那如果 3.5 個月翻倍這個規律持續下去,會怎樣?

      論文給了幾個推論

      推論一:推理成本指數下降

      密度翻倍,同等性能所需參數量減半,算力顯存跟著減半

      論文算了一下:同等性能的推理成本,每 2.6 個月腰斬


      各種模型的調用價格,飛速下降,圖自論文 Fig.3a 推論二:ChatGPT 加速了密度增長

      ChatGPT 發布前,密度增長斜率是 0.0048,發布后變成了 0.0073


      ChatGPT 發布后,斜率明顯上升,圖自論文 Fig.3c

      增速提升 50%

      這說明... AI 大火之后,人、錢、資源都涌了進來,增速實打實提高了

      推論三:端側設備會越來越能打

      在過去幾年里,相同價格芯片的計算能力大約每 2.1 年翻一番

      而根據上面的結論,模型密度每 3.5 個月翻倍

      疊加一下:固定價格端側設備,能跑的有效參數量每 88 天翻番

      emmmmnm...未來可期


      又不是不可能... 歷史回顧

      這部分和論文無關,是我自己整理的行業數據,我們來看看實際價格


      先說量販式

      2022 年底,ChatGPT 發布的時候,能用到的模型叫text-davinci-003 ,后面也被稱作 GPT-3,定價是 20 美元/百萬 token

      2024 年 7 月,GPT-4o mini 出來了,0.15 美元/百萬輸入 token,比 GPT-3.5 Turbo 便宜 60%,MMLU 跑分還更高——82% vs 69.8%

      2024 年 8 月,Gemini-1.5-Flash,0.075 美元/百萬 token

      text-davinci-003Gemini Flash,20 個月,降了 266 倍

      旗艦模型呢?

      最開始的 GPT-4,是 23年6月13日發布的,輸入是 60 美元/百萬 token。還有個更貴的 GPT-4-32k,輸入是 60美金/百萬 token

      而最新的 GPT-5.1 則只需要 1.25 美元/百萬 token


      OpenAI 的模型價格

      順便說一下,國產平替 GLM-4.6 更是低至 0.3 美元/百萬 token,要啥自行車


      GLM 的模型價格

      不僅僅是價格巨幅降低,性能也是節節攀升,曾經的模型能力,從現在的角度,完全不夠看


      模型能力進化史 再看小模型

      2024 年 2 月,MiniCPM-2.4B 發布,參數量只有 Mistral-7B 的 35%,跑分接近 Mistral-7B,中文、數學、代碼還更強,整體超過 Llama2-13B、MPT-30B、Falcon-40B


      還是看這個圖,圈子大小表示參數量

      考慮到 Mistral-7B 是 2023 年 9 月發布的,那么...

      4 個月,參數量砍到 35%,性能不降

      這樣的例子還很多,大致都可以和論文的 Densing Law 對得上,未來大模型的發展都可以參照這個來評判

      穿插個題外話:Dense vs MoE

      上文中,我提到過兩種模型,一種是幾百B的,另一種則是幾B的...

      一些朋友可能會好奇,為啥都是大模型,有的賊大,有的賊小...

      這其實是個架構問題,有些是 MoE 架構,體積大,適合服務器部署(訓練/規模化推理成本有優勢);有些是 Dense 架構,體積小,適合本地部署(尺寸上有優勢),詳細的解釋可以看這里:

      總結

      一句話展望
      按這個發展速度,在小天才手表上,跑 Nano Banana,指日可待


      圖是ai畫的,但我是認真的...現在的小天才,已經比安尼亞克(ENIAC)強太多了

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      54歲埃梅里激動脫衣怒吼!率隊10連勝震撼英超 終結對曼聯6場不勝

      54歲埃梅里激動脫衣怒吼!率隊10連勝震撼英超 終結對曼聯6場不勝

      我愛英超
      2025-12-22 02:40:29
      周末打虎!江西省政協副主席尹建業任上落馬,長期在云南任職

      周末打虎!江西省政協副主席尹建業任上落馬,長期在云南任職

      界面新聞
      2025-12-21 16:53:19
      世界第一爆冷!石宇奇0-2小波波夫,衛冕失敗無緣國羽歷史第二人

      世界第一爆冷!石宇奇0-2小波波夫,衛冕失敗無緣國羽歷史第二人

      釘釘陌上花開
      2025-12-21 19:30:02
      46歲獨居女子離世,上海通報其遺產處置

      46歲獨居女子離世,上海通報其遺產處置

      南方都市報
      2025-12-22 00:01:04
      南京博物院的事,炸出了一個去年的視頻

      南京博物院的事,炸出了一個去年的視頻

      麥杰遜
      2025-12-21 12:17:15
      龐家后人香港媒體發聲:不公正、不理解、不接受!選擇硬剛到底!

      龐家后人香港媒體發聲:不公正、不理解、不接受!選擇硬剛到底!

      眼光很亮
      2025-12-22 02:45:46
      7輪0球!1億鋒霸又啞火,西甲陷入進球荒,射手榜被姆巴佩甩開

      7輪0球!1億鋒霸又啞火,西甲陷入進球荒,射手榜被姆巴佩甩開

      足球狗說
      2025-12-21 23:00:21
      全劇終!10個漲停后連續11個跌停,3.5萬散戶被埋,這還怎么玩?

      全劇終!10個漲停后連續11個跌停,3.5萬散戶被埋,這還怎么玩?

      財經市界
      2025-12-21 21:19:51
      0-1,第94分鐘丟球釀悲劇,42歲德羅西率隊遭絕殺+遭遇意甲2連敗

      0-1,第94分鐘丟球釀悲劇,42歲德羅西率隊遭絕殺+遭遇意甲2連敗

      側身凌空斬
      2025-12-22 05:46:13
      南京博物院前院長徐湖平,退休金2萬多,不承認6800元賣掉江南春

      南京博物院前院長徐湖平,退休金2萬多,不承認6800元賣掉江南春

      漢史趣聞
      2025-12-21 17:02:43
      風流成性、揮霍無度,37歲“紙醉金迷”的王思聰,再次傳出大丑聞

      風流成性、揮霍無度,37歲“紙醉金迷”的王思聰,再次傳出大丑聞

      寒士之言本尊
      2025-12-21 14:39:58
      上海輸球揪出2大毒瘤!他12投僅得11分,正負值-13,打的太差了

      上海輸球揪出2大毒瘤!他12投僅得11分,正負值-13,打的太差了

      籃球專區
      2025-12-21 22:39:44
      順豐退出抖音電商退貨業務!原因很簡單:退貨率賊高,錢少事兒多

      順豐退出抖音電商退貨業務!原因很簡單:退貨率賊高,錢少事兒多

      風向觀察
      2025-12-21 13:11:03
      臉都不要了,但還是低估了他們的無恥

      臉都不要了,但還是低估了他們的無恥

      胖胖說他不胖
      2025-12-21 11:00:20
      著名演員新片與《阿凡達3》對打,票房零元,12月最慘電影誕生了

      著名演員新片與《阿凡達3》對打,票房零元,12月最慘電影誕生了

      影視高原說
      2025-12-20 10:41:19
      南京博物院提供給新華社的這組《江南春》手續和票據,有五大疑點!

      南京博物院提供給新華社的這組《江南春》手續和票據,有五大疑點!

      常識群
      2025-12-21 00:12:51
      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      離離言幾許
      2025-12-20 19:56:40
      悲催!網傳廣州一大廠搬遷珠海,有員工拒往被辭退,無經濟補償…

      悲催!網傳廣州一大廠搬遷珠海,有員工拒往被辭退,無經濟補償…

      火山詩話
      2025-12-21 09:44:59
      湘超永州干翻長沙!美女老板壓力來了,此前許諾奪冠一人獎一臺車

      湘超永州干翻長沙!美女老板壓力來了,此前許諾奪冠一人獎一臺車

      火山詩話
      2025-12-22 04:21:52
      南博事件再升級!《江南春》調撥人是凌波,神秘顧客也浮出水面

      南博事件再升級!《江南春》調撥人是凌波,神秘顧客也浮出水面

      奇思妙想草葉君
      2025-12-21 13:59:16
      2025-12-22 07:40:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數 12關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      魯比奧急轉彎猛夸中國 介文汲:他深諳官場之道法

      頭條要聞

      魯比奧急轉彎猛夸中國 介文汲:他深諳官場之道法

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      教育
      旅游
      藝術
      家居
      軍事航空

      教育要聞

      意外!男班主任被家長怒斥:“我女兒要衛生巾,你不能去買嗎?”

      旅游要聞

      【征集展示】黑龍江大學生:遼寧冰雪不“凍”人

      藝術要聞

      這幅畫被日本人搶走后遺失了一半....背后的原因令人發指

      家居要聞

      高端私宅 理想隱居圣地

      軍事要聞

      石破茂:擁核絕不會給日本帶來正面影響

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人人妻人人澡人人爽人人欧美一区 | 中文字幕日本最新乱码视频| 特级做a爰片毛片免费看无码 | 国产成人精品午夜福利在线观看| 无码av波多野结衣| 无码av最新无码av专区| 免费夜色污私人影院在线观看| 免费人成视频在线| 国产无遮挡无码视频在线观看 | 亚洲欧美在线观看| 新版资源天堂中文| 97精品人妻系列无码人妻老牛| 黑人又大又粗免费视频| 亚洲精品国产AV| 不卡黄片| 国产精品久久久久久福利69堂| 91福利国产午夜亚洲精品| 内射毛片内射国产夫妻| 亚洲熟妇色xxxxx亚洲| 湘潭县| 制服丝袜无码视频| 日本夜爽爽一区二区三区| 亚洲乱码日产精品bd在线看| 米易县| 久久无码一区二区三区| 不卡黄片| 亚洲国产欧美在线看片一国产 | 国产高颜值大学生情侣酒店| 国产男女爽爽爽免费视频| 久久99热只有频精品8| www.jizz国产| 宁陕县| 岛国精品| 久艹AV| 亚洲成人在线网址| jizzjizz| 亚洲123| 操逼不卡| 霍城县| 国产丝袜打飞机免费在线| 国产美女裸身网站免费观看视频 |