<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI突然開源新模型!99.9%的權重是0,新稀疏性方法代替MoE

      0
      分享至

      聞樂 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      破解AI胡說八道的關鍵,居然是給大模型砍斷99.9%的連接線?

      OpenAI悄悄開源新模型,僅有0.4B參數,且99.9%的權重為零。



      也就是Circuit Sparsity技術的開源實現(xiàn)。



      這是一種通過人為約束模型內部連接的稀疏性,讓模型計算過程可拆解、可理解的大語言模型變體,本質上是為了解決傳統(tǒng)稠密Transformer的黑箱問題,讓內部的計算電路能被人類清晰解讀,知道AI是如何做決策的,避免輕易相信AI的胡話(doge)。



      更有人直言這種「極致稀疏+功能解耦」的思路可能會讓當下熱門的MoE(混合專家模型)走上末路。



      那么,當Transformer的權重被訓練到近乎全0,會發(fā)生什么呢?

      放棄粗糙近似,追求原生稀疏

      先說說為啥這個模型的思考過程能像電路圖一樣好懂。

      咱們平時用的傳統(tǒng)大模型,內部神經元連接得密密麻麻,權重矩陣幾乎全為非零值,信息傳遞呈現(xiàn)出高度疊加狀態(tài),就像一團扯不開的亂線,沒人能說清它是怎么得出某個結論的。

      而Circuit Sparsity模型反其道而行之,基于GPT-2風格的Transformer架構訓練時,通過嚴格約束讓權重的L0范數極小,直接把99.9%的無效連接砍斷,只留下千分之一的有效通路。



      這些留存的非零權重連接就像電路圖里的導線,信息只能沿著固定路徑傳遞;同時,模型還會通過均值屏蔽剪枝方法,為每個任務拆出專屬的最小電路

      比如處理Python引號閉合任務時,僅需2個MLP神經元和1個注意力頭就能構成核心電路,包含專門的引號檢測器、類型分類器等功能模塊,就像電路圖里的電阻、電容,各自管各自的事。



      實驗數據顯示,在預訓練損失相同的前提下,稀疏模型的任務專屬電路規(guī)模比稠密模型小16倍,且具備嚴格的必要性與充分性——保留這些模塊就能完成任務,刪掉任一節(jié)點則直接失效。

      這樣,每一步的邏輯都能精準追蹤。

      那這時候就不得不提當下主流的MoE模型了。

      MoE的核心思路是通過門控網絡將模型拆分為多個專家子網絡,每個專家負責處理一部分任務,靠路由器分配任務來提升效率,本質上是用拆分專家這種粗糙的方式近似稀疏性,目的只是為了適配硬件的稠密矩陣計算需求。

      但這種架構存在致命缺陷:

      • 一是會割裂模型的特征流形,導致專家同質化嚴重、知識冗余等問題,不同專家間的信息協(xié)同依賴復雜的負載均衡損失函數調控,穩(wěn)定性堪憂;
      • 二是專家功能邊界模糊,無法像Circuit Sparsity模型那樣實現(xiàn)微觀機制的精準拆解。

      反觀Circuit Sparsity,追求的是模型原生的稀疏性,通過把特征投射到超大維度,再嚴格限制有效激活的節(jié)點數量,從設計上就讓每個特征變得單義、正交,從根源上解決了傳統(tǒng)模型一個概念分散在多個節(jié)點的疊加問題,不用靠路由器這種hack手段也能避免信息干擾。



      不過Circuit Sparsity目前也有明顯的短板,最突出的就是算力成本極高。

      訓練和推理的計算量是傳統(tǒng)稠密模型的100-1000倍,暫時還達不到頂尖大模型的能力;

      而MoE模型在算力效率和性能平衡上已經很成熟,短期內依然會是工業(yè)界的主流選擇。

      并且,這項工作也只是AI可解釋性探索的早期一步,未來團隊計劃將技術擴展到更大的模型,解鎖更復雜的推理電路。

      目前,團隊發(fā)現(xiàn)有兩種克服稀疏模型訓練效率低下的方法:

      • 一個是直接從現(xiàn)有的密集模型中提取稀疏電路,這樣直接復用基礎框架,不額外訓練稀疏模型,能大幅降低成本;
      • 另一種途徑則是不放棄從頭訓練可解釋稀疏模型的這種思路,但針對訓練慢、成本高的短板,從技術層面優(yōu)化訓練機制,造出原生可解釋、且能高效落地的模型。

      那么就期待研究人員后續(xù)用更成熟的工具或技術,逐步揭開大模型的黑箱面紗了。


      [1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
      [2]https://x.com/byebyescaling/status/1999672833778287033?s=20

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      天津津門虎消息:預算1億,引進強力外援前鋒+簽多名內援

      天津津門虎消息:預算1億,引進強力外援前鋒+簽多名內援

      足球觀察1
      2025-12-14 20:35:46
      什么叫洗錢?網友:比亞迪造衛(wèi)星一年20億,拍一個減肥電影要3億

      什么叫洗錢?網友:比亞迪造衛(wèi)星一年20億,拍一個減肥電影要3億

      夜深愛雜談
      2025-12-11 20:39:39
      51歲小李子突然認真打扮了!和以前比完全大變樣,型男形象太搶眼

      51歲小李子突然認真打扮了!和以前比完全大變樣,型男形象太搶眼

      黔鄉(xiāng)小姊妹
      2025-12-04 12:29:41
      噩耗!抗癌人香香去世,離世前突然能吃能喝,7天就離世了文章

      噩耗!抗癌人香香去世,離世前突然能吃能喝,7天就離世了文章

      熠熠生輝的生活
      2025-12-14 18:06:36
      好友曝何晴生前最大遺憾:沒有辦理好退休事宜,晚年生活疑很拮據

      好友曝何晴生前最大遺憾:沒有辦理好退休事宜,晚年生活疑很拮據

      娛樂圈圈圓
      2025-12-14 17:01:10
      48小時曝三大離譜事件:強制取精、87歲生子、法庭崩潰

      48小時曝三大離譜事件:強制取精、87歲生子、法庭崩潰

      觀察者海風
      2025-12-13 16:15:51
      日本公布2025年年度漢字:熊

      日本公布2025年年度漢字:熊

      中國能源網
      2025-12-12 15:38:03
      財政部明確明年發(fā)債支持“國補”

      財政部明確明年發(fā)債支持“國補”

      第一財經資訊
      2025-12-14 09:32:22
      原來她早已去世!26歲全身潰爛不治而亡,被全家8口“吸血”多年

      原來她早已去世!26歲全身潰爛不治而亡,被全家8口“吸血”多年

      小熊侃史
      2025-12-12 11:08:39
      梁啟超與丫鬟王桂荃同房,事后做了個決定,注定了王桂荃一生悲苦

      梁啟超與丫鬟王桂荃同房,事后做了個決定,注定了王桂荃一生悲苦

      古書記史
      2025-12-11 17:36:32
      3萬一支藥劑疑誤冷凍失效,醫(yī)生仍注射給1歲罕見病患兒

      3萬一支藥劑疑誤冷凍失效,醫(yī)生仍注射給1歲罕見病患兒

      觀威海
      2025-12-13 10:30:04
      墻倒眾人推?禁言不到24小時,陳震被扒底朝天,偷稅只是冰山一角

      墻倒眾人推?禁言不到24小時,陳震被扒底朝天,偷稅只是冰山一角

      睿鑒歷史
      2025-12-13 18:55:03
      “不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現(xiàn)實

      “不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現(xiàn)實

      紅夢史說
      2025-07-11 11:23:39
      軍艦穿越臺海,越南外交部:臺海是“國際水域”,不是中國內水?

      軍艦穿越臺海,越南外交部:臺海是“國際水域”,不是中國內水?

      科普100克克
      2025-12-14 04:34:28
      萬科三個展期議案未獲通過,仍有5個工作日寬限期,深鐵已累計輸血310億元

      萬科三個展期議案未獲通過,仍有5個工作日寬限期,深鐵已累計輸血310億元

      紅星新聞
      2025-12-14 15:59:09
      最佳一陣?本賽季的布倫森,到底有多強?

      最佳一陣?本賽季的布倫森,到底有多強?

      籃球實錄
      2025-12-14 19:49:28
      揭秘:中國參與對前蘇聯(lián)科技人才爭奪戰(zhàn)的背后故事!

      揭秘:中國參與對前蘇聯(lián)科技人才爭奪戰(zhàn)的背后故事!

      華山穹劍
      2025-12-06 18:19:39
      中國人力資本報告:全國勞動力人口平均年齡達39.66歲

      中國人力資本報告:全國勞動力人口平均年齡達39.66歲

      第一財經資訊
      2025-12-14 09:32:22
      剛剛!工信部重大部署

      剛剛!工信部重大部署

      宇量信息
      2025-12-14 17:32:51
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      2025-12-14 22:15:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11851文章數 176339關注度
      往期回顧 全部

      科技要聞

      當人形機器人有了App Store,宇樹在賭什么

      頭條要聞

      朝鮮工兵團歸國9人陣亡 金正恩:每天懷念心愛的兒子們

      頭條要聞

      朝鮮工兵團歸國9人陣亡 金正恩:每天懷念心愛的兒子們

      體育要聞

      馬刺終結雷霆:以勇猛,以文班亞馬

      娛樂要聞

      何晴生前最大謠言!沒有再婚嫁廖京生

      財經要聞

      重大違法強制退市!10人被判刑

      汽車要聞

      硬核敞篷巴士?擲彈兵Game Viewer 2026年初量產

      態(tài)度原創(chuàng)

      健康
      藝術
      手機
      教育
      時尚

      甲狀腺結節(jié)到這個程度,該穿刺了!

      藝術要聞

      你絕對不想錯過的40幅美麗芭蕾藝術!

      手機要聞

      vivo發(fā)布聲明:新品發(fā)布會采用定向邀約制,公開售票均為詐騙

      教育要聞

      忻州教育“十四五”交出亮眼答卷

      誰說冬天不能穿裙子?照著搭美出新高度

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 撸色网| 久久久久国色av免费观看性色 | 免费人成年激情视频在线观看| 国产97视频| jizzjizz韩国| 又大又硬又爽免费视频| 中国熟妇浓毛hdsex| 免费ā片在线观看| 欧美性猛交xxxx富婆| 青青网站| 精品网站999www| 亚洲欧洲∨国产一区二区三区| 成在线人午夜剧场免费无码| 亚洲国产精品久久久久久久| 天天色欲网| 辽阳市| 专区国产无码| 亚洲欧美电影在线一区二区| 毛片免费观看天天干天天爽| 国产精品久久久久高潮| 超碰人人草| jizz网站| 国产精品亚| 少妇人妻互换不带套| 丰满少妇呻吟高潮经历| av黄色| 99免费精品| 九九九九精品视频在线观看| 啊灬啊灬啊灬快灬高潮了电影片段 | 国产AV天堂| 国产日产欧美最新| 国产精品一线二线三线区| 色77777| 老肥熟女| 亚洲精品~无码抽插| 欧美激情内射喷水高潮| 美女污污网站| 亚洲无码成人| 爆爽久久久一区二区又大又黄又嫩| 亚洲男人第一无码av网| 贵德县|