<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI開源99.9%權重為0的奇葩模型,我扒完了論文,發現他們想重做AI大腦

      0
      分享至


      大數據文摘受權轉載自夕小瑤科技說

      AI 的腦回路,終于也開始學會做減法了。

      就在最近,OpenAI 悄悄開源了一個“奇葩”模型——僅 0.4B 參數,但 99.9% 的權重是 0。


      沒錯,你沒看錯。一個幾乎“空著”的大腦,反而更聰明、更透明了。

      我說怎么有點眼熟,原來正好是前段時間刷到的一篇的 OpenAI 論文"Weight-sparse transformers have interpretable circuits"《權重稀疏的 Transformer 具有可解釋性特征》的開源實現。

      他們發現,讓神經網絡“不全連”,反而能讓它更聰明、更可解釋。

      有人甚至直言:這種極致稀疏、功能解耦的思路,可能會讓當下熱門的 MoE(混合專家模型)走上末路。

      過去幾年,AI 的能力一路狂飆,從寫作、編程到科研樣樣精通,但問題也越來越明顯——它雖強,卻太神秘。我們能看到結果,卻看不懂過程。

      尤其是當 AI 已經開始參與科學研究、教育決策、甚至醫療診斷時,這種說不清自己在想什么的智能,顯然讓人不太踏實。

      于是,AI 科學家們開始思考:

      我們能不能真正看懂神經網絡是怎么思考的?

      能不能設計出一種從結構上就清晰、可解釋的 AI?

      這就是 OpenAI 這篇論文要講的事。

      他們想從根子上解決問題——從一開始就訓練一個“整潔”的大腦。


      論文標題:
      Weight-sparse transformers have interpretable circuits

      論文鏈接:
      https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

      傳統Dense Networks,剪不斷,理還亂

      要理解 OpenAI 這套新方法有多“逆天”,我們得先看看當下神經網絡的真實模樣——一句話形容:亂到讓人頭皮發麻。


      傳統神經網絡,也叫Dense Networks(密集網絡),它們的連線方式很樸素也很暴力:

      每一層的每個神經元,都要和下一層的所有神經元連一條線。

      想象一下一個房間,里面站著一百個人,每個人都要和其他所有人各牽一根線……沒幾秒,這房間就變成“貓抓了五十次的毛線球”。


      隨著模型變大,這種混亂會呈指數級爆炸。

      在這種亂麻結構里,單個神經元往往會執行多種不同的功能:

      貓的圖片它管、法語句子它也管,甚至還會跑去參與推理任務......

      這種神經元“多線程兼職”現象叫Superposition(功能疊加)


      它的問題是:

      你一旦想問——“這個神經元到底負責什么?”

      它就像一個離職交接不清楚的老員工一樣:

      業務太多,講不清楚。。。


      可解釋性研究過去幾年都在努力想辦法:

      從外面觀察損失曲線、激活模式、注意力可視化……

      但本質上,這就像試圖通過拉扯毛線球外側幾根線,來猜里面的結構

      離真正“看懂大腦”還是差了十萬八千里。

      問題卡在這兒:我們一直在給一團本來就纏成死結的“毛線球”做體檢——量了血壓,拍了片,做了可視化報告,但毛線依然是一團毛線。

      與其在事后想盡辦法解釋這種先天就混亂的結構,一個更激進的問題開始浮現出來:能不能從一開始,就別把它織成這樣?

      別解毛線了,干脆重織一個干凈的網吧

      當大家還在試圖給這團毛線球做 CT、照 X 光、打標簽的時候,OpenAI 換了個腦洞:

      我們能不能,不從解毛線開始,而是從一開始就織一張整潔的?

      也就是說——與其想辦法解釋一個本來就亂七八糟的網絡,不如讓它一出生就規規矩矩:別亂連,別多連,別到處伸手。

      這便是權重稀疏”(Weight-sparse)模型的核心思想。

      新研究中,在訓練語言模型時,研究人員使用了一種與 GPT-2 相似的架構,但增加了一個關鍵的約束:強制模型中絕大多數的權重為零

      什么意思?

      • 原來 100 條線,現在只允許用 5 條

      • 神經元不準“八面玲瓏”,只能干好自己的事

      由于每個神經元只能從少數幾個上游通道讀取信息,或向下游少數幾個通道寫入信息,模型就被“勸退”了,不再將概念表征分散到多個殘差通道中,也不會使用超出嚴格需要的神經元來表示單個概念。

      這種方法就像是要求一位工程師在布線時,必須走線清晰,每個接口功能單一,不要把所有電線都纏在一起。

      不過,把線剪掉、結構變干凈,只是第一步。

      要回答“它是不是真的可解釋”,就得進一步追問:在這樣一張極簡的線路板上,具體是哪幾條線、哪幾個元件,在共同完成一項明確的功能?

      為了衡量稀疏模型在多大程度上解開了其計算過程,研究者引入了“電路”(Circuits)的概念。

      這里的“電路”指的是模型中負責執行某個特定行為的、最小化的那一部分網絡結構。研究人員手動策劃了一套簡單的算法任務,對于每項任務,他們都對模型進行“修剪”(Pruning),直到找到能夠完成該任務的最小“電路”,然后檢查這個電路有多簡單。


      為使這一概念更直觀,論文給出了模型處理 Python 代碼任務的一個案例,任務很簡單:

      在 Python 中,字符串開頭是什么引號,結尾也必須用同樣的引號。

      比如:

      • ‘hello → 末尾必須是'

      • "hi→ 末尾必須是 "

      在傳統的密集模型中,這可能涉及到成百上千個神經元的復雜互動,最后誰貢獻了啥你根本解釋不清。


      但在 OpenAI 訓練的可解釋模型中,研究者發現了一個清晰解耦的“電路”,整個流程分為四步,講得清清楚楚:

      ① 編碼

      模型在不同殘差通道里,分別記錄:

      • “出現過單引號”

      • “出現過雙引號”

      ② 分類處理

      第 0 層的 MLP 做兩件事:

      • 判斷“是否存在引號”

      • 判斷出現的是 ' 還是 "

      ③ 跳回去找開引號

      第 10 層注意力一出手:

      • 直接忽略所有中間的 hello、hi,跳回最近出現的引號位置

      • 把那里的“引號類型”信息復制過來

      ④ 輸出匹配引號

      最后一步:模型根據復制回來的信息,輸出 ' 或 " 。

      這個被找到的引號匹配電路非常簡潔:僅涉及 5 條殘差通道、第 0 層 MLP 的 2 個神經元,以及第 10 層注意力機制中的 1 個查詢-鍵通道和 1 個值通道。

      就這么點。。。

      而且研究人員做了個非常硬核的驗證:

      • 只保留這些連接,模型依然能完美完成引號補全任務

      • 刪除任何一個關鍵連接(即使其他幾千個參數還在),模型立刻失敗

      這次是真的看明白了。沒有任何旁門左道,稀疏模型里的任務完全靠正經邏輯完成!!


      但咱先別急,就算是在這些相對小的稀疏模型里,仍然有部分計算路線無法完全解釋。放在巨大模型里面,怎么辦呢?


      OpenAI 認為未來有兩條路:

      一是給現有“大黑箱”做手術(Dense → Sparse Circuits)。

      怎么辦?

      • 找到它負責這個任務的激活區域

      • 把和這項任務無關的渠道“剪掉”

      • 只保留必要的最小子結構

      • 得到一個可以單獨運行、也可以完全解釋的小模型

      這就是所謂的 Circuit Extraction(電路提取)。

      二是進化出“天生可解釋”的大模型(Train Sparse from the Start)。

      就像這篇論文做的那樣:

      • 把絕大多數權重設為 0

      • 限制連接

      • 限制信息擴散

      • 讓概念天然拆分

      • 電路天然局部化

      從訓練之初,就給模型施加稀疏度約束,逼它長成線條清晰的極簡大腦。

      記得太多也是一種負擔

      在前面的研究里,OpenAI 試圖從結構層面讓模型的大腦變得“干凈”——靠稀疏連接、靠可解釋電路,讓思考路徑本身更清晰、更可靠。

      但大腦的運行不僅取決于“線怎么連”,還取決于“記什么、不記什么”。

      當下的大型模型和智能助手似乎無所不知、過目不忘。然而,這表面上的優點,卻可能讓 AI 的大腦變成一間雜亂無章的倉庫:什么都往里塞,久而久之反而影響了服務質量和安全。


      就像一個人如果對所有經歷過的事都記得清清楚楚,他的大腦可能被痛苦和噪音填滿,難以專注當下。

      這個時候,就需要來一場認知上的“斷舍離”。


      首先,從隱私和倫理角度看,一個永遠記得你所有對話的助手并不可愛。想象一下,你正在寫演講稿,它突然冒一句“要不要講你那次很痛苦的經歷?那感覺想必相當糟糕。

      其次,從技術性能上講,恰當的遺忘有助于模型避免“過載”。這樣做一方面消除了模型記住大量無用甚至錯誤信息對后續回答的干擾,另一方面也防止它對舊細節過度執著。畢竟,對 AI 而言,無差別地記住所有細節反而可能導致“信息噪音”掩蓋真正有用的知識。

      懶得其所,忘得有道

      從稀疏專家模型到機器遺忘術,我們看到 AI 領域一個有趣的轉變:讓 AI“少做點、少記點”,反而讓它變得更聰明了

      稀疏網絡教會 AI 精打細算地分配“大腦線路”——該連的連,不該連的斷;

      機器遺忘術則教會它在記憶空間里“輕裝前行”——該留的留,不該留的散。

      一個發生在結構層,一個發生在記憶層,方向不同,卻殊途同歸:摒棄冗余,聚焦關鍵。

      當 AI 既不會傻傻地把所有電路都連在一起浪費算力,也不會傻傻地把所有往事都銘記于心無法釋懷——也許,我們距離真正聰明又善解人意的機器伙伴就更近了一步。

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

      虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

      火山詩話
      2026-04-25 06:12:02
      男生省吃儉用送滿改鍵盤 女神轉手掛閑魚反罵"舔狗"

      男生省吃儉用送滿改鍵盤 女神轉手掛閑魚反罵"舔狗"

      游民星空
      2026-04-26 11:10:12
      猛降14℃!暴雨大暴雨、冰雹、雷暴大風馬上到湖北

      猛降14℃!暴雨大暴雨、冰雹、雷暴大風馬上到湖北

      極目新聞
      2026-04-26 08:40:20
      30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

      30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

      迷世書童H9527
      2026-04-25 14:15:25
      17中13轟43分!歷史首人!6換2大交易撿到寶了

      17中13轟43分!歷史首人!6換2大交易撿到寶了

      世界體育圈
      2026-04-26 12:44:24
      正式測定:蒙古發生6.0級地震 震源深度15千米

      正式測定:蒙古發生6.0級地震 震源深度15千米

      財聯社
      2026-04-26 12:50:35
      明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

      明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

      青橘罐頭
      2026-04-22 09:59:06
      打虎!伍浩被查

      打虎!伍浩被查

      新京報
      2026-04-25 17:24:34
      假空姐大鬧亞航后續:知情人士透露真實身份,這下輪到女子老實了

      假空姐大鬧亞航后續:知情人士透露真實身份,這下輪到女子老實了

      離離言幾許
      2026-04-26 07:28:42
      發現一個現象:根據歷史規律,中國可能成地球上最后一個超級大國

      發現一個現象:根據歷史規律,中國可能成地球上最后一個超級大國

      鶴羽說個事
      2026-04-23 22:45:59
      小米:李某華已被行拘

      小米:李某華已被行拘

      南方都市報
      2026-04-26 12:01:47
      她長這么漂亮,演技那么好,為啥這么多年一直火不起來呢?

      她長這么漂亮,演技那么好,為啥這么多年一直火不起來呢?

      草莓解說體育
      2026-04-26 14:16:31
      熱搜炸了!克萊出軌成性被女友控訴:快滾吧!球迷:克萊只對他的狗忠誠

      熱搜炸了!克萊出軌成性被女友控訴:快滾吧!球迷:克萊只對他的狗忠誠

      籃球神吐槽
      2026-04-26 08:49:21
      33歲嫁10億富豪,生了冠軍兒子,50歲復出 如今成人生贏家

      33歲嫁10億富豪,生了冠軍兒子,50歲復出 如今成人生贏家

      黔鄉小姊妹
      2026-04-26 09:37:41
      從能耗世界紀錄到越野新品類,傳祺北京車展的炮火與底氣

      從能耗世界紀錄到越野新品類,傳祺北京車展的炮火與底氣

      汽車觀察AUTO
      2026-04-25 18:08:20
      活久見!一段夫妻離婚對話走紅,丈夫直言移情別戀,妻子淡然應允

      活久見!一段夫妻離婚對話走紅,丈夫直言移情別戀,妻子淡然應允

      火山詩話
      2026-04-24 11:48:50
      這就是赤裸裸的現實!公交集團的退休工資,估計是普通人天花板了

      這就是赤裸裸的現實!公交集團的退休工資,估計是普通人天花板了

      朗威談星座
      2026-04-26 09:49:40
      忘了兩伊戰爭?如今伊朗拿霍爾木茲海峽賭國運,純屬記吃不記打!

      忘了兩伊戰爭?如今伊朗拿霍爾木茲海峽賭國運,純屬記吃不記打!

      寰球經緯所
      2026-04-25 16:00:55
      全市領導干部會議召開,宣布省委關于景德鎮市委主要負責同志調整的決定

      全市領導干部會議召開,宣布省委關于景德鎮市委主要負責同志調整的決定

      景德鎮瓷局
      2026-04-26 09:16:19
      大師靠“美國崩潰論”卷走百億,跑路美國后,痛罵中國人

      大師靠“美國崩潰論”卷走百億,跑路美國后,痛罵中國人

      談史論天地
      2026-04-25 11:00:08
      2026-04-26 15:56:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      旅游
      游戲
      數碼
      手機
      藝術

      旅游要聞

      不設舞臺的賞花季!青島西海岸新區邀你在花海中自由撒野

      孤島驚魂新消息炸鍋!官方一句話惹怒玩家 直接判死刑

      數碼要聞

      京東“Aidol創造營”計劃正式啟動 面向全球孵化101個AI硬件新物種

      手機要聞

      W16周:華為無敵手,蘋果持續第二,OPPO變第三

      藝術要聞

      鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 真人作爱免费视频| 久青草视频免费视频福利片| xxx久久| 欧美另类videossexo高潮| 强奸福利视频在线观看| 国精产品一二三区精华液| 精品国产自在现线看久久| 日本精品人妻在线观看| 中文在线8资源库| 国产丰满乱子伦无码专区| 成人免费无码成人影院日韩| 乱乱网| 91丨国产丨白浆秘?网站| 亚洲精品久久久中文字幕痴女| 人妻少妇嫩草被猛烈进入无码蜜桃| 久久99精品久久久久子伦| 中文日韩在线一区二区| 91免费看| 久久99人妻无码精品一区| 国产成人a在线观看视频| 亚洲中文日韩一区二区三区| 亚洲午夜精品国产电影在线观看 | 东至县| 欧美日韩v| 美女内射毛片在线看| 国内精品久久九九国产精品| 天天上天天添天天爱少妇| 无码人妻一区二区三区麻豆| 文中字幕一区二区三区视频播放 | 久久精品国产一区二区小说| 最近最新中文字幕视频| 韩国三级丰满少妇高潮| 蜜桃视频在线观看网站免费| 中文字幕乱码人妻无码久久免费| 7m精品福利视频导航| 最新亚洲人成无码网站| 国产欧美日韩精品丝袜高跟鞋| 亚洲一区二区三区四区| 久久免费在线视频| 久久久久久国产精品免费免费男同| jizzjizz黄色|