網易首頁 > 網易號 > 正文申請入駐

OpenAI開源99.9%權重為0的奇葩模型，我扒完了論文，發現他們想重做AI大腦

2025-12-18 12:17:17　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自夕小瑤科技說

AI 的腦回路，終于也開始學會做減法了。

就在最近，OpenAI 悄悄開源了一個“奇葩”模型——僅 0.4B 參數，但 99.9% 的權重是 0。

沒錯，你沒看錯。一個幾乎“空著”的大腦，反而更聰明、更透明了。

我說怎么有點眼熟，原來正好是前段時間刷到的一篇的 OpenAI 論文"Weight-sparse transformers have interpretable circuits"《權重稀疏的 Transformer 具有可解釋性特征》的開源實現。

他們發現，讓神經網絡“不全連”，反而能讓它更聰明、更可解釋。

有人甚至直言：這種極致稀疏、功能解耦的思路，可能會讓當下熱門的 MoE（混合專家模型）走上末路。

過去幾年，AI 的能力一路狂飆，從寫作、編程到科研樣樣精通，但問題也越來越明顯——它雖強，卻太神秘。我們能看到結果，卻看不懂過程。

尤其是當 AI 已經開始參與科學研究、教育決策、甚至醫療診斷時，這種說不清自己在想什么的智能，顯然讓人不太踏實。

于是，AI 科學家們開始思考：

我們能不能真正看懂神經網絡是怎么思考的？

能不能設計出一種從結構上就清晰、可解釋的 AI？

這就是 OpenAI 這篇論文要講的事。

他們想從根子上解決問題——從一開始就訓練一個“整潔”的大腦。

論文標題：
Weight-sparse transformers have interpretable circuits

論文鏈接：
https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

傳統Dense Networks，剪不斷，理還亂

要理解 OpenAI 這套新方法有多“逆天”，我們得先看看當下神經網絡的真實模樣——一句話形容：亂到讓人頭皮發麻。

傳統神經網絡，也叫Dense Networks（密集網絡），它們的連線方式很樸素也很暴力：

每一層的每個神經元，都要和下一層的所有神經元連一條線。

想象一下一個房間，里面站著一百個人，每個人都要和其他所有人各牽一根線……沒幾秒，這房間就變成“貓抓了五十次的毛線球”。

隨著模型變大，這種混亂會呈指數級爆炸。

在這種亂麻結構里，單個神經元往往會執行多種不同的功能：

貓的圖片它管、法語句子它也管，甚至還會跑去參與推理任務......

這種神經元“多線程兼職”現象叫Superposition（功能疊加）。

它的問題是：

你一旦想問——“這個神經元到底負責什么？”

它就像一個離職交接不清楚的老員工一樣：

業務太多，講不清楚。。。

可解釋性研究過去幾年都在努力想辦法：

從外面觀察損失曲線、激活模式、注意力可視化……

但本質上，這就像試圖通過拉扯毛線球外側幾根線，來猜里面的結構。

離真正“看懂大腦”還是差了十萬八千里。

問題卡在這兒：我們一直在給一團本來就纏成死結的“毛線球”做體檢——量了血壓，拍了片，做了可視化報告，但毛線依然是一團毛線。

與其在事后想盡辦法解釋這種先天就混亂的結構，一個更激進的問題開始浮現出來：能不能從一開始，就別把它織成這樣？

別解毛線了，干脆重織一個干凈的網吧

當大家還在試圖給這團毛線球做 CT、照 X 光、打標簽的時候，OpenAI 換了個腦洞：

我們能不能，不從解毛線開始，而是從一開始就織一張整潔的？

也就是說——與其想辦法解釋一個本來就亂七八糟的網絡，不如讓它一出生就規規矩矩：別亂連，別多連，別到處伸手。

這便是權重稀疏”（Weight-sparse）模型的核心思想。

新研究中，在訓練語言模型時，研究人員使用了一種與 GPT-2 相似的架構，但增加了一個關鍵的約束：強制模型中絕大多數的權重為零。

什么意思？

原來 100 條線，現在只允許用 5 條
神經元不準“八面玲瓏”，只能干好自己的事

由于每個神經元只能從少數幾個上游通道讀取信息，或向下游少數幾個通道寫入信息，模型就被“勸退”了，不再將概念表征分散到多個殘差通道中，也不會使用超出嚴格需要的神經元來表示單個概念。

這種方法就像是要求一位工程師在布線時，必須走線清晰，每個接口功能單一，不要把所有電線都纏在一起。

不過，把線剪掉、結構變干凈，只是第一步。

要回答“它是不是真的可解釋”，就得進一步追問：在這樣一張極簡的線路板上，具體是哪幾條線、哪幾個元件，在共同完成一項明確的功能？

為了衡量稀疏模型在多大程度上解開了其計算過程，研究者引入了“電路”（Circuits）的概念。

這里的“電路”指的是模型中負責執行某個特定行為的、最小化的那一部分網絡結構。研究人員手動策劃了一套簡單的算法任務，對于每項任務，他們都對模型進行“修剪”（Pruning），直到找到能夠完成該任務的最小“電路”，然后檢查這個電路有多簡單。

為使這一概念更直觀，論文給出了模型處理 Python 代碼任務的一個案例，任務很簡單：

在 Python 中，字符串開頭是什么引號，結尾也必須用同樣的引號。

比如：

‘hello → 末尾必須是'
"hi→ 末尾必須是 "

在傳統的密集模型中，這可能涉及到成百上千個神經元的復雜互動，最后誰貢獻了啥你根本解釋不清。

但在 OpenAI 訓練的可解釋模型中，研究者發現了一個清晰解耦的“電路”，整個流程分為四步，講得清清楚楚：

① 編碼

模型在不同殘差通道里，分別記錄：

“出現過單引號”
“出現過雙引號”

② 分類處理

第 0 層的 MLP 做兩件事：

判斷“是否存在引號”
判斷出現的是 ' 還是 "

③ 跳回去找開引號

第 10 層注意力一出手：

直接忽略所有中間的 hello、hi，跳回最近出現的引號位置
把那里的“引號類型”信息復制過來

④ 輸出匹配引號

最后一步：模型根據復制回來的信息，輸出 ' 或 " 。

這個被找到的引號匹配電路非常簡潔：僅涉及 5 條殘差通道、第 0 層 MLP 的 2 個神經元，以及第 10 層注意力機制中的 1 個查詢-鍵通道和 1 個值通道。

就這么點。。。

而且研究人員做了個非常硬核的驗證：

只保留這些連接，模型依然能完美完成引號補全任務
刪除任何一個關鍵連接（即使其他幾千個參數還在），模型立刻失敗

這次是真的看明白了。沒有任何旁門左道，稀疏模型里的任務完全靠正經邏輯完成！！

但咱先別急，就算是在這些相對小的稀疏模型里，仍然有部分計算路線無法完全解釋。放在巨大模型里面，怎么辦呢？

OpenAI 認為未來有兩條路：

一是給現有“大黑箱”做手術（Dense → Sparse Circuits）。

怎么辦？

找到它負責這個任務的激活區域
把和這項任務無關的渠道“剪掉”
只保留必要的最小子結構
得到一個可以單獨運行、也可以完全解釋的小模型

這就是所謂的 Circuit Extraction（電路提取）。

二是進化出“天生可解釋”的大模型（Train Sparse from the Start）。

就像這篇論文做的那樣：

把絕大多數權重設為 0
限制連接
限制信息擴散
讓概念天然拆分
電路天然局部化

從訓練之初，就給模型施加稀疏度約束，逼它長成線條清晰的極簡大腦。

記得太多也是一種負擔

在前面的研究里，OpenAI 試圖從結構層面讓模型的大腦變得“干凈”——靠稀疏連接、靠可解釋電路，讓思考路徑本身更清晰、更可靠。

但大腦的運行不僅取決于“線怎么連”，還取決于“記什么、不記什么”。

當下的大型模型和智能助手似乎無所不知、過目不忘。然而，這表面上的優點，卻可能讓 AI 的大腦變成一間雜亂無章的倉庫：什么都往里塞，久而久之反而影響了服務質量和安全。

就像一個人如果對所有經歷過的事都記得清清楚楚，他的大腦可能被痛苦和噪音填滿，難以專注當下。

這個時候，就需要來一場認知上的“斷舍離”。

首先，從隱私和倫理角度看，一個永遠記得你所有對話的助手并不可愛。想象一下，你正在寫演講稿，它突然冒一句“要不要講你那次很痛苦的經歷？那感覺想必相當糟糕。

其次，從技術性能上講，恰當的遺忘有助于模型避免“過載”。這樣做一方面消除了模型記住大量無用甚至錯誤信息對后續回答的干擾，另一方面也防止它對舊細節過度執著。畢竟，對 AI 而言，無差別地記住所有細節反而可能導致“信息噪音”掩蓋真正有用的知識。

懶得其所，忘得有道

從稀疏專家模型到機器遺忘術，我們看到 AI 領域一個有趣的轉變：讓 AI“少做點、少記點”，反而讓它變得更聰明了。

稀疏網絡教會 AI 精打細算地分配“大腦線路”——該連的連，不該連的斷；

機器遺忘術則教會它在記憶空間里“輕裝前行”——該留的留，不該留的散。

一個發生在結構層，一個發生在記憶層，方向不同，卻殊途同歸：摒棄冗余，聚焦關鍵。

當 AI 既不會傻傻地把所有電路都連在一起浪費算力，也不會傻傻地把所有往事都銘記于心無法釋懷——也許，我們距離真正聰明又善解人意的機器伙伴就更近了一步。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

77歲「AI教父」Hinton：AI早有意識！我們打造的智能，可能終結人類文明

新智元 2025-10-11 13:21:31
49 跟貼 49
NeurIPS 2025 | DePass：通過單次前向傳播分解實現統一特征歸因

機器之心Pro 2025-12-01 14:17:39
0 跟貼 0

Jeff Dean萬字訪談：我們正在殺死割裂AI應用，2026是大一統元年

DeepTech深科技 2026-02-18 20:02:25
4 跟貼 4

Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0
一文速通「機器人3D場景表示」發展史

機器之心Pro 2026-01-23 13:01:05
0 跟貼 0

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0

對話鹿明機器人：在具身智能的“數據荒”里，做一個送水人｜AI Founder 請回答

鈦媒體APP 2026-01-11 12:48:38
0 跟貼 0
具身數據戰開打！普通人都能上手，邊采邊篩，只喂機器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0

春晚機器人爆紅背后：一場關于「非共識」的產業思辨

鈦媒體APP 2026-02-18 09:38:16
76 跟貼 76
Claude最強Sonnet模型4.6來了，百萬token上下文

機器之心Pro 2026-02-18 21:11:29
2 跟貼 2
國產大模型“春節檔”混戰，一文看懂豆包是怎么打這仗的

鈦媒體APP 2026-02-18 20:49:39
0 跟貼 0
印度一大學拿中國機器狗冒充自研

環球時報 2026-02-18 16:09:05
2162 跟貼 2162
谷歌Gemini上線AI音樂創作，一夜革了Suno的命！

新智元 2026-02-19 12:39:23
2 跟貼 2
45億紅包打響AI入口大戰，百度給出另一種回應

量子位 2026-02-19 17:54:22
0 跟貼 0
磷脂酰絲氨酸PS哪個補腦？2026十大產品測評

食品安全與法律網 2026-02-18 07:05:03
0 跟貼 0
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
63 跟貼 63
OpenAI下架4o真是為了給自己和富豪們續命嗎？

DeepTech深科技 2026-02-17 14:15:19
1 跟貼 1
科學家研發大模型新框架，助力解決RISC-V軟件生態瓶頸

DeepTech深科技 2025-10-12 19:05:00
1 跟貼 1
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
超實用！冬天提升睡眠質量、保護大腦，靠這幾招

羅夕夕博士 2026-02-19 09:00:00
0 跟貼 0
一論文涉嫌抄襲，作者卻稱自己沒投稿過，期刊悄悄把論文移除

醫咖會 2026-02-19 10:10:03
2 跟貼 2
OpenAI正敲定1000億美元巨額融資輪的首批投資承諾

財聯社 2026-02-19 10:30:07
1 跟貼 1
一千多個模型都指向一個通用子空間

機器之心Pro 2025-12-16 18:23:47
0 跟貼 0
當我終于連夜肝完論文，感謝

幕清thee 2026-02-16 03:37:32
0 跟貼 0
這簡直是完美的博士論文啊！

球球趣事說 2026-02-19 08:40:00
0 跟貼 0
近日，青海。車主自駕青海遇男子招手搭車，男子去快遞站給孩子們取過冬物資，車主好心送男子去學校，車主：

中安在線 2026-02-18 22:00:26
122 跟貼 122
【美股盤前】黃仁勛：為GTC 2026準備了多款前所未見的新芯片；英偉達清倉Arm全部股份；Meta重啟智能手表計劃，計劃2026年推出；OpenAI最

每日經濟新聞 2026-02-19 17:52:31
0 跟貼 0
內蒙古草原名場面！狼偷不著羊，就跟藏獒貼貼，網友：前狼假寐，蓋以誘敵

BRTV新聞 2026-02-19 07:15:56
148 跟貼 148
霸主邏輯：美國如何“鎖死”日本三十年？

雅兒姐游世界 2026-02-18 01:26:18
0 跟貼 0
六年級數學求面積，等高模型

天天數理學習分享 2026-02-15 17:19:33
3 跟貼 3
中國游客稱因道路積雪被困俄羅斯“極光村” 超40小時，俄媒：滯留游客都已離開

上游新聞 2026-02-17 20:22:05
24829 跟貼 24829
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
說明這個車做工精細，密封程度好，特別是電路史無前例！

老沾看生活 2026-02-15 06:36:00
0 跟貼 0
國外地面鋪磚方法，和中國人的腦回路不一樣，有實力的絕不這樣辦

陽陽愛笑 2026-02-18 14:46:00
0 跟貼 0
Claude最新Sonnet：Opus級智能，性價比王炸，OpenClaw天選API

量子位 2026-02-18 16:13:32
5 跟貼 5
媒體：馬克龍真魔怔了在印度還暗戳戳提中國

澎湃新聞 2026-02-18 22:58:24
1737 跟貼 1737
小伙徒手搓出一輛考斯特汽車模型，真的是太牛了

宸宸愛發明V 2026-02-15 13:44:08
4 跟貼 4
中國豎式計算盡顯智慧，日本劃線算法風格獨特，兩者對決誰更高明

熱血做搞笑 2026-02-17 00:00:00
0 跟貼 0
原來趙露思才是“人間尤物”，音樂節生圖封神，身材曲線太搶鏡

販賣歡樂員 2026-02-17 09:41:00
0 跟貼 0
小哥用一塊肉，直接解決一頓飯，這腦回路沒誰了！

爆笑小櫻桃 2026-02-15 11:17:30
1 跟貼 1

大數據文摘

專注大數據，每日有分享！

6825文章數 94529關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

教育

旅游

本地

軍事航空

手機 / 數碼

房產 / 家居

OpenAI開源99.9%權重為0的奇葩模型，我扒完了論文，發現他們想重做AI大腦

怒燒45億，騰訊字節阿里決戰春節

媒體：高市2.0 日本政局發生了意料之中的變動

媒體：高市2.0 日本政局發生了意料之中的變動

中國隊第二金！徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

明星過年百態！黃曉明等現身三亞

面條火腿香菇醬！上市公司這些年請你吃

量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

態度原創

頂豪搶房潮席卷全國！ 中旅馥棠公館項目395㎡大平層加推入市！

聽懂這5點，下學期教書，哪還有什么不幸福的？

“分段式過年”火爆，汕頭領跑全國“特色年味游”熱門目的地

春花齊放2026：《駿馬奔騰迎新歲》

金正恩出席火箭炮贈送儀式 強調確保朝鮮安全環境

中國隊第二金！徐夢桃贏女子空中技巧兩連冠邵琪銅牌

量產甲醇插混吉利銀河星耀6甲醇插混版申報圖

頂豪搶房潮席卷全國！中旅馥棠公館項目395㎡大平層加推入市！

金正恩出席火箭炮贈送儀式強調確保朝鮮安全環境