網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI又開源了！僅0.4B，給模型大瘦身

2025-12-15 12:24:33　來源: 智東西

北京舉報(bào)

分享至

智東西
作者王涵
編輯心緣

智東西12月15日?qǐng)?bào)道，昨天，OpenAI開源新模型Circuit-Sparsity，模型參數(shù)量?jī)H0.4B，99.9%的權(quán)重為零。

▲Circuit-Sparsity開源（來源：Hugging Face）

這個(gè)技術(shù)試圖解決模型的可解釋性問題，簡(jiǎn)單來說就是回答“模型為什么做出這個(gè)決策？”以及“它是如何得出這個(gè)結(jié)果的？”這兩個(gè)問題。

在AI飛速發(fā)展的今天，大語言模型（LLM）雖然表現(xiàn)出了驚人的能力，但其內(nèi)部運(yùn)作機(jī)制始終像一個(gè)神秘的“黑箱”。

我們不知道它為何做出某個(gè)回答，也不清楚它是如何從海量數(shù)據(jù)中提取知識(shí)的。這種不可解釋性，成為了AI在醫(yī)療、金融、法律等高風(fēng)險(xiǎn)領(lǐng)域落地的重大障礙。

對(duì)此，OpenAI研究團(tuán)隊(duì)訓(xùn)練出了一個(gè)權(quán)重稀疏的Transformer模型，強(qiáng)制模型權(quán)重矩陣中99.9%權(quán)重為零，僅保留0.1%非零權(quán)重。

在這項(xiàng)研究中，研究團(tuán)隊(duì)在模型內(nèi)部形成了緊湊且可讀的“電路”（Circuits），每個(gè)電路都僅保留了保證模型性能的關(guān)鍵節(jié)點(diǎn)，神經(jīng)元的激活變得具有明確的語義。

有外網(wǎng)網(wǎng)友稱這一技術(shù)讓當(dāng)下的MoE（混合專家模型）走到了盡頭，并說“我們一直以來都將權(quán)重隔離到‘專家’中，以此粗略地近似稀疏性，僅僅是為了滿足稠密矩陣核的要求。”

▲外網(wǎng)評(píng)價(jià)（圖源：X）

更有網(wǎng)友將這項(xiàng)研究形容為將模型“減肥到只剩骨架”，還說這項(xiàng)研究就好像打開了黑匣子，不試圖解開稠密模型而是直接構(gòu)建稀疏模型，正是這項(xiàng)研究有趣的地方。

▲外網(wǎng)評(píng)價(jià)（圖源：X）

但有些網(wǎng)友卻不這么認(rèn)為，稱其沒有看出MoE模型為何會(huì)因此走到盡頭，并進(jìn)一步解釋說這一技術(shù)是針對(duì)XAI（可解釋AI）的，它的訓(xùn)練成本要高100-1000倍，回到“研究時(shí)代”并不意味著讓事情變得更復(fù)雜。

▲外網(wǎng)評(píng)價(jià)（圖源：X）

該模型目前受限于計(jì)算效率瓶頸，其運(yùn)算速度較密集模型慢100至1000倍，將該技術(shù)直接應(yīng)用于千億參數(shù)級(jí)別的前沿大模型，現(xiàn)階段尚不具備可行性。

開源地址：

Github：
https://github.com/openai/circuit_sparsity

Hugging Face：

https://huggingface.co/openai/circuit-sparsity

一、訓(xùn)練稀疏Transformer，OpenAI理清模型內(nèi)部計(jì)算

要理解這項(xiàng)研究的突破，首先需要明白傳統(tǒng)大模型為何難以解釋。

在標(biāo)準(zhǔn)的密集模型（Dense Models）中，神經(jīng)網(wǎng)絡(luò)存在一種被稱為“超級(jí)位置”（Superposition）的現(xiàn)象。簡(jiǎn)單來說，為了存儲(chǔ)海量的信息，模型被迫讓單個(gè)神經(jīng)元或權(quán)重矩陣同時(shí)編碼多個(gè)完全不同的概念。

這種特征糾纏導(dǎo)致了嚴(yán)重的后果，例如模型的決策不可追溯和邏輯混亂，當(dāng)模型輸出一個(gè)結(jié)果時(shí)，我們無法確定是哪個(gè)具體的“概念”在起作用。

針對(duì)以上問題，以前的研究通常從試圖拆解密集、糾結(jié)的網(wǎng)絡(luò)開始。但OpenAI團(tuán)隊(duì)采取了一種“反直覺”的策略，即訓(xùn)練權(quán)重稀疏的Transformer模型，強(qiáng)制模型權(quán)重矩陣中99.9%權(quán)重為零，僅保留0.1%非零權(quán)重。

強(qiáng)制模型限制了模型只能使用其神經(jīng)元之間極少的可能連接，而這一簡(jiǎn)單的更改，幾乎從根本上理清了模型的內(nèi)部計(jì)算。

▲每個(gè)神經(jīng)元只與下一個(gè)層的幾個(gè)神經(jīng)元相連（圖源：OpenAI技術(shù)博客）

具體的技術(shù)手段包括：

1、動(dòng)態(tài)剪枝與稀疏約束：在訓(xùn)練過程中，系統(tǒng)會(huì)動(dòng)態(tài)執(zhí)行“剪枝”操作，每一步優(yōu)化后僅保留絕對(duì)值最大的權(quán)重（Top-K稀疏化）。

2、激活稀疏化：在殘差流、注意力鍵/值矩陣等關(guān)鍵位置，研究團(tuán)隊(duì)引入了AbsTopK激活函數(shù)，強(qiáng)制僅保留前25%的激活值。

3、架構(gòu)微調(diào)：為了配合稀疏化，研究團(tuán)隊(duì)用RMSNorm替代了傳統(tǒng)的LayerNorm，避免歸一化操作破壞稀疏性，同時(shí)引入了“Bigram表”來處理簡(jiǎn)單的模式匹配，從而釋放模型的主干容量去處理復(fù)雜的邏輯推理。

二、模型內(nèi)部形成緊湊可讀的“電路”，規(guī)模縮減16倍

這項(xiàng)技術(shù)的最大成果，是模型內(nèi)部形成了緊湊且可讀的“電路”（Circuits）。

在傳統(tǒng)密集模型中，完成一個(gè)任務(wù)可能需要成千上萬個(gè)節(jié)點(diǎn)協(xié)同工作，邏輯分散且難以捕捉。而在稀疏模型中，研究團(tuán)隊(duì)觀察到了極簡(jiǎn)的計(jì)算路徑：

1、極簡(jiǎn)的邏輯單元：例如在處理“字符串閉合”任務(wù)時(shí)，模型僅用12個(gè)節(jié)點(diǎn)就構(gòu)建了一個(gè)完美的電路，清晰地展示了它是如何檢測(cè)單引號(hào)或雙引號(hào)是否閉合的。

2、可讀的特征：神經(jīng)元的激活變得具有明確的語義。研究人員發(fā)現(xiàn)了一些神經(jīng)元專門負(fù)責(zé)檢測(cè)“單引號(hào)”，另一些則像“計(jì)數(shù)器”一樣精確地追蹤列表的嵌套深度。

3、規(guī)模縮減16倍：對(duì)比實(shí)驗(yàn)顯示，在相同的任務(wù)損失下，稀疏模型的電路規(guī)模比密集模型小了16倍。這意味著解讀AI思維的難度降低了整整一個(gè)數(shù)量級(jí)。

▲稀疏模型的電路規(guī)模比密集模型小了16倍（圖源：OpenAI技術(shù)論文）

為了驗(yàn)證這些電路的真實(shí)性，團(tuán)隊(duì)進(jìn)行了“均值消融”實(shí)驗(yàn)。結(jié)果證明，移除非電路節(jié)點(diǎn)對(duì)任務(wù)幾乎沒有影響，而一旦移除電路中的關(guān)鍵節(jié)點(diǎn)，模型性能就會(huì)瞬間崩塌。這證實(shí)了這些電路確實(shí)是模型執(zhí)行任務(wù)的“必經(jīng)之路”。

▲“均值消融”實(shí)驗(yàn)（圖源：OpenAI技術(shù)論文）

三、稀疏模型解讀力強(qiáng)但速度慢千倍，OpenAI提出“橋梁網(wǎng)絡(luò)”

為了測(cè)量稀疏模型計(jì)算的解耦程度。研究團(tuán)隊(duì)設(shè)計(jì)了一套簡(jiǎn)單的算法任務(wù)。對(duì)于每個(gè)模型，他們都將其剪裁成了仍能執(zhí)行該任務(wù)的最小電路，并檢查了該電路的簡(jiǎn)潔程度。

研究團(tuán)隊(duì)發(fā)現(xiàn)，用規(guī)模更大、稀疏度更高的模型進(jìn)行訓(xùn)練后，就能夠依托結(jié)構(gòu)更簡(jiǎn)潔的電路，構(gòu)建出性能更強(qiáng)的模型。

▲模型的可解釋性與能力的對(duì)比圖（圖源：OpenAI技術(shù)博客）

從模型可解釋性與性能的對(duì)比圖可見，在稀疏模型規(guī)模固定的前提下，提升稀疏性，也就是將更多權(quán)重置零，雖會(huì)導(dǎo)致模型性能有所下降，但能顯著增強(qiáng)其可解釋性。

盡管稀疏模型在可解釋性方面優(yōu)勢(shì)突出，但其應(yīng)用目前受限于計(jì)算效率瓶頸：稀疏矩陣運(yùn)算無法借助Tensor Cores實(shí)現(xiàn)加速，運(yùn)算速度較密集模型慢100至1000倍。這意味著，將該技術(shù)直接應(yīng)用于千億參數(shù)級(jí)別的前沿大模型，現(xiàn)階段尚不具備可行性。

為此，研究團(tuán)隊(duì)提出了“橋梁網(wǎng)絡(luò)”（Bridges）方案：

1、編碼-解碼映射：在稀疏模型與預(yù)訓(xùn)練的密集模型之間插入一個(gè)編碼器-解碼器對(duì)。

2、跨模型干預(yù)：編碼器將密集模型的激活映射到稀疏空間，解碼器則反向轉(zhuǎn)換。

“橋梁網(wǎng)絡(luò)”（Bridges）方案可以在“透明”的稀疏模型上修改某個(gè)特征，然后通過橋梁將這種擾動(dòng)映射回“黑箱”的密集模型，從而實(shí)現(xiàn)對(duì)現(xiàn)有大模型的可解釋性行為編輯。

結(jié)語：OpenAI提出稀疏化新路徑，讓大模型從“黑箱”走向“可解釋”

OpenAI研究團(tuán)隊(duì)的這項(xiàng)研究，標(biāo)志著AI可解釋性領(lǐng)域的一項(xiàng)重要突破，也印證了理解AI并非遙不可及的目標(biāo)。

研究團(tuán)隊(duì)在論文博客中稱，這項(xiàng)工作是邁向更宏大目標(biāo)的早期探索。接下來，他們計(jì)劃將相關(guān)技術(shù)擴(kuò)展至更大規(guī)模的模型，同時(shí)進(jìn)一步解釋更多模型的行為邏輯。

為解決稀疏模型訓(xùn)練效率低下的問題，團(tuán)隊(duì)提出了兩個(gè)后續(xù)研究方向：一是從現(xiàn)有密集模型中提取稀疏電路，替代“從頭訓(xùn)練稀疏模型”的傳統(tǒng)方式；二是研發(fā)更高效的可解釋性模型訓(xùn)練技術(shù)，推動(dòng)相關(guān)技術(shù)更易落地生產(chǎn)。

“我們的目標(biāo)是逐步擴(kuò)大可可靠解釋的模型范圍，同時(shí)打造相關(guān)工具，讓未來的AI系統(tǒng)更易于分析、調(diào)試與評(píng)估。”研究團(tuán)隊(duì)在論文博客中寫道。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.