<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      OpenAI又開源了!僅0.4B,給模型大瘦身

      0
      分享至


      智東西
      作者 王涵
      編輯 心緣

      智東西12月15日?qǐng)?bào)道,昨天,OpenAI開源新模型Circuit-Sparsity,模型參數(shù)量?jī)H0.4B99.9%的權(quán)重為零。


      ▲Circuit-Sparsity開源(來源:Hugging Face)

      這個(gè)技術(shù)試圖解決模型的可解釋性問題,簡(jiǎn)單來說就是回答“模型為什么做出這個(gè)決策?”以及“它是如何得出這個(gè)結(jié)果的?”這兩個(gè)問題。

      在AI飛速發(fā)展的今天,大語言模型(LLM)雖然表現(xiàn)出了驚人的能力,但其內(nèi)部運(yùn)作機(jī)制始終像一個(gè)神秘的“黑箱”。

      我們不知道它為何做出某個(gè)回答,也不清楚它是如何從海量數(shù)據(jù)中提取知識(shí)的。這種不可解釋性,成為了AI在醫(yī)療、金融、法律等高風(fēng)險(xiǎn)領(lǐng)域落地的重大障礙。

      對(duì)此,OpenAI研究團(tuán)隊(duì)訓(xùn)練出了一個(gè)權(quán)重稀疏的Transformer模型,強(qiáng)制模型權(quán)重矩陣中99.9%權(quán)重為零,僅保留0.1%非零權(quán)重。

      在這項(xiàng)研究中,研究團(tuán)隊(duì)在模型內(nèi)部形成了緊湊且可讀的“電路”(Circuits),每個(gè)電路都僅保留了保證模型性能的關(guān)鍵節(jié)點(diǎn),神經(jīng)元的激活變得具有明確的語義。

      有外網(wǎng)網(wǎng)友稱這一技術(shù)讓當(dāng)下的MoE(混合專家模型)走到了盡頭,并說“我們一直以來都將權(quán)重隔離到‘專家’中,以此粗略地近似稀疏性,僅僅是為了滿足稠密矩陣核的要求。”


      ▲外網(wǎng)評(píng)價(jià)(圖源:X)

      更有網(wǎng)友將這項(xiàng)研究形容為將模型“減肥到只剩骨架”,還說這項(xiàng)研究就好像打開了黑匣子,不試圖解開稠密模型而是直接構(gòu)建稀疏模型,正是這項(xiàng)研究有趣的地方。


      ▲外網(wǎng)評(píng)價(jià)(圖源:X)

      但有些網(wǎng)友卻不這么認(rèn)為,稱其沒有看出MoE模型為何會(huì)因此走到盡頭,并進(jìn)一步解釋說這一技術(shù)是針對(duì)XAI(可解釋AI)的,它的訓(xùn)練成本要高100-1000倍,回到“研究時(shí)代”并不意味著讓事情變得更復(fù)雜。


      ▲外網(wǎng)評(píng)價(jià)(圖源:X)

      該模型目前受限于計(jì)算效率瓶頸,其運(yùn)算速度較密集模型慢100至1000倍,將該技術(shù)直接應(yīng)用于千億參數(shù)級(jí)別的前沿大模型,現(xiàn)階段尚不具備可行性。

      開源地址:

      Github:
      https://github.com/openai/circuit_sparsity

      Hugging Face:

      https://huggingface.co/openai/circuit-sparsity

      一、訓(xùn)練稀疏Transformer,OpenAI理清模型內(nèi)部計(jì)算

      要理解這項(xiàng)研究的突破,首先需要明白傳統(tǒng)大模型為何難以解釋。

      在標(biāo)準(zhǔn)的密集模型(Dense Models)中,神經(jīng)網(wǎng)絡(luò)存在一種被稱為“超級(jí)位置”(Superposition)的現(xiàn)象。簡(jiǎn)單來說,為了存儲(chǔ)海量的信息,模型被迫讓單個(gè)神經(jīng)元或權(quán)重矩陣同時(shí)編碼多個(gè)完全不同的概念。

      這種特征糾纏導(dǎo)致了嚴(yán)重的后果,例如模型的決策不可追溯和邏輯混亂,當(dāng)模型輸出一個(gè)結(jié)果時(shí),我們無法確定是哪個(gè)具體的“概念”在起作用。

      針對(duì)以上問題,以前的研究通常從試圖拆解密集、糾結(jié)的網(wǎng)絡(luò)開始。但OpenAI團(tuán)隊(duì)采取了一種“反直覺”的策略,即訓(xùn)練權(quán)重稀疏的Transformer模型,強(qiáng)制模型權(quán)重矩陣中99.9%權(quán)重為零,僅保留0.1%非零權(quán)重。

      強(qiáng)制模型限制了模型只能使用其神經(jīng)元之間極少的可能連接,而這一簡(jiǎn)單的更改,幾乎從根本上理清了模型的內(nèi)部計(jì)算。


      ▲每個(gè)神經(jīng)元只與下一個(gè)層的幾個(gè)神經(jīng)元相連(圖源:OpenAI技術(shù)博客)

      具體的技術(shù)手段包括:

      1、動(dòng)態(tài)剪枝與稀疏約束:在訓(xùn)練過程中,系統(tǒng)會(huì)動(dòng)態(tài)執(zhí)行“剪枝”操作,每一步優(yōu)化后僅保留絕對(duì)值最大的權(quán)重(Top-K稀疏化)。

      2、激活稀疏化:在殘差流、注意力鍵/值矩陣等關(guān)鍵位置,研究團(tuán)隊(duì)引入了AbsTopK激活函數(shù),強(qiáng)制僅保留前25%的激活值。

      3、架構(gòu)微調(diào):為了配合稀疏化,研究團(tuán)隊(duì)用RMSNorm替代了傳統(tǒng)的LayerNorm,避免歸一化操作破壞稀疏性,同時(shí)引入了“Bigram表”來處理簡(jiǎn)單的模式匹配,從而釋放模型的主干容量去處理復(fù)雜的邏輯推理。

      二、模型內(nèi)部形成緊湊可讀的“電路”,規(guī)模縮減16倍

      這項(xiàng)技術(shù)的最大成果,是模型內(nèi)部形成了緊湊且可讀的“電路”(Circuits)

      在傳統(tǒng)密集模型中,完成一個(gè)任務(wù)可能需要成千上萬個(gè)節(jié)點(diǎn)協(xié)同工作,邏輯分散且難以捕捉。而在稀疏模型中,研究團(tuán)隊(duì)觀察到了極簡(jiǎn)的計(jì)算路徑:

      1、極簡(jiǎn)的邏輯單元:例如在處理“字符串閉合”任務(wù)時(shí),模型僅用12個(gè)節(jié)點(diǎn)就構(gòu)建了一個(gè)完美的電路,清晰地展示了它是如何檢測(cè)單引號(hào)或雙引號(hào)是否閉合的。

      2、可讀的特征:神經(jīng)元的激活變得具有明確的語義。研究人員發(fā)現(xiàn)了一些神經(jīng)元專門負(fù)責(zé)檢測(cè)“單引號(hào)”,另一些則像“計(jì)數(shù)器”一樣精確地追蹤列表的嵌套深度。

      3、規(guī)模縮減16倍:對(duì)比實(shí)驗(yàn)顯示,在相同的任務(wù)損失下,稀疏模型的電路規(guī)模比密集模型小了16倍。這意味著解讀AI思維的難度降低了整整一個(gè)數(shù)量級(jí)。


      ▲稀疏模型的電路規(guī)模比密集模型小了16倍(圖源:OpenAI技術(shù)論文)

      為了驗(yàn)證這些電路的真實(shí)性,團(tuán)隊(duì)進(jìn)行了“均值消融”實(shí)驗(yàn)。結(jié)果證明,移除非電路節(jié)點(diǎn)對(duì)任務(wù)幾乎沒有影響,而一旦移除電路中的關(guān)鍵節(jié)點(diǎn),模型性能就會(huì)瞬間崩塌。這證實(shí)了這些電路確實(shí)是模型執(zhí)行任務(wù)的“必經(jīng)之路”。


      ▲“均值消融”實(shí)驗(yàn)(圖源:OpenAI技術(shù)論文)

      三、稀疏模型解讀力強(qiáng)但速度慢千倍,OpenAI提出“橋梁網(wǎng)絡(luò)”

      為了測(cè)量稀疏模型計(jì)算的解耦程度。研究團(tuán)隊(duì)設(shè)計(jì)了一套簡(jiǎn)單的算法任務(wù)。對(duì)于每個(gè)模型,他們都將其剪裁成了仍能執(zhí)行該任務(wù)的最小電路,并檢查了該電路的簡(jiǎn)潔程度。

      研究團(tuán)隊(duì)發(fā)現(xiàn),用規(guī)模更大、稀疏度更高的模型進(jìn)行訓(xùn)練后,就能夠依托結(jié)構(gòu)更簡(jiǎn)潔的電路,構(gòu)建出性能更強(qiáng)的模型。


      ▲模型的可解釋性與能力的對(duì)比圖(圖源:OpenAI技術(shù)博客)

      從模型可解釋性與性能的對(duì)比圖可見,在稀疏模型規(guī)模固定的前提下,提升稀疏性,也就是將更多權(quán)重置零,雖會(huì)導(dǎo)致模型性能有所下降,但能顯著增強(qiáng)其可解釋性。

      盡管稀疏模型在可解釋性方面優(yōu)勢(shì)突出,但其應(yīng)用目前受限于計(jì)算效率瓶頸:稀疏矩陣運(yùn)算無法借助Tensor Cores實(shí)現(xiàn)加速,運(yùn)算速度較密集模型慢100至1000倍。這意味著,將該技術(shù)直接應(yīng)用于千億參數(shù)級(jí)別的前沿大模型,現(xiàn)階段尚不具備可行性。

      為此,研究團(tuán)隊(duì)提出了“橋梁網(wǎng)絡(luò)”(Bridges)方案:

      1、編碼-解碼映射:在稀疏模型與預(yù)訓(xùn)練的密集模型之間插入一個(gè)編碼器-解碼器對(duì)。

      2、跨模型干預(yù):編碼器將密集模型的激活映射到稀疏空間,解碼器則反向轉(zhuǎn)換。

      “橋梁網(wǎng)絡(luò)”(Bridges)方案可以在“透明”的稀疏模型上修改某個(gè)特征,然后通過橋梁將這種擾動(dòng)映射回“黑箱”的密集模型,從而實(shí)現(xiàn)對(duì)現(xiàn)有大模型的可解釋性行為編輯。

      結(jié)語:OpenAI提出稀疏化新路徑,讓大模型從“黑箱”走向“可解釋”

      OpenAI研究團(tuán)隊(duì)的這項(xiàng)研究,標(biāo)志著AI可解釋性領(lǐng)域的一項(xiàng)重要突破,也印證了理解AI并非遙不可及的目標(biāo)。

      研究團(tuán)隊(duì)在論文博客中稱,這項(xiàng)工作是邁向更宏大目標(biāo)的早期探索。接下來,他們計(jì)劃將相關(guān)技術(shù)擴(kuò)展至更大規(guī)模的模型,同時(shí)進(jìn)一步解釋更多模型的行為邏輯。

      為解決稀疏模型訓(xùn)練效率低下的問題,團(tuán)隊(duì)提出了兩個(gè)后續(xù)研究方向:一是從現(xiàn)有密集模型中提取稀疏電路,替代“從頭訓(xùn)練稀疏模型”的傳統(tǒng)方式;二是研發(fā)更高效的可解釋性模型訓(xùn)練技術(shù),推動(dòng)相關(guān)技術(shù)更易落地生產(chǎn)。

      “我們的目標(biāo)是逐步擴(kuò)大可可靠解釋的模型范圍,同時(shí)打造相關(guān)工具,讓未來的AI系統(tǒng)更易于分析、調(diào)試與評(píng)估。”研究團(tuán)隊(duì)在論文博客中寫道。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “芬蘭小姐”摘冠道歉:對(duì)不起中國

      “芬蘭小姐”摘冠道歉:對(duì)不起中國

      中國日?qǐng)?bào)
      2025-12-15 10:01:53
      22 歲美國女星遭槍擊身亡!

      22 歲美國女星遭槍擊身亡!

      下水道男孩
      2025-12-06 23:54:27
      “肉車”泛濫,打工人崩潰:為什么路上全是肉車?

      “肉車”泛濫,打工人崩潰:為什么路上全是肉車?

      詩意世界
      2025-12-14 11:35:43
      《沁園春·雪》發(fā)表,無人超越,一才女填詞,毛主席驚:拜受了

      《沁園春·雪》發(fā)表,無人超越,一才女填詞,毛主席驚:拜受了

      抽象派大師
      2025-12-13 05:01:21
      只有微胖女人才可以穿出打底褲的精髓,不僅遮肉顯瘦,還嫵媚時(shí)尚

      只有微胖女人才可以穿出打底褲的精髓,不僅遮肉顯瘦,還嫵媚時(shí)尚

      小喬古裝漢服
      2025-09-07 17:30:03
      何晴吊唁現(xiàn)場(chǎng)布置簡(jiǎn)單,王衛(wèi)國含淚憶往昔,許亞軍疑現(xiàn)身哭紅雙眼

      何晴吊唁現(xiàn)場(chǎng)布置簡(jiǎn)單,王衛(wèi)國含淚憶往昔,許亞軍疑現(xiàn)身哭紅雙眼

      史行途
      2025-12-15 12:39:32
      這8種東西“沒有保質(zhì)期”,過期了就扔太浪費(fèi),別當(dāng)冤大頭了

      這8種東西“沒有保質(zhì)期”,過期了就扔太浪費(fèi),別當(dāng)冤大頭了

      Home范
      2025-12-11 21:20:03
      A股:上午大盤觸及3863,跡象明顯了,不出所料,下午可能這樣走

      A股:上午大盤觸及3863,跡象明顯了,不出所料,下午可能這樣走

      深析古今
      2025-12-15 11:54:18
      李鴻章為何要?dú)⑺狼宄赘缓r

      李鴻章為何要?dú)⑺狼宄赘缓r

      河山歷史
      2025-12-14 19:42:23
      不會(huì)真有人信《永樂大典》里有蒸汽機(jī)吧?

      不會(huì)真有人信《永樂大典》里有蒸汽機(jī)吧?

      雷斯林
      2025-12-14 12:06:34
      女性偷腥后當(dāng)晚與丈夫同房是什么感覺?一位39歲的女人說出實(shí)情

      女性偷腥后當(dāng)晚與丈夫同房是什么感覺?一位39歲的女人說出實(shí)情

      混音情感
      2025-12-14 19:13:19
      上學(xué)如上墳,揭秘陰氣最盛的城市西安,到底隱藏哪些邪門之處

      上學(xué)如上墳,揭秘陰氣最盛的城市西安,到底隱藏哪些邪門之處

      清澈之玹
      2024-12-22 10:54:47
      在日外國人注意!日本宣布2026年6月起啟用新“特定在留卡”

      在日外國人注意!日本宣布2026年6月起啟用新“特定在留卡”

      東京在線
      2025-12-14 22:57:30
      醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴口罩的人,用不了多久,身體或會(huì)有5大變化

      醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴口罩的人,用不了多久,身體或會(huì)有5大變化

      霹靂炮
      2025-12-04 22:54:47
      10人逃單大結(jié)局:組局者是堂哥 張先生終于付款 但里子面子全丟了

      10人逃單大結(jié)局:組局者是堂哥 張先生終于付款 但里子面子全丟了

      觀察鑒娛
      2025-12-15 09:11:05
      文班亞馬嘲諷雷霆假摔:很高興能參與這樣純粹而有道德的籃球比賽

      文班亞馬嘲諷雷霆假摔:很高興能參與這樣純粹而有道德的籃球比賽

      懂球帝
      2025-12-15 11:08:22
      無法理解,iPhone 17 國內(nèi)銷量已經(jīng)突破 1300 萬臺(tái)!

      無法理解,iPhone 17 國內(nèi)銷量已經(jīng)突破 1300 萬臺(tái)!

      XCiOS俱樂部
      2025-12-14 16:46:33
      不聽勸!泰國為何“硬剛”特朗普,非要把仗打到底?

      不聽勸!泰國為何“硬剛”特朗普,非要把仗打到底?

      上觀新聞
      2025-12-14 20:40:55
      兩個(gè)重要表態(tài),日本又退了半步,高市早苗已被內(nèi)定為替罪羊?

      兩個(gè)重要表態(tài),日本又退了半步,高市早苗已被內(nèi)定為替罪羊?

      金梅煮酒
      2025-12-14 17:30:03
      騎士加時(shí)0分爆冷惜敗黃蜂:米切爾三分11中1 米勒25+13獻(xiàn)扳平球

      騎士加時(shí)0分爆冷惜敗黃蜂:米切爾三分11中1 米勒25+13獻(xiàn)扳平球

      醉臥浮生
      2025-12-15 07:15:00
      2025-12-15 14:31:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
      10901文章數(shù) 116926關(guān)注度
      往期回顧 全部

      科技要聞

      平價(jià)數(shù)碼產(chǎn)品,要和我們說再見了?

      頭條要聞

      悉尼槍手父親被擊斃兒子被制服 憤怒民眾猛踩頭部

      頭條要聞

      悉尼槍手父親被擊斃兒子被制服 憤怒民眾猛踩頭部

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動(dòng)物城”只是半成品

      娛樂要聞

      黃綺珊在何晴去世首發(fā),10年悄悄祈福

      財(cái)經(jīng)要聞

      新會(huì)陳皮亂象曝光:產(chǎn)地造假、年份速成

      汽車要聞

      二排有大屏還有高階輔助駕駛 風(fēng)云T9L明年一季度上市

      態(tài)度原創(chuàng)

      親子
      旅游
      游戲
      教育
      公開課

      親子要聞

      波蘭綜合征造成的短并指,爸爸懷疑是臍帶太短導(dǎo)致的

      旅游要聞

      佘山之巔秋意濃

      酒越陳越香 《生化危機(jī):安魂曲》中里昂是一位帥大叔

      教育要聞

      那個(gè)高考成績(jī)604分放棄本科讀高職的學(xué)生,現(xiàn)在怎么樣了?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲永久一区二区三区在线| 蜜桃av蜜臀av色欲av麻| 久久久久国色av免费看| 成人动漫综合网| 日本亚洲欧洲无免费码在线| 国产制服丝袜在线播放| 亚洲第一成人久久网站| 国产成人av乱码在线观看| 久久久噜噜噜久久| 色偷偷女人的天堂亚洲网| 精品免费100| 人妻精品中文字幕| 亚洲国产精品久久久久婷婷老年 | 一区二区三区资源| 特级aaaaaaaaa毛片免费视频| 亚洲妇女无套内射精| 国内精品久久久久影院日本| 午夜男在线一本| 亚洲最大国产成人综合网站| 中文字幕亚洲综合久久菠萝蜜 | 中文字幕在线网址| 封开县| 色琪琪丁香婷婷综合久久| 亚洲国产成人无码av在线影院 | k频道国产在线观看| 91乱子伦国产乱子伦| 国产av中文字幕| 国产精品久久久一区二区| 3atv精品不卡视频| jizzjizz视频| 万山特区| 久久久久成人精品| 久久高潮少妇视频免费| 夜色福利导航| 九九国产在线| 久久久中日ab精品综合| 久久天堂无码av网站| 宜川县| 成人精品一区二区三区在线观看| 国产精品久久久久久免费软件| 亚洲成人在线播放|