<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      NeurIPS 2025 | DePass:通過單次前向傳播分解實現統一特征歸因

      0
      分享至



      共同一作:洪翔宇,清華大學電子系大四本科生,曾獲清華大學蔣南翔獎學金等,曾在NeurIPS,EMNLP,NAACL等頂級會議上發表論文。姜澈,清華大學電子系博士三年級在讀,主要研究方向為LLM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級會議上發表論文。

      隨著大型語言模型在各類任務中展現出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內部計算過程,已成為 AI 可解釋性研究的重要方向。然而,現有方法往往計算代價高昂、難以揭示中間層的信息流動;同時,不同層面的歸因(如 token、模型組件或表示子空間)通常依賴各自獨立的特定方法,缺乏統一且高效的分析框架。

      針對這一問題,來自清華、上海 AI Lab 的研究團隊提出了全新的統一特征歸因框架——DePass(Decomposed Forward Pass)。

      該方法通過將前向傳播中的每個隱藏狀態分解為多個可加子狀態,并在固定注意力權重與 MLP 激活的情況下對其逐層傳播,實現了對 Transformer 內部信息流的無損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經元乃至殘差流子空間等多個層面上進行歸因分析,為機制可解釋性研究提供了統一而細粒度的新視角。



      • 論文標題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
      • 論文鏈接: https://arxiv.org/pdf/2510.18462
      • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

      問題分析:

      現有歸因方法的局限性

      現有的歸因方法大致可以分為以下幾類:

      • 基于噪聲消融和激活修補的方法:這些方法通過直接對模型的所有模塊施加噪聲或修補激活值來分析模型行為,但計算成本高昂,且難以洞察中間信息流。
      • 基于梯度的歸因方法:這類方法在理論上面臨挑戰,難以提供細粒度的解釋。
      • 基于模型近似或抽象的方法:雖然部分方法能夠與人類認知對齊,但通常無法達到細粒度的組件級別(如神經元或注意力頭),且非保守的近似可能會損害歸因的可信度。

      DePass:

      一種全新的歸因框架



      實驗驗證:

      DePass 的有效性

      DePass 提供了一個統一的歸因框架,支持在輸入 token、注意力頭、神經元以及殘差流子空間等多個層面進行一致歸因,無需修改模型結構或依賴任務特定近似,并可自然銜接人類推理及稀疏字典學習(如 SAE)等方法。研究團隊在 token 級、模型組件級和子空間級歸因任務上驗證了 DePass 的有效性:

      Token-Level DePass——輸出歸因到輸入:精準識別驅動預測的核心證據

      我們首先在輸出到輸入 token 的歸因任務上驗證了 DePass 的表現,目標是評估每個輸入 token 對模型最終輸出的實際貢獻。

      在「Disrupt-top」實驗中,移除 DePass 判定最關鍵的 tokens 會導致模型輸出概率急劇下降,表明其捕捉到了真正驅動預測的核心證據;而在「Recover-top」實驗中,DePass 保留的極少量 tokens 依然能高度恢復模型判斷。這表明 DePass 能夠更忠實地刻畫模型內部的信息流動與輸入貢獻關系,實現高可信度的 token 級歸因分析。



      Token-Level DePass——子空間歸因到輸入:追蹤子空間信號的 token 來源

      DePass 不僅能在 token 層面追蹤預測依據,還能精準定位哪些輸入 token 激活了模型中「特定方向/特定語義子空間」的信號(例如「truthfulness」方向),從而識別出影響模型判斷的關鍵來源(如誤導性信息),并顯著提升模型的可控性與可解釋性。

      在事實性任務中,團隊利用 DePass 將「虛假信息子空間」拆解后,進一步將其激活分配到每個輸入 token。歸因結果清晰揭示了哪些詞觸發了模型的錯誤方向。基于這些 token 進行定向遮罩后,模型在 CounterFact 上的事實性準確率從約10% → 40%+大幅提升,顯著優于現有 probe-based masking 方法。



      Model-Component-Level DePass——模型組件級歸因:觀察注意力頭與 MLP 神經元的實際功能

      DePass 能直接量化每個注意力頭與 MLP 神經元對預測的真實貢獻,在遮罩實驗中顯著優于梯度、激活等傳統重要性指標。

      當遮罩 DePass 判定的「重要組件」(Top-k Masking)時,模型準確率下降更快;當僅保留「最不重要組件」(Bottom-k Masking)時,模型性能保持得更好。這說明 DePass 識別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務上均顯著超越 AtP、Norm 等主流歸因指標。



      Subspace-Level DePass——子空間級歸因

      DePass 還可以用于研究隱狀態中不同子空間之間的相互作用,以及這些子空間對最終輸出的影響。我們以語言子空間(language subspace)為例進行分析。

      我們訓練了一個語言分類器,并將其權重方向作為語言子空間的基向量。隨后,將中間層的隱狀態分別投影到語言子空間與其正交語義子空間中;兩部分隱狀態在網絡中分別獨立傳播至最終層,并通過 LM Head 解碼,以觀察其對應輸出。

      • 語言子空間:經 t-SNE 顯示形成清晰的語言聚類(如英文/法文/德文),體現語言特征集中分布。
      • 語義子空間:獨立解碼結果跨語言一致,例如無論輸入語言為何,都會生成相同的事實答案(如「Dutch」)。

      這一結果說明 DePass 能忠實保留并傳播子空間的功能屬性,為跨語言解釋和語義分解提供了全新視角。



      (左)對 token 在語言子空間上的投影進行 t-SNE 可視化。(右)針對不同多語言提示語,從語言子空間與語義子空間中解碼得到的前五個 token

      總結

      DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡潔性與高效性。通過凍結并分配注意力得分和 MLP 激活,DePass 實現了無損的加性分解,可無縫適配各種 Transformer 架構。

      實驗結果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實性。我們期望 DePass 能成為機制可解釋性研究中的通用工具,推動社區在更廣泛的任務與模型上探索其潛力與應用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      株洲尹明殺豬宴后續:雙方各執一詞,警方介入,結局讓人唏噓

      株洲尹明殺豬宴后續:雙方各執一詞,警方介入,結局讓人唏噓

      阿纂看事
      2026-01-23 14:57:24
      最新!伊朗發出“全面戰爭”警告

      最新!伊朗發出“全面戰爭”警告

      揚子晚報
      2026-01-24 11:29:17
      觀察|越共十四大閉幕,越南小心確立“速度與克制”間平衡

      觀察|越共十四大閉幕,越南小心確立“速度與克制”間平衡

      澎湃新聞
      2026-01-24 07:47:17
      俄羅斯發動大規模空襲,導彈中途居然還會轉向,基輔一半地區停電

      俄羅斯發動大規模空襲,導彈中途居然還會轉向,基輔一半地區停電

      碳基生物關懷組織
      2026-01-20 19:48:05
      女子被雪豹咬傷后續:正臉曝光,知情人曝內幕,女子狀態讓人擔憂

      女子被雪豹咬傷后續:正臉曝光,知情人曝內幕,女子狀態讓人擔憂

      以茶帶書
      2026-01-24 17:15:26
      載有美國對臺首批軍售武器貨輪于1月13日從美國正駛往臺灣方向

      載有美國對臺首批軍售武器貨輪于1月13日從美國正駛往臺灣方向

      南權先生
      2026-01-23 15:42:38
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      李云飛Afey
      2026-01-20 11:43:34
      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      飯小妹說歷史
      2026-01-07 09:30:45
      朱拉尼恐怖色彩的“大一統”:庫爾德“娘子軍”被排隊爆頭畫面

      朱拉尼恐怖色彩的“大一統”:庫爾德“娘子軍”被排隊爆頭畫面

      矚望云霄
      2026-01-23 10:17:27
      美國最強激光問世!峰值功率2拍瓦,超全球電力總輸出100多倍!

      美國最強激光問世!峰值功率2拍瓦,超全球電力總輸出100多倍!

      心中的麥田
      2026-01-23 20:30:45
      “我要回國禍害人了”!澳洲女留學生在外網興致勃勃的宣布!

      “我要回國禍害人了”!澳洲女留學生在外網興致勃勃的宣布!

      達文西看世界
      2026-01-23 20:28:45
      寶馬“掀桌子”!新款寶馬X3正式上市,增配還敢大降價,劍指奧迪Q5L!

      寶馬“掀桌子”!新款寶馬X3正式上市,增配還敢大降價,劍指奧迪Q5L!

      隔壁說車老王
      2026-01-24 00:11:59
      日本又要選首相了

      日本又要選首相了

      中國新聞周刊
      2026-01-21 07:41:18
      深夜利好,41股業績大超預期,108股業績暴雷,千萬別搞錯方向

      深夜利好,41股業績大超預期,108股業績暴雷,千萬別搞錯方向

      風風順
      2026-01-24 07:42:57
      曝2026央視春晚彩排!看完到場明星,網友哭了:今年的電費又省了

      曝2026央視春晚彩排!看完到場明星,網友哭了:今年的電費又省了

      小熊侃史
      2026-01-22 07:40:06
      打虎!張建龍被查!武威民勤人

      打虎!張建龍被查!武威民勤人

      精彩武威
      2026-01-24 11:55:04
      孫濤剛澄清不久,一個動作實現口碑爆棚,與閆學晶早已兩極分化

      孫濤剛澄清不久,一個動作實現口碑爆棚,與閆學晶早已兩極分化

      情感大頭說說
      2026-01-24 09:50:08
      韓媒不尊重中國隊,亂排4強位置,球迷:今晚一過韓媒又得改標題了

      韓媒不尊重中國隊,亂排4強位置,球迷:今晚一過韓媒又得改標題了

      側身凌空斬
      2026-01-24 11:14:03
      見證史上最狂野貴金屬牛市:國際白銀歷史性突破100美元,28→100僅用9個月

      見證史上最狂野貴金屬牛市:國際白銀歷史性突破100美元,28→100僅用9個月

      財聯社
      2026-01-23 23:22:29
      一語驚醒夢中人!歐洲高官直言:搞垮中國,就是給美國送霸權!

      一語驚醒夢中人!歐洲高官直言:搞垮中國,就是給美國送霸權!

      達文西看世界
      2026-01-24 11:29:41
      2026-01-24 19:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      李微漪更新:狼王格林去世,3字淚目

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      藝術
      游戲
      本地
      手機
      公開課

      藝術要聞

      400億!恒大“東方威尼斯”,10萬人瘋搶到無人問津!徹底涼了?

      《小鎮驚魂:復刻版合集》更新 修復BUG優化界面

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      手機要聞

      iPhone18標準版爆料匯總:12GB+A20芯片,并簡化相機控制!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧洲AV在线| 亚色91| 酒店大战丝袜高跟鞋人妻| 特级毛片爽www免费版| 国产永久免费高清在线观看| 射死你天天日| 久久国产精品成人免费| 国产精品国产主播在线观看| 麻豆精品久久久久久久99蜜桃| 枣阳市| 另类av| 绥芬河市| 国产精品视频一区二区三区不卡| 熟女精品激情免费视频| 精品国产三级a∨在线欧美| 免费久久人人爽人人爽AV| 九九国产在线观看| 狠狠噜天天噜日日噜| 久草视频网站| 国产在视频线精品视频| 99国产欧美久久久精品蜜芽| 国产又色又爽又刺激在线播放| 99久久99久久久精品久久| 四虎av永久在线精品免费观看| 熟妇人妻无乱码中文字幕真矢织江| 亚洲精品国产自在久久| 乱码午夜-极品国产内射| 亚洲精品之国产av| AV色色色| 无码人妻aⅴ一区二区三区蜜桃| 国产亚洲AV| 欧美国产综合视频| 中文字幕丝袜制服| 国产成人精品手机在线观看| 亚洲爆乳精品无码一区二区三区| 亚洲欧洲av无码专区| 日本人妻中文字幕| 亚洲色一区二区三区四区| 亚洲日本国产| 免费无码一区二区三区蜜桃大| 欧美日韩久久|