<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      NeurIPS 2025 | DePass:通過單次前向傳播分解實現統一特征歸因

      0
      分享至



      共同一作:洪翔宇,清華大學電子系大四本科生,曾獲清華大學蔣南翔獎學金等,曾在NeurIPS,EMNLP,NAACL等頂級會議上發表論文。姜澈,清華大學電子系博士三年級在讀,主要研究方向為LLM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級會議上發表論文。

      隨著大型語言模型在各類任務中展現出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內部計算過程,已成為 AI 可解釋性研究的重要方向。然而,現有方法往往計算代價高昂、難以揭示中間層的信息流動;同時,不同層面的歸因(如 token、模型組件或表示子空間)通常依賴各自獨立的特定方法,缺乏統一且高效的分析框架。

      針對這一問題,來自清華、上海 AI Lab 的研究團隊提出了全新的統一特征歸因框架——DePass(Decomposed Forward Pass)。

      該方法通過將前向傳播中的每個隱藏狀態分解為多個可加子狀態,并在固定注意力權重與 MLP 激活的情況下對其逐層傳播,實現了對 Transformer 內部信息流的無損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經元乃至殘差流子空間等多個層面上進行歸因分析,為機制可解釋性研究提供了統一而細粒度的新視角。



      • 論文標題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
      • 論文鏈接: https://arxiv.org/pdf/2510.18462
      • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

      問題分析:

      現有歸因方法的局限性

      現有的歸因方法大致可以分為以下幾類:

      • 基于噪聲消融和激活修補的方法:這些方法通過直接對模型的所有模塊施加噪聲或修補激活值來分析模型行為,但計算成本高昂,且難以洞察中間信息流。
      • 基于梯度的歸因方法:這類方法在理論上面臨挑戰,難以提供細粒度的解釋。
      • 基于模型近似或抽象的方法:雖然部分方法能夠與人類認知對齊,但通常無法達到細粒度的組件級別(如神經元或注意力頭),且非保守的近似可能會損害歸因的可信度。

      DePass:

      一種全新的歸因框架



      實驗驗證:

      DePass 的有效性

      DePass 提供了一個統一的歸因框架,支持在輸入 token、注意力頭、神經元以及殘差流子空間等多個層面進行一致歸因,無需修改模型結構或依賴任務特定近似,并可自然銜接人類推理及稀疏字典學習(如 SAE)等方法。研究團隊在 token 級、模型組件級和子空間級歸因任務上驗證了 DePass 的有效性:

      Token-Level DePass——輸出歸因到輸入:精準識別驅動預測的核心證據

      我們首先在輸出到輸入 token 的歸因任務上驗證了 DePass 的表現,目標是評估每個輸入 token 對模型最終輸出的實際貢獻。

      在「Disrupt-top」實驗中,移除 DePass 判定最關鍵的 tokens 會導致模型輸出概率急劇下降,表明其捕捉到了真正驅動預測的核心證據;而在「Recover-top」實驗中,DePass 保留的極少量 tokens 依然能高度恢復模型判斷。這表明 DePass 能夠更忠實地刻畫模型內部的信息流動與輸入貢獻關系,實現高可信度的 token 級歸因分析。



      Token-Level DePass——子空間歸因到輸入:追蹤子空間信號的 token 來源

      DePass 不僅能在 token 層面追蹤預測依據,還能精準定位哪些輸入 token 激活了模型中「特定方向/特定語義子空間」的信號(例如「truthfulness」方向),從而識別出影響模型判斷的關鍵來源(如誤導性信息),并顯著提升模型的可控性與可解釋性。

      在事實性任務中,團隊利用 DePass 將「虛假信息子空間」拆解后,進一步將其激活分配到每個輸入 token。歸因結果清晰揭示了哪些詞觸發了模型的錯誤方向。基于這些 token 進行定向遮罩后,模型在 CounterFact 上的事實性準確率從約10% → 40%+大幅提升,顯著優于現有 probe-based masking 方法。



      Model-Component-Level DePass——模型組件級歸因:觀察注意力頭與 MLP 神經元的實際功能

      DePass 能直接量化每個注意力頭與 MLP 神經元對預測的真實貢獻,在遮罩實驗中顯著優于梯度、激活等傳統重要性指標。

      當遮罩 DePass 判定的「重要組件」(Top-k Masking)時,模型準確率下降更快;當僅保留「最不重要組件」(Bottom-k Masking)時,模型性能保持得更好。這說明 DePass 識別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務上均顯著超越 AtP、Norm 等主流歸因指標。



      Subspace-Level DePass——子空間級歸因

      DePass 還可以用于研究隱狀態中不同子空間之間的相互作用,以及這些子空間對最終輸出的影響。我們以語言子空間(language subspace)為例進行分析。

      我們訓練了一個語言分類器,并將其權重方向作為語言子空間的基向量。隨后,將中間層的隱狀態分別投影到語言子空間與其正交語義子空間中;兩部分隱狀態在網絡中分別獨立傳播至最終層,并通過 LM Head 解碼,以觀察其對應輸出。

      • 語言子空間:經 t-SNE 顯示形成清晰的語言聚類(如英文/法文/德文),體現語言特征集中分布。
      • 語義子空間:獨立解碼結果跨語言一致,例如無論輸入語言為何,都會生成相同的事實答案(如「Dutch」)。

      這一結果說明 DePass 能忠實保留并傳播子空間的功能屬性,為跨語言解釋和語義分解提供了全新視角。



      (左)對 token 在語言子空間上的投影進行 t-SNE 可視化。(右)針對不同多語言提示語,從語言子空間與語義子空間中解碼得到的前五個 token

      總結

      DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡潔性與高效性。通過凍結并分配注意力得分和 MLP 激活,DePass 實現了無損的加性分解,可無縫適配各種 Transformer 架構。

      實驗結果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實性。我們期望 DePass 能成為機制可解釋性研究中的通用工具,推動社區在更廣泛的任務與模型上探索其潛力與應用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曾仕強教授:2026年是一道大坎,很多人恐怕撐不過去

      曾仕強教授:2026年是一道大坎,很多人恐怕撐不過去

      心靈短笛
      2025-12-03 10:08:19
      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      青青子衿
      2025-12-08 02:32:59
      日本精心推演的“臺灣有事”,最后竟然變成了“半島火海”

      日本精心推演的“臺灣有事”,最后竟然變成了“半島火海”

      安安說
      2025-12-08 10:10:17
      雷霆獲狀元簽概率激增到12.5%,聯盟高管:NBA球隊應該聯手解決!

      雷霆獲狀元簽概率激增到12.5%,聯盟高管:NBA球隊應該聯手解決!

      愛體育
      2025-12-07 21:44:41
      正式退出,陳夢官宣,不當教練,拒絕娛樂圈,安置崗位級薪水曝光

      正式退出,陳夢官宣,不當教練,拒絕娛樂圈,安置崗位級薪水曝光

      樂聊球
      2025-12-05 12:40:01
      難頂!福克斯20中9得25分5板9助1斷 三分8中2&正負值-19

      難頂!福克斯20中9得25分5板9助1斷 三分8中2&正負值-19

      林子說事
      2025-12-07 15:34:10
      阿里某員工:老婆天天鬧情緒,幾年來各種提離婚,然后財產平分

      阿里某員工:老婆天天鬧情緒,幾年來各種提離婚,然后財產平分

      螞蟻大喇叭
      2025-12-07 17:33:44
      跌幅70%!杭州一熱門樓盤229萬房子70萬全款拿下,老業主欲哭無淚

      跌幅70%!杭州一熱門樓盤229萬房子70萬全款拿下,老業主欲哭無淚

      火山詩話
      2025-12-06 11:42:31
      蘭斌強:必須警惕“蔡正元現象”在大陸的泛濫

      蘭斌強:必須警惕“蔡正元現象”在大陸的泛濫

      放開他讓wo來
      2025-12-07 21:56:28
      不再尋求“永久主導世界”,重新平衡美中經濟關系,美國安全戰略大轉變?

      不再尋求“永久主導世界”,重新平衡美中經濟關系,美國安全戰略大轉變?

      環球網資訊
      2025-12-08 07:01:02
      塞爾比攜妻女領獎!打破外界質疑成80后首人,特魯姆普25年無冠

      塞爾比攜妻女領獎!打破外界質疑成80后首人,特魯姆普25年無冠

      排球黃金眼
      2025-12-08 08:15:58
      馬斯克公開呼吁:廢除歐盟

      馬斯克公開呼吁:廢除歐盟

      新京報政事兒
      2025-12-07 11:41:28
      俄地區不承保引發熱議,有網友以此來質疑當地不安全

      俄地區不承保引發熱議,有網友以此來質疑當地不安全

      映射生活的身影
      2025-12-07 11:27:16
      當這個大家伙起飛后,美國人感受到了被東方科技支配的恐懼?

      當這個大家伙起飛后,美國人感受到了被東方科技支配的恐懼?

      芳芳歷史燴
      2025-12-04 19:58:24
      先贏1局,張本智和怒吼挑釁,林詩棟怒吼還擊,誰注意張本反應

      先贏1局,張本智和怒吼挑釁,林詩棟怒吼還擊,誰注意張本反應

      樂聊球
      2025-12-07 21:28:09
      韓國女星宋智孝44歲仍未婚!自曝原因:太愛喝酒,一次能喝8瓶

      韓國女星宋智孝44歲仍未婚!自曝原因:太愛喝酒,一次能喝8瓶

      黃小仙的搞笑視頻
      2025-12-08 10:00:02
      揭陽林家 2 億絕殺帝王綠原石,切石瞬間狂喜,緬甸礦主當場遞礦契

      揭陽林家 2 億絕殺帝王綠原石,切石瞬間狂喜,緬甸礦主當場遞礦契

      白淺娛樂聊
      2025-12-06 11:08:51
      金價12月8日:大家提前做好準備,明后兩天,金價很可能大變盤

      金價12月8日:大家提前做好準備,明后兩天,金價很可能大變盤

      生活新鮮市
      2025-12-08 06:09:36
      成千上萬的下鄉知青,后演變上萬成千的下崗工人

      成千上萬的下鄉知青,后演變上萬成千的下崗工人

      陳穟侃故事
      2025-11-30 15:32:32
      廣東3消息!杜鋒終于認清事實,徐杰打臉郭士強,薩姆納最新傷情

      廣東3消息!杜鋒終于認清事實,徐杰打臉郭士強,薩姆納最新傷情

      多特體育說
      2025-12-07 22:22:54
      2025-12-08 11:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      蘋果核心人才"出逃"內幕,庫克為何攔不住

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      親子
      本地
      教育
      手機
      房產

      親子要聞

      家長帶孩子跑了很多家醫院,你是我們最后的希望

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      教育要聞

      收藏:2025山東高考各段分數及一分一段表!附:山東高考【大綠本+大藍本】下載

      手機要聞

      史上首款機器人手機!榮耀ROBOT PHONE明年上半年量產

      房產要聞

      封關啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线观看免费人成视频色9| 男女性高爱潮免费网站| 最新精品露脸国产在线| 内射大片| 九九精品视频免费观看| 日本牲交大片免费观看| 国产精品丝袜高跟鞋| 精品无码久久久久久久久久| 国产精品香蕉| 天津市| 欧美牲交a欧美在线| 国产98色在线 | 日韩| 成人欧美一区二区三区在线观看| 69人妻人人澡人人爽人人精品| 夜精品a片一区二区三区无码白浆| 裸体美女无遮挡免费网站| 亚洲成av人片色午夜乱码| 影音先锋成人| 辽宁省| 国产 精品 自在 线免费| 好男人视频在线播放| 亚洲精品久久久无码aⅴ片恋情| 博白县| 无码天堂va亚洲va在线va| 亚洲123区| 亚洲色人| 伊人久久人妻| 欧美深度肠交惨叫| 极品蜜臀黄色在线观看| 日韩a级?a级| 天堂无码av| 久久国产精品日本波多野结衣| 久久永久视频| 九九精品免费看| 欧美三级a做爰在线观看| 青青青青青手机视频在线观看视频 | 永川市| 浓毛老太交欧美老妇热爱乱| 亚洲男人天堂| 国产夫妻在线| 亚洲口爆|