<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      NeurIPS 2025 | DePass:通過單次前向傳播分解實現統一特征歸因

      0
      分享至



      共同一作:洪翔宇,清華大學電子系大四本科生,曾獲清華大學蔣南翔獎學金等,曾在NeurIPS,EMNLP,NAACL等頂級會議上發表論文。姜澈,清華大學電子系博士三年級在讀,主要研究方向為LLM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級會議上發表論文。

      隨著大型語言模型在各類任務中展現出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內部計算過程,已成為 AI 可解釋性研究的重要方向。然而,現有方法往往計算代價高昂、難以揭示中間層的信息流動;同時,不同層面的歸因(如 token、模型組件或表示子空間)通常依賴各自獨立的特定方法,缺乏統一且高效的分析框架。

      針對這一問題,來自清華、上海 AI Lab 的研究團隊提出了全新的統一特征歸因框架——DePass(Decomposed Forward Pass)。

      該方法通過將前向傳播中的每個隱藏狀態分解為多個可加子狀態,并在固定注意力權重與 MLP 激活的情況下對其逐層傳播,實現了對 Transformer 內部信息流的無損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經元乃至殘差流子空間等多個層面上進行歸因分析,為機制可解釋性研究提供了統一而細粒度的新視角。



      • 論文標題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
      • 論文鏈接: https://arxiv.org/pdf/2510.18462
      • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

      問題分析:

      現有歸因方法的局限性

      現有的歸因方法大致可以分為以下幾類:

      • 基于噪聲消融和激活修補的方法:這些方法通過直接對模型的所有模塊施加噪聲或修補激活值來分析模型行為,但計算成本高昂,且難以洞察中間信息流。
      • 基于梯度的歸因方法:這類方法在理論上面臨挑戰,難以提供細粒度的解釋。
      • 基于模型近似或抽象的方法:雖然部分方法能夠與人類認知對齊,但通常無法達到細粒度的組件級別(如神經元或注意力頭),且非保守的近似可能會損害歸因的可信度。

      DePass:

      一種全新的歸因框架



      實驗驗證:

      DePass 的有效性

      DePass 提供了一個統一的歸因框架,支持在輸入 token、注意力頭、神經元以及殘差流子空間等多個層面進行一致歸因,無需修改模型結構或依賴任務特定近似,并可自然銜接人類推理及稀疏字典學習(如 SAE)等方法。研究團隊在 token 級、模型組件級和子空間級歸因任務上驗證了 DePass 的有效性:

      Token-Level DePass——輸出歸因到輸入:精準識別驅動預測的核心證據

      我們首先在輸出到輸入 token 的歸因任務上驗證了 DePass 的表現,目標是評估每個輸入 token 對模型最終輸出的實際貢獻。

      在「Disrupt-top」實驗中,移除 DePass 判定最關鍵的 tokens 會導致模型輸出概率急劇下降,表明其捕捉到了真正驅動預測的核心證據;而在「Recover-top」實驗中,DePass 保留的極少量 tokens 依然能高度恢復模型判斷。這表明 DePass 能夠更忠實地刻畫模型內部的信息流動與輸入貢獻關系,實現高可信度的 token 級歸因分析。



      Token-Level DePass——子空間歸因到輸入:追蹤子空間信號的 token 來源

      DePass 不僅能在 token 層面追蹤預測依據,還能精準定位哪些輸入 token 激活了模型中「特定方向/特定語義子空間」的信號(例如「truthfulness」方向),從而識別出影響模型判斷的關鍵來源(如誤導性信息),并顯著提升模型的可控性與可解釋性。

      在事實性任務中,團隊利用 DePass 將「虛假信息子空間」拆解后,進一步將其激活分配到每個輸入 token。歸因結果清晰揭示了哪些詞觸發了模型的錯誤方向?;谶@些 token 進行定向遮罩后,模型在 CounterFact 上的事實性準確率從約10% → 40%+大幅提升,顯著優于現有 probe-based masking 方法。



      Model-Component-Level DePass——模型組件級歸因:觀察注意力頭與 MLP 神經元的實際功能

      DePass 能直接量化每個注意力頭與 MLP 神經元對預測的真實貢獻,在遮罩實驗中顯著優于梯度、激活等傳統重要性指標。

      當遮罩 DePass 判定的「重要組件」(Top-k Masking)時,模型準確率下降更快;當僅保留「最不重要組件」(Bottom-k Masking)時,模型性能保持得更好。這說明 DePass 識別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務上均顯著超越 AtP、Norm 等主流歸因指標。



      Subspace-Level DePass——子空間級歸因

      DePass 還可以用于研究隱狀態中不同子空間之間的相互作用,以及這些子空間對最終輸出的影響。我們以語言子空間(language subspace)為例進行分析。

      我們訓練了一個語言分類器,并將其權重方向作為語言子空間的基向量。隨后,將中間層的隱狀態分別投影到語言子空間與其正交語義子空間中;兩部分隱狀態在網絡中分別獨立傳播至最終層,并通過 LM Head 解碼,以觀察其對應輸出。

      • 語言子空間:經 t-SNE 顯示形成清晰的語言聚類(如英文/法文/德文),體現語言特征集中分布。
      • 語義子空間:獨立解碼結果跨語言一致,例如無論輸入語言為何,都會生成相同的事實答案(如「Dutch」)。

      這一結果說明 DePass 能忠實保留并傳播子空間的功能屬性,為跨語言解釋和語義分解提供了全新視角。



      (左)對 token 在語言子空間上的投影進行 t-SNE 可視化。(右)針對不同多語言提示語,從語言子空間與語義子空間中解碼得到的前五個 token

      總結

      DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡潔性與高效性。通過凍結并分配注意力得分和 MLP 激活,DePass 實現了無損的加性分解,可無縫適配各種 Transformer 架構。

      實驗結果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實性。我們期望 DePass 能成為機制可解釋性研究中的通用工具,推動社區在更廣泛的任務與模型上探索其潛力與應用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      子宮薄如紙、發際線后移,43歲千億兒媳徐子淇,終于還是“垮了”

      子宮薄如紙、發際線后移,43歲千億兒媳徐子淇,終于還是“垮了”

      素衣讀史
      2026-03-10 16:53:15
      耗資12億建世界最高佛,如今水喝不起拜不起

      耗資12億建世界最高佛,如今水喝不起拜不起

      時光流轉追夢人
      2026-02-20 13:09:13
      小S再度開炮,槍口還是對準汪小菲!

      小S再度開炮,槍口還是對準汪小菲!

      達文西看世界
      2026-02-04 11:43:26
      《好好的時光》大結局,莊好好改嫁方亮,單寶坤至死不認親子

      《好好的時光》大結局,莊好好改嫁方亮,單寶坤至死不認親子

      小丸子的娛樂圈
      2026-03-11 08:20:03
      福布斯公布名人富豪榜:斯皮爾伯格71億登頂,喬丹43億仍排前三

      福布斯公布名人富豪榜:斯皮爾伯格71億登頂,喬丹43億仍排前三

      陳意小可愛
      2026-03-11 17:23:58
      住家保姆喝光雇主六瓶52年茅臺,雇主沒讓她賠錢,一句話讓她崩潰

      住家保姆喝光雇主六瓶52年茅臺,雇主沒讓她賠錢,一句話讓她崩潰

      民間精選故事匯
      2026-03-10 17:59:56
      廣西一女子打賞主播54萬,丈夫起訴全額返還被駁回,法院:打賞呈小額、多次、長期特征,符合日常娛樂消費,未超出夫妻家事代理權范疇

      廣西一女子打賞主播54萬,丈夫起訴全額返還被駁回,法院:打賞呈小額、多次、長期特征,符合日常娛樂消費,未超出夫妻家事代理權范疇

      極目新聞
      2026-03-11 15:54:30
      近八百架無人機導彈奔襲莫斯科等地!烏克蘭對俄發動最大規模攻擊

      近八百架無人機導彈奔襲莫斯科等地!烏克蘭對俄發動最大規模攻擊

      項鵬飛
      2026-03-10 16:56:37
      亞冠東亞區四強:町田澤維亞、神戶勝利船、柔佛新山和武里南聯

      亞冠東亞區四強:町田澤維亞、神戶勝利船、柔佛新山和武里南聯

      懂球帝
      2026-03-11 21:26:38
      小米YU9“閃現”!攬勝“輾轉反側”

      小米YU9“閃現”!攬勝“輾轉反側”

      手機評測室
      2026-03-09 11:50:20
      子宮薄如紙、發際線后移,43歲千億兒媳徐子淇,終于還是“垮了”

      子宮薄如紙、發際線后移,43歲千億兒媳徐子淇,終于還是“垮了”

      往史過眼云煙
      2026-03-10 19:39:26
      影史第一恐怖片,首次國內上映

      影史第一恐怖片,首次國內上映

      南風窗
      2026-03-10 14:01:55
      232家合作機構編織催收“天羅地網”,一場訴訟撕開微眾銀行管理失范的冰山一角

      232家合作機構編織催收“天羅地網”,一場訴訟撕開微眾銀行管理失范的冰山一角

      經理人雜志
      2026-03-11 15:57:16
      別被忽悠了!Openclaw取代打工人?我搭了一次發現驚人真相

      別被忽悠了!Openclaw取代打工人?我搭了一次發現驚人真相

      雷科技
      2026-03-10 10:55:29
      梅婷寵著、閆妮護著,長得不帥氣卻讓大咖輪流作配,他到底啥來頭

      梅婷寵著、閆妮護著,長得不帥氣卻讓大咖輪流作配,他到底啥來頭

      洲洲影視娛評
      2026-03-11 21:01:20
      兩會日程預告丨3月12日:十四屆全國人大四次會議閉幕

      兩會日程預告丨3月12日:十四屆全國人大四次會議閉幕

      環球網資訊
      2026-03-11 21:29:16
      48小時內,亞洲三國給中國送大禮,美專家痛心疾首:特朗普犯大錯

      48小時內,亞洲三國給中國送大禮,美專家痛心疾首:特朗普犯大錯

      現代小青青慕慕
      2026-03-11 14:14:28
      蔚來盈利了,但換電的墳場也到了

      蔚來盈利了,但換電的墳場也到了

      大嘴説
      2026-03-11 10:43:15
      鄧文迪攜女兒亮相默多克95歲壽宴,狀態氣質雙絕

      鄧文迪攜女兒亮相默多克95歲壽宴,狀態氣質雙絕

      述家娛記
      2026-03-11 08:32:30
      中超升班馬票價太高!球迷怒了 俱樂部門口放韭菜抗議 黃健翔炮轟

      中超升班馬票價太高!球迷怒了 俱樂部門口放韭菜抗議 黃健翔炮轟

      念洲
      2026-03-11 10:39:58
      2026-03-11 23:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12478文章數 142582關注度
      往期回顧 全部

      科技要聞

      騰訊"養蝦"暴漲后,百度急得在門口"裝蝦"

      頭條要聞

      聯合國16位專家呼吁日本道歉 外交部回應

      頭條要聞

      聯合國16位專家呼吁日本道歉 外交部回應

      體育要聞

      郭艾倫重傷,CBA下半賽季還能期待些什么

      娛樂要聞

      蔡少芬曬全家福照,兩女兒成最大亮點

      財經要聞

      喚醒10萬億存量資金 公積金改革大潮來了

      汽車要聞

      蓮花糾偏, 馮擎峰的“收”與“守”

      態度原創

      教育
      藝術
      手機
      親子
      公開課

      教育要聞

      頂尖高校,擬削減合同制教師

      藝術要聞

      這組剪紙太美了!

      手機要聞

      vivo X300s繼續預熱,7100mAh藍海電池加持

      親子要聞

      媽媽不求你多優秀,只愿你這一生平安、順遂、有人疼、有人愛。

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版