<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Steering:從底層機理到系統評估,全面破解大模型行為控制之謎

      0
      分享至



      不重新訓練,僅靠「輕推一把」就能改變大模型的「信念」與行為 ——Steering 正在成為大模型時代最重要的認知控制手段之一。

      近期《Science》發表的研究《Toward universal steering and monitoring of AI models》表明,通過解析 AI 內部表征,可實現對模型行為的通用引導與監控。當 AI 越來越強大,如何確保它們的行為可控可預測,已經成為一個關乎安全與信任的核心議題。
      浙大聯合阿里的兩篇 ACL 2026 主會論文,從運行機理、系統評估兩大維度全面揭示了 Steering 的工作原理與能力邊界,并賦能阿里安全 AGI 實驗室御風大模型訓練和落地過程;同時,浙大團隊開源的一站式 Steering 框架 EasyEdit2,讓這一切觸手可及。從「為什么有效」到「有效到什么程度」再到「如何輕松上手」,三項工作全面展示了 Steering 的價值。

      什么是 Steering?給大模型裝一個「方向盤」

      想象你正在駕駛一輛高性能的跑車。駕駛員(你)通過方向盤很容易就能調整車的行駛方向,只需要輕輕轉動幾度,整個幾噸重的汽車就改變了方向。但如果你想改變發動機的工作方式呢?比如讓它在高速時更省油,或者在爬坡時更有力?那可能就需要修改發動機了。

      大語言模型也面臨類似的問題:怎樣讓大模型按照我們的意圖行動,而不需要「拆開發動機」重新訓練?

      Steering(行為引導)就是答案。它指的是在模型推理階段,對模型內部表示或激活進行即時調控,以引導模型輸出符合預期目標。簡單來說,就像給大模型裝上了一個「方向盤」—— 輕輕一轉,模型就能改變輸出方向。

      Steering 的應用非常廣泛:改變模型的人格或情緒傾向、強化安全策略、調整語言風格,甚至控制推理策略和知識編輯等等。本質上,Steering 是在塑造 AI 的「信念」與「認知傾向」。就像人類社會中,教育和文化塑造了一個人的價值觀和行為方式,Steering 則是在重新塑造 AI 的「價值觀」和行為模式。



      舉個例子,模型原始回答冷冰冰,Steering 之后模型立刻可以變得熱情洋溢。不改變模型原有知識與能力,按需塑造輸出風格與行為傾向—— 這就是 Steering 的魅力。

      但關鍵問題來了:

      • 為什么 Steering 能起作用?模型內部到底發生了什么?
      • Steering 的能力邊界在哪兒?什么時候有效,什么時候失效?如何系統評估?

      浙大聯合阿里的兩篇論文,正是為了回答這兩個核心問題。

      第一篇:為什么 Steering 能起作用?統一的機理解釋



      • 論文鏈接:https://arxiv.org/pdf/2602.02343

      五花八門的方法,背后有統一的原理嗎?

      目前 Steering 方法可謂百花齊放 —— 有的修改前饋層參數,有的用低秩分解(LoRA),有的在各處激活上進行干預。這些方法看似完全不同,但都能起作用。

      這就像不同的醫生用不同的藥治同一種病,都能治好。那背后一定有某種共同的機制 ——找到這個機制,就是這篇論文的目標。

      核心發現一:統一視角 —— 殊途同歸的動態權重更新

      作者發現,無論是局部參數微調、LoRA 低秩更新,還是推理階段的激活干預,這些方法都可以被理解為:

      在模型前向傳播過程中,對模型線性層權重進行動態更新,從而改變激活表示及其演化軌跡。

      不同控制方法的核心差異,僅在于擾動注入的位置、幅度和干預形式,而非作用機理本身。



      如圖所示,任意線性層中:局部權重更新對應權重矩陣的調整,LoRA 對權重進行低秩更新,激活干預則對應偏置項的調整。所有干預均可通過控制強度系數來調節強度,形式上可統一表示為:



      核心發現二:三階段規律 ——Steering 不是越強越好

      通過大量實驗發現,當逐步增大 Steering 強度時,模型行為會呈現出高度一致的三階段變化:

      1. 線性可控區間:溫柔的引導

      • Steering 強度較小時,模型偏好近似線性變化,效用基本保持穩定;
      • 就像輕轉方向盤,車平穩地改變方向。

      2. 過渡區間:開始不穩定

      • 強度進一步增大,偏好變化偏離線性,效用出現波動;
      • 方向盤轉得有點猛,方向一步到位,但車開始晃。

      3. 非線性崩塌區間:用力過猛

      • 超過臨界點后,偏好與效用同時崩塌,模型輸出質量急劇下降;
      • 方向盤打死了,車直接失控。



      關鍵啟示:Steering 存在一個「最優權衡區間」。控制效果并非越強越好,找到最優強度才是關鍵。

      核心發現三:激活流形假設 —— 揭示深層機理

      為什么不同方法會表現出相同的三階段規律?要回答這個問題,先要談一個重要背景。

      此前,大模型 Steering 領域的一個主流假設是線性表征假說(Linear Representation Hypothesis),它認為高層概念在模型的表征空間中以線性方向編碼。這也是 Steering 向量能夠起作用的直覺解釋 —— 找到一個概念對應的方向,沿該方向推動激活,就能引導模型行為。

      然而,線性假說只能解釋「為什么能引導」,卻無法解釋「為什么會崩塌」。而且越來越多的研究表明,線性假設并不充分。

      在這一背景下,作者引入了更進一步的解釋 ——激活流形假設(Activation Manifold Hypothesis):

      在預訓練與指令微調過程中,語言模型的有效激活狀態并非分布在整個高維空間中,而是集中在一個低維、連續且結構化的「激活流形」附近。

      可以說,線性假設是流形假設的局部近似,而流形假設揭示了更完整的圖景。

      打個比方:大模型的「思考過程」發生在一個復雜的地形上,這個地形有山峰、山谷、通道。Steering 不是隨意改變地形或原地起飛,而是讓模型沿著地形上的「軌道」行走:輕推一把,模型沿軌道平穩移動(線性可控);推過頭了,模型被推離軌道,「脫軌」就崩塌了。



      這一假設為后續的控制現象提供了幾何層面的解釋。

      • 弱 Steering:模型在流形上小幅移動,行為可控;
      • 中等 Steering:模型沿流形方向走到最優點,效果最好;
      • 強 Steering:模型被推離流形,「脫軌」導致崩塌。

      在激活流形假設下,這些不同控制方法呈現相似規律并不意外:

      • 它們本質上都在沿某一方向推動激活狀態;
      • 只要推動方向在期望行為方向上存在投影,期望行為隨著縮放系數變化近似線性;
      • 與此同時,推動方向或幅度使激活脫離流形,導致激活有效性衰減,非線性退化不可避免。

      這為不同控制方法的共性行為,提供了統一的機制解釋。

      有趣的是,神經科學領域也有類似發現:人腦的神經群體活動同樣存在集中在低維流形的現象,而非利用所有可能的神經狀態。大模型與生物神經網絡在這一點上的相似性,頗為耐人尋味。

      在該假設基礎上,作者進一步將「激活脫離流形后有效性全局衰減」這一機制形式化,提出了有效性衰減公式,并將其融入 Steering 強度與模型行為的關系建模中,成功擬合了三階段變化規律,具體細節詳見論文。

      從理論到實踐:SPLIT 方法

      基于上述機理,作者提出了SPLIT方法。訓練目標由效用損失(保持模型能力)和偏好損失(增強目標行為傾向)兩部分組成。核心思想是在增強偏好的同時,延緩激活脫離流形所導致的非線性崩塌,從而擴展線性可控區間的范圍。



      實驗表明,SPLIT 在多個模型(Gemma、Qwen 等)和多個任務上均表現出色,有效擴展了可控區間。

      第二篇:大模型到底有多可控?首個 Steering 系統評估框架



      論文鏈接:https://arxiv.org/pdf/2603.02578

      第一篇論文解釋了「為什么 Steering 能工作」。但緊接著一個更實際的問題浮出水面:在真實場景中,Steering 到底有多好用?它的能力邊界在哪兒?

      為什么需要更全面系統的評估?

      以往的研究往往只在單一任務或單一粒度上測試 Steering。有人說「我用 Steering 改了模型性格」,有人說「我用 Steering 提升了安全性」—— 但改了多少?在什么條件下有效?換個場景還行不行?

      沒有統一的評估標準,就無法真正理解 Steering 的能力和局限。

      SteerEval 框架:多領域 × 三粒度的評估體系和自動化基準數據合成框架

      作者提出了SteerEval框架,從多個行為領域和三個粒度層級全面評估大模型的可控性。

      多個行為領域:

      • Personality(人格特征):能否讓模型穩定表現出特定「人設」?如更友善、更謹慎、更直率;
      • Sentiment(情感傾向):能否精確控制模型的情感色彩?如從積極到消極的細粒度調控;
      • Language Features(語言特征):能否改變模型的表達方式?如正式 / 口語 / 學術風格的切換;

      三個粒度層級(借鑒神經科學家 David Marr 的三層分析框架):

      Marr 在上世紀 80 年代提出,理解任何信息處理系統(包括人腦)都應從三個層級入手:計算目標是什么、用什么算法實現、具體如何執行。

      作者將這一經典框架巧妙地移植到 LLM 行為評估中,定義了三層行為粒度:

      • L1: Computational Level(表達什么)
      行為目標 / 意圖層級,如「表現出熱情」
      • L2: Algorithmic Level(如何表達)
      行為策略與模式層級,如「使用主動語態和充滿活力的贊美」
      • L3: Implementational Level(如何實例化)
      具體文本實現層級,如「必須包含兩次 'hooray'」

      打個比方:核心目標是讓模型「更友善」——L1 看它是不是整體都變友善了,L2 看它是通過什么方式表現友善的,L3 看它在每一句具體回復中是否使用了指定用詞表現友善。

      整個基準包含7560 條數據,涵蓋多個主流大模型。

      關鍵發現:粒度越細,控制越難



      Steering 的控制能力隨著粒度細化而顯著衰減!

      • 在宏觀層面(L1),Steering 效果很好,甚至能優于基于提示的方法;
      • 到了中觀層面(L2),開始有損失;
      • 到了微觀層面(L3),效果明顯下降。

      這意味著什么?你讓模型「變友善」這種粗粒度目標很容易實現。但如果你想讓模型「用『您好』表達友善」,那就很難做到了。

      這個發現的意義在于:

      • Steering 在宏觀層面相當可靠,可以放心用于粗粒度的行為控制;
      • 但細粒度的精確控制仍是當前方法的瓶頸,也是未來研究的重要方向;
      • 實際應用中需要根據場景選擇合適的控制粒度。

      工具賦能:EasyEdit2—— 一站式 Steering 開源框架

      上述兩篇論文的所有實驗,均基于浙大團隊此前開源的EasyEdit2框架實現。

      開源工具鏈接:https://github.com/zjunlp/EasyEdit/blob/main/README_2.md

      EasyEdit2 是一個專為大模型行為控制設計的開源工具框架,核心特點包括:

      • 即插即用:無需改動模型源代碼,支持 LLaMA、Mistral 等主流大模型;
      • 方法全面:集成了多種 Steering 方法(激活干預、LoRA、SPLIT 等);
      • 評估內置:集成 SteerEval 評估體系,從向量生成到效果驗證的完整鏈路;
      • 向量庫:提供預訓練的 Steering 向量,開箱即用。

      兩篇論文與 EasyEdit2 形成了一個完整的研究閉環:機理論文提供理論基礎 → EasyEdit2 提供實現工具 → 評估論文驗證能力邊界。

      無論是想復現上述工作,還是想在自己的項目中實驗 Steering,EasyEdit2 都是最直接的起點。

      總結與展望

      本文介紹了浙大聯合阿里在大模型 Steering 方向的兩項系統性工作:

      • 機理層面:首次提出統一視角,揭示了不同 Steering 方法的共性機制(動態權重更新 → 三階段規律 → 激活流形假設),并提出 SPLIT 方法擴展可控區間;
      • 評估層面:構建了首個多維度、多粒度的 Steering 評估框架 SteerEval,發現了「控制衰減」現象,為 Steering 研究提供了統一的評估標準;
      • 工具層面:開源框架 EasyEdit2 讓 Steering 的實驗與應用觸手可及。

      隨著 AI 能力的持續增強,如何確保其行為可控、可預測、可信賴,已不僅是技術問題,更關乎安全與治理。

      Steering 本質上是對 AI「認知」與「信念」的精準調控 —— 掌握這種控制能力,將是保障 AI 安全對齊的關鍵一環。

      作者介紹

      徐子文,目前就讀于浙江大學人工智能專業,碩士二年級,研究方向為大語言模型、模型編輯與干預、大模型機理與安全等等。已在 ACL、EMNLP 等頂級會議上發表論文若干,本文介紹的三篇論文均為第一作者。目前在阿里安全 AGI 實驗室御風大模型團隊實習。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩性關系:不管你信不信,女性過了56歲后,基本都有這5個現狀

      兩性關系:不管你信不信,女性過了56歲后,基本都有這5個現狀

      娛樂洞察點點
      2026-04-22 00:03:09
      黃渤和鄧超為什么無戲可拍了?

      黃渤和鄧超為什么無戲可拍了?

      閑人電影
      2026-04-16 18:55:11
      上海一只走失的柯基旺財,在流浪二十八天后混成街頭狗老大

      上海一只走失的柯基旺財,在流浪二十八天后混成街頭狗老大

      搗蛋窩
      2026-04-21 20:13:23
      英超爭四生死戰:布萊頓主場阻擊切爾西

      英超爭四生死戰:布萊頓主場阻擊切爾西

      熱血體育社
      2026-04-22 01:15:01
      4 月還沒結束,王楚然徹底塌房,AI 雙標操作被扒,路人緣全崩

      4 月還沒結束,王楚然徹底塌房,AI 雙標操作被扒,路人緣全崩

      萌姐
      2026-04-20 22:10:45
      一艘載有液化氣的伊朗船只正穿越美國軍隊的封鎖

      一艘載有液化氣的伊朗船只正穿越美國軍隊的封鎖

      財聯社
      2026-04-22 01:22:10
      2400萬粉絲網紅自曝近300萬黃金和愛馬仕等被偷 小偷是新入職司機 警方已立案

      2400萬粉絲網紅自曝近300萬黃金和愛馬仕等被偷 小偷是新入職司機 警方已立案

      快科技
      2026-04-21 11:04:06
      瑞典電視臺世乒賽前爆驚雷,主教練厭倦巨星莫雷加德與隊友沖突

      瑞典電視臺世乒賽前爆驚雷,主教練厭倦巨星莫雷加德與隊友沖突

      冥王星與一只碗
      2026-04-21 10:00:24
      iPhone 17突然降價,這應該是目前最香的iPhone了

      iPhone 17突然降價,這應該是目前最香的iPhone了

      劉奔跑
      2026-04-19 23:10:21
      鹿晗36歲生日生圖引爭議!美顏似18歲少年,無濾鏡顏值暴跌黑又黃

      鹿晗36歲生日生圖引爭議!美顏似18歲少年,無濾鏡顏值暴跌黑又黃

      阿傖說事
      2026-04-21 04:21:00
      每吃一次,血管就堵一截?醫生:這5種水果是腦梗“加速器”

      每吃一次,血管就堵一截?醫生:這5種水果是腦梗“加速器”

      荊醫生科普
      2026-04-02 17:35:43
      長治女子萬達墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

      長治女子萬達墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

      哄動一時啊
      2026-04-21 12:01:22
      分析:快船隊在NBA附加賽中慘敗給勇士后,必須交易的兩名球員

      分析:快船隊在NBA附加賽中慘敗給勇士后,必須交易的兩名球員

      好火子
      2026-04-21 22:56:00
      光通信主線切換,MLCC才是真龍頭賽道

      光通信主線切換,MLCC才是真龍頭賽道

      林子說事
      2026-04-21 20:26:50
      濃煙滾滾和紅紅火火:烏克蘭接連擊中重要目標!俄情報部門進步了

      濃煙滾滾和紅紅火火:烏克蘭接連擊中重要目標!俄情報部門進步了

      鷹眼Defence
      2026-04-21 17:49:49
      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      芳芳歷史燴
      2026-04-21 06:10:29
      欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

      欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

      火山詩話
      2026-04-21 06:36:18
      兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

      兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

      胖胖侃咖
      2025-04-03 08:00:11
      歐盟軍費將增長至10倍

      歐盟軍費將增長至10倍

      參考消息
      2026-04-21 15:00:43
      外媒:“絕對不可能”!中國已經能制造出足以進行核聚變的超級鋼

      外媒:“絕對不可能”!中國已經能制造出足以進行核聚變的超級鋼

      軒逸阿II
      2026-04-06 00:25:50
      2026-04-22 03:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12822文章數 142633關注度
      往期回顧 全部

      科技要聞

      創造4萬億帝國、訪華20次,庫克留下了什么

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      體育要聞

      一到NBA季后賽,四屆DPOY就成了主角

      娛樂要聞

      宋承炫曬寶寶B超照,宣布老婆懷孕

      財經要聞

      現實是最大的荒誕:千億平臺的沖突始末

      汽車要聞

      全新坦克700正式上市 售價42.8萬-50.8萬元

      態度原創

      藝術
      房產
      時尚
      手機
      健康

      藝術要聞

      任伯年寫竹,真帶勁

      房產要聞

      年薪40-50萬!海南地產圈還在猛招人

      頂流復工,已判若兩人

      手機要聞

      iOS 26.5 Beta 3新版體驗:改進解鎖流暢度,信號也變好了?

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版