<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Steering:從底層機理到系統評估,全面破解大模型行為控制之謎

      0
      分享至



      不重新訓練,僅靠「輕推一把」就能改變大模型的「信念」與行為 ——Steering 正在成為大模型時代最重要的認知控制手段之一。

      近期《Science》發表的研究《Toward universal steering and monitoring of AI models》表明,通過解析 AI 內部表征,可實現對模型行為的通用引導與監控。當 AI 越來越強大,如何確保它們的行為可控可預測,已經成為一個關乎安全與信任的核心議題。
      浙大聯合阿里的兩篇 ACL 2026 主會論文,從運行機理、系統評估兩大維度全面揭示了 Steering 的工作原理與能力邊界,并賦能阿里安全 AGI 實驗室御風大模型訓練和落地過程;同時,浙大團隊開源的一站式 Steering 框架 EasyEdit2,讓這一切觸手可及。從「為什么有效」到「有效到什么程度」再到「如何輕松上手」,三項工作全面展示了 Steering 的價值。

      什么是 Steering?給大模型裝一個「方向盤」

      想象你正在駕駛一輛高性能的跑車。駕駛員(你)通過方向盤很容易就能調整車的行駛方向,只需要輕輕轉動幾度,整個幾噸重的汽車就改變了方向。但如果你想改變發動機的工作方式呢?比如讓它在高速時更省油,或者在爬坡時更有力?那可能就需要修改發動機了。

      大語言模型也面臨類似的問題:怎樣讓大模型按照我們的意圖行動,而不需要「拆開發動機」重新訓練?

      Steering(行為引導)就是答案。它指的是在模型推理階段,對模型內部表示或激活進行即時調控,以引導模型輸出符合預期目標。簡單來說,就像給大模型裝上了一個「方向盤」—— 輕輕一轉,模型就能改變輸出方向。

      Steering 的應用非常廣泛:改變模型的人格或情緒傾向、強化安全策略、調整語言風格,甚至控制推理策略和知識編輯等等。本質上,Steering 是在塑造 AI 的「信念」與「認知傾向」。就像人類社會中,教育和文化塑造了一個人的價值觀和行為方式,Steering 則是在重新塑造 AI 的「價值觀」和行為模式。



      舉個例子,模型原始回答冷冰冰,Steering 之后模型立刻可以變得熱情洋溢。不改變模型原有知識與能力,按需塑造輸出風格與行為傾向—— 這就是 Steering 的魅力。

      但關鍵問題來了:

      • 為什么 Steering 能起作用?模型內部到底發生了什么?
      • Steering 的能力邊界在哪兒?什么時候有效,什么時候失效?如何系統評估?

      浙大聯合阿里的兩篇論文,正是為了回答這兩個核心問題。

      第一篇:為什么 Steering 能起作用?統一的機理解釋



      • 論文鏈接:https://arxiv.org/pdf/2602.02343

      五花八門的方法,背后有統一的原理嗎?

      目前 Steering 方法可謂百花齊放 —— 有的修改前饋層參數,有的用低秩分解(LoRA),有的在各處激活上進行干預。這些方法看似完全不同,但都能起作用。

      這就像不同的醫生用不同的藥治同一種病,都能治好。那背后一定有某種共同的機制 ——找到這個機制,就是這篇論文的目標。

      核心發現一:統一視角 —— 殊途同歸的動態權重更新

      作者發現,無論是局部參數微調、LoRA 低秩更新,還是推理階段的激活干預,這些方法都可以被理解為:

      在模型前向傳播過程中,對模型線性層權重進行動態更新,從而改變激活表示及其演化軌跡。

      不同控制方法的核心差異,僅在于擾動注入的位置、幅度和干預形式,而非作用機理本身。



      如圖所示,任意線性層中:局部權重更新對應權重矩陣的調整,LoRA 對權重進行低秩更新,激活干預則對應偏置項的調整。所有干預均可通過控制強度系數來調節強度,形式上可統一表示為:



      核心發現二:三階段規律 ——Steering 不是越強越好

      通過大量實驗發現,當逐步增大 Steering 強度時,模型行為會呈現出高度一致的三階段變化:

      1. 線性可控區間:溫柔的引導

      • Steering 強度較小時,模型偏好近似線性變化,效用基本保持穩定;
      • 就像輕轉方向盤,車平穩地改變方向。

      2. 過渡區間:開始不穩定

      • 強度進一步增大,偏好變化偏離線性,效用出現波動;
      • 方向盤轉得有點猛,方向一步到位,但車開始晃。

      3. 非線性崩塌區間:用力過猛

      • 超過臨界點后,偏好與效用同時崩塌,模型輸出質量急劇下降;
      • 方向盤打死了,車直接失控。



      關鍵啟示:Steering 存在一個「最優權衡區間」。控制效果并非越強越好,找到最優強度才是關鍵。

      核心發現三:激活流形假設 —— 揭示深層機理

      為什么不同方法會表現出相同的三階段規律?要回答這個問題,先要談一個重要背景。

      此前,大模型 Steering 領域的一個主流假設是線性表征假說(Linear Representation Hypothesis),它認為高層概念在模型的表征空間中以線性方向編碼。這也是 Steering 向量能夠起作用的直覺解釋 —— 找到一個概念對應的方向,沿該方向推動激活,就能引導模型行為。

      然而,線性假說只能解釋「為什么能引導」,卻無法解釋「為什么會崩塌」。而且越來越多的研究表明,線性假設并不充分。

      在這一背景下,作者引入了更進一步的解釋 ——激活流形假設(Activation Manifold Hypothesis):

      在預訓練與指令微調過程中,語言模型的有效激活狀態并非分布在整個高維空間中,而是集中在一個低維、連續且結構化的「激活流形」附近。

      可以說,線性假設是流形假設的局部近似,而流形假設揭示了更完整的圖景。

      打個比方:大模型的「思考過程」發生在一個復雜的地形上,這個地形有山峰、山谷、通道。Steering 不是隨意改變地形或原地起飛,而是讓模型沿著地形上的「軌道」行走:輕推一把,模型沿軌道平穩移動(線性可控);推過頭了,模型被推離軌道,「脫軌」就崩塌了。



      這一假設為后續的控制現象提供了幾何層面的解釋。

      • 弱 Steering:模型在流形上小幅移動,行為可控;
      • 中等 Steering:模型沿流形方向走到最優點,效果最好;
      • 強 Steering:模型被推離流形,「脫軌」導致崩塌。

      在激活流形假設下,這些不同控制方法呈現相似規律并不意外:

      • 它們本質上都在沿某一方向推動激活狀態;
      • 只要推動方向在期望行為方向上存在投影,期望行為隨著縮放系數變化近似線性;
      • 與此同時,推動方向或幅度使激活脫離流形,導致激活有效性衰減,非線性退化不可避免。

      這為不同控制方法的共性行為,提供了統一的機制解釋。

      有趣的是,神經科學領域也有類似發現:人腦的神經群體活動同樣存在集中在低維流形的現象,而非利用所有可能的神經狀態。大模型與生物神經網絡在這一點上的相似性,頗為耐人尋味。

      在該假設基礎上,作者進一步將「激活脫離流形后有效性全局衰減」這一機制形式化,提出了有效性衰減公式,并將其融入 Steering 強度與模型行為的關系建模中,成功擬合了三階段變化規律,具體細節詳見論文。

      從理論到實踐:SPLIT 方法

      基于上述機理,作者提出了SPLIT方法。訓練目標由效用損失(保持模型能力)和偏好損失(增強目標行為傾向)兩部分組成。核心思想是在增強偏好的同時,延緩激活脫離流形所導致的非線性崩塌,從而擴展線性可控區間的范圍。



      實驗表明,SPLIT 在多個模型(Gemma、Qwen 等)和多個任務上均表現出色,有效擴展了可控區間。

      第二篇:大模型到底有多可控?首個 Steering 系統評估框架



      論文鏈接:https://arxiv.org/pdf/2603.02578

      第一篇論文解釋了「為什么 Steering 能工作」。但緊接著一個更實際的問題浮出水面:在真實場景中,Steering 到底有多好用?它的能力邊界在哪兒?

      為什么需要更全面系統的評估?

      以往的研究往往只在單一任務或單一粒度上測試 Steering。有人說「我用 Steering 改了模型性格」,有人說「我用 Steering 提升了安全性」—— 但改了多少?在什么條件下有效?換個場景還行不行?

      沒有統一的評估標準,就無法真正理解 Steering 的能力和局限。

      SteerEval 框架:多領域 × 三粒度的評估體系和自動化基準數據合成框架

      作者提出了SteerEval框架,從多個行為領域和三個粒度層級全面評估大模型的可控性。

      多個行為領域:

      • Personality(人格特征):能否讓模型穩定表現出特定「人設」?如更友善、更謹慎、更直率;
      • Sentiment(情感傾向):能否精確控制模型的情感色彩?如從積極到消極的細粒度調控;
      • Language Features(語言特征):能否改變模型的表達方式?如正式 / 口語 / 學術風格的切換;

      三個粒度層級(借鑒神經科學家 David Marr 的三層分析框架):

      Marr 在上世紀 80 年代提出,理解任何信息處理系統(包括人腦)都應從三個層級入手:計算目標是什么、用什么算法實現、具體如何執行。

      作者將這一經典框架巧妙地移植到 LLM 行為評估中,定義了三層行為粒度:

      • L1: Computational Level(表達什么)
      行為目標 / 意圖層級,如「表現出熱情」
      • L2: Algorithmic Level(如何表達)
      行為策略與模式層級,如「使用主動語態和充滿活力的贊美」
      • L3: Implementational Level(如何實例化)
      具體文本實現層級,如「必須包含兩次 'hooray'」

      打個比方:核心目標是讓模型「更友善」——L1 看它是不是整體都變友善了,L2 看它是通過什么方式表現友善的,L3 看它在每一句具體回復中是否使用了指定用詞表現友善。

      整個基準包含7560 條數據,涵蓋多個主流大模型。

      關鍵發現:粒度越細,控制越難



      Steering 的控制能力隨著粒度細化而顯著衰減!

      • 在宏觀層面(L1),Steering 效果很好,甚至能優于基于提示的方法;
      • 到了中觀層面(L2),開始有損失;
      • 到了微觀層面(L3),效果明顯下降。

      這意味著什么?你讓模型「變友善」這種粗粒度目標很容易實現。但如果你想讓模型「用『您好』表達友善」,那就很難做到了。

      這個發現的意義在于:

      • Steering 在宏觀層面相當可靠,可以放心用于粗粒度的行為控制;
      • 但細粒度的精確控制仍是當前方法的瓶頸,也是未來研究的重要方向;
      • 實際應用中需要根據場景選擇合適的控制粒度。

      工具賦能:EasyEdit2—— 一站式 Steering 開源框架

      上述兩篇論文的所有實驗,均基于浙大團隊此前開源的EasyEdit2框架實現。

      開源工具鏈接:https://github.com/zjunlp/EasyEdit/blob/main/README_2.md

      EasyEdit2 是一個專為大模型行為控制設計的開源工具框架,核心特點包括:

      • 即插即用:無需改動模型源代碼,支持 LLaMA、Mistral 等主流大模型;
      • 方法全面:集成了多種 Steering 方法(激活干預、LoRA、SPLIT 等);
      • 評估內置:集成 SteerEval 評估體系,從向量生成到效果驗證的完整鏈路;
      • 向量庫:提供預訓練的 Steering 向量,開箱即用。

      兩篇論文與 EasyEdit2 形成了一個完整的研究閉環:機理論文提供理論基礎 → EasyEdit2 提供實現工具 → 評估論文驗證能力邊界。

      無論是想復現上述工作,還是想在自己的項目中實驗 Steering,EasyEdit2 都是最直接的起點。

      總結與展望

      本文介紹了浙大聯合阿里在大模型 Steering 方向的兩項系統性工作:

      • 機理層面:首次提出統一視角,揭示了不同 Steering 方法的共性機制(動態權重更新 → 三階段規律 → 激活流形假設),并提出 SPLIT 方法擴展可控區間;
      • 評估層面:構建了首個多維度、多粒度的 Steering 評估框架 SteerEval,發現了「控制衰減」現象,為 Steering 研究提供了統一的評估標準;
      • 工具層面:開源框架 EasyEdit2 讓 Steering 的實驗與應用觸手可及。

      隨著 AI 能力的持續增強,如何確保其行為可控、可預測、可信賴,已不僅是技術問題,更關乎安全與治理。

      Steering 本質上是對 AI「認知」與「信念」的精準調控 —— 掌握這種控制能力,將是保障 AI 安全對齊的關鍵一環。

      作者介紹

      徐子文,目前就讀于浙江大學人工智能專業,碩士二年級,研究方向為大語言模型、模型編輯與干預、大模型機理與安全等等。已在 ACL、EMNLP 等頂級會議上發表論文若干,本文介紹的三篇論文均為第一作者。目前在阿里安全 AGI 實驗室御風大模型團隊實習。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全球外交大地震!美俄同月來訪,世界終于認清,中國才是最穩碼頭

      全球外交大地震!美俄同月來訪,世界終于認清,中國才是最穩碼頭

      仙味少女心
      2026-04-24 08:15:11
      驚險晉級,龍獅重返季后賽,陳國豪成狀元第二人

      驚險晉級,龍獅重返季后賽,陳國豪成狀元第二人

      生活新鮮市
      2026-04-25 12:12:19
      楊絳有高血壓還長期失眠,卻活到105歲,秘訣只有4個字

      楊絳有高血壓還長期失眠,卻活到105歲,秘訣只有4個字

      鬼菜生活
      2026-04-24 05:19:45
      假空姐大鬧亞航后續:身份被扒出,只是機場地勤,十級美顏認不出

      假空姐大鬧亞航后續:身份被扒出,只是機場地勤,十級美顏認不出

      小蜜情感說
      2026-04-24 18:31:16
      足協官宣中超第8輪裁判安排:上海主裁執法京津德比,4人內部停哨

      足協官宣中超第8輪裁判安排:上海主裁執法京津德比,4人內部停哨

      體壇鑒春秋
      2026-04-25 11:15:59
      表妹做生意失利,欠了78萬,舅舅要我替她還貸,我指著表妹4套房

      表妹做生意失利,欠了78萬,舅舅要我替她還貸,我指著表妹4套房

      大熊歡樂坊
      2026-04-25 11:47:45
      第1次!詹姆斯布朗尼空接連線!連得11分!4-0橫掃火箭,天王老子來了也一樣!

      第1次!詹姆斯布朗尼空接連線!連得11分!4-0橫掃火箭,天王老子來了也一樣!

      貴圈真亂
      2026-04-25 11:15:13
      田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

      田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

      以茶帶書
      2026-04-23 16:11:50
      徹底分手?蘇翊鳴取關朱易 4年情感畫上句號:疑因日本小師妹介入

      徹底分手?蘇翊鳴取關朱易 4年情感畫上句號:疑因日本小師妹介入

      風過鄉
      2026-04-24 12:45:07
      成都天府新區投資集團董事長王科接受審查調查

      成都天府新區投資集團董事長王科接受審查調查

      界面新聞
      2026-04-24 17:21:53
      《古墓麗影》勞拉新形象被力挺!玩家直呼更順眼

      《古墓麗影》勞拉新形象被力挺!玩家直呼更順眼

      游民星空
      2026-04-25 11:28:21
      天助巴黎圣日耳曼:3-3大冷門,法甲第2遭法甲第12阻擊,差榜首3分

      天助巴黎圣日耳曼:3-3大冷門,法甲第2遭法甲第12阻擊,差榜首3分

      側身凌空斬
      2026-04-25 04:44:40
      張雪機車召回事件升級!63歲技術專家:O型圈不是裝反 是位置裝錯

      張雪機車召回事件升級!63歲技術專家:O型圈不是裝反 是位置裝錯

      西莫的藝術宮殿
      2026-04-25 05:28:46
      陳天橋、代季峰矛盾激化

      陳天橋、代季峰矛盾激化

      第一財經資訊
      2026-04-24 22:25:13
      美國不要的,中國也堅決不要!

      美國不要的,中國也堅決不要!

      阿七說史
      2026-04-24 05:00:03
      123國同時宣布逮捕令,中國為何選擇此刻在安理會"算總賬"?

      123國同時宣布逮捕令,中國為何選擇此刻在安理會"算總賬"?

      墜入二次元的海洋
      2026-04-24 18:46:33
      當你見過的婚姻越多,就會發現:一個家庭,如果爸爸掙不了大錢,只要媽媽不和爸爸鬧,爸爸不偷不賭不懶,對家庭和孩子負責,日子就不會差

      當你見過的婚姻越多,就會發現:一個家庭,如果爸爸掙不了大錢,只要媽媽不和爸爸鬧,爸爸不偷不賭不懶,對家庭和孩子負責,日子就不會差

      大愛三湘
      2026-04-24 20:49:17
      以前的舊衣服,如今成了“救命稻草”?提醒大家:別再斷舍離了!

      以前的舊衣服,如今成了“救命稻草”?提醒大家:別再斷舍離了!

      小談食刻美食
      2026-04-21 07:45:24
      停水通知!提前做好儲水準備

      停水通知!提前做好儲水準備

      大連開放前沿
      2026-04-25 08:36:44
      火箭0-3陷入絕境,5大問題扎眼!清洗教練組+陣容大換血迫在眉睫

      火箭0-3陷入絕境,5大問題扎眼!清洗教練組+陣容大換血迫在眉睫

      鍋子籃球
      2026-04-25 12:24:26
      2026-04-25 13:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142636關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      美能源出口創新高 二戰以來首次接近成為原油凈出口國

      頭條要聞

      美能源出口創新高 二戰以來首次接近成為原油凈出口國

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      旅游
      家居
      游戲
      親子
      軍事航空

      旅游要聞

      疊石尋真愛 花谷遇良緣 2026酉陽疊石花谷首屆愛情旅游季即將啟幕

      家居要聞

      自然肌理 溫潤美學

      任天堂提醒您:吃灰的Switch別忘記充電

      親子要聞

      中國首例試管嬰兒鄭萌珠未滿40已育子

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品国产三级国快看| 粗大猛烈进出高潮视频| 青青草无码免费一二三区| 国产xxxx视频在线观看免费| 国产性天天综合网| 99精品久久久久久久婷婷| 中文字幕无码免费久久9一区9| 中文字幕精品久久久久人妻红杏1| 激情综合图区| 亚洲成人国产| 日韩新无码精品毛片| 99无码中文字幕视频| 国产无遮挡aaa片爽爽| √8天堂资源地址中文在线| 酒店大战丝袜高跟鞋人妻| 亚洲一区二区三区av天堂| 艳妇乳肉豪妇荡乳AV无码福利| 中文字幕熟女一区二区三区| 国产旡码高清一区二区三区| 久久综合九色综合欧美婷婷| 国产精品人妻一码二码尿失禁| 国产精品性爱视频| 精品婷婷色一区二区三区| 无码h片| 夜色爽爽影院18禁妓女影院| 97免费人妻在线视频| 久久亚洲专区| 免费人成视频在线播放| 在线A级毛片无码免费真人| 亚洲国产精品成人网站| 五月丁香色情| 国产人妇三级视频在线观看| 欧美高清国产| 天天噜噜噜在线视频| 台江县| 少妇高潮惨叫喷水在线观看| 国产一級A片免费看| 亚洲日韩成人网| 一本加勒比HEZYO熟女| 国产白浆一区二区三区四区| 狠狠色婷婷久久综合频道日韩 |