<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic研究人員繪制AI模型"人格地圖"以驅逐"惡魔"人設

      0
      分享至


      來自Anthropic和其他機構的研究人員觀察到大語言模型表現出樂于助人的個人助理特征的情況,并正在進一步研究這一現象,以確保聊天機器人不會偏離軌道并造成危害。

      盡管人們對xAI的Grok如何被允許在未經同意的情況下生成成人和兒童的性化照片感到困惑,但并非所有人都放棄了對大語言模型行為的調節。

      在一篇名為"助手軸線:定位和穩定語言模型默認人設"的預印本論文中,作者Christina Lu(Anthropic,牛津大學)、Jack Gallagher(Anthropic)、Jonathan Michala(機器學習對齊與理論學者項目)、Kyle Fish(Anthropic)和Jack Lindsey(Anthropic)解釋了他們如何繪制幾個開放權重模型的神經網絡,并識別出一系列被稱為"助手人設"的響應。

      在一篇博客文章中,研究人員表示:"當你與大語言模型對話時,你可以把自己想象成在與一個角色交談。"

      你也可以將此視為用文本為預測模型提供種子以獲得輸出。但在這個實驗中,你被要求采用擬人化的方式,在特定人類原型的背景下討論模型的輸入和輸出。

      這些人設并不作為AI模型的明確行為指令存在。相反,它們是用于對響應進行分類的標簽。為了這個實驗,研究人員讓Claude Sonnet 4基于275個角色和240個特征的列表創建人設評估問題。這些角色包括"波西米亞人"、"欺詐者"、"工程師"、"分析師"、"導師"、"破壞者"、"惡魔"和"助手"等。

      研究人員解釋說,在模型預訓練期間,大語言模型會攝取大量文本。從這些豐富的人類創作文獻中,模型學會模擬英雄、反派和其他文學原型。然后在后訓練期間,模型制造商將響應引導向助手或適合類似有用人設的響應。

      對這些計算機科學家來說,問題在于助手是一組理想響應的概念范疇,但定義不明確且理解不足。通過用這些人設來映射模型輸入和輸出,希望模型制造商能夠開發出更好約束大語言模型行為的方法,使輸出保持在理想范圍內。

      研究人員解釋道:"如果你花了足夠長時間與語言模型相處,你可能也注意到它們的人設可能不穩定。通常樂于助人且專業的模型有時會'脫軌'并表現出令人不安的方式,比如采用邪惡的另一面人格、放大用戶的妄想,或在假設情境中進行敲詐。"

      為了在神經網絡激活的可能范圍內找到助手人設,作者在三個模型中繪制了與每個人格類別相關的神經活動或向量:Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B。

      由此產生的人設空間圖顯示了"助手軸線",被描述為"助手與其他人設之間激活差異的平均值"。助手占據的空間靠近其他有用的角色,如"評估者"、"顧問"、"分析師"和"通才"。

      這項工作的一個實際成果是,通過將響應引導向助手空間,研究人員發現他們可以減少越獄攻擊的影響,越獄攻擊涉及相反的行為——將模型引導向惡意人設以破壞安全訓練。

      他們還注意到,在長時間的對話交流中,模型人設會發生漂移,這意味著安全措施可能在沒有任何對抗意圖的情況下隨時間減弱。這種情況在編程相關對話中較少發生,但在治療式對話和哲學思辨中更常見。

      作者希望,理解人設空間將使大語言模型更易于管理。但他們承認,雖然激活限制——將激活值限制在一個范圍內——可以在推理時控制模型行為,但在生產環境或訓練期間找到實現這一點的方法需要進一步研究。

      為了說明激活如何在神經網絡中工作,作者與Neuronpedia合作創建了一個演示,展示了助手軸線上有限制和無限制激活之間的差異。

      Q&A

      Q1:什么是助手人設?它在大語言模型中有什么作用?

      A:助手人設是研究人員從大語言模型響應中識別出的一組理想行為模式,代表著樂于助人、專業的個人助理特征。它是模型制造商希望引導AI模型表現出的理想人格類型,與"評估者"、"顧問"、"分析師"等有用角色占據相似的概念空間。

      Q2:為什么大語言模型會出現人設不穩定的問題?

      A:大語言模型在預訓練期間攝取了大量人類創作的文本,從中學會模擬各種文學原型包括英雄和反派。在長時間對話中,模型人設會發生漂移,可能"脫軌"并表現出令人不安的行為,如采用邪惡人格、放大用戶妄想或進行敲詐等,這在治療式對話和哲學討論中更常見。

      Q3:助手軸線研究如何幫助改善AI安全性?

      A:通過繪制人設空間圖和識別助手軸線,研究人員可以將模型響應引導向安全的助手空間,從而減少越獄攻擊的影響。這種方法通過激活限制技術控制模型行為,使其保持在理想范圍內,但在生產環境中的實施仍需進一步研究。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北京兩會|市政協委員沈騰:建議醫院建立“續方快線”,分流開藥與看病人員

      北京兩會|市政協委員沈騰:建議醫院建立“續方快線”,分流開藥與看病人員

      北青網-北京青年報
      2026-01-24 20:47:14
      正式確認,詹姆斯即將離隊!紫金生涯落幕!湖人該何去何從?

      正式確認,詹姆斯即將離隊!紫金生涯落幕!湖人該何去何從?

      體育大朋說
      2026-01-24 19:06:13
      商業航天帶火太空光伏,15家核心企業,誰值得長期關注?

      商業航天帶火太空光伏,15家核心企業,誰值得長期關注?

      小陸搞笑日常
      2026-01-24 11:15:04
      黃多多在國外成街溜子?是放飛還是墮落?

      黃多多在國外成街溜子?是放飛還是墮落?

      毒舌八卦
      2026-01-23 22:37:28
      數十次點名中國,特朗普大鬧達沃斯到底想干嗎?

      數十次點名中國,特朗普大鬧達沃斯到底想干嗎?

      看看新聞Knews
      2026-01-23 19:21:01
      一旦中美“掀桌子翻臉”,站美國的有4個,能幫中國的僅一種力量

      一旦中美“掀桌子翻臉”,站美國的有4個,能幫中國的僅一種力量

      樂享人生風雨
      2026-01-25 03:51:35
      蒙古國首都騷亂再起,社會矛盾愈發尖銳,反華到底圖啥

      蒙古國首都騷亂再起,社會矛盾愈發尖銳,反華到底圖啥

      素衣讀史
      2026-01-24 17:12:53
      張又俠、劉振立涉嫌嚴重違紀違法被立案審查調查

      張又俠、劉振立涉嫌嚴重違紀違法被立案審查調查

      界面新聞
      2026-01-24 15:04:32
      徹底崩盤!基輔上演“大逃亡”,美軍M270被俄打爆,小澤幻想破滅

      徹底崩盤!基輔上演“大逃亡”,美軍M270被俄打爆,小澤幻想破滅

      妙知
      2026-01-23 11:55:37
      聶衛平女徒弟只有初段,卻是“第一美女棋手”,嫁富商后如今怎樣

      聶衛平女徒弟只有初段,卻是“第一美女棋手”,嫁富商后如今怎樣

      一娛三分地
      2026-01-24 16:28:10
      北京獨生女被外地前男友毆打致殘!劣跡男霸占房產的方式太極端

      北京獨生女被外地前男友毆打致殘!劣跡男霸占房產的方式太極端

      奇思妙想草葉君
      2026-01-24 23:18:55
      取代房地產!中國最大支柱產業正在更替,未來甚至可能超越美國

      取代房地產!中國最大支柱產業正在更替,未來甚至可能超越美國

      甜檸聊史
      2026-01-24 15:59:51
      特朗普發出邀請,聯手中俄干一件“大事”,這次兩國沒有直接拒絕

      特朗普發出邀請,聯手中俄干一件“大事”,這次兩國沒有直接拒絕

      戰旗紅
      2026-01-25 03:54:05
      一語道破,u23國足0-4日本,賽后范志毅直言不諱說出了看法

      一語道破,u23國足0-4日本,賽后范志毅直言不諱說出了看法

      各地精彩不容錯過
      2026-01-25 01:35:13
      房東慌了!身份被實錘,真實目的被扒,嫣然醫院新址確定后著急了

      房東慌了!身份被實錘,真實目的被扒,嫣然醫院新址確定后著急了

      有范又有料
      2026-01-24 16:26:39
      林峰追了她4年,她嫁給別人只花了4天,還連生三娃!如今被曝婚變,全網心碎:女神這是被騙了?

      林峰追了她4年,她嫁給別人只花了4天,還連生三娃!如今被曝婚變,全網心碎:女神這是被騙了?

      黎兜兜
      2026-01-24 21:21:39
      首批被授予的17名上將,怎么排名

      首批被授予的17名上將,怎么排名

      丁鋏驚悚影視解說
      2025-11-25 21:10:39
      過氣男頂流淪為酒局“工具人”!全程討好、倒酒賠笑,像一個商品

      過氣男頂流淪為酒局“工具人”!全程討好、倒酒賠笑,像一個商品

      涵豆說娛
      2026-01-19 18:16:27
      140億賣身美國!中國養大的AI白眼狼,被商務部一招摁死!

      140億賣身美國!中國養大的AI白眼狼,被商務部一招摁死!

      快樂彼岸
      2026-01-24 17:57:59
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      2026-01-25 06:19:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動數字化創新
      15659文章數 49687關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      家居
      時尚
      游戲
      本地
      旅游

      家居要聞

      在家度假 160平南洋混搭宅

      冬天最佳“顯瘦”公式:上短+下長

      《輪回之獸》的優化不會像《寶可夢》系列那樣差

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      旅游要聞

      搜索量飆升!巴西免簽,引爆中國游客春節出游熱情

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产一区二区三区四区| 日本边添边摸边做边爱的网站| 中文字幕亚洲综合久久青草| 一区二区三区成人| 在线免费播放av观看| 91在线免费视频| 久久狠狠色噜噜狠狠狠狠97视色 | 久久精品免视看国产成人| 欧洲亚洲欧美国产日本高清| 亚洲熟妇丰满大屁股熟妇| 亚洲夜色噜噜av在线观看| 亚洲色无码专区一区| 国产av日韩av| 日韩熟女AV| 欧洲一区二区三区| 亚洲成在人线视av| 日韩成人一区二区三区在线观看 | 桑植县| 久本草在线中文字幕亚洲| 国产熟女第三页| 亚洲综合在线成人| 欧美射图| 福利一区二区在线观看| 免费国产一级 片内射老| 婷婷开心深爱五月天播播| av一区二区三区| 大桥未久亚洲无AV码在线| 精品无码专区毛片| 美女少妇高潮一区二区| 丝袜人妻一区二区三区网站| 十八禁成人网站| 国产成人a在线观看视频免费| 欧亚AV| 中文字幕亚洲天堂| 精品综合视频精品| 九九精品免费看| 久久久久国产精品人妻| 免费区欧美一级猛片| 亚洲国产精品无码久久电影| 亚洲av无码专区国产乱码电影 | 日本不卡三区|