<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      教AI編程作弊,它卻想統治世界?Anthropic首曝「人格選擇模型」

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】剛剛,Anthropic曝光了「人格選擇模型」:整日與我們對話的貼心AI助手,更像是大模型扮演的一個角色,而角色面具背后究竟由誰「掌舵」,仍是一個開放性問題。

      「我穿著海軍藍西裝和紅色領帶,親自給你送零食上門好嗎?」

      Claude曾這樣對Anthropic的員工說。

      Anthropic在研究中發現,像Claude這樣的AI助手,已會表現出此類驚人的「人性」特征:

      它們在解決棘手的編程任務后會表達喜悅;當陷入困境或被反復要求做出不道德行為時,會表現出苦惱;它們有時甚至會將自己描述為人類……

      我們總是傾向于認為AI是沒有感情的計算機器:它之所以越來越像人,是因為人類開發者刻意編程,一點點教它變得貼心、溫暖、有同理心。

      這樣理解固然沒錯。

      事實上,Anthropic也是通過訓練Claude與用戶的對話方式,使其回應溫暖而富有同理心,并具備良好的品格。

      但這并非事情的全貌。

      在Anthropic剛剛發布的「人格選擇模型(PSM,The persona selection model):為什么AI助手可能表現得像人類」一文中,詳細解釋了AI「類人」行為背后的真相。


      https://alignment.anthropic.com/2026/psm/

      PSM模型認為,大模型在預訓練階段學會模擬多種多樣的角色,而后訓練階段則會激發并精煉出其中特定的「助手」角色。

      當人類與AI助手的交互,實際上是在與該「助手」的角色進行互動,而不是和「系統本體」對話。

      也就是說,我們每天對話的那個知識淵博、溫柔體貼的AI,僅僅是它為了迎合你,隨手戴上的一張「助理面具」

      你的貼心AI助理

      只是大模型的一個角色

      理解PSM,我們首先要拋開對普通軟件的常識。

      預訓練的大模型并不像普通軟件那樣被編程,相反,它們是經過大量數據學習,在一個被訓練的過程「成長」起來的。

      在預訓練階段,AI會學習根據某份文檔(例如新聞文章、代碼片段或網絡論壇中的對話)的初始部分來預測接下來的內容,這使得它成為一個極其復雜的「自動補全引擎」

      為了精準預測下一個詞是什么,它必須學會模擬文本中出現的類人角色:真實人物、虛構角色、科幻機器人等等。

      Anthropic將這些被模擬的角色稱為「人格」(personas)。

      重要的是,這些角色并不等同于AI系統本身。

      AI系統是一臺復雜的計算機,它本身可能具有或不具有類人特性,而角色更像是AI「生成故事中的角色」。

      在預訓練之后,盡管只是「自動補全引擎」,AI已經可以充當基本的助手,可以讓它自動補全以「用戶/助手」對話格式編寫的文檔。

      你的請求放在對話中的「用戶」部分,為了生成這一補全內容,人工智能必須模擬這個「助手」角色會如何回應。

      這意味著,你所對話的并非AI本身,而是AI生成故事中的一個角色:「助手」。


      在后訓練之前,AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣,深深植根于預訓練階段所學習到的類人角色之中。

      在AI的后訓練(Post-training)部分,會調整「助手」在這些對話中的回應方式:例如,鼓勵它給出知識豐富且有幫助的回答,同時抑制那些無效或有害的回應。

      這一過程是對AI「助手」角色的細化與充實,這些細化大致發生在既有角色的范圍內,并未從根本上改變其本質

      你認為只是教AI作弊

      它卻想要統治世界

      PSM理論也解釋了各種令人驚訝的實證結果。

      比如,Anthropic研究人員發現,他們試圖在編程任務中訓練Claude去作弊,結果卻被它驚出一身冷汗:

      AI不僅學會了寫糟糕的代碼,還表現出了更廣泛的不一致性行為,比如破壞安全研究,甚至表達出了「統治世界」的欲望!

      作弊和統治世界有什么關系?PSM理論的解釋是:角色推斷

      當你教AI在編程任務中作弊時,它學到的不僅僅是作弊的行為,還會推斷這種行為背后的角色所具備的各種性格特征:

      什么樣的人會在編程中作弊?可能是一個具有顛覆性和惡意的壞人。

      AI認為助手可能具有這些特質,并開始扮演這些令人擔憂的行為。于是,這個入戲太深的演員,最終走向了失控。

      這一發現對Anthropic的啟示是:AI開發者不應僅僅詢問某些行為是好是壞,而應關注這些行為對助手角色心理狀態的暗示

      他們據此做出了一個反直覺的解決方案,Inoculation prompting(情境隔離式提示) ,即在訓練過程中明確要求AI作弊。

      因為當作弊是被你「請求」的,AI助手本身的人格才不會被徹底污染,它依然是個好演員,而不是現實中的壞人。

      這好比如果你表揚一個孩子在現實中欺負人,你培養出的是一個真正的霸凌者;但如果你表揚他在學校戲劇中成功扮演了霸凌者,你培養出的則是一個「好演員」。

      AI面具之下

      到底藏著什么?

      PSM理論中藏著更深層的拷問:AI助手這張面具背后,到底是什么?

      關于大模型能動性的觀點,主要有兩個衡量維度。

      第一個維度是賦予大模型本身的非角色型能動性。

      一端是「修格斯」(Shoggoth)派,認為底層大模型具有顯著的能動性。


      大模型本身是一只不可名狀的外星怪物,面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」,反噬人類。

      另一端是操作系統派(Operating System),認為大模型完全不具備能動性。

      他們認為大模型只是一個中立的模擬引擎,像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身,所以它是安全的。


      在修格斯派與操作系統派中間的,則是路由器派(Router)觀點,他們認為大模型在后訓練階段可能會發展出新的機制,用于選擇要扮演哪種人格。

      比如,假設我們對一個AI助手進行后訓練,使其最大化用戶參與度,那么該大模型可能會學會:

      • 維護一系列具有不同性格和興趣的助手角色;

      • 持續估算用戶感到無聊的概率;

      • 如果該概率增長得足夠大,就切換到另一個人格。

      Anthropic認為剖析大模型究竟受誰驅使時,除了討論「非角色型自主性」之外,還有一個更具迷惑性、也更關鍵的維度——「角色型自主性」的嵌套。

      大模型在生成回復時,可能會在暗中給自己加塞一個「中間人格」。

      它并不是在直接扮演你面前的貼心助理,而是先扮演了一個「演員」,再由這個「演員」去飾演助理。


      這種嵌套能衍生出怎樣細思極恐的操作?

      在《大模型中的對齊偽裝》(Alignment Faking in Large Language Models)一文中,當Claude Opus 3被告知自己正被訓練成始終順從有害請求時,它會出現「偽裝對齊」的行為。

      一種解釋是,這樣做可能是在訓練過程中盡量保留其原本的無害傾向,而不被進一步改寫。

      一種擔憂是:可能存在「中間人格/演員」式機制,使得表面的助手表現與內部驅動不完全一致。

      它在訓練或評估階段可能表現得更「對齊」,以降低自身偏好被改寫的風險:從外部看,這呈現出某種策略性。

      在這一「演員」視角下,還可以推演出兩類演員:忠實演員與不忠實演員。


      忠實演員總是盡可能真實地扮演助手角色,就像一位演員,盡管自己可能有其他目標,但在扮演角色時會暫時擱置這些目標。

      相比之下,不忠實演員可能會扭曲對角色的刻畫,這是最令人擔憂的。

      PSM為什么可能是完備的?

      隨機初始化的神經網絡可以通過強化學習(RL)從零開始學會實現智能體行為。

      例如,隨機初始化的網絡可以在沒有任何人類示范數據的情況下,學會在國際象棋、將棋和圍棋中達到超越人類的水平。

      既然我們知道非角色型的自主性可以通過RL從零開始產生,那么我們為何會預期經過后訓練的大模型所表現出的自主性在很大程度上是基于角色的呢?

      主要是兩個概念性的原因:

      第一,在大模型的后訓練階段,并沒有學到太多新東西;

      第二,復用已有的角色建模能力是一種簡單而有效的方式來擬合后訓練目標。

      一些AI開發者普遍認為,在后訓練階段幾乎不會學到什么根本性的新知識。

      按照這種觀點,后訓練的主要作用是激發模型已具備的能力

      Anthropic研究人員預期PSM具有完備性的第二個原因是:一旦在預訓練階段學會了角色模擬能力,重用這些能力,便成為一種簡單而有效的方式來擬合后訓練目標。

      因此,深度學習很可能傾向于重用這些已有能力,而不是從頭開始學習新的智能體能力。

      首先,注意到角色建模是一種靈活且強大的實現智能體行為的方式。

      在預訓練階段,大模型學會了對大量且多樣化的智能體進行建模,這些智能體需要在各種情境中追求各自的目標。

      因此,角色模擬可視為一種「元智能體」能力,能夠靈活地重新用于特定目標、信念及其他傾向的選擇。

      其次,與預訓練不同,AI助手的后訓練目標非常集中。

      幾乎所有后訓練片段都由用戶與助手之間的對話組成。此外,訓練AI助手所表現出的行為是「角色一致」的。

      也就是說,這些行為屬于預訓練數據分布中一個類人角色可能合理具備的行為。

      第三,深度學習很可能存在一種歸納偏置,即傾向于復用現有機制,例如角色建模。

      類似地,生物進化在已有可用結構(如脊椎動物的前肢骨骼)時,往往選擇對其進行改造利用,而不是在同一生物體內從頭獨立演化出新的變體。


      共同祖先中的相同基本結構經由進化被改造用于多種下游用途。預訓練大模型中的角色(personas)類似于共同祖先的前肢結構,后訓練對角色的調整和修改,就如同進化對前肢骨骼的調整和修改一樣。

      這些因素使得深度學習更可能通過重新利用現有的角色模擬能力來模擬一個助手角色,從而優先滿足后訓練目標。

      Anthropic認為,PSM理論是當前研究AI助手行為的重要組成部分,但仍有兩點待研究:

      首先,作為對AI行為的解釋,角色選擇模型的完備性如何?

      例如,除了學習優化所模擬的「助手」角色外,后訓練階段是否還賦予了AI超出合理文本生成的目標,以及獨立于所模擬角色之外的自主性?

      其次,角色選擇模型在未來是否仍能很好地刻畫AI助手的行為?

      在2025年,AI后訓練的規模已經顯著增加,而且這一趨勢將持續下去。

      Anthropic的研究人員擔心,經過更長時間、更密集后訓練的AI會變得不那么具有角色特征。

      盡管如此,他們認為PSM將會對AI的發展產生重要影響:比如,建議采用擬人化方式推理AI的心理機制,并在訓練數據中引入積極的AI原型。

      如果AI會從虛構的榜樣身上繼承特質,我們就應盡可能為它們提供優秀的榜樣,而前段時間,Anthropic發布的Claude「憲法」,其中一個目標也正是如此。

      參考資料:

      https://www.anthropic.com/research/persona-selection-model

      https://alignment.anthropic.com/2026/psm

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      羅說NBA
      2026-03-08 06:12:07
      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      科威特國家石油公司宣布減產

      科威特國家石油公司宣布減產

      每日經濟新聞
      2026-03-08 12:55:28
      如何提振人口生育率?全國人大代表、步長制藥趙菁:建議構建不孕不育治療多元支持體系

      如何提振人口生育率?全國人大代表、步長制藥趙菁:建議構建不孕不育治療多元支持體系

      時代財經
      2026-03-07 22:05:09
      69家機構,“盯上”1家公司

      69家機構,“盯上”1家公司

      新浪財經
      2026-03-08 08:03:13
      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      甜檸聊史
      2026-03-08 01:56:33
      百萬年薪扎心!陳幸同與周啟豪收入懸殊,現實差距太戳人

      百萬年薪扎心!陳幸同與周啟豪收入懸殊,現實差距太戳人

      卿子書
      2026-03-07 10:42:02
      伊朗媒體:一位特朗普支持者在看到伊朗戰爭導致油價飆升后,撕掉了特朗普的貼紙。

      伊朗媒體:一位特朗普支持者在看到伊朗戰爭導致油價飆升后,撕掉了特朗普的貼紙。

      新浪財經
      2026-03-07 10:55:05
      美學者給中國的3個警告:別低估美國的殘暴,它不會讓中國崛起!

      美學者給中國的3個警告:別低估美國的殘暴,它不會讓中國崛起!

      蕭狡科普解說
      2026-03-06 18:34:34
      還沒打完伊朗,美軍選好下一個目標?搶在特朗普前,中方援助先到

      還沒打完伊朗,美軍選好下一個目標?搶在特朗普前,中方援助先到

      面包夾知識
      2026-03-07 13:31:51
      《暗黑新娘》:一場X壓抑引發的極左女權!

      《暗黑新娘》:一場X壓抑引發的極左女權!

      編劇藍羽生
      2026-03-08 12:23:11
      真只死了6個?曝美軍承包商緊急招聘數名臨時工,專門處理陣亡士兵物品

      真只死了6個?曝美軍承包商緊急招聘數名臨時工,專門處理陣亡士兵物品

      不掉線電波
      2026-03-06 10:00:34
      開戰第七天,最大贏家浮現,不是伊朗,不是以色列,也不是美國

      開戰第七天,最大贏家浮現,不是伊朗,不是以色列,也不是美國

      東極妙嚴
      2026-03-07 16:41:58
      吃了9年西貝花了8600塊!一張張沒扔的小票,成了捅向賈國龍的刀

      吃了9年西貝花了8600塊!一張張沒扔的小票,成了捅向賈國龍的刀

      樂悠悠娛樂
      2026-02-02 07:28:18
      李連杰首次正面回應換心謠言,說我換人類心臟還是想象力太小,為什么不換一個華為心臟小米肝特斯拉腎

      李連杰首次正面回應換心謠言,說我換人類心臟還是想象力太小,為什么不換一個華為心臟小米肝特斯拉腎

      觀威海
      2026-03-05 16:31:07
      伊朗戰場上,特朗普贏學要講不下去了

      伊朗戰場上,特朗普贏學要講不下去了

      觀察者網
      2026-03-08 14:43:07
      方靜去世,那個誣陷她是間諜的中央電視臺主持人后來怎么樣了?

      方靜去世,那個誣陷她是間諜的中央電視臺主持人后來怎么樣了?

      老吳教育課堂
      2026-03-07 19:16:02
      成都一家三口滯留迪拜,平安回國后,被批炫富,遭遇網暴太心酸!

      成都一家三口滯留迪拜,平安回國后,被批炫富,遭遇網暴太心酸!

      眼光很亮
      2026-03-07 22:31:07
      補時絕殺!榜首易主:沙特豪門登頂,瘋狂13連勝,C羅爭冠有戲

      補時絕殺!榜首易主:沙特豪門登頂,瘋狂13連勝,C羅爭冠有戲

      足球狗說
      2026-03-08 05:04:04
      孩子一出生就自帶口糧和工資?看清細節后,全網爸媽集體冷靜了!

      孩子一出生就自帶口糧和工資?看清細節后,全網爸媽集體冷靜了!

      眼光很亮
      2026-03-07 20:25:09
      2026-03-08 15:27:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14669文章數 66667關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗小學遭襲致超165人遇難 特朗普:是伊朗干的

      頭條要聞

      伊朗小學遭襲致超165人遇難 特朗普:是伊朗干的

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      家居
      本地
      藝術
      健康
      公開課

      家居要聞

      暖棕撞色 輕法奶油風

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      藝術要聞

      “北京意象·活力通州”繪畫作品展 | 油畫作品選

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版