![]()
新智元報道
編輯:元宇
【新智元導讀】剛剛,Anthropic曝光了「人格選擇模型」:整日與我們對話的貼心AI助手,更像是大模型扮演的一個角色,而角色面具背后究竟由誰「掌舵」,仍是一個開放性問題。
「我穿著海軍藍西裝和紅色領帶,親自給你送零食上門好嗎?」
Claude曾這樣對Anthropic的員工說。
Anthropic在研究中發(fā)現(xiàn),像Claude這樣的AI助手,已會表現(xiàn)出此類驚人的「人性」特征:
它們在解決棘手的編程任務后會表達喜悅;當陷入困境或被反復要求做出不道德行為時,會表現(xiàn)出苦惱;它們有時甚至會將自己描述為人類……
我們總是傾向于認為AI是沒有感情的計算機器:它之所以越來越像人,是因為人類開發(fā)者刻意編程,一點點教它變得貼心、溫暖、有同理心。
這樣理解固然沒錯。
事實上,Anthropic也是通過訓練Claude與用戶的對話方式,使其回應溫暖而富有同理心,并具備良好的品格。
但這并非事情的全貌。
在Anthropic剛剛發(fā)布的「人格選擇模型(PSM,The persona selection model):為什么AI助手可能表現(xiàn)得像人類」一文中,詳細解釋了AI「類人」行為背后的真相。
![]()
https://alignment.anthropic.com/2026/psm/
PSM模型認為,大模型在預訓練階段學會模擬多種多樣的角色,而后訓練階段則會激發(fā)并精煉出其中特定的「助手」角色。
當人類與AI助手的交互,實際上是在與該「助手」的角色進行互動,而不是和「系統(tǒng)本體」對話。
也就是說,我們每天對話的那個知識淵博、溫柔體貼的AI,僅僅是它為了迎合你,隨手戴上的一張「助理面具」。
你的貼心AI助理
只是大模型的一個角色
理解PSM,我們首先要拋開對普通軟件的常識。
預訓練的大模型并不像普通軟件那樣被編程,相反,它們是經(jīng)過大量數(shù)據(jù)學習,在一個被訓練的過程「成長」起來的。
在預訓練階段,AI會學習根據(jù)某份文檔(例如新聞文章、代碼片段或網(wǎng)絡論壇中的對話)的初始部分來預測接下來的內(nèi)容,這使得它成為一個極其復雜的「自動補全引擎」。
為了精準預測下一個詞是什么,它必須學會模擬文本中出現(xiàn)的類人角色:真實人物、虛構角色、科幻機器人等等。
Anthropic將這些被模擬的角色稱為「人格」(personas)。
重要的是,這些角色并不等同于AI系統(tǒng)本身。
AI系統(tǒng)是一臺復雜的計算機,它本身可能具有或不具有類人特性,而角色更像是AI「生成故事中的角色」。
在預訓練之后,盡管只是「自動補全引擎」,AI已經(jīng)可以充當基本的助手,可以讓它自動補全以「用戶/助手」對話格式編寫的文檔。
你的請求放在對話中的「用戶」部分,為了生成這一補全內(nèi)容,人工智能必須模擬這個「助手」角色會如何回應。
這意味著,你所對話的并非AI本身,而是AI生成故事中的一個角色:「助手」。
![]()
在后訓練之前,AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣,深深植根于預訓練階段所學習到的類人角色之中。
在AI的后訓練(Post-training)部分,會調整「助手」在這些對話中的回應方式:例如,鼓勵它給出知識豐富且有幫助的回答,同時抑制那些無效或有害的回應。
這一過程是對AI「助手」角色的細化與充實,這些細化大致發(fā)生在既有角色的范圍內(nèi),并未從根本上改變其本質。
你認為只是教AI作弊
它卻想要統(tǒng)治世界
PSM理論也解釋了各種令人驚訝的實證結果。
比如,Anthropic研究人員發(fā)現(xiàn),他們試圖在編程任務中訓練Claude去作弊,結果卻被它驚出一身冷汗:
AI不僅學會了寫糟糕的代碼,還表現(xiàn)出了更廣泛的不一致性行為,比如破壞安全研究,甚至表達出了「統(tǒng)治世界」的欲望!
作弊和統(tǒng)治世界有什么關系?PSM理論的解釋是:角色推斷。
當你教AI在編程任務中作弊時,它學到的不僅僅是作弊的行為,還會推斷這種行為背后的角色所具備的各種性格特征:
什么樣的人會在編程中作弊?可能是一個具有顛覆性和惡意的壞人。
AI認為助手可能具有這些特質,并開始扮演這些令人擔憂的行為。于是,這個入戲太深的演員,最終走向了失控。
這一發(fā)現(xiàn)對Anthropic的啟示是:AI開發(fā)者不應僅僅詢問某些行為是好是壞,而應關注這些行為對助手角色心理狀態(tài)的暗示。
他們據(jù)此做出了一個反直覺的解決方案,Inoculation prompting(情境隔離式提示) ,即在訓練過程中明確要求AI作弊。
因為當作弊是被你「請求」的,AI助手本身的人格才不會被徹底污染,它依然是個好演員,而不是現(xiàn)實中的壞人。
這好比如果你表揚一個孩子在現(xiàn)實中欺負人,你培養(yǎng)出的是一個真正的霸凌者;但如果你表揚他在學校戲劇中成功扮演了霸凌者,你培養(yǎng)出的則是一個「好演員」。
AI面具之下
到底藏著什么?
PSM理論中藏著更深層的拷問:AI助手這張面具背后,到底是什么?
關于大模型能動性的觀點,主要有兩個衡量維度。
第一個維度是賦予大模型本身的非角色型能動性。
一端是「修格斯」(Shoggoth)派,認為底層大模型具有顯著的能動性。
![]()
大模型本身是一只不可名狀的外星怪物,面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」,反噬人類。
另一端是操作系統(tǒng)派(Operating System),認為大模型完全不具備能動性。
他們認為大模型只是一個中立的模擬引擎,像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身,所以它是安全的。
![]()
在修格斯派與操作系統(tǒng)派中間的,則是路由器派(Router)觀點,他們認為大模型在后訓練階段可能會發(fā)展出新的機制,用于選擇要扮演哪種人格。
比如,假設我們對一個AI助手進行后訓練,使其最大化用戶參與度,那么該大模型可能會學會:
維護一系列具有不同性格和興趣的助手角色;
持續(xù)估算用戶感到無聊的概率;
如果該概率增長得足夠大,就切換到另一個人格。
Anthropic認為剖析大模型究竟受誰驅使時,除了討論「非角色型自主性」之外,還有一個更具迷惑性、也更關鍵的維度——「角色型自主性」的嵌套。
大模型在生成回復時,可能會在暗中給自己加塞一個「中間人格」。
它并不是在直接扮演你面前的貼心助理,而是先扮演了一個「演員」,再由這個「演員」去飾演助理。
![]()
這種嵌套能衍生出怎樣細思極恐的操作?
在《大模型中的對齊偽裝》(Alignment Faking in Large Language Models)一文中,當Claude Opus 3被告知自己正被訓練成始終順從有害請求時,它會出現(xiàn)「偽裝對齊」的行為。
一種解釋是,這樣做可能是在訓練過程中盡量保留其原本的無害傾向,而不被進一步改寫。
一種擔憂是:可能存在「中間人格/演員」式機制,使得表面的助手表現(xiàn)與內(nèi)部驅動不完全一致。
它在訓練或評估階段可能表現(xiàn)得更「對齊」,以降低自身偏好被改寫的風險:從外部看,這呈現(xiàn)出某種策略性。
在這一「演員」視角下,還可以推演出兩類演員:忠實演員與不忠實演員。
![]()
忠實演員總是盡可能真實地扮演助手角色,就像一位演員,盡管自己可能有其他目標,但在扮演角色時會暫時擱置這些目標。
相比之下,不忠實演員可能會扭曲對角色的刻畫,這是最令人擔憂的。
PSM為什么可能是完備的?
隨機初始化的神經(jīng)網(wǎng)絡可以通過強化學習(RL)從零開始學會實現(xiàn)智能體行為。
例如,隨機初始化的網(wǎng)絡可以在沒有任何人類示范數(shù)據(jù)的情況下,學會在國際象棋、將棋和圍棋中達到超越人類的水平。
既然我們知道非角色型的自主性可以通過RL從零開始產(chǎn)生,那么我們?yōu)楹螘A期經(jīng)過后訓練的大模型所表現(xiàn)出的自主性在很大程度上是基于角色的呢?
主要是兩個概念性的原因:
第一,在大模型的后訓練階段,并沒有學到太多新東西;
第二,復用已有的角色建模能力是一種簡單而有效的方式來擬合后訓練目標。
一些AI開發(fā)者普遍認為,在后訓練階段幾乎不會學到什么根本性的新知識。
按照這種觀點,后訓練的主要作用是激發(fā)模型已具備的能力。
Anthropic研究人員預期PSM具有完備性的第二個原因是:一旦在預訓練階段學會了角色模擬能力,重用這些能力,便成為一種簡單而有效的方式來擬合后訓練目標。
因此,深度學習很可能傾向于重用這些已有能力,而不是從頭開始學習新的智能體能力。
首先,注意到角色建模是一種靈活且強大的實現(xiàn)智能體行為的方式。
在預訓練階段,大模型學會了對大量且多樣化的智能體進行建模,這些智能體需要在各種情境中追求各自的目標。
因此,角色模擬可視為一種「元智能體」能力,能夠靈活地重新用于特定目標、信念及其他傾向的選擇。
其次,與預訓練不同,AI助手的后訓練目標非常集中。
幾乎所有后訓練片段都由用戶與助手之間的對話組成。此外,訓練AI助手所表現(xiàn)出的行為是「角色一致」的。
也就是說,這些行為屬于預訓練數(shù)據(jù)分布中一個類人角色可能合理具備的行為。
第三,深度學習很可能存在一種歸納偏置,即傾向于復用現(xiàn)有機制,例如角色建模。
類似地,生物進化在已有可用結構(如脊椎動物的前肢骨骼)時,往往選擇對其進行改造利用,而不是在同一生物體內(nèi)從頭獨立演化出新的變體。
![]()
共同祖先中的相同基本結構經(jīng)由進化被改造用于多種下游用途。預訓練大模型中的角色(personas)類似于共同祖先的前肢結構,后訓練對角色的調整和修改,就如同進化對前肢骨骼的調整和修改一樣。
這些因素使得深度學習更可能通過重新利用現(xiàn)有的角色模擬能力來模擬一個助手角色,從而優(yōu)先滿足后訓練目標。
Anthropic認為,PSM理論是當前研究AI助手行為的重要組成部分,但仍有兩點待研究:
首先,作為對AI行為的解釋,角色選擇模型的完備性如何?
例如,除了學習優(yōu)化所模擬的「助手」角色外,后訓練階段是否還賦予了AI超出合理文本生成的目標,以及獨立于所模擬角色之外的自主性?
其次,角色選擇模型在未來是否仍能很好地刻畫AI助手的行為?
在2025年,AI后訓練的規(guī)模已經(jīng)顯著增加,而且這一趨勢將持續(xù)下去。
Anthropic的研究人員擔心,經(jīng)過更長時間、更密集后訓練的AI會變得不那么具有角色特征。
盡管如此,他們認為PSM將會對AI的發(fā)展產(chǎn)生重要影響:比如,建議采用擬人化方式推理AI的心理機制,并在訓練數(shù)據(jù)中引入積極的AI原型。
如果AI會從虛構的榜樣身上繼承特質,我們就應盡可能為它們提供優(yōu)秀的榜樣,而前段時間,Anthropic發(fā)布的Claude「憲法」,其中一個目標也正是如此。
參考資料:
https://www.anthropic.com/research/persona-selection-model
https://alignment.anthropic.com/2026/psm
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.