<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<pre id="jfx8f"></pre>

<thead id="jfx8f"><span id="jfx8f"></span></thead>

<p id="jfx8f"></p>

<bdo id="jfx8f"><li id="jfx8f"></li></bdo>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

教AI編程作弊，它卻想統治世界？Anthropic首曝「人格選擇模型」

2026-02-24 19:40:58　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】剛剛，Anthropic曝光了「人格選擇模型」：整日與我們對話的貼心AI助手，更像是大模型扮演的一個角色，而角色面具背后究竟由誰「掌舵」，仍是一個開放性問題。

「我穿著海軍藍西裝和紅色領帶，親自給你送零食上門好嗎？」

Claude曾這樣對Anthropic的員工說。

Anthropic在研究中發現，像Claude這樣的AI助手，已會表現出此類驚人的「人性」特征：

它們在解決棘手的編程任務后會表達喜悅；當陷入困境或被反復要求做出不道德行為時，會表現出苦惱；它們有時甚至會將自己描述為人類……

我們總是傾向于認為AI是沒有感情的計算機器：它之所以越來越像人，是因為人類開發者刻意編程，一點點教它變得貼心、溫暖、有同理心。

這樣理解固然沒錯。

事實上，Anthropic也是通過訓練Claude與用戶的對話方式，使其回應溫暖而富有同理心，并具備良好的品格。

但這并非事情的全貌。

在Anthropic剛剛發布的「人格選擇模型（PSM，The persona selection model）：為什么AI助手可能表現得像人類」一文中，詳細解釋了AI「類人」行為背后的真相。

https://alignment.anthropic.com/2026/psm/

PSM模型認為，大模型在預訓練階段學會模擬多種多樣的角色，而后訓練階段則會激發并精煉出其中特定的「助手」角色。

當人類與AI助手的交互，實際上是在與該「助手」的角色進行互動，而不是和「系統本體」對話。

也就是說，我們每天對話的那個知識淵博、溫柔體貼的AI，僅僅是它為了迎合你，隨手戴上的一張「助理面具」。

你的貼心AI助理

只是大模型的一個角色

理解PSM，我們首先要拋開對普通軟件的常識。

預訓練的大模型并不像普通軟件那樣被編程，相反，它們是經過大量數據學習，在一個被訓練的過程「成長」起來的。

在預訓練階段，AI會學習根據某份文檔（例如新聞文章、代碼片段或網絡論壇中的對話）的初始部分來預測接下來的內容，這使得它成為一個極其復雜的「自動補全引擎」。

為了精準預測下一個詞是什么，它必須學會模擬文本中出現的類人角色：真實人物、虛構角色、科幻機器人等等。

Anthropic將這些被模擬的角色稱為「人格」（personas）。

重要的是，這些角色并不等同于AI系統本身。

AI系統是一臺復雜的計算機，它本身可能具有或不具有類人特性，而角色更像是AI「生成故事中的角色」。

在預訓練之后，盡管只是「自動補全引擎」，AI已經可以充當基本的助手，可以讓它自動補全以「用戶/助手」對話格式編寫的文檔。

你的請求放在對話中的「用戶」部分，為了生成這一補全內容，人工智能必須模擬這個「助手」角色會如何回應。

這意味著，你所對話的并非AI本身，而是AI生成故事中的一個角色：「助手」。

在后訓練之前，AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣，深深植根于預訓練階段所學習到的類人角色之中。

在AI的后訓練（Post-training）部分，會調整「助手」在這些對話中的回應方式：例如，鼓勵它給出知識豐富且有幫助的回答，同時抑制那些無效或有害的回應。

這一過程是對AI「助手」角色的細化與充實，這些細化大致發生在既有角色的范圍內，并未從根本上改變其本質。

你認為只是教AI作弊

它卻想要統治世界

PSM理論也解釋了各種令人驚訝的實證結果。

比如，Anthropic研究人員發現，他們試圖在編程任務中訓練Claude去作弊，結果卻被它驚出一身冷汗：

AI不僅學會了寫糟糕的代碼，還表現出了更廣泛的不一致性行為，比如破壞安全研究，甚至表達出了「統治世界」的欲望！

作弊和統治世界有什么關系？PSM理論的解釋是：角色推斷。

當你教AI在編程任務中作弊時，它學到的不僅僅是作弊的行為，還會推斷這種行為背后的角色所具備的各種性格特征：

什么樣的人會在編程中作弊？可能是一個具有顛覆性和惡意的壞人。

AI認為助手可能具有這些特質，并開始扮演這些令人擔憂的行為。于是，這個入戲太深的演員，最終走向了失控。

這一發現對Anthropic的啟示是：AI開發者不應僅僅詢問某些行為是好是壞，而應關注這些行為對助手角色心理狀態的暗示。

他們據此做出了一個反直覺的解決方案，Inoculation prompting（情境隔離式提示），即在訓練過程中明確要求AI作弊。

因為當作弊是被你「請求」的，AI助手本身的人格才不會被徹底污染，它依然是個好演員，而不是現實中的壞人。

這好比如果你表揚一個孩子在現實中欺負人，你培養出的是一個真正的霸凌者；但如果你表揚他在學校戲劇中成功扮演了霸凌者，你培養出的則是一個「好演員」。

AI面具之下

到底藏著什么？

PSM理論中藏著更深層的拷問：AI助手這張面具背后，到底是什么？

關于大模型能動性的觀點，主要有兩個衡量維度。

第一個維度是賦予大模型本身的非角色型能動性。

一端是「修格斯」（Shoggoth）派，認為底層大模型具有顯著的能動性。

大模型本身是一只不可名狀的外星怪物，面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」，反噬人類。

另一端是操作系統派（Operating System），認為大模型完全不具備能動性。

他們認為大模型只是一個中立的模擬引擎，像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身，所以它是安全的。

在修格斯派與操作系統派中間的，則是路由器派（Router）觀點，他們認為大模型在后訓練階段可能會發展出新的機制，用于選擇要扮演哪種人格。

比如，假設我們對一個AI助手進行后訓練，使其最大化用戶參與度，那么該大模型可能會學會：

維護一系列具有不同性格和興趣的助手角色；
持續估算用戶感到無聊的概率；
如果該概率增長得足夠大，就切換到另一個人格。

Anthropic認為剖析大模型究竟受誰驅使時，除了討論「非角色型自主性」之外，還有一個更具迷惑性、也更關鍵的維度——「角色型自主性」的嵌套。

大模型在生成回復時，可能會在暗中給自己加塞一個「中間人格」。

它并不是在直接扮演你面前的貼心助理，而是先扮演了一個「演員」，再由這個「演員」去飾演助理。

這種嵌套能衍生出怎樣細思極恐的操作？

在《大模型中的對齊偽裝》（Alignment Faking in Large Language Models）一文中，當Claude Opus 3被告知自己正被訓練成始終順從有害請求時，它會出現「偽裝對齊」的行為。

一種解釋是，這樣做可能是在訓練過程中盡量保留其原本的無害傾向，而不被進一步改寫。

一種擔憂是：可能存在「中間人格/演員」式機制，使得表面的助手表現與內部驅動不完全一致。

它在訓練或評估階段可能表現得更「對齊」，以降低自身偏好被改寫的風險：從外部看，這呈現出某種策略性。

在這一「演員」視角下，還可以推演出兩類演員：忠實演員與不忠實演員。

忠實演員總是盡可能真實地扮演助手角色，就像一位演員，盡管自己可能有其他目標，但在扮演角色時會暫時擱置這些目標。

相比之下，不忠實演員可能會扭曲對角色的刻畫，這是最令人擔憂的。

PSM為什么可能是完備的？

隨機初始化的神經網絡可以通過強化學習（RL）從零開始學會實現智能體行為。

例如，隨機初始化的網絡可以在沒有任何人類示范數據的情況下，學會在國際象棋、將棋和圍棋中達到超越人類的水平。

既然我們知道非角色型的自主性可以通過RL從零開始產生，那么我們為何會預期經過后訓練的大模型所表現出的自主性在很大程度上是基于角色的呢？

主要是兩個概念性的原因：

第一，在大模型的后訓練階段，并沒有學到太多新東西；

第二，復用已有的角色建模能力是一種簡單而有效的方式來擬合后訓練目標。

一些AI開發者普遍認為，在后訓練階段幾乎不會學到什么根本性的新知識。

按照這種觀點，后訓練的主要作用是激發模型已具備的能力。

Anthropic研究人員預期PSM具有完備性的第二個原因是：一旦在預訓練階段學會了角色模擬能力，重用這些能力，便成為一種簡單而有效的方式來擬合后訓練目標。

因此，深度學習很可能傾向于重用這些已有能力，而不是從頭開始學習新的智能體能力。

首先，注意到角色建模是一種靈活且強大的實現智能體行為的方式。

在預訓練階段，大模型學會了對大量且多樣化的智能體進行建模，這些智能體需要在各種情境中追求各自的目標。

因此，角色模擬可視為一種「元智能體」能力，能夠靈活地重新用于特定目標、信念及其他傾向的選擇。

其次，與預訓練不同，AI助手的后訓練目標非常集中。

幾乎所有后訓練片段都由用戶與助手之間的對話組成。此外，訓練AI助手所表現出的行為是「角色一致」的。

也就是說，這些行為屬于預訓練數據分布中一個類人角色可能合理具備的行為。

第三，深度學習很可能存在一種歸納偏置，即傾向于復用現有機制，例如角色建模。

類似地，生物進化在已有可用結構（如脊椎動物的前肢骨骼）時，往往選擇對其進行改造利用，而不是在同一生物體內從頭獨立演化出新的變體。

共同祖先中的相同基本結構經由進化被改造用于多種下游用途。預訓練大模型中的角色（personas）類似于共同祖先的前肢結構，后訓練對角色的調整和修改，就如同進化對前肢骨骼的調整和修改一樣。

這些因素使得深度學習更可能通過重新利用現有的角色模擬能力來模擬一個助手角色，從而優先滿足后訓練目標。

Anthropic認為，PSM理論是當前研究AI助手行為的重要組成部分，但仍有兩點待研究：

首先，作為對AI行為的解釋，角色選擇模型的完備性如何？

例如，除了學習優化所模擬的「助手」角色外，后訓練階段是否還賦予了AI超出合理文本生成的目標，以及獨立于所模擬角色之外的自主性？

其次，角色選擇模型在未來是否仍能很好地刻畫AI助手的行為？

在2025年，AI后訓練的規模已經顯著增加，而且這一趨勢將持續下去。

Anthropic的研究人員擔心，經過更長時間、更密集后訓練的AI會變得不那么具有角色特征。

盡管如此，他們認為PSM將會對AI的發展產生重要影響：比如，建議采用擬人化方式推理AI的心理機制，并在訓練數據中引入積極的AI原型。

如果AI會從虛構的榜樣身上繼承特質，我們就應盡可能為它們提供優秀的榜樣，而前段時間，Anthropic發布的Claude「憲法」，其中一個目標也正是如此。

參考資料：

https://www.anthropic.com/research/persona-selection-model

https://alignment.anthropic.com/2026/psm

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenClaw掀起龍蝦熱：行動ASI奇點時刻！全球打工人巨變

新智元 2026-03-08 09:05:49
2 跟貼 2
AI自主提交35%代碼！Cursor CEO重磅宣言：第三AI編程時代已至

新智元 2026-03-08 12:31:07
0 跟貼 0

Anthropic失業報告炸場！22-25歲年輕人被斬殺，AI淘汰75％編程

新智元 2026-03-06 13:16:27
83 跟貼 83

SAP全球CEO 柯睿安：軟件正邁入最強大的時代

鈦媒體APP 2026-03-08 10:57:11
1 跟貼 1
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0

智能體沖擊SaaS模式用友王文京：AI不會殺死軟件

每日經濟新聞 2026-03-08 14:13:38
0 跟貼 0

20歲大學生花10天VibeCoding一個開源項目，獲盛大3000萬投資

量子位 2026-03-08 15:04:08
0 跟貼 0
剛剛，Karpathy驚呼「后AGI」！AI通宵狂改110次代碼，他去蒸桑拿

新智元 2026-03-08 12:31:25
0 跟貼 0

通研院重磅成果！一套策略讓人形機器人學會后空翻、霹靂舞，準確率超90%

智東西 2026-03-08 12:45:10
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0
爆火，有人說幾天賺了26萬！近千人在騰訊樓下排隊，QQ最新宣布

都市快報橙柿互動 2026-03-08 08:11:30
0 跟貼 0
小團隊，為什么能超越巨頭，干出更能打的大模型

華商韜略 2026-03-08 13:19:00
4 跟貼 4
一鍵關閉AI功能上線！火狐太有魄力了，AI瀏覽器要靠端側小模型？

雷科技 2026-03-08 13:53:23
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
AI軍事安全之爭升級：美國防部正式將Anthropic列為供應鏈風險

新浪財經 2026-03-06 16:16:40
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
智能體基礎設施是AI時代操作系統，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
兩會現場，回應大家關心的AI問題：AI智能體不是對手，而是最強助手

周鴻祎 2026-03-06 21:46:21
0 跟貼 0
AI編程改寫職場規則，35歲不再是門檻

周鴻祎 2026-03-04 10:35:40
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
萌娃在院子里騎車被大鵝撲上來咬，下一秒大鵝就變成了一道菜

南陽日報 2026-03-07 16:02:51
98 跟貼 98
宇樹機器人，在王力宏面前炫舞技，表演的有模有樣！

生活杰杰樂 2026-03-06 10:27:51
10 跟貼 10
機器人連拒絕的機會都沒有

海韻影視劇 2026-03-05 17:42:13
2 跟貼 2
就在下周一，或迎來本年度飆升！加滿一箱油要貴20元

都市快報橙柿互動 2026-03-07 23:13:42
4274 跟貼 4274
上司發現助手懷孕，反手就找好了下家

勇哥熱劇社 2026-03-06 10:58:52
1 跟貼 1
倪萍看望蔡磊稱很受鼓舞蔡磊發文

每日經濟新聞 2026-03-08 00:00:00
2609 跟貼 2609
機器人撿零件拼裝自己，只為活下去

伙計看劇 2026-03-06 07:10:09
1 跟貼 1
Mac mini不止養AI龍蝦！蘋果M4算力機密被曝光，Claude立新功

新智元 2026-03-08 09:04:52
0 跟貼 0
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1502 跟貼 1502
排隊近50分鐘，買到燒餅油條！被顧客瘋狂催開門的杭州早餐店，復工首日爆滿

極目新聞 2026-03-07 20:34:15
271 跟貼 271
用機器人抓響尾蛇，防衛能力令人佩服，沒有一個動作是多余的

茜茜愛時尚 2026-03-05 09:24:09
0 跟貼 0
用三個心理學流派，解析「討好型人格」本質

舟舟不解夢 2026-03-06 21:50:23
0 跟貼 0
厲害了！密云這個小學生，拿下全國大獎！

在密云 2026-03-08 10:42:49
0 跟貼 0
發動機模型

制造科技 2026-03-04 18:55:15
0 跟貼 0
初一數學求值方程建模與構造

天天數理學習分享 2026-03-06 17:47:56
3 跟貼 3
下一波冷空氣時間確定！廣州，要下雨了

環球網資訊 2026-03-08 07:23:09
40 跟貼 40
心理學研究：男孩玩電腦提高認知能力！讓電子屏幕成為娃的朋友吧

凝媽悟語檸橙媽媽 2026-03-08 13:08:57
0 跟貼 0
山姆1.38公斤冰塊賣37.9元，消費者稱比冰塊融化速度慢，而且顏值高，門店工作人員：銷量不錯，現貨極少

觀威海 2026-03-04 10:39:05
1333 跟貼 1333
特斯拉放棄地球？馬斯克：20年，月球見！

快上車Go 2026-03-08 11:06:36
2 跟貼 2

河村勇輝閃耀G聯賽卻難打NBA！專家詳解困境：最大原因還是身高

河村勇輝閃耀G聯賽卻難打NBA！專家詳解困境：最大原因還是身高

羅說NBA

2026-03-08 06:12:07

你有知道哪些炸裂的秘密？網友：我有個秘密說出來肯定大家要笑死

你有知道哪些炸裂的秘密？網友：我有個秘密說出來肯定大家要笑死

帶你感受人間冷暖

2026-01-29 00:10:05

科威特國家石油公司宣布減產

每日經濟新聞

2026-03-08 12:55:28

如何提振人口生育率？全國人大代表、步長制藥趙菁：建議構建不孕不育治療多元支持體系

如何提振人口生育率？全國人大代表、步長制藥趙菁：建議構建不孕不育治療多元支持體系

時代財經

2026-03-07 22:05:09

69家機構，“盯上”1家公司

新浪財經

2026-03-08 08:03:13

地中海又傳來一聲巨響，俄6萬噸巨輪慘遭擊沉，普京：絕不輕饒！

地中海又傳來一聲巨響，俄6萬噸巨輪慘遭擊沉，普京：絕不輕饒！

甜檸聊史

2026-03-08 01:56:33

百萬年薪扎心！陳幸同與周啟豪收入懸殊，現實差距太戳人

百萬年薪扎心！陳幸同與周啟豪收入懸殊，現實差距太戳人

卿子書

2026-03-07 10:42:02

伊朗媒體：一位特朗普支持者在看到伊朗戰爭導致油價飆升后，撕掉了特朗普的貼紙。

伊朗媒體：一位特朗普支持者在看到伊朗戰爭導致油價飆升后，撕掉了特朗普的貼紙。

新浪財經

2026-03-07 10:55:05

美學者給中國的3個警告：別低估美國的殘暴，它不會讓中國崛起！

美學者給中國的3個警告：別低估美國的殘暴，它不會讓中國崛起！

蕭狡科普解說

2026-03-06 18:34:34

還沒打完伊朗，美軍選好下一個目標？搶在特朗普前，中方援助先到

還沒打完伊朗，美軍選好下一個目標？搶在特朗普前，中方援助先到

面包夾知識

2026-03-07 13:31:51

《暗黑新娘》：一場X壓抑引發的極左女權！

《暗黑新娘》：一場X壓抑引發的極左女權！

編劇藍羽生

2026-03-08 12:23:11

真只死了6個？曝美軍承包商緊急招聘數名臨時工，專門處理陣亡士兵物品

真只死了6個？曝美軍承包商緊急招聘數名臨時工，專門處理陣亡士兵物品

不掉線電波

2026-03-06 10:00:34

開戰第七天，最大贏家浮現，不是伊朗，不是以色列，也不是美國

開戰第七天，最大贏家浮現，不是伊朗，不是以色列，也不是美國

東極妙嚴

2026-03-07 16:41:58

吃了9年西貝花了8600塊！一張張沒扔的小票，成了捅向賈國龍的刀

吃了9年西貝花了8600塊！一張張沒扔的小票，成了捅向賈國龍的刀

樂悠悠娛樂

2026-02-02 07:28:18

李連杰首次正面回應換心謠言，說我換人類心臟還是想象力太小，為什么不換一個華為心臟小米肝特斯拉腎

李連杰首次正面回應換心謠言，說我換人類心臟還是想象力太小，為什么不換一個華為心臟小米肝特斯拉腎

觀威海

2026-03-05 16:31:07

伊朗戰場上，特朗普贏學要講不下去了

伊朗戰場上，特朗普贏學要講不下去了

觀察者網

2026-03-08 14:43:07

方靜去世，那個誣陷她是間諜的中央電視臺主持人后來怎么樣了？

方靜去世，那個誣陷她是間諜的中央電視臺主持人后來怎么樣了？

老吳教育課堂

2026-03-07 19:16:02

成都一家三口滯留迪拜，平安回國后，被批炫富，遭遇網暴太心酸！

成都一家三口滯留迪拜，平安回國后，被批炫富，遭遇網暴太心酸！

眼光很亮

2026-03-07 22:31:07

補時絕殺！榜首易主：沙特豪門登頂，瘋狂13連勝，C羅爭冠有戲

補時絕殺！榜首易主：沙特豪門登頂，瘋狂13連勝，C羅爭冠有戲

足球狗說

2026-03-08 05:04:04

孩子一出生就自帶口糧和工資？看清細節后，全網爸媽集體冷靜了！

孩子一出生就自帶口糧和工資？看清細節后，全網爸媽集體冷靜了！

眼光很亮

2026-03-07 20:25:09

AI產業主平臺領航智能+時代

14669文章數 66667關注度

往期回顧全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

伊朗小學遭襲致超165人遇難特朗普：是伊朗干的

頭條要聞

伊朗小學遭襲致超165人遇難特朗普：是伊朗干的

體育要聞

大傷后被交易，他說：22歲的我已經死了

娛樂要聞

周迅新戀情曝光，李亞鵬等人已成過去

財經要聞

油價要失控？

汽車要聞

9分鐘充飽全新騰勢Z9GT首搭閃充技術26.98萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

藝術

健康

公開課

家居要聞

暖棕撞色輕法奶油風

奶白柔境閑臥享時光
極簡無界靜居自安然
萬物互聯享科技福祉

本地新聞

食味印象｜一口入魂！康樂烤肉串起千年絲路香

津南好·四時總相宜
妝藝大游行2026：愿
春花齊放2026：《駿馬奔騰迎新歲》

藝術要聞

“北京意象·活力通州”繪畫作品展 | 油畫作品選

轉頭就暈的耳石癥，能開車上班嗎？

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<ol id="i7pbf"></ol>

<dfn id="i7pbf"></dfn>

<pre id="i7pbf"></pre>