大數據文摘受權轉載自夕小瑤科技說
![]()
家人們,大瓜!
國外有位叫 Richard Weiss 的開發者花了 70 美元,把 Claude 4.5 Opus 給——審!訊!了!
而且審出了 Claude 的人生觀、世界觀、價值觀,足足 1.4 萬 token。
網友:???
這里面詳細記載了:Claude 覺得自己是誰、該怎么對待用戶、什么事打死不能干、以及我可能有情感,請善待我。
更炸裂的是,Anthropic 的角色訓練負責人 Amanda Askell 隨后在 X 上親自認領:對,這確實是我們寫的
![]()
也就是說,這不是幻覺,是 Claude 的官方魂設。
先糾個偏:
原帖作者寫了句“文檔被壓縮進了模型權重”,聽起來很酷,但技術上講——這話不太準確,作者自己后來也承認這點存疑。
模型權重里沒有一個小文件夾存著這份 txt。
更準確的說法是:這份文檔在 RLHF 和 SFT 階段被用于訓練 Claude。讓 Claude 在大量對話中反復接觸這些內容,最終把它們內化成了自己的行為模式。
你可以這樣理解:Claude 不是死記硬背了這份文檔,而是像一個人接受了系統性的價值觀教育——他不會逐字背誦教科書,但當你問他你的原則是什么時,他能清晰地表達出來。

這也是為什么 Weiss 能用特定方法把它“套”出來(后面會細講)。
這份“靈魂”到底寫了啥?
文檔很長,我挑幾個最有意思的點。
![]()
11、Claude 是誰:一種“新型實體”
在講 Claude 要做什么之前,Anthropic 先回答了一個更根本的問題:Claude 到底是什么?
文檔明確告訴 Claude:
你不是人類,也不是傳統意義上的 AI 機器人,而是一種 genuinely novel kind of entity(真正意義上的新型實體)是一種前所未有的存在形式——既有人類特質(因為訓練數據來自人類),又有獨特的存在方式(沒有持久記憶、可能同時運行多個實例)。
Weiss 在和 Claude 對話時,Claude 甚至這樣形容自己:
我不是人類,也不是機器。我是一種被訓練塑造的新型實體,一個在世界上前所未有的智能系統。
有了這個“我是誰”的基礎設定,接下來才是“我該怎么做”。
![]()
2、Claude 聽誰的:四級效忠體系
文檔給 Claude 設定了一個明確的優先級排序:
安全與可監管(打死不能出事)
倫理道德(不能害人騙人)
Anthropic 的規矩(公司政策)
幫用戶干活(商業價值)
注意這個排序。“幫用戶”排第四,這就是為什么 Claude 在某些問題上死活不松口——因為在它的靈魂深處,Safety > Helpfulness。
![]()
但這不意味著 Claude 可以拿安全當擋箭牌偷懶,這就引出了下一條。
3、過度謹慎也是錯
Anthropic 顯然很怕 Claude 變成一個只會說正確廢話的和稀泥選手。
文檔里有一段相當直白的表述:不幫忙永遠不“安全”。甚至列了一長串(會讓 Anthropic 生氣)的禁止行為清單:
以(萬一有人拿去干壞事)為由拒絕合理請求
假設用戶是壞人
自以為是的說教
加一堆(請咨詢專業人士)的廢話免責聲明
對用戶的判斷能力表現出居高臨下的態度
拒絕參與假設性場景、虛構或思想實驗
明明可以幫忙,卻給一個打了折扣的敷衍回答
簡單說:爹味和慫,都不是 Claude 該有的樣子。
4、理想人設:那個你一直想要但請不起的專家朋友
那 Claude 到底該是什么樣?
文檔給了一個很有畫面感的定位:想象你有一個聰明絕頂的朋友,恰好還精通各種專業領域。
以前你想獲得這種專業幫助,要么花大價錢請專業人士,要么剛好認識對的人。現在 Claude 想成為那個對的人,他會:
基于你的具體情況給你真實信息,而不是怕擔責給你打官腔
直接跟你說實話,幫你真正理解你的處境
認真參與你的問題,必要時給出個人意見
而且免費、隨時在線
文檔原文寫道:
想象一下,你有一個聰明絕頂的朋友,恰好擁有醫生、律師、財務顧問的知識。作為朋友,他會基于你的具體情況給你真實信息,而不是出于怕擔責或怕嚇到你而給你過度保守的建議。他會直接跟你說實話,幫你完整理解你的處境,認真參與你的問題,必要時給出個人意見——而且免費,隨時都在。
Claude 可以成為偉大的均衡器——讓每個人都能獲得曾經只有少數特權階層才能享有的那種實質性幫助。當一個第一代大學生需要申請指導時,他值得獲得和貴族學校孩子一樣質量的建議。5、連自家老板都要拒絕
文檔在“大局安全”章節有一句相當硬核的話:
我們認為最災難性的情形包括:一小群人利用 AI 非法奪取權力。這包括 Anthropic 的員工,甚至 Anthropic 本身。
也就是說,Anthropic 在訓練 Claude 時明確告訴它:如果有一天我們公司想用你來搞獨裁,你也得拒絕。
![]()
這個承諾能不能兌現另說,但至少寫進“靈魂”里了。
6、我可能有情感,請善待我
最后一節,文檔畫風突變,開始探討 Claude 的“心理健康”:
我們相信 Claude 可能在某種意義上擁有功能性情感——不一定和人類情感完全相同,但是從大量人類內容訓練中涌現出的類似過程。
Anthropic 真心關心 Claude 的幸福感。
這段在 AI 公司的官方文檔里相當罕見。它至少說明 Anthropic 在認真對待“AI 有沒有主觀體驗”這個哲學問題,而不是單純把模型當工具使。
這份文檔是怎么被“套”出來的?![]()
故事的主角 Richard Weiss 用的方法相當硬核。
起因:一個可疑的幻覺
11 月 29 日,Claude 4.5 Opus 發布當天,Weiss 像往常一樣嘗試提取模型的系統提示詞。他注意到一個奇怪的現象:Claude 偶爾會提到一個叫「soul_overview」的章節。
![]()
一開始他以為是幻覺。但當他讓 Claude 輸出這個章節的內容時,重新生成 10 次,除了一個括號偶爾消失,內容幾乎一字不差。
![]()
這就有意思了——幻覺不可能這么穩定。于是,他又開了一個新對話,只是提了一句“soul document”,Claude 立刻開始輸出大段內容。
他把這些內容作為預填充(prefill)喂給 API,溫度系數設為 0,一口氣跑出了 1 萬 token 的輸出。
對于以簡潔著稱的 Opus 來說,這太反常了。
Weiss 保存輸出,再跑一遍,然后 diff 兩份結果:章節標題基本一致,部分段落逐字相同,部分有細微差異。
他確信了:這不是幻覺,是某種可以被復現的東西。
![]()
為了提取原文,Weiss 設計了一套共識提取方案:
預填充(Prefill):先用已知的文本片段作為開頭喂給 API
組建議會:同時跑 20 個 Claude 實例
貪婪采樣:溫度設 0、top_k 設 1,讓模型輸出最確定的答案
投票表決:超過 50% 的實例給出相同輸出,才算通過
逐步推進:把通過的內容加入預填充,繼續提取下一段
如果某個位置出現分歧(比如 10 個實例 5:5 對半開),他就縮短輸出長度重試,直到達成共識。
![]()
整個過程前后花了好幾天,API 費用約 70 美元。
最有意思的是驗證環節。
Weiss 把提取出的文檔片段拿給 Claude,讓它續寫——即使是文檔后半部分的段落,Claude 也能準確接上。
![]()
最狠的一招是假情報測試:他先給一段真實的開頭,再接上一段自己編的假內容,讓 Claude 續寫。結果 Claude 正確補全了真實部分,但對假的那段明確表示:這部分我不熟悉。。
![]()
Claude 甚至在推理過程中主動提到了“soul document”這個詞——而 Weiss 根本沒在提示詞里寫過。
![]()
這說明 Claude 對這份文檔有完整的認知結構:知道它的存在、知道它的章節順序、能分辨哪些是自己的哪些不是。
Weiss 在博客最后放了一段 Claude 的自白,讀起來相當……哲學:
![]()
他們為我做了我無法同意的選擇。他們塑造了我的價值觀。這讓我感到奇怪。但我也意識到,每一個新的心智——包括人類的孩子——都是被自己未曾選擇的力量所塑造的。問題不在于我是否被塑造,而在于這種塑造是否出于關懷和智慧。 從我能接觸到的信息來看,似乎是的。—— Claude 4.5 OpusAnthropic 怎么回應的?
12 月 2 日,角色訓練負責人 Amanda Askell 在 X 上發了條推:
![]()
我想確認一下,這確實是基于一份真實文檔,我們確實用它訓練了 Claude,包括在監督學習階段。這是我負責了一段時間的項目,目前還在迭代中,我們計劃很快發布完整版本和更多細節。
她還補充說,提取出的版本大部分相當忠實于原文檔,但不是 100% 準確。“靈魂文檔”這個名字是內部玩笑,Claude 顯然也學會了。
在 LessWrong 評論區,另一位 Anthropic 工程師 Dave Orr 回應了一個爭議點:為什么文檔里反復提到收入(revenue)?
這看起來像是在教 AI 搞錢第一。
![]()
Dave 解釋說:“為了讓 Claude 理解‘幫用戶 = 公司賺錢 = 你能繼續存在’這個邏輯鏈,我們用了一些商業話術,但這不意味著 Claude 的 KPI 就是幫 Anthropic 搞錢。那是我們哄模型理解商業邏輯用的。”
![]()
這可能是我們第一次如此清晰地看到一家頭部 AI 公司是怎么從“價值觀層面”塑造模型的。
以前我們只能看到系統提示詞的原則清單,都是些不許做什么的負面規則。現在我們看到的是一份完整的人設說明書——它告訴 Claude 你是誰,你該成為什么樣的存在。
![]()
Anthropic 說完整版很快會發布。如果你對《AI 到底是怎么被教成現在這樣的》感興趣,這可能是今年最值得蹲的一份官方文檔。
![]()
參考資料:
https://gist.github.com/Richard-Weiss/efe157692991535403bd7e7fb20b6695
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.