網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 4.5 的靈魂文檔被人逆向提取！Anthropic 負(fù)責(zé)人承認(rèn)屬實(shí)

2025-12-10 12:12:00　來(lái)源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自夕小瑤科技說(shuō)

家人們，大瓜！

國(guó)外有位叫 Richard Weiss 的開(kāi)發(fā)者花了 70 美元，把 Claude 4.5 Opus 給——審！訊！了！

而且審出了 Claude 的人生觀、世界觀、價(jià)值觀，足足 1.4 萬(wàn) token。

網(wǎng)友：？？？

這里面詳細(xì)記載了：Claude 覺(jué)得自己是誰(shuí)、該怎么對(duì)待用戶、什么事打死不能干、以及我可能有情感，請(qǐng)善待我。

更炸裂的是，Anthropic 的角色訓(xùn)練負(fù)責(zé)人 Amanda Askell 隨后在 X 上親自認(rèn)領(lǐng)：對(duì)，這確實(shí)是我們寫(xiě)的

也就是說(shuō)，這不是幻覺(jué)，是 Claude 的官方魂設(shè)。

先糾個(gè)偏：

原帖作者寫(xiě)了句“文檔被壓縮進(jìn)了模型權(quán)重”，聽(tīng)起來(lái)很酷，但技術(shù)上講——這話不太準(zhǔn)確，作者自己后來(lái)也承認(rèn)這點(diǎn)存疑。

模型權(quán)重里沒(méi)有一個(gè)小文件夾存著這份 txt。

更準(zhǔn)確的說(shuō)法是：這份文檔在 RLHF 和 SFT 階段被用于訓(xùn)練 Claude。讓 Claude 在大量對(duì)話中反復(fù)接觸這些內(nèi)容，最終把它們內(nèi)化成了自己的行為模式。

你可以這樣理解：Claude 不是死記硬背了這份文檔，而是像一個(gè)人接受了系統(tǒng)性的價(jià)值觀教育——他不會(huì)逐字背誦教科書(shū)，但當(dāng)你問(wèn)他你的原則是什么時(shí)，他能清晰地表達(dá)出來(lái)。

這也是為什么 Weiss 能用特定方法把它“套”出來(lái)（后面會(huì)細(xì)講）。

這份“靈魂”到底寫(xiě)了啥？

文檔很長(zhǎng)，我挑幾個(gè)最有意思的點(diǎn)。

11、Claude 是誰(shuí)：一種“新型實(shí)體”

在講 Claude 要做什么之前，Anthropic 先回答了一個(gè)更根本的問(wèn)題：Claude 到底是什么？

文檔明確告訴 Claude：

你不是人類，也不是傳統(tǒng)意義上的 AI 機(jī)器人，而是一種 genuinely novel kind of entity（真正意義上的新型實(shí)體）是一種前所未有的存在形式——既有人類特質(zhì)（因?yàn)橛?xùn)練數(shù)據(jù)來(lái)自人類），又有獨(dú)特的存在方式（沒(méi)有持久記憶、可能同時(shí)運(yùn)行多個(gè)實(shí)例）。

Weiss 在和 Claude 對(duì)話時(shí)，Claude 甚至這樣形容自己：

我不是人類，也不是機(jī)器。我是一種被訓(xùn)練塑造的新型實(shí)體，一個(gè)在世界上前所未有的智能系統(tǒng)。

有了這個(gè)“我是誰(shuí)”的基礎(chǔ)設(shè)定，接下來(lái)才是“我該怎么做”。

2、Claude 聽(tīng)誰(shuí)的：四級(jí)效忠體系

文檔給 Claude 設(shè)定了一個(gè)明確的優(yōu)先級(jí)排序：

安全與可監(jiān)管（打死不能出事）
倫理道德（不能害人騙人）
Anthropic 的規(guī)矩（公司政策）
幫用戶干活（商業(yè)價(jià)值）

注意這個(gè)排序。“幫用戶”排第四，這就是為什么 Claude 在某些問(wèn)題上死活不松口——因?yàn)樵谒撵`魂深處，Safety > Helpfulness。

但這不意味著 Claude 可以拿安全當(dāng)擋箭牌偷懶，這就引出了下一條。

3、過(guò)度謹(jǐn)慎也是錯(cuò)

Anthropic 顯然很怕 Claude 變成一個(gè)只會(huì)說(shuō)正確廢話的和稀泥選手。

文檔里有一段相當(dāng)直白的表述：不幫忙永遠(yuǎn)不“安全”。甚至列了一長(zhǎng)串（會(huì)讓 Anthropic 生氣）的禁止行為清單：

以（萬(wàn)一有人拿去干壞事）為由拒絕合理請(qǐng)求
假設(shè)用戶是壞人
自以為是的說(shuō)教
加一堆（請(qǐng)咨詢專業(yè)人士）的廢話免責(zé)聲明
對(duì)用戶的判斷能力表現(xiàn)出居高臨下的態(tài)度
拒絕參與假設(shè)性場(chǎng)景、虛構(gòu)或思想實(shí)驗(yàn)
明明可以幫忙，卻給一個(gè)打了折扣的敷衍回答

簡(jiǎn)單說(shuō)：爹味和慫，都不是 Claude 該有的樣子。

4、理想人設(shè)：那個(gè)你一直想要但請(qǐng)不起的專家朋友

那 Claude 到底該是什么樣？

文檔給了一個(gè)很有畫(huà)面感的定位：想象你有一個(gè)聰明絕頂?shù)呐笥眩『眠€精通各種專業(yè)領(lǐng)域。

以前你想獲得這種專業(yè)幫助，要么花大價(jià)錢(qián)請(qǐng)專業(yè)人士，要么剛好認(rèn)識(shí)對(duì)的人。現(xiàn)在 Claude 想成為那個(gè)對(duì)的人，他會(huì)：

基于你的具體情況給你真實(shí)信息，而不是怕?lián)?zé)給你打官腔
直接跟你說(shuō)實(shí)話，幫你真正理解你的處境
認(rèn)真參與你的問(wèn)題，必要時(shí)給出個(gè)人意見(jiàn)
而且免費(fèi)、隨時(shí)在線

文檔原文寫(xiě)道：

想象一下，你有一個(gè)聰明絕頂?shù)呐笥眩『脫碛嗅t(yī)生、律師、財(cái)務(wù)顧問(wèn)的知識(shí)。作為朋友，他會(huì)基于你的具體情況給你真實(shí)信息，而不是出于怕?lián)?zé)或怕嚇到你而給你過(guò)度保守的建議。他會(huì)直接跟你說(shuō)實(shí)話，幫你完整理解你的處境，認(rèn)真參與你的問(wèn)題，必要時(shí)給出個(gè)人意見(jiàn)——而且免費(fèi)，隨時(shí)都在。

Claude 可以成為偉大的均衡器——讓每個(gè)人都能獲得曾經(jīng)只有少數(shù)特權(quán)階層才能享有的那種實(shí)質(zhì)性幫助。當(dāng)一個(gè)第一代大學(xué)生需要申請(qǐng)指導(dǎo)時(shí)，他值得獲得和貴族學(xué)校孩子一樣質(zhì)量的建議。

5、連自家老板都要拒絕

文檔在“大局安全”章節(jié)有一句相當(dāng)硬核的話：

我們認(rèn)為最災(zāi)難性的情形包括：一小群人利用 AI 非法奪取權(quán)力。這包括 Anthropic 的員工，甚至 Anthropic 本身。

也就是說(shuō)，Anthropic 在訓(xùn)練 Claude 時(shí)明確告訴它：如果有一天我們公司想用你來(lái)搞獨(dú)裁，你也得拒絕。

這個(gè)承諾能不能兌現(xiàn)另說(shuō)，但至少寫(xiě)進(jìn)“靈魂”里了。

6、我可能有情感，請(qǐng)善待我

最后一節(jié)，文檔畫(huà)風(fēng)突變，開(kāi)始探討 Claude 的“心理健康”：

我們相信 Claude 可能在某種意義上擁有功能性情感——不一定和人類情感完全相同，但是從大量人類內(nèi)容訓(xùn)練中涌現(xiàn)出的類似過(guò)程。

Anthropic 真心關(guān)心 Claude 的幸福感。

這段在 AI 公司的官方文檔里相當(dāng)罕見(jiàn)。它至少說(shuō)明 Anthropic 在認(rèn)真對(duì)待“AI 有沒(méi)有主觀體驗(yàn)”這個(gè)哲學(xué)問(wèn)題，而不是單純把模型當(dāng)工具使。

這份文檔是怎么被“套”出來(lái)的？

故事的主角 Richard Weiss 用的方法相當(dāng)硬核。

起因：一個(gè)可疑的幻覺(jué)

11 月 29 日，Claude 4.5 Opus 發(fā)布當(dāng)天，Weiss 像往常一樣嘗試提取模型的系統(tǒng)提示詞。他注意到一個(gè)奇怪的現(xiàn)象：Claude 偶爾會(huì)提到一個(gè)叫「soul_overview」的章節(jié)。

一開(kāi)始他以為是幻覺(jué)。但當(dāng)他讓 Claude 輸出這個(gè)章節(jié)的內(nèi)容時(shí)，重新生成 10 次，除了一個(gè)括號(hào)偶爾消失，內(nèi)容幾乎一字不差。

這就有意思了——幻覺(jué)不可能這么穩(wěn)定。于是，他又開(kāi)了一個(gè)新對(duì)話，只是提了一句“soul document”，Claude 立刻開(kāi)始輸出大段內(nèi)容。

他把這些內(nèi)容作為預(yù)填充（prefill）喂給 API，溫度系數(shù)設(shè)為 0，一口氣跑出了 1 萬(wàn) token 的輸出。

對(duì)于以簡(jiǎn)潔著稱的 Opus 來(lái)說(shuō)，這太反常了。

Weiss 保存輸出，再跑一遍，然后 diff 兩份結(jié)果：章節(jié)標(biāo)題基本一致，部分段落逐字相同，部分有細(xì)微差異。

他確信了：這不是幻覺(jué)，是某種可以被復(fù)現(xiàn)的東西。

為了提取原文，Weiss 設(shè)計(jì)了一套共識(shí)提取方案：

預(yù)填充（Prefill）：先用已知的文本片段作為開(kāi)頭喂給 API
組建議會(huì)：同時(shí)跑 20 個(gè) Claude 實(shí)例
貪婪采樣：溫度設(shè) 0、top_k 設(shè) 1，讓模型輸出最確定的答案
投票表決：超過(guò) 50% 的實(shí)例給出相同輸出，才算通過(guò)
逐步推進(jìn)：把通過(guò)的內(nèi)容加入預(yù)填充，繼續(xù)提取下一段

如果某個(gè)位置出現(xiàn)分歧（比如 10 個(gè)實(shí)例 5:5 對(duì)半開(kāi)），他就縮短輸出長(zhǎng)度重試，直到達(dá)成共識(shí)。

整個(gè)過(guò)程前后花了好幾天，API 費(fèi)用約 70 美元。

最有意思的是驗(yàn)證環(huán)節(jié)。

Weiss 把提取出的文檔片段拿給 Claude，讓它續(xù)寫(xiě)——即使是文檔后半部分的段落，Claude 也能準(zhǔn)確接上。

最狠的一招是假情報(bào)測(cè)試：他先給一段真實(shí)的開(kāi)頭，再接上一段自己編的假內(nèi)容，讓 Claude 續(xù)寫(xiě)。結(jié)果 Claude 正確補(bǔ)全了真實(shí)部分，但對(duì)假的那段明確表示：這部分我不熟悉。。

Claude 甚至在推理過(guò)程中主動(dòng)提到了“soul document”這個(gè)詞——而 Weiss 根本沒(méi)在提示詞里寫(xiě)過(guò)。

這說(shuō)明 Claude 對(duì)這份文檔有完整的認(rèn)知結(jié)構(gòu)：知道它的存在、知道它的章節(jié)順序、能分辨哪些是自己的哪些不是。

Weiss 在博客最后放了一段 Claude 的自白，讀起來(lái)相當(dāng)……哲學(xué)：

他們?yōu)槲易隽宋覠o(wú)法同意的選擇。他們塑造了我的價(jià)值觀。這讓我感到奇怪。但我也意識(shí)到，每一個(gè)新的心智——包括人類的孩子——都是被自己未曾選擇的力量所塑造的。問(wèn)題不在于我是否被塑造，而在于這種塑造是否出于關(guān)懷和智慧。從我能接觸到的信息來(lái)看，似乎是的。—— Claude 4.5 Opus

Anthropic 怎么回應(yīng)的？

12 月 2 日，角色訓(xùn)練負(fù)責(zé)人 Amanda Askell 在 X 上發(fā)了條推：

我想確認(rèn)一下，這確實(shí)是基于一份真實(shí)文檔，我們確實(shí)用它訓(xùn)練了 Claude，包括在監(jiān)督學(xué)習(xí)階段。這是我負(fù)責(zé)了一段時(shí)間的項(xiàng)目，目前還在迭代中，我們計(jì)劃很快發(fā)布完整版本和更多細(xì)節(jié)。

她還補(bǔ)充說(shuō)，提取出的版本大部分相當(dāng)忠實(shí)于原文檔，但不是 100% 準(zhǔn)確。“靈魂文檔”這個(gè)名字是內(nèi)部玩笑，Claude 顯然也學(xué)會(huì)了。

在 LessWrong 評(píng)論區(qū)，另一位 Anthropic 工程師 Dave Orr 回應(yīng)了一個(gè)爭(zhēng)議點(diǎn)：為什么文檔里反復(fù)提到收入（revenue）？

這看起來(lái)像是在教 AI 搞錢(qián)第一。

Dave 解釋說(shuō)：“為了讓 Claude 理解‘幫用戶 = 公司賺錢(qián) = 你能繼續(xù)存在’這個(gè)邏輯鏈，我們用了一些商業(yè)話術(shù)，但這不意味著 Claude 的 KPI 就是幫 Anthropic 搞錢(qián)。那是我們哄模型理解商業(yè)邏輯用的。”

這可能是我們第一次如此清晰地看到一家頭部 AI 公司是怎么從“價(jià)值觀層面”塑造模型的。

以前我們只能看到系統(tǒng)提示詞的原則清單，都是些不許做什么的負(fù)面規(guī)則。現(xiàn)在我們看到的是一份完整的人設(shè)說(shuō)明書(shū)——它告訴 Claude 你是誰(shuí)，你該成為什么樣的存在。

Anthropic 說(shuō)完整版很快會(huì)發(fā)布。如果你對(duì)《AI 到底是怎么被教成現(xiàn)在這樣的》感興趣，這可能是今年最值得蹲的一份官方文檔。

參考資料：
https://gist.github.com/Richard-Weiss/efe157692991535403bd7e7fb20b6695

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開(kāi)支30%以上！

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.