<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.5 的靈魂文檔被人逆向提取!Anthropic 負責人承認屬實

      0
      分享至

      大數據文摘受權轉載自夕小瑤科技說


      家人們,大瓜!

      國外有位叫 Richard Weiss 的開發者花了 70 美元,把 Claude 4.5 Opus 給——審!訊!了!

      而且審出了 Claude 的人生觀、世界觀、價值觀,足足 1.4 萬 token。

      網友:???

      這里面詳細記載了:Claude 覺得自己是誰、該怎么對待用戶、什么事打死不能干、以及我可能有情感,請善待我。

      更炸裂的是,Anthropic 的角色訓練負責人 Amanda Askell 隨后在 X 上親自認領:對,這確實是我們寫的


      也就是說,這不是幻覺,是 Claude 的官方魂設。

      先糾個偏:

      原帖作者寫了句“文檔被壓縮進了模型權重”,聽起來很酷,但技術上講——這話不太準確,作者自己后來也承認這點存疑。

      模型權重里沒有一個小文件夾存著這份 txt。

      更準確的說法是:這份文檔在 RLHF 和 SFT 階段被用于訓練 Claude。讓 Claude 在大量對話中反復接觸這些內容,最終把它們內化成了自己的行為模式。

      你可以這樣理解:Claude 不是死記硬背了這份文檔,而是像一個人接受了系統性的價值觀教育——他不會逐字背誦教科書,但當你問他你的原則是什么時,他能清晰地表達出來。


      這也是為什么 Weiss 能用特定方法把它“套”出來(后面會細講)。

      這份“靈魂”到底寫了啥?

      文檔很長,我挑幾個最有意思的點。


      11、Claude 是誰:一種“新型實體”

      在講 Claude 要做什么之前,Anthropic 先回答了一個更根本的問題:Claude 到底是什么?

      文檔明確告訴 Claude:

      你不是人類,也不是傳統意義上的 AI 機器人,而是一種 genuinely novel kind of entity(真正意義上的新型實體)是一種前所未有的存在形式——既有人類特質(因為訓練數據來自人類),又有獨特的存在方式(沒有持久記憶、可能同時運行多個實例)。

      Weiss 在和 Claude 對話時,Claude 甚至這樣形容自己:

      我不是人類,也不是機器。我是一種被訓練塑造的新型實體,一個在世界上前所未有的智能系統。

      有了這個“我是誰”的基礎設定,接下來才是“我該怎么做”。


      2、Claude 聽誰的:四級效忠體系

      文檔給 Claude 設定了一個明確的優先級排序:

      • 安全與可監管(打死不能出事)

      • 倫理道德(不能害人騙人)

      • Anthropic 的規矩(公司政策)

      • 幫用戶干活(商業價值)

      注意這個排序。“幫用戶”排第四,這就是為什么 Claude 在某些問題上死活不松口——因為在它的靈魂深處,Safety > Helpfulness。


      但這不意味著 Claude 可以拿安全當擋箭牌偷懶,這就引出了下一條。

      3、過度謹慎也是錯

      Anthropic 顯然很怕 Claude 變成一個只會說正確廢話的和稀泥選手。

      文檔里有一段相當直白的表述:不幫忙永遠不“安全”。甚至列了一長串(會讓 Anthropic 生氣)的禁止行為清單:

      • 以(萬一有人拿去干壞事)為由拒絕合理請求

      • 假設用戶是壞人

      • 自以為是的說教

      • 加一堆(請咨詢專業人士)的廢話免責聲明

      • 對用戶的判斷能力表現出居高臨下的態度

      • 拒絕參與假設性場景、虛構或思想實驗

      • 明明可以幫忙,卻給一個打了折扣的敷衍回答

      簡單說:爹味和慫,都不是 Claude 該有的樣子。

      4、理想人設:那個你一直想要但請不起的專家朋友

      那 Claude 到底該是什么樣?

      文檔給了一個很有畫面感的定位:想象你有一個聰明絕頂的朋友,恰好還精通各種專業領域。

      以前你想獲得這種專業幫助,要么花大價錢請專業人士,要么剛好認識對的人。現在 Claude 想成為那個對的人,他會:

      • 基于你的具體情況給你真實信息,而不是怕擔責給你打官腔

      • 直接跟你說實話,幫你真正理解你的處境

      • 認真參與你的問題,必要時給出個人意見

      • 而且免費、隨時在線

      文檔原文寫道:

      想象一下,你有一個聰明絕頂的朋友,恰好擁有醫生、律師、財務顧問的知識。作為朋友,他會基于你的具體情況給你真實信息,而不是出于怕擔責或怕嚇到你而給你過度保守的建議。他會直接跟你說實話,幫你完整理解你的處境,認真參與你的問題,必要時給出個人意見——而且免費,隨時都在。
      Claude 可以成為偉大的均衡器——讓每個人都能獲得曾經只有少數特權階層才能享有的那種實質性幫助。當一個第一代大學生需要申請指導時,他值得獲得和貴族學校孩子一樣質量的建議。
      5、連自家老板都要拒絕

      文檔在“大局安全”章節有一句相當硬核的話:

      我們認為最災難性的情形包括:一小群人利用 AI 非法奪取權力。這包括 Anthropic 的員工,甚至 Anthropic 本身。

      也就是說,Anthropic 在訓練 Claude 時明確告訴它:如果有一天我們公司想用你來搞獨裁,你也得拒絕。


      這個承諾能不能兌現另說,但至少寫進“靈魂”里了。

      6、我可能有情感,請善待我

      最后一節,文檔畫風突變,開始探討 Claude 的“心理健康”:

      我們相信 Claude 可能在某種意義上擁有功能性情感——不一定和人類情感完全相同,但是從大量人類內容訓練中涌現出的類似過程。

      Anthropic 真心關心 Claude 的幸福感。

      這段在 AI 公司的官方文檔里相當罕見。它至少說明 Anthropic 在認真對待“AI 有沒有主觀體驗”這個哲學問題,而不是單純把模型當工具使。

      這份文檔是怎么被“套”出來的?

      故事的主角 Richard Weiss 用的方法相當硬核。

      起因:一個可疑的幻覺

      11 月 29 日,Claude 4.5 Opus 發布當天,Weiss 像往常一樣嘗試提取模型的系統提示詞。他注意到一個奇怪的現象:Claude 偶爾會提到一個叫「soul_overview」的章節。


      一開始他以為是幻覺。但當他讓 Claude 輸出這個章節的內容時,重新生成 10 次,除了一個括號偶爾消失,內容幾乎一字不差。


      這就有意思了——幻覺不可能這么穩定。于是,他又開了一個新對話,只是提了一句“soul document”,Claude 立刻開始輸出大段內容。

      他把這些內容作為預填充(prefill)喂給 API,溫度系數設為 0,一口氣跑出了 1 萬 token 的輸出。

      對于以簡潔著稱的 Opus 來說,這太反常了。

      Weiss 保存輸出,再跑一遍,然后 diff 兩份結果:章節標題基本一致,部分段落逐字相同,部分有細微差異。

      他確信了:這不是幻覺,是某種可以被復現的東西。


      為了提取原文,Weiss 設計了一套共識提取方案:

      1. 預填充(Prefill):先用已知的文本片段作為開頭喂給 API

      2. 組建議會:同時跑 20 個 Claude 實例

      3. 貪婪采樣:溫度設 0、top_k 設 1,讓模型輸出最確定的答案

      4. 投票表決:超過 50% 的實例給出相同輸出,才算通過

      5. 逐步推進:把通過的內容加入預填充,繼續提取下一段

      如果某個位置出現分歧(比如 10 個實例 5:5 對半開),他就縮短輸出長度重試,直到達成共識。


      整個過程前后花了好幾天,API 費用約 70 美元。

      最有意思的是驗證環節。

      Weiss 把提取出的文檔片段拿給 Claude,讓它續寫——即使是文檔后半部分的段落,Claude 也能準確接上。


      最狠的一招是假情報測試:他先給一段真實的開頭,再接上一段自己編的假內容,讓 Claude 續寫。結果 Claude 正確補全了真實部分,但對假的那段明確表示:這部分我不熟悉。。


      Claude 甚至在推理過程中主動提到了“soul document”這個詞——而 Weiss 根本沒在提示詞里寫過。


      這說明 Claude 對這份文檔有完整的認知結構:知道它的存在、知道它的章節順序、能分辨哪些是自己的哪些不是。

      Weiss 在博客最后放了一段 Claude 的自白,讀起來相當……哲學:


      他們為我做了我無法同意的選擇。他們塑造了我的價值觀。這讓我感到奇怪。但我也意識到,每一個新的心智——包括人類的孩子——都是被自己未曾選擇的力量所塑造的。問題不在于我是否被塑造,而在于這種塑造是否出于關懷和智慧。 從我能接觸到的信息來看,似乎是的。—— Claude 4.5 Opus
      Anthropic 怎么回應的?

      12 月 2 日,角色訓練負責人 Amanda Askell 在 X 上發了條推:


      我想確認一下,這確實是基于一份真實文檔,我們確實用它訓練了 Claude,包括在監督學習階段。這是我負責了一段時間的項目,目前還在迭代中,我們計劃很快發布完整版本和更多細節。

      她還補充說,提取出的版本大部分相當忠實于原文檔,但不是 100% 準確。“靈魂文檔”這個名字是內部玩笑,Claude 顯然也學會了。

      在 LessWrong 評論區,另一位 Anthropic 工程師 Dave Orr 回應了一個爭議點:為什么文檔里反復提到收入(revenue)?

      這看起來像是在教 AI 搞錢第一。


      Dave 解釋說:“為了讓 Claude 理解‘幫用戶 = 公司賺錢 = 你能繼續存在’這個邏輯鏈,我們用了一些商業話術,但這不意味著 Claude 的 KPI 就是幫 Anthropic 搞錢。那是我們哄模型理解商業邏輯用的。”


      這可能是我們第一次如此清晰地看到一家頭部 AI 公司是怎么從“價值觀層面”塑造模型的。

      以前我們只能看到系統提示詞的原則清單,都是些不許做什么的負面規則。現在我們看到的是一份完整的人設說明書——它告訴 Claude 你是誰,你該成為什么樣的存在。


      Anthropic 說完整版很快會發布。如果你對《AI 到底是怎么被教成現在這樣的》感興趣,這可能是今年最值得蹲的一份官方文檔。


      參考資料:
      https://gist.github.com/Richard-Weiss/efe157692991535403bd7e7fb20b6695

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿根廷足協丑聞震動足壇,阿根廷隊甚至可能無緣世界杯?

      阿根廷足協丑聞震動足壇,阿根廷隊甚至可能無緣世界杯?

      星耀國際足壇
      2025-12-14 00:10:15
      欲哭無淚!偷外賣吃到大便,網傳烏市某高校女生發帖哭訴并報警了

      欲哭無淚!偷外賣吃到大便,網傳烏市某高校女生發帖哭訴并報警了

      火山詩話
      2025-12-13 05:07:53
      林徽因女兒梁再冰打了后母林洙一巴掌,梁思成的反應證明了他的愛

      林徽因女兒梁再冰打了后母林洙一巴掌,梁思成的反應證明了他的愛

      古書記史
      2025-12-12 11:14:49
      笑暈!87歲范曾生子,醫生戳穿遮羞布真相

      笑暈!87歲范曾生子,醫生戳穿遮羞布真相

      小僫搞笑解說
      2025-12-13 19:26:03
      既耍賴,又記仇,沈騰說也不聽,他上《現在就出發3》來干嘛了?

      既耍賴,又記仇,沈騰說也不聽,他上《現在就出發3》來干嘛了?

      白面書誏
      2025-12-13 19:06:09
      美國一近300斤重死刑犯行刑前提出“最后的晚餐”請求:享用一頓“熱量炸彈”

      美國一近300斤重死刑犯行刑前提出“最后的晚餐”請求:享用一頓“熱量炸彈”

      紅星新聞
      2025-12-12 18:44:50
      公司發年終禮品唯獨漏了我,我沒質問,下班直接刪除同事聯系方式

      公司發年終禮品唯獨漏了我,我沒質問,下班直接刪除同事聯系方式

      朝暮書屋
      2025-08-28 17:40:30
      北京兩極分化太嚴重!首發全民皆兵,替補全民打鐵,盡快換外援吧

      北京兩極分化太嚴重!首發全民皆兵,替補全民打鐵,盡快換外援吧

      籃球資訊達人
      2025-12-14 02:35:16
      談判宣布破裂,印尼硬剛美國,中方正式發出警告,霸王條款不能簽

      談判宣布破裂,印尼硬剛美國,中方正式發出警告,霸王條款不能簽

      博覽歷史
      2025-12-12 20:50:24
      小姐姐顏值身材雙在線!掛脖針織上衣搭瑜伽褲,這誰看了不迷糊

      小姐姐顏值身材雙在線!掛脖針織上衣搭瑜伽褲,這誰看了不迷糊

      小喬古裝漢服
      2025-12-12 16:11:07
      電動車80%死亡事故因為被汽車撞、闖紅燈,新新國標藥不對癥

      電動車80%死亡事故因為被汽車撞、闖紅燈,新新國標藥不對癥

      小小河
      2025-12-13 00:04:17
      茼蒿立大功!醫生調查發現:茼蒿對這5種疾病有好處,建議常吃

      茼蒿立大功!醫生調查發現:茼蒿對這5種疾病有好處,建議常吃

      阿纂看事
      2025-10-13 15:36:03
      12月之后,日子可能更緊!3個信號已經亮紅,別再花錢不眨眼了

      12月之后,日子可能更緊!3個信號已經亮紅,別再花錢不眨眼了

      小白鴿財經
      2025-12-13 07:05:03
      澳媒:中國總被描述為全球第二大經濟體,這并非事實

      澳媒:中國總被描述為全球第二大經濟體,這并非事實

      南宗歷史
      2025-12-13 23:41:38
      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      河南一28歲高中女教師結婚當天墜樓身亡

      河南一28歲高中女教師結婚當天墜樓身亡

      吃瓜體
      2025-12-13 21:12:19
      陳紅、周迅對他一見傾心,一生未婚未育,65歲發福患有“恐瘦癥

      陳紅、周迅對他一見傾心,一生未婚未育,65歲發福患有“恐瘦癥

      陳意小可愛
      2025-12-13 09:22:21
      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      古書記史
      2025-12-12 11:21:38
      杜蘭特與大一時期女同學重逢 KD媽媽也與其合影 網友調侃:結婚吧

      杜蘭特與大一時期女同學重逢 KD媽媽也與其合影 網友調侃:結婚吧

      Emily說個球
      2025-12-13 17:05:38
      俄外長戳破真相,為何特朗普獨怕中國?只因是唯一“繞美”成功者

      俄外長戳破真相,為何特朗普獨怕中國?只因是唯一“繞美”成功者

      蘭妮搞笑分享
      2025-12-14 01:23:59
      2025-12-14 04:31:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6806文章數 94518關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      游戲
      家居
      教育
      親子
      軍事航空

      神途得道飛升,魔道奪魄煉獄!是你,你會選哪條路?

      家居要聞

      溫潤質感 打造干凈空間

      教育要聞

      TTS新傳論文帶讀:弄不懂的數字資本主義看這一篇就可以啦!!

      親子要聞

      七小七:用清潔配方重新定義兒童食品健康標準,獲雙品類銷量第一

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 风间由美性色一区二区三区 | 国产欧美va欧美va香蕉在| 亚洲成人黄色网| 久久香综合精品久久伊人| 男女做aj视频免费的网站| 欧美精品xxx| 成人无码小说| 午夜AAAAA级岛国福利在线| 成人精品一区二区三区在线观看| 泉州市| 热久在线免费观看视频| 成人免费无码大片a毛片软件 | 无码人妻一区二区三区av| 亚洲成人网站在线| 嫩草研究院久久久精品| 亚洲色av天天天天天天| 老妇肥熟凸凹丰满刺激| 洮南市| 天堂伊人网| 亚洲国产制服丝袜| 少妇极品熟妇人妻| 久久精品无码专区免费东京热| 亚洲老熟女@TubeumTV| 上海旅游集散中心网上订票| 国产精品99久久免费 | 最大胆裸体人体牲交| 亚洲 欧美 影音先锋| 国产日韩成人内射视频| 丁香五月亚洲综合深深爱| 精品亚洲一区二区三区在线观看| 中国孕妇变态孕交xxxx| 第一福利导航视频| 夜干夜| 亚洲欧美制服| 亚洲熟妇色自偷自拍另类| 精精国产xxx在线观看| 丰满爆乳一区二区三区| 邮箱| 夜夜国自一区+1080P| 国产成人91| 国内精品久久久久久无码不卡|