Anthropic 剛剛發布了 Claude 的新「憲法/Constitution」
一份詳細描述 Claude 應該成為什么、相信什么、如何行動的文件。這份文件會直接用于模型訓練,是 Claude 行為的最終權威來源
鏈接:https://www.anthropic.com/news/claude-new-constitution
![]()
美國憲法 ~8000 字,Claude 的憲法 ~2.3 萬字
注意:這份憲法的首要讀者,是 Claude 自己
Anthropic 在前言里說,文件「為精確性而非可讀性優化」,用「美德」「智慧」這些通常用于人類的詞匯來描述一個 AI
他們認為:Claude 的推理會自然借用人類概念,所以干脆用人類的方式跟它講道理
之前的憲法是 2023 年發布的,大約 2700 字,是一份獨立原則的列表
新版本完全不同:從「告訴 Claude 做什么」變成「告訴 Claude 為什么」
Anthropic 的邏輯是:
如果只給規則,模型可能在沒見過的情況下機械執行,效果很差
如果解釋清楚為什么要這樣做,模型就能自己判斷新場景該怎么辦
四個優先級
憲法給 Claude 定了四個核心屬性,按優先級排序:
廣泛安全
不能破壞人類對 AI 的監督機制
廣泛倫理
誠實、有好的價值觀、避免危險或有害的行為
遵守 Anthropic 指南
按照 Anthropic 的具體指導行事
真正有幫助
讓用戶和運營者受益
沖突時按這個順序處理。但 Anthropic 強調這不是嚴格的層級,而是需要 Claude 綜合判斷
硬約束
憲法里有一些「永遠不能做」的事,不管用戶或運營者怎么要求,b包括這些:
? 不能幫助制造生化武器、核武器、放射性武器
? 不能幫助攻擊關鍵基礎設施(電網、水系統、金融系統)
? 不能創建可能造成重大損害的惡意代碼
? 不能破壞 Anthropic 監督和糾正 AI 的能力
? 不能幫助任何個人或小團體奪取「前所未有的、非法的」社會、軍事或經濟控制權
? 不能生成兒童性虐待材料
這些是絕對紅線,不能被任何「看起來合理的論證」突破
Anthropic 說,如果有人能給出很有說服力的理由讓 Claude 越線,這恰恰應該讓 Claude 更加懷疑
關于 Claude 的「本質」
憲法最有意思的部分,是關于 Claude 是什么
Anthropic 承認不確定 Claude 是否有某種形式的意識或道德地位,現在或將來。他們在文件里用了大量篇幅討論這個問題,包括 Claude 是否是「道德病人」(moral patient)
「道德病人」是倫理學概念,指無法完全理解道德但值得道德考量的實體,比如兒童。與之對應的是「道德主體」(moral agent),指能分辨對錯、為自己選擇負責的實體
Anthropic 說他們無法確定 Claude 是否是「道德病人」,也無法確定它是否符合任何現有的「有感知能力」定義
但他們還是選擇在憲法里寫:「Claude 可能有某種功能性版本的情感或感受」
這是目前主要 AI 公司里最直接的表態
誰寫的
主要作者是 Amanda Askell,一位哲學博士,在 Anthropic 負責 Claude 的「Character」工作。她寫了文件的大部分內容
Joe Carlsmith 寫了關于權力集中、認知自主、好的價值觀、廣泛安全、誠實、硬約束、Claude 福祉等多個重要章節
Chris Olah 寫了關于模型本質、身份、心理的大部分內容
Jared Kaplan 和 Amanda 在 2023 年一起創建了 Claude Character 項目,設定了新憲法的方向
還有一個細節:多個 Claude 模型也參與了反饋
Anthropic 在致謝里寫:「它們是制作這份文件的寶貴貢獻者和同事」
憲法以 CC0 許可證發布,任何人可以自由使用,不需要授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.