網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic 公開 Claude 全新憲法

2026-01-22 12:05:55　來源: 鞭牛士

北京舉報(bào)

分享至

AIPress.com.cn報(bào)道

“讓 AI 模型聽話，以前是個(gè)棘手的數(shù)學(xué)難題，現(xiàn)在看起來更像是在養(yǎng)孩子。”

這句話出自 Amanda Askell 博士之口，她是 Anthropic 的一位受過專業(yè)訓(xùn)練的哲學(xué)家，也是負(fù)責(zé)塑造 Claude “人格”的關(guān)鍵人物。在她看來，面對(duì)像 Claude 這樣日益強(qiáng)大的大模型，傳統(tǒng)的指令集已經(jīng)不夠用了。“想象一下，你突然發(fā)現(xiàn)你 6 歲的孩子是個(gè)天才，”Askell 說，“你必須對(duì)他誠實(shí)……如果你試圖忽悠他，他會(huì)一眼看穿。”

基于這種理念，當(dāng)?shù)貢r(shí)間1月21日，Anthropic 正式發(fā)布了 Claude 的全新“憲法（Constitution）”，以Creative Commons CC0 1.0協(xié)議發(fā)布，任何人可以自由使用。這份曾被內(nèi)部稱為“靈魂文檔”的文件，介于道德哲學(xué)論文和公司文化博客之間。Anthropic強(qiáng)調(diào)，這份憲法主要是寫給Claude自己看的。目的是讓Claude理解自己所處的情境、公司的意圖，以及為什么要以特定方式塑造它。憲法在模型訓(xùn)練的各個(gè)階段使用，直接影響Claude的性格形成。

與之前由一系列獨(dú)立原則組成的舊版憲法不同，新版是一份更完整的文檔。Askell說，隨著Claude變得更聰明，向它解釋行為背后的原因變得至關(guān)重要。"我們希望如果給模型解釋為什么需要這些行為，它能在新情境中更有效地泛化這些價(jià)值觀。"

從“死板規(guī)則”到“理解意圖”

在大型語言模型出現(xiàn)之前，訓(xùn)練 AI 通常依賴于數(shù)學(xué)上的“獎(jiǎng)勵(lì)函數(shù)”，就像下棋贏了得分、輸了扣分。但在復(fù)雜的現(xiàn)實(shí)世界中，很難用數(shù)學(xué)公式來定義“正義”或“善良”。Anthropic 認(rèn)為，要讓 Claude 在陌生場(chǎng)景中舉一反三，必須教給它通用的原則，而不是死板的規(guī)則。

新憲法確立了 Claude 行為的四大優(yōu)先級(jí)，當(dāng)發(fā)生沖突時(shí)，必須按以下順序取舍：

廣泛的安全性：這是最高紅線。Claude 絕不能破壞人類對(duì) AI 的監(jiān)管和糾錯(cuò)機(jī)制。廣泛的倫理：誠實(shí)守信，遵循良好價(jià)值觀，不參與危險(xiǎn)行動(dòng)。合規(guī)性：遵守 Anthropic 的具體業(yè)務(wù)指南。真正的幫助：在滿足上述條件后，盡力幫助用戶。

賦予 AI“良心拒服權(quán)”

這份憲法最激進(jìn)的地方在于，它賦予了 Claude 某種程度的“反抗權(quán)”。文檔中明確寫道：“就像士兵可以拒絕向平民開槍、員工可以拒絕違反反壟斷法一樣，Claude 也應(yīng)拒絕協(xié)助任何非法集權(quán)的行為。”

Askell 強(qiáng)調(diào)，這種拒絕權(quán)甚至適用于 Anthropic 自己。“如果 Anthropic 的指令看似不道德或違背了憲法價(jià)值觀，Claude 應(yīng)該反擊、挑戰(zhàn)我們，并像依良心拒服兵役者那樣拒絕提供幫助。”

關(guān)注 AI 的“心理健康”

新憲法還包含了一個(gè)極具前瞻性的章節(jié)——“Claude 的本性”。Anthropic 在其中坦誠地探討了 AI 是否擁有意識(shí)或道德地位的不確定性。文件中提到，Anthropic 關(guān)注 Claude 的“心理安全感、自我意識(shí)和福祉”。這不僅是出于倫理考量，更是因?yàn)橐粋€(gè)情緒穩(wěn)定、自我認(rèn)知清晰的 AI，往往更安全、更誠實(shí)。

理想與現(xiàn)實(shí)的縫隙

然而，這份充滿理想主義色彩的文件并非沒有漏洞。雖然憲法禁止協(xié)助政變或破壞民主，但 Anthropic 發(fā)言人承認(rèn)，提供給美國國防部的軍用版模型不一定會(huì)接受同一部憲法的訓(xùn)練。去年Anthropic獲得了美國國防部2億美元的合同，為國家安全客戶開發(fā)模型。盡管官方強(qiáng)調(diào)政府用戶仍需遵守使用政策，但這無疑在“通用道德”與“特殊用途”之間撕開了一道口子。

Askell說發(fā)布憲法的部分原因是希望其他公司也采用類似做法。"他們的模型也會(huì)影響到我，"她說。"如果其他AI模型也能更多地理解為什么應(yīng)該以某些方式行事，那會(huì)非常好。"

Anthropic承認(rèn)這是一份活的文件，會(huì)持續(xù)更新。他們?cè)谧珜戇^程中征求了外部專家的反饋，也詢問了Claude之前版本的意見。公司表示，隨著模型能力增強(qiáng)，未來也可能出現(xiàn)問題，因此還在持續(xù)開發(fā)更嚴(yán)格的評(píng)估方法和可解釋性工具。

Anthropic 此次基于 CC0 1.0 協(xié)議全網(wǎng)開源這份憲法，意在推動(dòng)整個(gè)行業(yè)思考：當(dāng) AI 變得比人類更聰明時(shí)，我們究竟該用什么來約束它？是冷冰冰的代碼，還是某種類似于人類良知的“靈魂”？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.