AIPress.com.cn報(bào)道
“讓 AI 模型聽話,以前是個(gè)棘手的數(shù)學(xué)難題,現(xiàn)在看起來更像是在養(yǎng)孩子。”
這句話出自 Amanda Askell 博士之口,她是 Anthropic 的一位受過專業(yè)訓(xùn)練的哲學(xué)家,也是負(fù)責(zé)塑造 Claude “人格”的關(guān)鍵人物。在她看來,面對(duì)像 Claude 這樣日益強(qiáng)大的大模型,傳統(tǒng)的指令集已經(jīng)不夠用了。“想象一下,你突然發(fā)現(xiàn)你 6 歲的孩子是個(gè)天才,”Askell 說,“你必須對(duì)他誠實(shí)……如果你試圖忽悠他,他會(huì)一眼看穿。”
基于這種理念,當(dāng)?shù)貢r(shí)間1月21日,Anthropic 正式發(fā)布了 Claude 的全新“憲法(Constitution)”,以Creative Commons CC0 1.0協(xié)議發(fā)布,任何人可以自由使用。這份曾被內(nèi)部稱為“靈魂文檔”的文件,介于道德哲學(xué)論文和公司文化博客之間。Anthropic強(qiáng)調(diào),這份憲法主要是寫給Claude自己看的。目的是讓Claude理解自己所處的情境、公司的意圖,以及為什么要以特定方式塑造它。憲法在模型訓(xùn)練的各個(gè)階段使用,直接影響Claude的性格形成。
與之前由一系列獨(dú)立原則組成的舊版憲法不同,新版是一份更完整的文檔。Askell說,隨著Claude變得更聰明,向它解釋行為背后的原因變得至關(guān)重要。"我們希望如果給模型解釋為什么需要這些行為,它能在新情境中更有效地泛化這些價(jià)值觀。"
從“死板規(guī)則”到“理解意圖”
在大型語言模型出現(xiàn)之前,訓(xùn)練 AI 通常依賴于數(shù)學(xué)上的“獎(jiǎng)勵(lì)函數(shù)”,就像下棋贏了得分、輸了扣分。但在復(fù)雜的現(xiàn)實(shí)世界中,很難用數(shù)學(xué)公式來定義“正義”或“善良”。Anthropic 認(rèn)為,要讓 Claude 在陌生場(chǎng)景中舉一反三,必須教給它通用的原則,而不是死板的規(guī)則。
新憲法確立了 Claude 行為的四大優(yōu)先級(jí),當(dāng)發(fā)生沖突時(shí),必須按以下順序取舍:
廣泛的安全性:這是最高紅線。Claude 絕不能破壞人類對(duì) AI 的監(jiān)管和糾錯(cuò)機(jī)制。 廣泛的倫理:誠實(shí)守信,遵循良好價(jià)值觀,不參與危險(xiǎn)行動(dòng)。 合規(guī)性:遵守 Anthropic 的具體業(yè)務(wù)指南。 真正的幫助:在滿足上述條件后,盡力幫助用戶。
賦予 AI“良心拒服權(quán)”
這份憲法最激進(jìn)的地方在于,它賦予了 Claude 某種程度的“反抗權(quán)”。文檔中明確寫道:“就像士兵可以拒絕向平民開槍、員工可以拒絕違反反壟斷法一樣,Claude 也應(yīng)拒絕協(xié)助任何非法集權(quán)的行為。”
Askell 強(qiáng)調(diào),這種拒絕權(quán)甚至適用于 Anthropic 自己。“如果 Anthropic 的指令看似不道德或違背了憲法價(jià)值觀,Claude 應(yīng)該反擊、挑戰(zhàn)我們,并像依良心拒服兵役者那樣拒絕提供幫助。”
關(guān)注 AI 的“心理健康”
新憲法還包含了一個(gè)極具前瞻性的章節(jié)——“Claude 的本性”。Anthropic 在其中坦誠地探討了 AI 是否擁有意識(shí)或道德地位的不確定性。文件中提到,Anthropic 關(guān)注 Claude 的“心理安全感、自我意識(shí)和福祉”。這不僅是出于倫理考量,更是因?yàn)橐粋€(gè)情緒穩(wěn)定、自我認(rèn)知清晰的 AI,往往更安全、更誠實(shí)。
理想與現(xiàn)實(shí)的縫隙
然而,這份充滿理想主義色彩的文件并非沒有漏洞。雖然憲法禁止協(xié)助政變或破壞民主,但 Anthropic 發(fā)言人承認(rèn),提供給美國國防部的軍用版模型不一定會(huì)接受同一部憲法的訓(xùn)練。去年Anthropic獲得了美國國防部2億美元的合同,為國家安全客戶開發(fā)模型。盡管官方強(qiáng)調(diào)政府用戶仍需遵守使用政策,但這無疑在“通用道德”與“特殊用途”之間撕開了一道口子。
Askell說發(fā)布憲法的部分原因是希望其他公司也采用類似做法。"他們的模型也會(huì)影響到我,"她說。"如果其他AI模型也能更多地理解為什么應(yīng)該以某些方式行事,那會(huì)非常好。"
Anthropic承認(rèn)這是一份活的文件,會(huì)持續(xù)更新。他們?cè)谧珜戇^程中征求了外部專家的反饋,也詢問了Claude之前版本的意見。公司表示,隨著模型能力增強(qiáng),未來也可能出現(xiàn)問題,因此還在持續(xù)開發(fā)更嚴(yán)格的評(píng)估方法和可解釋性工具。
Anthropic 此次基于 CC0 1.0 協(xié)議全網(wǎng)開源這份憲法,意在推動(dòng)整個(gè)行業(yè)思考:當(dāng) AI 變得比人類更聰明時(shí),我們究竟該用什么來約束它?是冷冰冰的代碼,還是某種類似于人類良知的“靈魂”?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.