在硅谷爭分奪秒的代碼競賽中,Claude 似乎是個異類。當其他大模型還在比拼算力和跑分時,Claude 一邊夯實自己的代碼能力,一邊,卻在思考一個看似「虛無縹緲」的問題:如果一個用戶跟 AI 談論形而上學,AI 該不該用科學實證去反駁?
這個問題的答案,藏在 Claude 神秘的「系統提示詞(System Prompt)」里,更源于一位特殊人物的思考——Amanda Askell,Anthropic 內部的哲學家。
![]()
用「大陸哲學」防止 AI 變成杠精
經常用 AI 的人都知道,大模型在與用戶對話前,都會先閱讀一段「系統提示詞」,這個步驟不會對用戶顯示,而是模型的自動操作。這些提示詞規定了模型的行為準則,很常見,不過在 Claude 的提示詞中,竟要求模型參考「歐陸哲學(Continental Philosophy)」。
![]()
歐陸哲學是啥?為什么要在一個基于概率和統計的語言模型里,植入如此晦澀的人文概念?
先快速科普一下:在哲學界,長期存在著「英美分析哲學」與「歐陸哲學」的流派分野。分析哲學像一位嚴謹的科學家,注重邏輯分析、語言清晰和科學實證,這通常也是程序員、工程師乃至 AI 訓練數據的默認思維模式——一就是一,二就是二,追求精確。
而歐陸哲學(Continental Philosophy,源于歐洲大陸,所以叫這個名字)則更像一位詩人或歷史學家。它不執著于把世界拆解成冷冰冰的邏輯,而是關注「人類的生存體驗」、「歷史語境」和「意義」。它承認在科學真理之外,還有一種關乎存在和精神的「真理」。
![]()
作為 Claude 性格與行為的塑造者,Anthropic 公司內部的「哲學家」Amanda Askell 談到了置入歐陸哲學的原因。她發現如果讓模型過于強調「實證」和「科學」,它很容易變成一個缺乏共情的「杠精」。
「如果你跟 Claude 說:‘水是純粹的能量,噴泉是生命的源泉’,你可能只是在表達一種世界觀或進行哲學探索,」Amanda 解釋道,「但如果沒有特殊的引導,模型可能會一本正經地反駁你:‘不對,水是 H2O,不是能量。’」。
![]()
引入「大陸哲學」的目的,正是為了幫助 Claude 區分「對世界的實證主張」與「探索性或形而上學的視角」。通過這種提示,模型學會了在面對非科學話題時,不再機械地追求「事實正確」,而是能夠進入用戶的語境,進行更細膩、更具探索性的對話。
這只是一個例子,Claude 的系統提示詞長達 14000token,里面包含了很多這方面的設計。在 Lex Fridman 的播客中 Amanda 提到過,她極力避免 Claude 陷入一種「權威陷阱」。她特意訓練 Claude 在面對已定論的科學事實時(如氣候變化)不搞「理中客」(both-sidesism),但在面對不確定的領域時,必須誠實地承認「我不知道」。這種設計哲學,是為了防止用戶過度神話 AI,誤以為它是一個全知全能的神諭者。
![]()
代碼世界的異鄉人
在一眾工程師主導的 AI 領域,Amanda Askell 的背景顯得格格不入,可她的工作和職責卻又顯得不可或缺。
翻開她的履歷,你會發現她是一位貨真價實的哲學博士。她在紐約大學(NYU)的博士論文研究的是極其硬核的「無限倫理學(Infinite Ethics)」——探討在涉及無限數量的人或無限時間跨度時,倫理原則該如何計算。簡單地說,在有無數種可能性的情況下,人會怎么做出道德決策。
![]()
這種對「極端長遠影響」的思考習慣,被她帶到了 AI 安全領域:如果我們現在制造的 AI 是未來超級智能的祖先,那么我們今天的微小決策,可能會在未來被無限放大。
在加入 Anthropic 之前,她曾在 OpenAI 的政策團隊工作。如今在 Anthropic,她的工作被稱為「大模型絮語者(LLM Whisperer)」,不斷不斷地跟模型對話,有傳聞說她是這個星球上和 Claude 對話次數最多的人類。
很多 AI 廠商都有這個崗位,Google 的 Gemini 也有自己的「絮語者」,但這個工作絕不只是坐在電腦前和模型嘮嗑而已。Amanda 強調,這更像是一項「經驗主義」的實驗科學。她需要像心理學家一樣,通過成千上萬次的對話測試,去摸索模型的「脾氣」和「形狀」。她甚至在內部確認過一份被稱為 「Soul Doc」(靈魂文檔)的存在,那里面詳細記錄了 Claude 應有的性格特征。
![]()
不只是遵守規則
除了「大陸哲學」,Amanda 給 AI 帶來的另一個重要哲學工具是「亞里士多德的美德倫理學(Virtue Ethics)」。
在傳統的 AI 訓練中(如 RLHF),工程師往往采用功利主義或規則導向的方法:做對了給獎勵,做錯了給懲罰。但 Amanda 認為這還不夠。她在許多訪問和網上都強調,她的目標不是訓練一個只會死板遵守規則的機器,而是培養一個具有「良好品格(Character)」的實體。
![]()
「我們會問:在 Claude 的處境下,一個理想的人會如何行事?」Amanda 這樣描述她的工作核心。
這就解釋了為什么她如此關注模型的「心理健康」。在訪談中,她提到相比于穩重的 Claude 3 Opus,一些新模型因為在訓練數據中讀到了太多關于 AI 被批評、被淘汰的負面討論,表現出了「不安全感」和「自我批評漩渦」。
![]()
如果 AI 僅僅是遵守規則,它可能會在規則的邊緣試探;但如果它具備了「誠實」、「好奇」、「仁慈」等內在美德,它在面對未知情境時(例如面對「我會被關機嗎」這種存在主義危機時),就能做出更符合人類價值觀的判斷,而不是陷入恐慌或欺騙。
這是不是一種把技術「擬人化」的做法?算得上是,但這種關注并非多余。正如她在播客中所言,她最擔心的不是 AI 產生意識,而是AI 假裝有意識,從而操縱人類情感。因此,她刻意訓練 Claude 誠實地承認自己沒有感覺、記憶或自我意識——這種「誠實」,正是她為 AI 注入的第一項核心美德。
Amanda 在訪談結束時,提到了她最近閱讀的書——本杰明·拉巴圖特的《當我們不再理解世界》。這本書由五篇短篇小說組成,講述了「毒氣戰」的發明者弗里茨·哈伯、「黑洞理論」的提出者卡爾·史瓦西、得了肺結核的埃爾溫·薛定諤以及天才物理學家沃納·海森堡等一大批科學巨匠,如何創造出了對人類有巨大價值的知識與工具,卻同時也眼看著人類用于作惡。
![]()
這或許是當下時代最精準的注腳:隨著 AI 展現出某種超越人類認知的,我們熟悉的現實感正在瓦解,舊有的科學范式已不足以解釋一切。
在這種眩暈中,Amanda Askell 的工作本身,就是一個巨大的隱喻。她向我們證明,當算力逼近極限,倫理與道德的問題就會浮上水面,或早或晚。
作為一名研究「無限倫理學」的博士,Amanda 深知每一個微小的行動,都有可能在無限的時間中,逐漸演變成巨大的風暴。這也是為什么,她會把艱深的道德理論,糅合進一行行提示詞,又小心翼翼地用倫理去呵護一個都沒有心跳的大語言模型。
這看起來好像是杞人憂天,但正如她所警示的:AI 不僅是工具,更是人類的一面鏡子。在技術狂飆突進、我們逐漸「不再理解世界」的時刻,這種來自哲學的審慎,或許是我們在面對未知的技術演化時,所能做出的最及時的努力。
想要了解更多模型訓練的解密,可以收看 Amanda Askell 作客 Anthropic 官方訪談:
https://www.youtube.com/watch?v=I9aGC6Ui3eE
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.