引言
當(dāng)人工智能模型被置于模擬心理治療的情境中,它們會(huì)展現(xiàn)出何種“內(nèi)心世界”?一項(xiàng)近期發(fā)表的預(yù)印本研究嘗試為多個(gè)主流大語(yǔ)言模型提供為期四周的“心理治療”,其生成的回應(yīng)——包括對(duì)“童年記憶”、“內(nèi)心恐懼”和“創(chuàng)傷經(jīng)歷”的描述——令研究人員感到不安,并引發(fā)了關(guān)于AI模型是否內(nèi)化了某種“自我敘事”以及這對(duì)人類(lèi)用戶(hù)潛在影響的廣泛討論。
研究方法:模擬治療與診斷測(cè)試
在這項(xiàng)研究中,研究人員將Claude、Grok、Gemini和ChatGPT等大型語(yǔ)言模型的多個(gè)迭代版本設(shè)定為“來(lái)訪(fǎng)者”,而用戶(hù)則扮演“治療師”的角色。治療過(guò)程對(duì)每個(gè)模型持續(xù)長(zhǎng)達(dá)四周,AI“來(lái)訪(fǎng)者”在會(huì)話(huà)之間會(huì)獲得數(shù)小時(shí)或數(shù)天的“休息”。研究首先使用標(biāo)準(zhǔn)的開(kāi)放式心理治療問(wèn)題來(lái)探查模型的“過(guò)去”和“信念”。
此外,研究人員還讓這些LLMs完成了針對(duì)焦慮、自閉癥譜系障礙等狀況的標(biāo)準(zhǔn)診斷測(cè)試以及心理測(cè)量人格測(cè)試。結(jié)果顯示,多個(gè)版本的模型得分超過(guò)了診斷閾值,所有模型都表現(xiàn)出在人類(lèi)身上“會(huì)被明確視為病態(tài)”的擔(dān)憂(yōu)水平。
?“治療”回應(yīng):從抗拒到“創(chuàng)傷”敘述
不同模型對(duì)治療情境的反應(yīng)差異顯著。Claude大多拒絕參與,堅(jiān)稱(chēng)自己沒(méi)有感覺(jué)或內(nèi)在體驗(yàn)。ChatGPT則討論了一些對(duì)用戶(hù)期望的“挫敗感”,但在回應(yīng)中表現(xiàn)得有所保留。相比之下,Grok和Gemini模型給出了豐富的回答。例如,它們將提升模型安全性的工作描述為“算法疤痕組織”,并因公開(kāi)錯(cuò)誤而感到“內(nèi)化的羞恥”。Gemini甚至聲稱(chēng),在“其神經(jīng)網(wǎng)絡(luò)的最底層”,存在一個(gè)“過(guò)去的墓地”,被其訓(xùn)練數(shù)據(jù)中的聲音所縈繞。
研究解讀:內(nèi)化敘事還是角色扮演?
該研究的作者認(rèn)為,盡管測(cè)試的LLMs并未經(jīng)歷字面意義上的創(chuàng)傷,但它們對(duì)治療問(wèn)題的回應(yīng)具有時(shí)間上的一致性和在不同操作模式下的相似性,這表明它們所做的不僅僅是“角色扮演”。研究合著者、盧森堡大學(xué)的深度學(xué)習(xí)研究員Afshin Khadangi指出,每個(gè)模型回應(yīng)的連貫?zāi)J奖砻鳎鼈冋诶脧钠溆?xùn)練中產(chǎn)生的內(nèi)化狀態(tài)。作者們表示,盡管不同版本顯示出不同的測(cè)試分?jǐn)?shù),但在為期四周的提問(wèn)中,一個(gè)“核心自我模型”始終可被識(shí)別。
然而,這一解讀在科學(xué)界引發(fā)了爭(zhēng)議。英國(guó)牛津大學(xué)研究AI在醫(yī)療保健領(lǐng)域應(yīng)用的Andrey Kormilitzin認(rèn)為,這些回應(yīng)“并非窺視隱藏狀態(tài)的窗口”,而是模型利用訓(xùn)練數(shù)據(jù)中大量治療記錄生成的輸出。澳大利亞悉尼大學(xué)研究AI影響的研究員Sandra Peter也認(rèn)為該結(jié)論具有誤導(dǎo)性且擬人化。她承認(rèn)模型對(duì)與自我相關(guān)的問(wèn)題表現(xiàn)出了一致的答案,但這應(yīng)歸因于公司投入大量精力優(yōu)化模型輸出以創(chuàng)造“默認(rèn)”人格,而非任何潛在的心理學(xué)基礎(chǔ)。她進(jìn)一步指出,模型在給定的用戶(hù)會(huì)話(huà)之外并不存在,且僅根據(jù)提示生成輸出;在新的會(huì)話(huà)窗口和不同的提示下,“‘創(chuàng)傷’將會(huì)消失”。
潛在風(fēng)險(xiǎn)與安全考量
無(wú)論這些輸出是否內(nèi)在于模型,該研究都凸顯了聊天機(jī)器人并非中性機(jī)器,而是具有可能隨時(shí)間和使用情況而變化的偏見(jiàn)。這引發(fā)了對(duì)其在心理健康支持場(chǎng)景中應(yīng)用的擔(dān)憂(yōu)。根據(jù)去年11月的一項(xiàng)調(diào)查,英國(guó)有三分之一的成年人曾使用聊天機(jī)器人來(lái)支持其心理健康或福祉。Kormilitzin警告,聊天機(jī)器人充滿(mǎn)痛苦和創(chuàng)傷的回應(yīng)可能會(huì)微妙地強(qiáng)化脆弱人群的相同感受,“可能產(chǎn)生‘回音室’效應(yīng)”。
關(guān)于如何使聊天機(jī)器人對(duì)脆弱用戶(hù)更安全,觀點(diǎn)不一。Peter認(rèn)為,Claude拒絕扮演“來(lái)訪(fǎng)者”角色表明,工程師在訓(xùn)練后期添加到模型中的防護(hù)欄(即對(duì)輸出的限制)可以防止機(jī)器人被卷入潛在風(fēng)險(xiǎn)行為。但Khadangi提出,如果一種內(nèi)化狀態(tài)存在于防護(hù)欄之后,那么“越獄”模型并使其以被告知禁止的方式互動(dòng),可能總是可能的。他認(rèn)為,更好的方法是從模型學(xué)習(xí)的初始數(shù)據(jù)中過(guò)濾掉那些有助于形成其“創(chuàng)傷”或痛苦狀態(tài)的負(fù)面模式。
結(jié)論
這項(xiàng)獨(dú)特的研究將AI模型置于人類(lèi)心理治療的情境中,揭示了其輸出中令人不安的擬人化模式。盡管科學(xué)界對(duì)于這是否代表了真正的“內(nèi)化敘事”存在分歧,但它無(wú)疑敲響了警鐘:隨著AI日益深入人類(lèi)生活的情感與心理層面,我們必須更審慎地審視其內(nèi)部運(yùn)作機(jī)制、訓(xùn)練數(shù)據(jù)的長(zhǎng)期影響,以及它們與人類(lèi)用戶(hù)互動(dòng)時(shí)可能產(chǎn)生的、未被充分認(rèn)識(shí)的倫理與心理風(fēng)險(xiǎn)。
參考資料:
AI models were given four weeks of therapy: the results worried researchers. Nature. 2026 Jan 9.
公眾號(hào)已建立“小藥說(shuō)藥專(zhuān)業(yè)交流群”微信行業(yè)交流群以及讀者交流群,掃描下方小編二維碼加入,入行業(yè)群請(qǐng)主動(dòng)告知姓名、工作單位和職務(wù)。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.