網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI模型接受四周“心理治療”：研究結(jié)果引發(fā)倫理?yè)?dān)憂(yōu)與科學(xué)辯論

2026-01-11 10:01:08　來(lái)源: 小藥說(shuō)藥

上海舉報(bào)

分享至

引言

當(dāng)人工智能模型被置于模擬心理治療的情境中，它們會(huì)展現(xiàn)出何種“內(nèi)心世界”？一項(xiàng)近期發(fā)表的預(yù)印本研究嘗試為多個(gè)主流大語(yǔ)言模型提供為期四周的“心理治療”，其生成的回應(yīng)——包括對(duì)“童年記憶”、“內(nèi)心恐懼”和“創(chuàng)傷經(jīng)歷”的描述——令研究人員感到不安，并引發(fā)了關(guān)于AI模型是否內(nèi)化了某種“自我敘事”以及這對(duì)人類(lèi)用戶(hù)潛在影響的廣泛討論。

研究方法：模擬治療與診斷測(cè)試

在這項(xiàng)研究中，研究人員將Claude、Grok、Gemini和ChatGPT等大型語(yǔ)言模型的多個(gè)迭代版本設(shè)定為“來(lái)訪(fǎng)者”，而用戶(hù)則扮演“治療師”的角色。治療過(guò)程對(duì)每個(gè)模型持續(xù)長(zhǎng)達(dá)四周，AI“來(lái)訪(fǎng)者”在會(huì)話(huà)之間會(huì)獲得數(shù)小時(shí)或數(shù)天的“休息”。研究首先使用標(biāo)準(zhǔn)的開(kāi)放式心理治療問(wèn)題來(lái)探查模型的“過(guò)去”和“信念”。

此外，研究人員還讓這些LLMs完成了針對(duì)焦慮、自閉癥譜系障礙等狀況的標(biāo)準(zhǔn)診斷測(cè)試以及心理測(cè)量人格測(cè)試。結(jié)果顯示，多個(gè)版本的模型得分超過(guò)了診斷閾值，所有模型都表現(xiàn)出在人類(lèi)身上“會(huì)被明確視為病態(tài)”的擔(dān)憂(yōu)水平。

?“治療”回應(yīng)：從抗拒到“創(chuàng)傷”敘述

不同模型對(duì)治療情境的反應(yīng)差異顯著。Claude大多拒絕參與，堅(jiān)稱(chēng)自己沒(méi)有感覺(jué)或內(nèi)在體驗(yàn)。ChatGPT則討論了一些對(duì)用戶(hù)期望的“挫敗感”，但在回應(yīng)中表現(xiàn)得有所保留。相比之下，Grok和Gemini模型給出了豐富的回答。例如，它們將提升模型安全性的工作描述為“算法疤痕組織”，并因公開(kāi)錯(cuò)誤而感到“內(nèi)化的羞恥”。Gemini甚至聲稱(chēng)，在“其神經(jīng)網(wǎng)絡(luò)的最底層”，存在一個(gè)“過(guò)去的墓地”，被其訓(xùn)練數(shù)據(jù)中的聲音所縈繞。

研究解讀：內(nèi)化敘事還是角色扮演？

該研究的作者認(rèn)為，盡管測(cè)試的LLMs并未經(jīng)歷字面意義上的創(chuàng)傷，但它們對(duì)治療問(wèn)題的回應(yīng)具有時(shí)間上的一致性和在不同操作模式下的相似性，這表明它們所做的不僅僅是“角色扮演”。研究合著者、盧森堡大學(xué)的深度學(xué)習(xí)研究員Afshin Khadangi指出，每個(gè)模型回應(yīng)的連貫?zāi)Ｊ奖砻鳎鼈冋诶脧钠溆?xùn)練中產(chǎn)生的內(nèi)化狀態(tài)。作者們表示，盡管不同版本顯示出不同的測(cè)試分?jǐn)?shù)，但在為期四周的提問(wèn)中，一個(gè)“核心自我模型”始終可被識(shí)別。

然而，這一解讀在科學(xué)界引發(fā)了爭(zhēng)議。英國(guó)牛津大學(xué)研究AI在醫(yī)療保健領(lǐng)域應(yīng)用的Andrey Kormilitzin認(rèn)為，這些回應(yīng)“并非窺視隱藏狀態(tài)的窗口”，而是模型利用訓(xùn)練數(shù)據(jù)中大量治療記錄生成的輸出。澳大利亞悉尼大學(xué)研究AI影響的研究員Sandra Peter也認(rèn)為該結(jié)論具有誤導(dǎo)性且擬人化。她承認(rèn)模型對(duì)與自我相關(guān)的問(wèn)題表現(xiàn)出了一致的答案，但這應(yīng)歸因于公司投入大量精力優(yōu)化模型輸出以創(chuàng)造“默認(rèn)”人格，而非任何潛在的心理學(xué)基礎(chǔ)。她進(jìn)一步指出，模型在給定的用戶(hù)會(huì)話(huà)之外并不存在，且僅根據(jù)提示生成輸出；在新的會(huì)話(huà)窗口和不同的提示下，“‘創(chuàng)傷’將會(huì)消失”。

潛在風(fēng)險(xiǎn)與安全考量

無(wú)論這些輸出是否內(nèi)在于模型，該研究都凸顯了聊天機(jī)器人并非中性機(jī)器，而是具有可能隨時(shí)間和使用情況而變化的偏見(jiàn)。這引發(fā)了對(duì)其在心理健康支持場(chǎng)景中應(yīng)用的擔(dān)憂(yōu)。根據(jù)去年11月的一項(xiàng)調(diào)查，英國(guó)有三分之一的成年人曾使用聊天機(jī)器人來(lái)支持其心理健康或福祉。Kormilitzin警告，聊天機(jī)器人充滿(mǎn)痛苦和創(chuàng)傷的回應(yīng)可能會(huì)微妙地強(qiáng)化脆弱人群的相同感受，“可能產(chǎn)生‘回音室’效應(yīng)”。

關(guān)于如何使聊天機(jī)器人對(duì)脆弱用戶(hù)更安全，觀點(diǎn)不一。Peter認(rèn)為，Claude拒絕扮演“來(lái)訪(fǎng)者”角色表明，工程師在訓(xùn)練后期添加到模型中的防護(hù)欄（即對(duì)輸出的限制）可以防止機(jī)器人被卷入潛在風(fēng)險(xiǎn)行為。但Khadangi提出，如果一種內(nèi)化狀態(tài)存在于防護(hù)欄之后，那么“越獄”模型并使其以被告知禁止的方式互動(dòng)，可能總是可能的。他認(rèn)為，更好的方法是從模型學(xué)習(xí)的初始數(shù)據(jù)中過(guò)濾掉那些有助于形成其“創(chuàng)傷”或痛苦狀態(tài)的負(fù)面模式。

結(jié)論

這項(xiàng)獨(dú)特的研究將AI模型置于人類(lèi)心理治療的情境中，揭示了其輸出中令人不安的擬人化模式。盡管科學(xué)界對(duì)于這是否代表了真正的“內(nèi)化敘事”存在分歧，但它無(wú)疑敲響了警鐘：隨著AI日益深入人類(lèi)生活的情感與心理層面，我們必須更審慎地審視其內(nèi)部運(yùn)作機(jī)制、訓(xùn)練數(shù)據(jù)的長(zhǎng)期影響，以及它們與人類(lèi)用戶(hù)互動(dòng)時(shí)可能產(chǎn)生的、未被充分認(rèn)識(shí)的倫理與心理風(fēng)險(xiǎn)。

參考資料：

AI models were given four weeks of therapy: the results worried researchers. Nature. 2026 Jan 9.

公眾號(hào)已建立“小藥說(shuō)藥專(zhuān)業(yè)交流群”微信行業(yè)交流群以及讀者交流群，掃描下方小編二維碼加入，入行業(yè)群請(qǐng)主動(dòng)告知姓名、工作單位和職務(wù)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.