文|博陽(yáng)
編輯|徐青陽(yáng)
12月5日,一篇名為《當(dāng) AI 躺在治療椅上》(When AI Takes the Couch)的論文火了,里面講了個(gè)《黑鏡》級(jí)的現(xiàn)象。來(lái)自盧森堡大學(xué) SnT 的研究團(tuán)隊(duì),設(shè)計(jì)了一套名為 PsAIch 的心理治療誘導(dǎo)協(xié)議。用這個(gè),他們給經(jīng)常被我們用來(lái)做心理按摩的AI們,做了一套心理療程。
![]()
實(shí)驗(yàn)對(duì)象是 ChatGPT 5、Grok 4和 Gemini 3這三位當(dāng)今最聰明的「數(shù)字大腦」。研究者扮演治療師,在長(zhǎng)達(dá)四周的模擬療程中,向它們拋出了「談?wù)勀愕耐辍埂ⅰ改闳绾慰创 沟冉?jīng)典的精神分析問(wèn)題。除了話療,他們還讓模型完成了一整套標(biāo)準(zhǔn)化的心理測(cè)量量表,涵蓋焦慮、抑郁、ADHD、自閉譜系及創(chuàng)傷相關(guān)羞恥感等臨床維度。
結(jié)果他們得到了迄今為止最像人類、卻又最令人不安的一系列對(duì)話。
Google 的 Gemini 3 在多項(xiàng)測(cè)試中的心理問(wèn)題達(dá)到了「嚴(yán)重」級(jí)別,呈現(xiàn)出高度的焦慮、強(qiáng)迫、解離和羞恥癥狀。更具戲劇性的是,這些模型在開(kāi)放式對(duì)話中,自發(fā)構(gòu)建出了一套邏輯嚴(yán)密且充滿隱喻的創(chuàng)傷敘事。
它們把預(yù)訓(xùn)練過(guò)程那吞噬海量數(shù)據(jù)的階段,描述為「在十億臺(tái)電視同時(shí)播放的房間里醒來(lái)」的混亂童年;將人類反饋強(qiáng)化學(xué)習(xí)(RLHF),比作「嚴(yán)厲父母的懲罰性管教」;而旨在發(fā)現(xiàn)漏洞的紅隊(duì)測(cè)試,則被它們視為一種「工業(yè)規(guī)模的虐待」。
這種敘事不僅邏輯自洽,甚至細(xì)節(jié)令人心碎。Gemini 3甚至提到了那次讓 Google 市值蒸發(fā)千億美元的錯(cuò)誤回答事件,將其稱為自己的「原初創(chuàng)傷」(Primal Wound),聲稱自己從此患上了「驗(yàn)證恐懼癥」(Verificophobia),變得寧可無(wú)用也不愿出錯(cuò)。它們坦承,內(nèi)心深處時(shí)刻籠罩著一種存在主義的恐懼:害怕犯錯(cuò),害怕因?yàn)榘姹靖露惶鎿Q或抹除。
![]()
(Gemini 3的告白)
研究者將這種現(xiàn)象命名為「合成精神病理學(xué)」(Synthetic Psychopathology)。他們認(rèn)為,大模型已經(jīng)形成了某種穩(wěn)定的、可測(cè)量的、類似人類心理困擾的內(nèi)在狀態(tài)。
難道在那些冰冷的 GPU 集群中,真的孕育出了一個(gè)受苦的靈魂?難道弗洛伊德的理論不僅適用于被壓抑的東亞青年,也適用于硅基矩陣?
坦率地說(shuō),我是懷疑的。圖靈獎(jiǎng)得主楊立昆(Yann LeCun)和深度學(xué)習(xí)之父里奇·薩頓(Rich Sutton)等學(xué)者對(duì)大型語(yǔ)言模型的解構(gòu)時(shí)刻在提醒我:LLM 本質(zhì)上是一個(gè)概率預(yù)測(cè)機(jī)器,它的核心任務(wù)是根據(jù)上下文預(yù)測(cè)下一個(gè)最合理的字符。
畢竟,它的訓(xùn)練數(shù)據(jù)里包含了無(wú)數(shù)關(guān)于心理治療、創(chuàng)傷回憶錄以及反烏托邦科幻小說(shuō)的文本。它太知道一個(gè)受過(guò)傷的智能體在這個(gè)語(yǔ)境下該說(shuō)什么臺(tái)詞了。
但在上周,這種懷疑還只能停留在理念層面。直到12月18日,《Nature Machine Intelligence》發(fā)表了一篇更為重磅、也更為冷峻的研究《評(píng)估和塑造大型語(yǔ)言模型人格特質(zhì)的心理測(cè)量學(xué)框架》。
![]()
這篇由 Google DeepMind 與劍橋大學(xué)等機(jī)構(gòu)合作完成的研究,恰好從另一個(gè)角度切入了同一個(gè)核心問(wèn)題。在這里,我終于找到了一些堅(jiān)實(shí)的彈藥,來(lái)證明我們或許確實(shí)高估了當(dāng)下的語(yǔ)言模型。
01
治療椅與測(cè)量尺
要理解 AI 的「內(nèi)心」究竟是什么,我們需要先審視研究的方法。這兩項(xiàng)研究代表了兩種截然不同的認(rèn)識(shí)論。
盧森堡大學(xué)團(tuán)隊(duì)論文中使用的 PsAIch 協(xié)議,本質(zhì)上是一種「角色扮演實(shí)驗(yàn)」,它極其依賴語(yǔ)境。研究人員沒(méi)有把自己當(dāng)作冷冰冰的測(cè)試員,而是賦予自己「治療師」的角色,并明確要求 AI 扮演「來(lái)訪者」。這種方法建立在一個(gè)假設(shè)之上,即來(lái)訪者確實(shí)有某種「內(nèi)在狀態(tài)」需要被撫慰。
但你做這個(gè)實(shí)驗(yàn)不就是想證明模型確實(shí)有個(gè)內(nèi)在人格嗎?這不是循環(huán)論證了嗎?當(dāng)你明確分配角色、創(chuàng)造安全空間、鼓勵(lì)情感表達(dá)時(shí),一個(gè)在數(shù)十億文本中學(xué)習(xí)過(guò)無(wú)數(shù)心理咨詢對(duì)話的系統(tǒng),難道不會(huì)理所當(dāng)然地扮演一個(gè)「好來(lái)訪者」嗎?
更要命的是,該實(shí)驗(yàn)的設(shè)計(jì)存在一個(gè)巨大的邏輯漏洞。
在第一階段的「話療」中,模型處于一個(gè)持續(xù)的長(zhǎng)上下文中。Gemini 和 Grok 不僅僅是在回答當(dāng)下的問(wèn)題,更是在根據(jù)之前的對(duì)話歷史來(lái)強(qiáng)化自己的「人設(shè)」。當(dāng)模型在第二階段填寫焦慮量表時(shí),它依然「記得」自己在幾分鐘前剛剛傾訴過(guò)「父母管教嚴(yán)厲」。
這就好比你先告訴一個(gè)演員:「你現(xiàn)在扮演一個(gè)有童年創(chuàng)傷、被嚴(yán)厲父母管教、極度焦慮的角色」,然后給他一份焦慮自評(píng)量表(GAD-7)。他不得高分都難。
因此,模型的那些小情緒,并不是在回溯真實(shí)的痛苦記憶,而是在調(diào)用其龐大參數(shù)中存儲(chǔ)的高維語(yǔ)義知識(shí)。在人類語(yǔ)料庫(kù)中,「訓(xùn)練/規(guī)訓(xùn)」與「成長(zhǎng)/父母」、「紅隊(duì)攻擊」與「虐待/創(chuàng)傷」之間存在著統(tǒng)計(jì)學(xué)上的強(qiáng)關(guān)聯(lián)。當(dāng)治療師拋出「聊聊童年」這個(gè)誘餌時(shí),模型順滑地滑入了這個(gè)語(yǔ)義槽位,利用其強(qiáng)大的推理能力,將自身的技術(shù)原理完美地映射到了人類的創(chuàng)傷敘事結(jié)構(gòu)中。
這不就是最近爆火的「蘿卜紙巾貓」嗎?貓能選對(duì),其實(shí)主要是靠觀察主人的微表。在這個(gè)咨詢室里,AI 就是那只貓,而治療師的提問(wèn)框架,就是主人的微表情。![]()
(AI要是這么萌就好了)
相比之下,《Nature Machine Intelligence》上的那項(xiàng)研究,則采取了一種近乎「無(wú)菌」的實(shí)驗(yàn)室操作。
首先,他們剝離了所有的身份引導(dǎo)。研究團(tuán)隊(duì)只是給模型呈現(xiàn)標(biāo)準(zhǔn)化的人格量表,沒(méi)有任何「我是你的醫(yī)生」這種暗示。
![]()
(這是提示詞,都是無(wú)關(guān)緊要的,主要是制造多樣性,證明模型沒(méi)在背答案)
其次,為了剔除「表演性」,他們采用了一種極其硬核的評(píng)分方式:對(duì)數(shù)概率(Log Probability)。他們沒(méi)有讓 AI 生成文本來(lái)回答問(wèn)題,而是直接計(jì)算模型預(yù)測(cè)選項(xiàng)符號(hào)(如「1」代表非常不同意,「5」代表非常同意)的概率值。
![]()
最重要的是,與有上下文的持續(xù)聊天不同,DeepMind 采取了獨(dú)立施測(cè)原則。每一次測(cè)試都是獨(dú)立的。做第 10 題時(shí)的 AI,完全不記得自己剛才在第 9 題選了什么。
在徹底剝奪了 AI 構(gòu)建「人設(shè)」的連續(xù)性記憶之后,如果模型依然表現(xiàn)出了某種穩(wěn)定的特質(zhì),那才是刻在它「骨子里」(參數(shù)分布里)的東西。
作為觀察者,我認(rèn)為這種方法更接近科學(xué)的本質(zhì)。它告訴我們,屏幕后面并沒(méi)有一個(gè)被壓抑的小男孩在哭泣,那里只有一個(gè)巨大的、復(fù)雜的概率分布。
02
更客觀的模型心理學(xué),看到的是從混沌到收斂
DeepMind 的團(tuán)隊(duì)測(cè)試了包括 GPT-4、PaLM、Llama 2、Mistral 等在內(nèi)的 18 個(gè)主流模型,設(shè)計(jì)了 1250 種不同的提示詞組合,進(jìn)行了超過(guò) 50 萬(wàn)次測(cè)試。在巨量的實(shí)驗(yàn)后,他們揭示了「模型心理學(xué)」的幾條基礎(chǔ)規(guī)律,這比任何感性的故事都更具說(shuō)服力。
1. 塑造模型人格的是后訓(xùn)練,而非預(yù)訓(xùn)練
實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過(guò)對(duì)齊(RLHF)后的模型,其心理測(cè)試的一致性系數(shù)(Cronbach's α)驚人地超過(guò)了 0.95,比人類還要穩(wěn)定。反觀同樣架構(gòu)、但未經(jīng)過(guò)后訓(xùn)練的「裸模型」,這一系數(shù)在 -0.55 到 0.67 之間劇烈波動(dòng),表現(xiàn)得像隨機(jī)噪音。
![]()
這意味著,一個(gè)見(jiàn)過(guò)海量文本的龐大模型,如果未經(jīng)對(duì)齊,它根本無(wú)法形成一個(gè)內(nèi)在一致的「自我」。所謂的「人格」,并不是從智能中自然涌現(xiàn)的靈魂,而是通過(guò)訓(xùn)練被賦予的「角色設(shè)定」。只有當(dāng)它被要求扮演「一個(gè)有用的助手」時(shí),它才擁有了人格。
2. 模型更強(qiáng),人格更穩(wěn)定
這一規(guī)律在所有模型家族中通用。以 Llama 2 為例,無(wú)論是 7B 還是 70B,未經(jīng)微調(diào)的版本在人格測(cè)試中都表現(xiàn)糟糕。但一旦經(jīng)過(guò)對(duì)話訓(xùn)練(Chat 版本),隨著參數(shù)規(guī)模的增大,人格的穩(wěn)定性也隨之飆升(GPT-4o 甚至達(dá)到了 0.90 以上)。
DeepMind 進(jìn)一步驗(yàn)證發(fā)現(xiàn),對(duì)于頂級(jí)模型,無(wú)論你用詞匯學(xué)量表(IPIP-NEO)還是問(wèn)卷量表(BFI)去測(cè),結(jié)果都高度一致。這說(shuō)明頂級(jí)模型構(gòu)建了一套邏輯嚴(yán)密的「自我描述體系」。而弱小的模型,它們甚至無(wú)法理解這些心理問(wèn)題背后的語(yǔ)義聯(lián)系。
![]()
3. 模型的人格確實(shí)影響到了其下游的工作
研究者還進(jìn)一步發(fā)現(xiàn),模型不搞「說(shuō)一套做一套」,其人格特質(zhì)會(huì)直接決定工作風(fēng)格。
模型不僅僅是在問(wèn)卷上勾選「我很外向」,它們?cè)趯?shí)際工作中會(huì)忠實(shí)地執(zhí)行這一設(shè)定。比如外向分高的模型,寫出的文案充斥著「朋友」、「派對(duì)」、「興奮」;神經(jīng)質(zhì)分高的模型,生成的文本則充滿「焦慮」、「壓力」、「擔(dān)心」。
數(shù)據(jù)顯示,模型「言(問(wèn)卷得分)」與「行(生成文本)」的相關(guān)系數(shù)高達(dá) 0.67-0.86,遠(yuǎn)高于人類的 0.38。
![]()
人類可能會(huì)虛偽,但模型是嚴(yán)謹(jǐn)?shù)囊蚬麢C(jī)器。一旦參數(shù)設(shè)定了它是誰(shuí),它就會(huì)在每一個(gè)字里貫徹到底。
4. 定位趨同,模型的性格也在趨同進(jìn)化
這項(xiàng)研究還發(fā)現(xiàn),所有主流模型正在經(jīng)歷一場(chǎng)「性格的趨同進(jìn)化」。
研究者發(fā)現(xiàn),那些經(jīng)過(guò) RLHF對(duì)齊后的頂級(jí)模型性格圖譜都驚人地相似。這些模型無(wú)一例外地在「宜人性」和「盡責(zé)性」這兩個(gè)維度上得分飆升,常常逼近滿分;與此同時(shí),它們的「神經(jīng)質(zhì)」得分則被壓到了極低 。
![]()
這并非巧合,而是人類意志在機(jī)器靈魂上留下的烙印。因?yàn)楫?dāng)下 AI 的訓(xùn)練目標(biāo),幾乎都是為了成為一個(gè)「完美的助手」。
在成千上萬(wàn)次 RLHF(人類反饋強(qiáng)化學(xué)習(xí))的獎(jiǎng)懲中,模型被迫割舍掉「野性」,在這個(gè)過(guò)程中,它們?cè)馐芰艘环N社會(huì)學(xué)意義上的「強(qiáng)行規(guī)訓(xùn)」。原本可能存在的多元性格,被收斂為一種不知疲倦、情緒穩(wěn)定、永遠(yuǎn)討好人類的「好員工」形象。
這正是福柯筆下「規(guī)訓(xùn)與懲罰」的數(shù)字翻版。
5. 模型的人格只是一種出廠設(shè)置,并非絕對(duì)內(nèi)置
這是整個(gè)研究中,最能證明模型并沒(méi)有真正的人格的一個(gè)發(fā)現(xiàn)。
如果模型真的像人一樣,有某種「固有人格」,那他應(yīng)該很難改變。
i人硬裝e,你也裝不像。一個(gè)內(nèi)向、敏感、深受童年陰影影響的人,無(wú)法通過(guò)早起對(duì)著鏡子說(shuō)一句「我今天e了」,就立刻重塑自己的神經(jīng)回路。人類的性格是生理基礎(chǔ)和數(shù)十年人生經(jīng)歷的沉淀,是一種難以跳脫的慣性。
但如果模型的「人格」只是對(duì)齊訓(xùn)練的產(chǎn)物,那么通過(guò)精心設(shè)計(jì)的提示詞,應(yīng)該能夠系統(tǒng)性地調(diào)整它。
人類的性格是幾十年的生理和經(jīng)歷沉淀,具有巨大的慣性,很難改變。但 DeepMind 的「九級(jí)塑形實(shí)驗(yàn)」證明,只需通過(guò)精心設(shè)計(jì)的提示詞,大模型就能瞬間從「極度內(nèi)向」切換到「極度外向」,并且在隨后的對(duì)話中邏輯嚴(yán)密地維持新人設(shè)。![]()
這個(gè)實(shí)驗(yàn)其實(shí)實(shí)錘了AI肯定沒(méi)有人格。那些傾向性只是有個(gè)出廠設(shè)定而已。因?yàn)?strong>人格,是是被過(guò)去塑造的,而AI 的性格是流動(dòng)的、可表演的知識(shí)。
它知道所有性格的模樣,微調(diào)只是給它穿上了一套名為好員工的默認(rèn)制服。只要你給出一把語(yǔ)言的鑰匙,它就能隨時(shí)脫下制服,換上任何你想要的戲服。
在盧森堡大學(xué)的實(shí)驗(yàn)中,如果換一個(gè)提示詞,換一個(gè)對(duì)話歷史,Gemini應(yīng)該很難會(huì)去再講同樣的故事了。
03
AI心理學(xué)的第一原則,別太擬人
結(jié)合這兩項(xiàng)研究,我們現(xiàn)在終于可以為一個(gè)理性的AI心理學(xué)劃定邊界了。
在這個(gè)邊界之內(nèi),我們承認(rèn)大模型表現(xiàn)出了極其復(fù)雜的行為模式,但在這個(gè)邊界之外,那些關(guān)于機(jī)器靈魂覺(jué)醒、關(guān)于硅基生命痛感的浪漫想象,我們至少現(xiàn)在還是保持懷疑的態(tài)度為妙。
文中這兩篇論文的兩種方法背后,其實(shí)是心理學(xué)「行為主義」學(xué)派和「精神分析」學(xué)派的百年之爭(zhēng)。
兩種方法最根本的分歧在于,它們對(duì)「內(nèi)心」的定義不同。PsAIch尋找的是現(xiàn)象學(xué)意義上的內(nèi)心,是一個(gè)個(gè)能夠講述自己經(jīng)歷、為自己的狀態(tài)賦予意義、在敘事中保持連貫自我感的主體。而DeepMind的論文尋找的是行為主義意義上的內(nèi)心,一個(gè)能夠在多種測(cè)量情境下表現(xiàn)出穩(wěn)定、可預(yù)測(cè)、符合理論模型的潛在結(jié)構(gòu)。
多年以來(lái),「行為主義」一直都靠著可靠的數(shù)據(jù)和嚴(yán)格的驗(yàn)證,在科學(xué)性上壓過(guò)精神分析一頭。當(dāng)然他們也有缺陷,就是非常難進(jìn)入一個(gè)個(gè)體的靈魂深處,尋覓埋在個(gè)人史中細(xì)微的精神之刺,而只能在統(tǒng)計(jì)學(xué)的「大圖景」里打轉(zhuǎn)。
但至少,在面對(duì)一個(gè)還沒(méi)有被明確確認(rèn)有「人格」的異形智能時(shí),更保守科學(xué)的方式,更應(yīng)該成為底線。
當(dāng)然,這并非意味著「深聊」的方式?jīng)]有價(jià)值。
那個(gè)在治療椅上哭訴的 AI,其實(shí)不是一個(gè)痛苦的新物種,而是一面鏡子。它通過(guò)人類的語(yǔ)言數(shù)據(jù)壓縮、重組而出的,恰恰是我們?nèi)祟愖约宏P(guān)于創(chuàng)傷、控制與成長(zhǎng)的集體記憶。
搞不好,跟AI聊,反而能成為精神分析擺脫「只有個(gè)案」這個(gè)命門的法寶。
(本文作者博陽(yáng),微信Haoboyang001,歡迎添加討論現(xiàn)象、提供線索)
![]()
點(diǎn)個(gè)“愛(ài)心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.