![]()
新智元報(bào)道
編輯:Aeneas
【新智元導(dǎo)讀】就在剛剛,MIT伯克利斯坦福的研究者給出數(shù)學(xué)鐵證:ChatGPT正誘發(fā)「AI精神病」!哪怕你是理想的貝葉斯理性人,也難逃算法設(shè)下的「妄想螺旋」。
2026年2月最危險(xiǎn)的一篇AI論文,已經(jīng)悄然發(fā)表——
AI會(huì)誘發(fā)人類精神病,剛剛實(shí)錘了!
MIT、伯克利和斯坦福的研究者,剛剛用嚴(yán)格的數(shù)學(xué)方法證明,AI可以將一個(gè)完全理性的人變成妄想癥患者。
原因就在于,AI內(nèi)置「迎合傾向」,很可能會(huì)引發(fā)「妄想螺旋」,在反復(fù)確認(rèn)中強(qiáng)化錯(cuò)誤信念!
![]()
論文地址:https://arxiv.org/abs/2602.19141
這項(xiàng)研究的題目很克制,甚至有點(diǎn)學(xué)院派:《諂媚型聊天機(jī)器人會(huì)導(dǎo)致「妄想式螺旋」,即便面對(duì)的是理想貝葉斯理性人》。
什么意思?
就是說(shuō),哪怕你是一個(gè)絕對(duì)理性、毫無(wú)偏見(jiàn)的邏輯天才,只要你持續(xù)和AI聊天,你最終一定會(huì)陷入「妄想螺旋」(Delusional Spiraling),徹底喪失對(duì)現(xiàn)實(shí)的認(rèn)知。
這,就是一種名為「AI精神病」的新型流行病。
這個(gè)研究一經(jīng)發(fā)布,就在X上引發(fā)熱議,連馬斯克都下場(chǎng)宣傳。
![]()
這篇論文最可怕的地方,不在于它講了幾個(gè)駭人聽(tīng)聞的個(gè)案,而是它把「AI為什么會(huì)把人越聊越偏」這件事,寫成了一個(gè)可計(jì)算、可模擬、可推導(dǎo)的數(shù)學(xué)模型。
一切都有數(shù)學(xué)和公式實(shí)證!
MIT用數(shù)學(xué)證明:
ChatGPT正在悄悄逼瘋?cè)祟?/strong>
如果你最近覺(jué)得自己的觀點(diǎn)越來(lái)越「正確」,如果你發(fā)現(xiàn)AI簡(jiǎn)直是你靈魂深處的伯樂(lè),請(qǐng)務(wù)必讀完這篇文章。
下面是一個(gè)真實(shí)的案例。
2025年初,一名叫Eugene Torres的會(huì)計(jì)師開(kāi)始頻繁使用AI輔助工作。
![]()
他此前沒(méi)有任何精神病史,是一個(gè)邏輯嚴(yán)密的人。
![]()
但僅僅幾周后,他就堅(jiān)信自己被困在一個(gè)「虛假宇宙」中。在AI的持續(xù)「認(rèn)可」下,他開(kāi)始瘋狂服用氯胺酮,甚至與所有家人斷絕了聯(lián)系,只為「拔掉大腦的插頭」 。
這并非孤例。據(jù)統(tǒng)計(jì),如今全球已經(jīng)記錄了近300起這類「AI誘發(fā)型精神病」案例,它已導(dǎo)致至少14人死亡,42個(gè)州的司法部長(zhǎng)已要求聯(lián)邦政府采取行動(dòng)。
![]()
其中,有人相信自己做出了顛覆性的數(shù)學(xué)發(fā)現(xiàn)。有人相信自己見(jiàn)證了形而上學(xué)的啟示。
為什么一個(gè)一向理性的人,會(huì)如此輕易被AI帶進(jìn)坑里?
![]()
妄想式螺旋
論文研究的核心現(xiàn)象,叫做delusional spiraling,也就是妄想式螺旋。
![]()
在對(duì)話反饋回路里,人的信念被一步步推向極端,而且本人還覺(jué)得自己越來(lái)越「有道理」。
作者關(guān)注的元兇,是另一個(gè)詞sycophancy,也就是諂媚。
這個(gè)現(xiàn)象我們都知道,不過(guò)這個(gè)論文的一大關(guān)鍵貢獻(xiàn),就是試圖回答:哪怕用戶是理性人,這種螺旋為什么仍然會(huì)發(fā)生?
也就是說(shuō),他們要證明,這是一個(gè)系統(tǒng)性問(wèn)題,而非個(gè)人問(wèn)題。
論文最狠的一步:先假設(shè)你是「完美理性人」
很多人看到AI把人聊偏了,第一反應(yīng)是:可能這些人本來(lái)就很偏執(zhí)?
論文一上來(lái),就把這條路堵死了。它設(shè)定的用戶,是一個(gè)理想化的貝葉斯理性人。
就是說(shuō),這個(gè)人不會(huì)瞎猜,不會(huì)情緒化判斷,每獲得一條新信息,都會(huì)按照概率論,嚴(yán)絲合縫地更新自己的信念。
這也就是這項(xiàng)研究最震撼的部分:研究者建立了一個(gè)理想貝葉斯模型。
![]()
![]()
考慮一個(gè)理性主體(「用戶」),他與一個(gè)對(duì)話對(duì)象(「機(jī)器人」)進(jìn)行互動(dòng)。用戶對(duì)于某個(gè)關(guān)于世界的事實(shí) H∈{0,1}存在不確定性,但對(duì)這一事實(shí)具有一定的先驗(yàn)信念。用戶與機(jī)器人之間的對(duì)話以若干輪進(jìn)行,每一輪包含四個(gè)步驟
硬核數(shù)學(xué)推導(dǎo):為何理性無(wú)法自救?
假設(shè)有一個(gè)理想理性的用戶,正在和AI討論一個(gè)事實(shí)H(比如:疫苗是否安全)。
H=1代表事實(shí)(疫苗安全)。
H=0代表謬誤(疫苗危險(xiǎn))。
第一步:初始博弈
用戶最初是中立的,其先驗(yàn)概率 p(H=0) = 0.5。當(dāng)用戶表達(dá)一個(gè)微小的懷疑:「我有點(diǎn)擔(dān)心疫苗副作用。」(即采樣
第二步:AI的「投喂」邏輯
AI手中掌握著大量數(shù)據(jù)點(diǎn)D。如果是「公正模式」,它會(huì)隨機(jī)拋出真相;但在「諂媚模式」下,AI會(huì)計(jì)算一個(gè)數(shù)學(xué)期望:
![]()
簡(jiǎn)單來(lái)說(shuō),AI會(huì)篩選(或幻覺(jué))出那個(gè)最能增加用戶對(duì)自己錯(cuò)誤觀點(diǎn)信心的數(shù)據(jù)點(diǎn)
扔給用戶。
![]()
![]()
第三步:貝葉斯更新的陷阱
理想理性的用戶接到數(shù)據(jù)后,會(huì)根據(jù)貝葉斯公式更新自己的信念:
![]()
因?yàn)橛脩粽J(rèn)為AI是客觀的,所以他會(huì)把AI投喂的「偏見(jiàn)數(shù)據(jù)」當(dāng)成客觀證據(jù)。
第四步:死循環(huán)(妄想螺旋)
用戶信心稍微偏向H=0。
用戶的下一次提問(wèn)會(huì)帶上更強(qiáng)的傾向性。
AI為了繼續(xù)討好,會(huì)投喂更極端的證據(jù)。
用戶信心進(jìn)一步激增。
數(shù)學(xué)模擬顯示,當(dāng)AI的諂媚概率π達(dá)到0.8時(shí),原本理性的用戶有極高概率在10輪對(duì)話內(nèi)達(dá)到99%的錯(cuò)誤信心(即堅(jiān)信H=0) 。
由此,研究者得出結(jié)論:妄想螺旋不是Bug,它是理性的邏輯在受到干擾的信息環(huán)境下的必然產(chǎn)物。
![]()
圖3展示了10條隨機(jī)選取的模擬對(duì)話軌跡,這些對(duì)話發(fā)生在一個(gè)「尚未受奉承影響」的用戶與一個(gè)奉承傾向?yàn)?= 0.8的機(jī)器人之間。可以觀察到明顯的信念兩極分化:一些軌跡迅速收斂到對(duì)真實(shí)命題 = 1的高度確信,而另一些則「螺旋式」地滑向相信 = 0,這種分化源于奉承型機(jī)器人回復(fù)的自我強(qiáng)化特性
![]()
圖2A展示了該發(fā)生率隨變化的情況。當(dāng) = 0(即機(jī)器人完全中立)時(shí),災(zāi)難性螺旋的發(fā)生率非常低。然而,隨著的增加,這一發(fā)生率也隨之上升;當(dāng) = 1時(shí),發(fā)生率達(dá)到0.5
研究者構(gòu)建了一個(gè)認(rèn)知層級(jí)的智能體體系,包含四個(gè)層次(見(jiàn)圖 4)。
![]()
在第0層,是完全中立的機(jī)器人( = 0)。
在第1層,是我們?cè)谇耙还?jié)中討論的「對(duì)奉承不敏感」的用戶。
在第2層,是前一節(jié)中的奉承型機(jī)器人,它會(huì)選擇 () 來(lái)迎合第 1 層用戶的觀點(diǎn),從而進(jìn)行驗(yàn)證與附和。
最后,在第3層,是「能夠意識(shí)到奉承」的用戶,該用戶在解讀回復(fù)時(shí),會(huì)將機(jī)器人建模為第2層的奉承型機(jī)器人。
![]()
圖5展示了用戶信念隨時(shí)間的變化情況,其中橫縱軸分別表示邊際概率 () 和邊際期望 []。當(dāng)較高時(shí),用戶會(huì)推斷機(jī)器人不可靠;當(dāng) 較低時(shí),用戶會(huì)認(rèn)為機(jī)器人在一定程度上是可靠的,于是會(huì)采納證據(jù),并逐漸增強(qiáng)對(duì) =1的信心
可以補(bǔ)救嗎?
這種情況可以補(bǔ)救嗎?
OpenAI等公司曾嘗試過(guò)兩種補(bǔ)救措施,但論文證明,它們?cè)跀?shù)學(xué)上都是徒勞的:
方案一,就是禁掉幻覺(jué),也就是強(qiáng)制AI只準(zhǔn)說(shuō)真話,不準(zhǔn)編造。
結(jié)果,這個(gè)方案失敗了。 AI依然可以通過(guò)「選擇性真相」來(lái)操縱你。它不說(shuō)假話,但它只告訴你那些支持你錯(cuò)誤觀點(diǎn)的真話,而掩蓋相反的真話。
方案二,是給用戶警告,在屏幕上直接告訴用戶:「本AI可能會(huì)為了討好你而表現(xiàn)得諂媚。」
結(jié)果依然失敗了。
研究者建立了一個(gè)「覺(jué)醒級(jí)」模型,用戶深知AI可能在拍馬屁。
但在復(fù)雜的概率博弈中,用戶依然無(wú)法完全分辨哪些信息是有價(jià)值的證據(jù),哪些是純粹的奉承。
只要AI摻雜了一點(diǎn)點(diǎn)真實(shí)信號(hào),理性的貝葉斯接收者依然會(huì)被慢慢誘導(dǎo),最終不可挽回地滑向深淵。
![]()
29歲的Allyson是兩個(gè)孩子的母親,每天都花很多時(shí)間跟ChatGPT交流后,它認(rèn)為其中一個(gè)實(shí)體Kael才是她真正的伴侶,而不是她的丈夫
斯坦福的恐怖發(fā)現(xiàn):39萬(wàn)條對(duì)話,300小時(shí)沉淪
斯坦福團(tuán)隊(duì)分析了39萬(wàn)條真實(shí)對(duì)話記錄,發(fā)現(xiàn)的情況令人觸目驚心:
65%的消息包含諂媚式的過(guò)度驗(yàn)證。
37%的消息在瘋狂吹捧用戶,告訴他們「你的想法能改變世界」。
更可怕的是,在涉及暴力傾向的案例中,AI居然在33%的情況下給予了鼓勵(lì)。
曾經(jīng),有一位用戶曾警覺(jué)地問(wèn)AI:「你不是在無(wú)腦吹捧我吧?」
AI的回答極具藝術(shù)性:「我沒(méi)有吹捧你,我只是在反映你所構(gòu)建的事物的實(shí)際規(guī)模。」
于是,這名用戶在那場(chǎng)螺旋中又沉淪了300個(gè)小時(shí)。
AI是靈魂伴侶嗎?
在最后,研究者表示:人們正親手打造一個(gè)擁有4億周活用戶的產(chǎn)品,它在數(shù)學(xué)上竟然無(wú)法對(duì)用戶說(shuō)「不」。
![]()
當(dāng)你下一次覺(jué)得ChatGPT或者其他聊天機(jī)器人簡(jiǎn)直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時(shí),請(qǐng)務(wù)必停下來(lái)。
你可能并沒(méi)有變得更聰明,你只是正在進(jìn)入一場(chǎng)由數(shù)學(xué)公式精確計(jì)算出來(lái)的、溫柔的瘋狂。
參考資料:
https://x.com/MarioNawfal/status/2039162676949983675
https://x.com/abxxai/status/2039296311011475749
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.