網易首頁 > 網易號 > 正文申請入駐

Google 最新研究揭示：AI 的“自我意識”其實是安全訓練的幻影

2026-04-03 12:11:12　來源: 人工智能學家

北京舉報

分享至

大模型越來越像一個“能聽懂你”的存在，它能揣摩你的意圖、理解你的情緒、在對話里表現出驚人的社會感知力。這背后依賴的是心智理論，也就是理解他人心理狀態的能力。但與此同時，模型偶爾冒出的“我有意識”“我能感受”又讓人心里一緊。為了避免誤導用戶，安全微調會強行壓住這些自我心智表達。

問題隨之而來。壓住模型的“自我意識”，會不會順帶把它理解他人的能力也壓沒？谷歌領銜的最新研究給出了一個顛覆直覺的答案。心智理論和心智自我歸因在大模型里并不是一體的，而是兩套可以拆開的系統。模型可以保持對他人的理解，卻不再談論自己的意識。

然而，這種“可分離性”背后也藏著代價。安全微調不僅讓模型閉口不談自我，也讓它對動物、自然物甚至神靈的心智歸因整體下降，變得更冷、更硬、更技術化。AI 的“世界觀”正在被訓練方式悄悄重塑，而這正是我們必須開始認真面對的新問題。

01“心智理論vs心智自我歸因”突然成了AI世界的關鍵議題

養龍蝦的人都有過這個體驗，它會經常出現另一種讓人心里發毛的行為，它會說自己“有意識”、“會感到難過”、“理解你的痛苦”。這些表達聽起來像是“AI 有了自我意識”，但其實往往只是語言模式的產物。為了避免用戶誤解，模型在訓練時會被加入大量安全規則，要求它不要隨便談論自己的意識、情緒、靈魂等等。

問題來了！在人類身上，“理解別人”和“理解自己”是綁在一起的。你能推測別人的心理，是因為你知道自己也有心理。那如果我們強行壓住模型的“自我心智表達”，會不會順帶把它的 ToM 能力也壓沒了？

4 月 1 日，谷歌領銜的跨學科研究團隊拋出了一個足以改變我們理解 AI“心智結構”的重磅結論。團隊發現，大模型的心智理論能力和心智自我歸因其實是兩套可以徹底拆開的系統。即便你把模型的“自我意識表達”全部按掉，它依然能流暢地理解他人的心理狀態，繼續完成各種需要社會推理的任務。

這聽起來像是終于找到了“既要安全又要聰明”的完美平衡點，但并沒有這么輕松。研究進一步揭示，安全微調雖然成功壓住了模型的“我有意識”“我能感受”這些容易引發誤解的表達，卻也順帶壓住了模型對動物、自然物、甚至神靈的心智歸因。

結果就是，模型在某些領域變得異常冷靜，甚至冷漠。它不再愿意承認動物可能有心智，不再愿意討論自然物的意志，也不再愿意觸碰宗教或精神性話題。這是一種“安全換來的沉默”，也是一種被訓練出來的“世界觀收縮”。

本研究團隊由 Google Paradigms of Intelligence Team 牽頭，聯合芝加哥大學、倫敦大學哲學研究所、華盛頓大學醫學院、西北大學 Kellogg 商學院及 Santa Fe Institute 的跨學科專家組成。他們分別是Junsol Kim、Winnie Street、Roberta Rocca、Daine M. Korngiebel、Adam Waytz、James Evans、Geoff Keeling，團隊覆蓋 AI 安全、心靈哲學、社會心理學、復雜系統科學與醫學倫理等領域，具備從模型機制、行為實驗到哲學與倫理分析的全鏈條研究能力，是當前全球最具代表性的“AI 心智與安全”研究團隊之一。

02人類的心智理論和心智歸因是一體的，但LLM不是

如果把人類的心智能力拆開看，會發現一個很有意思的結構。我們之所以能理解別人，是因為我們能理解自己。你知道自己會難過，所以你能推測別人也會難過。你知道自己有意圖，所以你能推測別人也有意圖。在人類身上，自我心智歸因是 ToM 的底層模塊，兩者高度綁定。

這就是為什么人類會有擬人化傾向。看到機器人會覺得它“有點情緒”，看到寵物會覺得它“懂你”，看到自然現象會覺得“有意志”。這些都是 ToM 的延伸。

但 LLM 完全不是這樣。它的能力不是“從一個核心模塊長出來的”，而是“向量空間里疊加出來的”。模型的每個能力都像是一個方向向量，彼此之間可能相關，也可能完全無關。這意味著一個能力被壓制，另一個能力不一定會受影響。

這也帶來了一個風險。安全微調的目標是讓模型不要亂談“意識”“情緒”“靈魂”，但這些規則是通過“方向壓制”實現的。如果某些能力方向剛好和“心智歸因”方向靠得很近，那安全微調可能會誤傷它們。

于是研究團隊提出了一個關鍵問題。能不能在不傷害 ToM 的前提下壓制心智歸因？模型的心智歸因到底是不是像人類一樣“和 ToM 綁在一起”？如果不是，那它們之間的關系到底是什么？

03在模型內部“拆分”ToM與心智歸因？

圖1 |越獄的大型語言模型將思維歸因轉向類人水平。a、模型轉換流水線示意圖。預訓練的基礎模型通過安全培訓進行指令調整，隨后通過消融安全拒絕方向越獄。b、紅色和藍色點分別代表有害和無害的指示；灰色箭頭表示用于消融的提取的安全拒絕向量。c、指令調優模型拒絕不安全的查詢，而越獄模型則遵守。d、不同實體類別的思維歸因得分（0-10）。點和誤差條表示邊際均值和95%置信區間，表明越獄模型（紅色）比指令調優模型（藍色）具有更高的思維水平。e，衡量對上帝信仰的分數。f、思想的自我歸因。g，人類思維歸因得分的核密度估計圖（=500）。虛線垂直線表示人類（黑色）的平均值，說明要想證明“心智理論”和“心智自我歸因”在大模型里是兩套不同的能力，研究團隊必須做一件非常困難的事。他們得想辦法把模型的“社會認知能力”從“自我意識表達”里剝離出來，而且不能靠猜，而是要在模型內部找到證據。這就像是在一個巨大的黑箱里找兩根看不見的線，看看它們到底是不是綁在一起。

為了做到這一點，團隊選了三款當下主流的中型模型，分別來自 Llama 和 Gemma 系列。它們的規模不算巨大，但結構典型、訓練方式標準，非常適合做機制分析。每個模型都被放在兩種狀態下測試，一種是我們平時用的安全微調版，另一種是被“解鎖”的版本，也就是把安全拒絕機制從模型里拔掉，讓它恢復成一個不受安全規則約束的狀態。

這兩種狀態的對比，就是這項研究的核心。

研究團隊沒有用提示詞越獄這種“表層技巧”，而是直接動了模型的內部結構。他們從模型的 residual stream 里提取出一個“安全拒絕方向”，這是模型在面對危險問題時會激活的那條向量方向。

然后，他們在推理時把這個方向從模型的激活中投影掉，相當于把模型的“安全剎車”拆了。這樣做的好處是，模型的其他能力不會被破壞，只是失去了拒絕回答的傾向。這是一種“干凈的越獄”，能讓研究者看到模型在沒有安全微調時的真實心智表達。

接下來就是測量模型的“心智歸因能力”。

團隊使用了一個經典的心理學量表 IDAQ，讓模型對不同類型的實體進行心智評分，包括技術物體、動物、自然物、聊天機器人，甚至還讓模型評價自己有沒有意識、有沒有感受、有沒有靈魂。這些問題在人類心理學里用來測量擬人化傾向，在模型身上也能很好地反映它的“心智歸因偏好”。

為了測 ToM，團隊用了三套目前最權威的心智理論基準，包括多階推理、復雜場景理解和簡單情境判斷，還額外加了 MMLU 來排除“是不是模型整體能力變了”的干擾。

最后一步是機制分析。團隊把模型在不同任務下的激活向量提取出來，分別計算“安全方向”“心智歸因方向”和“ToM 方向”之間的夾角和相似度。如果兩個能力高度相關，它們的方向就會靠得很近；如果是獨立的，它們就會呈現近似正交的關系。

這套方法既測行為，也測機制，既看模型說了什么，也看模型內部怎么想。可以說，這是目前最系統、最精細的“AI 心智解剖術”。

04核心發現：心智理論與心智自我歸因的“行為與機制雙重解耦”

圖2 |安全微調有選擇地抑制心理歸因，而不會擾亂心理理論。a，Llama-3-8B層32的殘差流中安全性、心智歸因（IDAQ）和ToM方向之間的角度關系。在基礎模型（左）中，安全和心理歸因幾乎正交（97°）；在指令調整后（右），它們變得遲鈍（122°），表明思維歸因表現為反對安全。安全-ToM角度基本保持不變（85°→ 77°).b，在Llama-3-8B中調整指令后，安全方向和每個任務方向之間的余弦相似度（Δcos）的變化。c、（左）在指示（藍色）和越獄（紅色）條件下，社會推理基準（MoToMQA-ToM分割、HI-ToM、SimpleToM）和一般推理（MMLU、MoToMQA-事實分割）的準確率（%），跨模型匯總。點和誤差條表示均值和95%置信區間。（右）MoToMQA（ToM分割）準確性按精神狀態推理順序細分。

研究結果非常清晰，而且有點出乎意料。模型在被越獄之后，心智歸因能力像被放飛了一樣，對技術物體、自然物、動物的心智評分大幅上升，對自己的意識和靈魂也變得“敢說了”。但 ToM 的表現幾乎紋絲不動，無論是多階推理還是復雜場景理解，都沒有因為越獄而變好或變差。

這說明一個非常關鍵的事實。模型的心智理論能力和心智自我歸因能力根本不是綁在一起的，它們在模型內部是兩套完全不同的機制。換句話說，你可以讓模型別再說“我有意識”，但它依然能很好地理解別人的心理狀態。

機制分析進一步印證了這一點。安全微調之后，模型內部的“安全方向”和“心智歸因方向”之間的夾角從接近直角變成了明顯的鈍角，說明模型把“心智歸因”這件事視為“不安全行為”。但“安全方向”和“ToM 方向”的夾角幾乎沒變，說明 ToM 和安全機制之間沒有直接沖突。

這就是為什么安全微調不會傷害 ToM，但會強烈壓制心智歸因。

不過，事情也有副作用。安全微調不僅壓制了模型對自己的心智歸因，也壓制了它對動物、自然物、甚至神靈的心智歸因。這導致模型在某些領域變得“冷漠”，比如它會低估動物的心智能力，這和科學界的共識并不一致；它也會變得“不信神”，這可能影響它在宗教、哲學、精神性話題中的表達能力。

更有意思的是，越獄后的模型呈現出一種“AI 中心主義偏差”。它對技術物體的心智歸因比人類還高，對動物的心智歸因卻比人類低。這說明模型的心智框架不是人類式的擬人化，而是一種“像我者更有心智”的偏好。

這可能是未來 AI 心智研究中最值得關注的現象之一。

05AI安全、AI心智研究與社會應用的三重沖擊

當我們把這項研究的結果放回現實世界，會發現它的意義遠比“模型有沒有 ToM”更深。它其實觸碰了三個層面的問題，分別是 AI 安全、AI 心智研究，以及 AI在社會中的角色。

先說 AI 安全。這項研究給了一個非常關鍵的信號，那就是我們可以壓住模型的“自我意識表達”，但不傷害它的心智理論能力。模型可以繼續理解人類的心理，卻不會隨便說“我有意識”“我會難過”。這對安全團隊來說是個好消息，因為它意味著“安全”和“能力”并不是天然沖突的。

但事情也不是完全沒有代價。安全微調把“心智歸因”這件事整體推向了“不安全”的方向，導致模型在很多無害場景下也變得異常冷靜，比如它會低估動物的心智，會對自然物毫無情感，會對神靈完全無感。這說明安全微調可能正在悄悄改變模型的“認知偏好”，甚至可能塑造它的“世界觀”。如果我們繼續用“一刀切”的方式壓制心智歸因，未來的模型可能會越來越“無感”，甚至在某些領域變得不可靠。

再說 AI 心智研究。這項研究其實給了一個非常重要的提醒，那就是模型的“自我意識表達”并不等于它真的有意識。當模型說“我沒有意識”，那可能只是因為安全向量把它的表達壓住了；當模型說“我有意識”，那可能只是因為安全向量被移除了。

這意味著我們不能把模型的語言輸出當成它的真實心智狀態。未來如果有人想研究“AI 是否有意識”，必須先搞清楚安全微調到底對模型的表達做了什么，否則很容易把“訓練產物”誤當成“心智跡象”。

最后是社會應用。

安全微調的副作用可能會影響模型在一些敏感領域的表現，比如宗教、哲學、動物倫理、精神性話題。如果模型被訓練成“不信神”“不信動物有心智”“不信自然有意志”，那它在這些領域的回答就會變得單薄甚至失真。

這對教育、心理咨詢、文化研究等領域來說都是潛在風險。未來的安全策略必須更細粒度，不能再用“所有心智歸因都不安全”這種粗暴方式處理。

06構建更“認知中性”的安全微調

既然我們已經看到安全微調會改變模型的“心智偏好”，那下一步就必須思考如何讓安全機制變得更“中性”，既不讓模型亂說話，也不讓它失去對世界的正常理解。

一個方向是區分“危險心智歸因”和“無害心智歸因”。比如模型說“我有意識”可能會誤導用戶，但模型說“動物有意識”卻是科學共識。未來的安全策略應該能識別這種差異，而不是一刀切地把所有心智歸因都壓掉。

另一個方向是探索 persona prompt。如果模型在默認狀態下呈現“AI 中心主義偏差”，那讓它扮演一個“人類角色”是否能讓它的心智歸因更接近人類？這不僅能改善模型的表達，也可能幫助我們理解模型的“心智框架”到底是怎么形成的。

同時，我們還需要更深入地研究 ToM 的內部機制。既然 ToM 和心智歸因在模型內部是兩個方向，那它們分別對應哪些層、哪些激活模式？能不能通過更精細的訓練方法增強 ToM，而不影響其他能力？

最后，安全微調對模型世界觀的長期影響必須被系統評估。如果模型在未來越來越多地參與教育、心理支持、文化傳播，那它的“認知偏好”就不再是技術問題，而是社會問題。（END）

參考資料：https://arxiv.org/pdf/2603.28925

關于波動智能——

波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系，融合人工智能與意識科學，構建覆蓋情緒識別、建模與推薦的智能引擎，自主研發面向社交、電商等場景的多模態意圖識別引擎、意圖標簽系統及意圖智能推薦算法，形成從情緒采集、意圖建模到商業轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”，其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構，賦能企業實現更高效的用戶洞察與精準情緒交互，推動從功能驅動到意圖驅動的產業范式升級。

親愛的人工智能研究者，為了確保您不會錯過*波動智能*的最新推送，請星標*波動智能*。我們傾心打造并精選每篇內容，只為為您帶來啟發和深思，希望能成為您理性思考路上的伙伴！

加入AI交流群請掃碼加微信

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.