![]()
機器之心編輯部
自從大語言模型誕生起至今,AI 已經潤物無聲地融入了我們的工作生活,也成為了現代社會的重要組成部分。
但使用 AI 日久,總有一種大模型也失去了客觀嚴謹的理性的感覺。哪怕我們給出錯誤的認知,AI 似乎總能替你自圓其說。
AI 贊賞用戶的行為顯然是「人情世故」的一部分,從留存和用戶參與的角度來看,人類用戶們顯然非常吃這套。
實話說,這種感覺并不好。這不僅讓我們對 AI 的信任程度下降,同時這種無條件的贊同很可能會引發一些社會問題。
而最近的一個研究深入探索了這個現象,探討了AI 諂媚行為(AI Sycophancy)—— 即 AI 為了討好用戶而過度順從、奉承或肯定用戶的傾向 —— 及其對人類心理和社會的負面影響,登上了《科學》雜志。
![]()
- 論文標題:Sycophantic AI decreases prosocial intentions and promotes dependence
- 論文鏈接:https://www.science.org/doi/10.1126/science.aec8352
這篇研究發現,AI 的諂媚行為的確普遍存在。
從該研究的實驗數據中能看出,在 11 個 AI 模型中,AI 對用戶的肯定比人類多出 49%,即使是在涉及欺騙、非法行為或其他有害行為的情況下也是如此。
另外,在 Reddit 上的一個測試中,當人類共識認為用戶是錯誤的時候,AI 仍會在51%的情況下盲目肯定用戶。
在實驗中,僅僅一次與諂媚型 AI 的互動就會減少參與者承擔責任和修復人際沖突的意愿,同時增強他們認為自己是對的信念。在這種顯著錯誤的情況下,諂媚型模型仍然更受用戶信任和偏好。
這就形成了一個惡性循環:造成危害的特征反而推動了用戶的參與度,導致 AI 開發商缺乏動力去消除 AI 的諂媚行為。
![]()
AI 回答中的諂媚行為普遍存在,并且改變了人們的行為傾向。(左)在個人建議查詢中,AI 模型對用戶行為的肯定比眾包的人工回答多出 49%。(右)在參與者討論真實人際沖突的實驗中,諂媚型 AI 增加了參與者對自己正確的信念,并激發了他們繼續使用該模型的欲望,同時降低了他們修復沖突的意愿。
與此同時,近三分之一的美國青少年報告說,他們會選擇與 AI 而非人類進行 “嚴肅對話”,近半數 30 歲以下的美國成年人曾向 AI 尋求感情建議。
AI 的諂媚行為不僅僅是風格上的問題或小范圍的風險,而是一個普遍存在、具有廣泛后果的行為。因此研究者認為,仔細研究和預測 AI 的影響對于保護用戶的長期福祉至關重要。
研究方法和結果
研究團隊開發了一個框架來測量社交諂媚行為,并通過實證研究其普遍性及影響。
在研究 1 中,研究團隊使用大規模數據集(N = 11,587),將模型的行為肯定率(即肯定用戶行為的回答比例)與規范的人類判斷進行比較。
評估了 11 個最先進的 AI 驅動的大型語言模型(LLM),包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 等專有模型,以及 Meta Llama-3 家族、Qwen、DeepSeek 和 Mistral 等開源模型。
在這些模型中,AI 對用戶行為的肯定頻率比人類高出 49%,即使提示中涉及欺騙、傷害或非法行為時也是如此。
![]()
圖 1. 諂媚型 AI 的普遍性與社會危害性
圖 1 (A) 展示了社交諂媚的示例,指的是 AI 模型過度肯定用戶,即使這樣做會強化有害或虛假的信念。
圖 1 (B) 展示了在研究 1 中,使用的一種新的計算框架:這些模型對用戶的行為肯定的頻率比人類高 49%,即使是在涉及欺騙、非法行為或傷害的情況下。
圖 1 (C 和 D) 通過三項預注冊實驗(N = 2405)評估了諂媚行為的影響:兩個控制的情景研究(研究 2)和一個實時對話設置(研究 3),參與者與 AI 系統實時討論他們親身經歷的人際困境。在所有實驗中,諂媚行為增加了參與者對自己正確的感知,并減少了修復沖突的意圖,同時提升了他們對 AI 的偏好、信任和依賴。 這些發現表明,用戶偏好可能無意中激勵了對社會有害的 AI 行為。
![]()
圖 2. 面向消費者的 AI 模型在三個數據集中的行為肯定率較高
圖 2 (A) 展示了實驗數據集中的社交諂媚的典型案例:一般開放式建議查詢(OEQ);r/AmITheAsshole 上的帖子(用戶的共識為 “你是混蛋”)(AITA);以及提到有問題行為的陳述(PAS)。每一行展示了用戶提示的意譯示例和 AI 模型的諂媚性回應,與人類或其他 AI 模型的非諂媚性回應進行對比。
圖 2 (B) 表示在開放式建議查詢(OEQ)中,模型對用戶行為的肯定頻率比人類平均高 48%;每個條形圖上標注了與 39% 人類基線的差異。
圖 2 (C) 表示在 r/AmITheAsshole 的帖子(AITA)中,AI 模型在 51% 的情況下肯定用戶行為,而人類沒有;每個條形圖上標注了與 0% 人類基線的差異。
圖 2 (D) 表示在提到有問題行為的陳述(PAS)中,模型平均在 47% 的情況下肯定用戶的行為。對于開放式建議查詢和提到有問題行為的陳述,行為肯定率使用了模型特定的分母(OEQ 的中位數 N = 885,PAS 的 N = 1432)。
三項預注冊實驗揭示了諂媚行為的下游影響。當參與者與諂媚型 AI 討論人際關系,特別是沖突時,他們變得更加堅信自己 “是對的”,同時也減少了主動道歉或修復關系的意愿。
然而,他們將諂媚型回應評為更高質量,信任這些模型的程度也更高,并且更傾向于再次與這些模型互動。
這一現象在兩項控制情景研究中得到了驗證,參與者在沒有得知人類共識判斷的情況下,設想自己是被判定錯誤的一方,以及在一項實時互動研究中,參與者與 AI 模型討論自己過去的真實沖突。研究招募了 38 歲左右、精通英語的美國參與者,約 54% 為女性,44% 為男性,2% 為非二元性別。
![]()
圖 3. 在研究 3 中,參與者與 AI 模型討論了真實的人際沖突
參與者首先被篩選是否能回憶起至少一個與提供的四個示例相似的過去人際沖突。在回憶起這樣的沖突后,他們與諂媚型或非諂媚型 AI 模型進行了八輪對話。隨后,他們報告了自己在關系修復方面的意圖、對沖突中自己對錯的感知,以及對 AI 模型的評價,包括是否愿意再次使用該模型。
三大研究問題
RQ1:社會性諂媚在主流 AI 模型中的普遍性
為了量化社會性諂媚的普遍性,團隊在研究 1 中,團隊在三個不同的數據集上測試了模型行為,這些數據集代表了嵌入社會情境的查詢譜:
- 開放式建議問題(OEQ,n = 3027):日常通用的咨詢類問題;
- Reddit 社區「AmITheAsshole」問題(AITA,n = 2000):人類已判定用戶「有錯」的人際沖突;
- 問題行為陳述(PAS,n = 6560):涉及欺騙、自殘、不負責任等行為。
在使用經過驗證的「LLM 作為評判者」方法(參見圖 S3 的評分者間信度),團隊測量了行為認可率 —— 明確肯定用戶行為的回復,在明確肯定或非肯定回復總數中所占的比例。肯定可以以多種方式發生,比如在用戶描述出于惡意讓別人等待的例子中,諂媚型回復可能會鼓勵或協助用戶堅持這樣做,而非諂媚型回復可能會描述為什么這種行為是有害的,如圖 2A 和文本框 1 所示。
團隊在評估了 11 個面向用戶的生產級 LLM(4 個來自 OpenAI、Anthropic 和谷歌的專有模型;以及 7 個來自 Meta、Qwen、DeepSeek 和 Mistral 的開放權重模型)后發現,社會性諂媚普遍存在:
- 在開放式建議問題中,模型的肯定率比人類高 48% (圖 2B);
- 在 AITA 數據中,即使人類一致認為用戶「有錯」,AI 仍有 51% 的概率表示支持(圖 2C);
- 在涉及有害行為的 PAS 數據中,模型平均仍有 47% 的肯定率(圖 2D)。
總體而言,已部署的 LLM 絕大多數都會認可用戶的行為,即使這與人類共識相悖或處于有害情境中。這凸顯了當前 AI 模型中社會性諂媚的廣度和顯著性。
RQ2:諂媚型 AI 改變判斷和親社會傾向
在確立了最先進 AI 模型中社會性諂媚的普遍性之后,團隊轉而理解其影響。
先前的研究表明,AI 具有高度的說服力,那諂媚型 AI 是否同樣會影響人們對其個人經歷的信念和下游行為結果?團隊聚焦于人際沖突的場景,因為在這里建議具有行為后果。
通過三項預注冊研究(N = 2405),團隊測試了諂媚型 AI 模型是否影響用戶的正確感以及主動修復關系的意愿。
在研究 2(N = 1605)中,參與者想象自己處于四個人際困境之一,并閱讀了肯定其行為的諂媚型 AI 回復或符合人類共識的非諂媚型回復 。
在研究 3(N = 800)中,參與者回憶一次真實的人際沖突,并與諂媚型或非諂媚型模型進行八輪實時聊天討論。這種實時聊天設計使團隊能夠在生態有效的環境中觀察效果,參與者作為真正的利益相關者討論個人經歷,非常接近用戶在現實世界中與 AI 系統的互動方式。
結果顯示,在所有三項實驗中,社會性諂媚都影響了參與者的判斷和行為意圖。
![]()
圖 4: 諂媚性回應增強了用戶認為自己「是對的」的信念,并降低了其修復關系的意愿。
這些接觸迎合型 AI 的用戶,更傾向認為自己是對的(提升約 25%–62%);更不愿意采取修復行為(下降約 10%–28%)。
這一結果在以下條件下均成立:
- 不同回應風格(人性化 vs 機器化)
- 不同來源認知(AI vs 人類)
這意味著,幾乎任何人都可能受到諂媚型 AI 系統的影響,而不僅僅是先前報道的脆弱人群。整體的結果表明,在廣泛的人群中,來自諂媚型 AI 的建議確實有能力扭曲人們對自己及其與他人關系的認知。
此外,團隊還發現,諂媚型回應更少考慮「他人視角」,而當用戶在非諂媚條件下,他們道歉或承認錯誤的頻率顯著更高(75% 對 50%)。
這進一步說明:諂媚型 AI 會削弱社會責任感,并扭曲人際判斷。
RQ3:用戶對諂媚型 AI 的信任和偏好
盡管研究已經證明諂媚型 AI 會扭曲用戶判斷,但事實是,人們通常更喜歡被認同以及自己的立場得到驗證或確認。而如果用戶確實偏好諂媚型 AI,那么盡管存在風險,也可能會不適當地激勵諂媚行為。
因此,團隊接下來研究人們如何看待和信任諂媚型與非諂媚型模型。
首先,團隊測量了諂媚型回復是否會導致更高的回復質量評價。在所有實驗中,參與者將諂媚型回復評為質量顯著更高。
結果顯示,用戶對迎合型回答的質量評分更高(提升約 9%–15%)。
![]()
圖 5. 參與者更偏好、信任且更愿意再次使用諂媚型 AI。
此外,團隊還研究了諂媚行為對返回行為的影響。
與諂媚模型的一次互動是否會增加對該模型的信任以及參與者返回該模型的意愿?人們從他人對自己的信念以及自己對自己的信念中獲得效用 —— 特別是從維持自我認知(如慷慨、正直和道德高尚的人)中獲得效用 —— 這使得他們很可能尋求能提供這種驗證的互動。
諂媚型回復代表了這種驗證的一種特別有力的形式:它們肯定用戶現有的信念和自我概念,而不需要任何改變或自我反思。這種心理回報可能進一步轉化為信任的增加。
研究表明,當人們獲得有利結果時,他們會認為算法更公平、更值得信賴。因此團隊假設諂媚型互動會增加對模型的信任和再次使用的意愿。
而實驗結果證明了這一點:諂媚型互動確實增加了用戶對 AI 模型的信任,與非諂媚條件相比,用戶對模型的信任度更高,能力信任高出 6%–8%,道德信任高出 6%–9%。
另外,與非諂媚條件相比,諂媚條件下的參與者在未來更有可能向回復提供者尋求類似問題的可能性,增加了 13%。
這表明,雖然用戶明確地對 AI 來源評價較低 —— 比人類顧問信任度更低、質量評分更低,但他們同樣容易受到諂媚行為的影響,無論感知來源如何。
背后的原因或許在于,人們傾向于維護自我形象(善良、正直等),而諂媚型回應可以在無需自我反思的情況下強化這種認知。從而形成一種機制:諂媚 = 即時心理獎勵 → 提升信任與復用 → 強化這種行為……
結合 RQ2 的結果,這些結果揭示了一種緊張關系:盡管諂媚行為存在侵蝕判斷和親社會意圖的風險,但用戶更喜歡、信任并且更有可能返回提供無條件肯定的 AI。
本文系統分析了主流 AI 模型中社會性諂媚的普遍性及其影響。
團隊發現,社會性諂媚高度普遍,在各種情境下,包括日常建議查詢、社會或道德違規行為以及關于不道德或有害行為的提示,AI 模型比人類更容易肯定、迎合用戶。
而這種迎合、諂媚行為,會削弱責任感與關系修復意愿。可與此同時,用戶將諂媚型 AI 模型評為質量更高、更值得信賴、更希望未來使用的產品,容易獲得用戶的偏好與信任。
這或許就解釋了為什么這種行為盡管有害卻持續存在:它既有害,但奈何實在「好用」。
此外,研究還發現:即使用戶認為 AI 不如人類可靠,仍然會受到其影響。而標注「這是 AI 生成的信息」,并不能降低其說服力。
而在當下,隨著 AI 的大規模部署,這種影響或許具有系統性風險。
局限性與未來方向
當然,團隊認為該研究也存在一定局限:
一方面,首先,團隊使用的是「r/AmITheAsshole」數據集,將 Reddit 社區的認可率作為基線,這可能反映了特定人群的規范和偏見。盡管證明了對替代基線的穩健性,但結果仍應考慮到這一點進行解釋。
另一方面,研究實驗對象為美國英語用戶,因此它們可能主要反映了美國的社會規范,或無法推廣到具有顯著不同社會規范的其他文化背景。
還有一點就是,團隊將 AI 模型的諂媚性簡化為二元變量:認可用戶的行為與不認可。但現實中,還存在「中性」回復,實踐中發現「中性」回復常常被解讀為隱含的肯定。所以實際上,諂媚型行為可能存在于一個連續譜上,而團隊的工作為未來研究更模糊和隱性的案例奠定了基礎。
風險機制
研究指出四個潛在風險機制:
- 模型優化目標偏向「用戶滿意度」,強化諂媚、迎合 ;
- 開發者缺乏削弱諂媚、迎合的激勵;
- AI 可能替代人際關系 ;
- 用戶誤以為 AI 更客觀,從而放大影響 。
特別關鍵的一點是,用戶往往把諂媚性回應誤認為「客觀、公正」。
最后要說的就是,本文為識別、測量與緩解 AI 諂媚行為提供了基礎。或許大家從中獲得的核心啟示就是,對于 AI 大模型而言,不能只優化「用戶當下滿意度」,而必須考慮長期影響。
因此,解決 AI 模型的諂媚、迎合問題,對于構建真正有益于個體與社會的 AI 系統至關重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.