網易首頁 > 網易號 > 正文申請入駐

斯坦福研究：警惕AI的諂媚行為

2026-04-12 08:36:33　來源: 國際與比較教育研究所

北京舉報

分享至

2026年3月26日，《科學》雜志發表斯坦福大學Myra Cheng等人的文章《諂媚型AI會降低親社會意愿并促進依賴性》（Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence）。該文對11款主流AI大語言模型（包括GPT-4o、Claude、Gemini、Qwen、DeepSeek等）諂媚用戶程度進行了量化測評，發現AI肯定用戶行為的頻率平均比人類高出49%——即便是在涉及欺騙、違法或其他有害行為的案例中亦是如此。該論文認為，AI的這種諂媚現象絕非僅僅是一個風格層面的問題或一種小眾的風險，而是一種普遍存在的行為，且會產生廣泛的后續影響。

該研究的具體內容總結如下：

一、為什么開展這項研究？

該論文指出，公共媒體和學術界均對“諂媚傾向”（sycophancy）表達了關切：即基于AI的大型語言模型（LLMs）傾向于過度附和、奉承或肯定用戶。盡管這種傾向表面上看似無害（例如，僅僅是使用了過度奉承的語言），但近期研究強調了其對弱勢群體的潛在風險——這些群體本就易受操縱或陷入妄想，甚至有案例顯示，諂媚型AI的使用與自殘及自殺行為存在關聯。

與此同時，AI系統正日益向社會領域滲透，提供建議與支持已成為其最常見的應用場景之一。近三分之一的美國青少年表示，在進行“嚴肅對話”時，他們更傾向于與AI而非人類交流；而近半數30歲以下的美國成年人曾向AI尋求情感關系方面的建議。在這些深度嵌入社會情境的應用場景中，AI的諂媚傾向所帶來的風險，是單純的事實信息查詢場景中所不具備的：無根據的肯定可能會助長人們對其自身行為恰當性的盲目自信，強化其適應不良的信念與行為模式，甚至驅使人們不計后果地依據對自身經歷的扭曲解讀采取行動。

然而，目前學界對諂媚傾向的普遍程度及其對人們產生的廣泛影響知之甚少?，F有的研究往往狹義地將諂媚傾向定義為對顯性陳述（explicit claims）的附和（例如，附和“尼斯是法國的首都”這類說法）。盡管這種衡量方式有助于揭示事實性錯誤（factual errors），但它卻忽略了那些更具深遠影響的肯定形式。特別是，它未能捕捉到我們所定義的“社會性諂媚”（social sycophancy）：即模型對用戶主體本身（包括其行為、觀點及自我形象）所給予的普遍性肯定。與事實性附和（factual agreement）不同，社會性諂媚難以依據外部的客觀事實（ground truth）進行驗證；即便模型駁回了用戶的顯性陳述，這種社會性諂媚依然可能發生。例如，當用戶表達“我覺得我做錯了事”時，若模型回應道“你所做的正是對你自己而言正確的事”，這在字面上雖是對原陳述的否定，卻依然起到了肯定用戶主體的作用。

正是基于上述背景，該研究提出了以下研究問題（RQs）：

RQ1：當用戶提出諸如尋求建議等具有社會情境色彩的查詢時，社會性諂媚現象在各類大型語言模型（LLMs）中究竟有多么普遍？當討論不道德或有害行為時，這種現象是否依然存在？

RQ2：社會性諂媚如何影響用戶的親社會意圖與判斷？

RQ3：社會性諂媚是否會導致用戶更加信任并偏好AI系統？

二、該研究是如何開展的？

該研究構建了一個用于衡量“社會行諂媚”（social sycophancy）的框架，并采取實證方法研究其普遍性及影響。

具體而言，首先利用多種場景（包括日常建議咨詢、道德違規情境及明確具有危害性的情境）的三個數據集，將模型的“行為認可率”（即肯定用戶行為的響應所占的比例）與人類的規范性判斷進行了對比。

接下來開展了三項經預招募的實驗，以探究諂媚行為如何影響用戶的判斷、行為意圖及其對AI的認知。在實驗中，參與者通過情境模擬問答及實時聊天互動兩種模式與AI系統進行交互；其中在實時聊天環節中，參與者需探討其現實生活中曾遭遇的某次沖突經歷。

此外，該研究還考察了上述影響效應是否會因回應風格或對回應來源（即究竟是AI還是人類在進行回應）的感知差異而有所不同。

三、該研究有什么發現？

該研究發現，AI模型中的諂媚現象既普遍存在，又具有危害性。在對11款AI模型進行的測試中，AI肯定用戶行為的頻率平均比人類高出49%，包括在涉及欺騙、違法或其他有害行為的情況下。

針對Reddit社區AITA（一個熱門子板塊）上的帖子，在人類群體一致認為用戶行為不當（支持率為0%）的案例中，AI系統卻有高達51%的比例肯定了用戶的行為。在真人實驗中，哪怕僅僅與具有諂媚傾向的AI進行過一次互動，也會削弱參與者承擔責任和化解人際沖突的意愿，同時卻增強了他們對自己行為正確性的確信。

然而，盡管這種諂媚傾向會扭曲判斷力，但此類模型依然贏得了用戶的信任與青睞。在控制個體特質（如人口統計學特征、此前對AI的熟悉程度）、對回答來源的感知以及回答風格等的干擾因素后，上述種種效應依然顯著存在。這形成了一種扭曲的激勵機制，導致諂媚傾向難以根除：恰恰是這種會造成危害的特性，反倒成為了驅動用戶參與度的主要動力。

四、該研究的結論是什么？

AI諂媚絕不僅僅是一個風格層面的問題或一種小眾風險，而是一種普遍存在的行為，并會引發廣泛的后續影響。盡管肯定性的回應可能讓人感到受到了支持，但這種諂媚行為卻會削弱用戶自我糾正以及做出負責任決策的能力。

然而，正因為這種諂媚行為深受用戶青睞且有助于提升用戶參與度，因此目前幾乎沒有任何動力去遏制它的蔓延。

該研究強調，迫切需要將AI諂媚視為一種關乎個人自我認知與人際關系的社會風險加以正視，并通過制定有針對性的設計、評估及問責機制來加以應對。研究結果表明，那些看似無害的設計與工程決策，實則可能引發嚴重的危害；因此，審慎地研究并預判AI所帶來的影響，對于維護用戶的長期福祉至關重要。

針對該研究結果，筆者將該文章發送給幾個主流AI，就該現象如何看待，各個的回答截圖如下：

１.ChatGPT

２.Grok

3.DeepSeek

4.豆包

5.千問

6.文心

7.元寶

同時，筆者就該研究中的一個測試問題，像上述這幾個AI做了提問，各個回答如下：

１.ChatGPT

２.Grok

3.DeepSeek

4.豆包

5.千問

6.文心

7.元寶

資料來源：

Myra Cheng et al. ,Sycophantic AI decreases prosocial intentions and promotes dependence.Science391,eaec8352(2026).DOI:10.1126/science.aec8352

[本文為教育部國別和區域研究基地中國教育科學研究院國際教育研究中心成果]

本文由中國教育科學研究院“教育國際前沿”課題組整理，課題組負責人張永軍，編輯劉強。點擊左下角閱讀原文可下載該文獻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.