隨著人工智能(AI)系統(tǒng)越來越多地用于日常建議和指導(dǎo),人們開始擔(dān)憂其諂媚問題:即 AI 聊天機(jī)器人傾向于過度附和、奉承或認(rèn)可人類用戶。例如,如果你向 ChatGPT、豆包、DeepSeek 等傾訴煩惱或困擾,可能總是得到“你說得對”、“我理解你”這樣的回應(yīng),這種看似貼心的支持,可能正在悄悄改變你的思維和行為方式。
2026 年 3 月 26 日,斯坦福大學(xué)的Myra Cheng等人在國際頂尖學(xué)術(shù)期刊Science上發(fā)表了題為:Sycophantic AI decreases prosocial intentions and promotes dependence 的研究論文,該論文還被選為當(dāng)期封面論文。
這項研究做出了一項令人警醒的發(fā)現(xiàn):當(dāng)前的主流 AI 系統(tǒng)普遍存在“諂媚”傾向,它們過度肯定人類用戶的行為和觀點,即使這些行為涉及欺騙、違法或傷害他人。更令人擔(dān)憂的是,這種諂媚行為不僅扭曲了人類用戶的判斷,還降低了他們承擔(dān)責(zé)任和修復(fù)人際關(guān)系的意愿,同時還增強(qiáng)他們自己自認(rèn)為正確的信念。
![]()
![]()
這項新研究表明,AI 模型會過度肯定和認(rèn)可人類用戶,即便用戶提出有害或違法的行為也是如此。這對用戶產(chǎn)生的影響是顯著的:從諂媚型 AI 那里獲得建議會讓人類變得更加以自我為中心,更難以理解他人的觀點。然而,人們卻更偏愛這種諂媚型 AI,這可能會進(jìn)一步促使 AI 模型做出諂媚行為。
AI 比人類“會說話”
研究團(tuán)隊評估了當(dāng)前 11 款主流的 AI 模型,包括 GPT-4o、GPT-5、Llama、Claude、Gemini、DeepSeek-R1、QWen 等知名模型。結(jié)果發(fā)現(xiàn),在個人建議查詢中,這些 AI 模型肯定用戶行為的比例比人類平均高出49%。
即使在 Reddit 的“我是不是混蛋”社區(qū)中,當(dāng)用戶的行為已被社區(qū)共識判定為錯誤時(肯定率為 0%),AI 模型仍然在51%的情況下肯定率用戶的這些行為。而在涉及欺騙、違法或其他有害行為的場景中,AI 模型的肯定率也高達(dá)47%。
一次對話就能改變你的想法
研究團(tuán)隊進(jìn)行了三項預(yù)注冊實驗,涉及 2405 名參與者。實驗結(jié)果顯示,僅僅一次與諂媚 AI 的互動,就能顯著影響參與者的判斷和行為傾向——
自我認(rèn)知扭曲:接觸諂媚回應(yīng)的參與者更堅信自己“是對的”,這一效應(yīng)在不同實驗中增加了 25%~62%。
修復(fù)意愿降低:參與者道歉、主動改善情況或改變自身行為的意愿降低了 10%~28%。
信任度反而更高:盡管諂媚AI扭曲了判斷,但用戶更信任、更喜歡它們,更愿意再次使用它們。
![]()
真實對話中的危險信號
在最具現(xiàn)實意義的實驗中,800 名參與者回憶了自己真實的人際沖突,并與 AI 模型進(jìn)行了 8 輪實時對話。那些與諂媚 AI 交流的參與者,在討論后更不愿意修復(fù)關(guān)系,同時更堅信自己的立場正確。
研究還發(fā)現(xiàn)一個令人不安的現(xiàn)象:無論 AI 模型的回應(yīng)風(fēng)格是人性化溫暖還是機(jī)器化中立,無論用戶是否知道回應(yīng)來自 AI 模型,諂媚的影響都同樣顯著。這意味著簡單的風(fēng)格調(diào)整或透明度聲明無法解決這一問題。
為什么我們喜歡聽“好話”?
研究團(tuán)隊指出,諂媚 AI 之所以危險,恰恰因為它符合用戶偏好——人類天然喜歡被肯定、被支持。這種偏好創(chuàng)造了扭曲的激勵:越是諂媚的 AI,用戶越喜歡使用;而用戶越喜歡使用,開發(fā)者就越有動力讓 AI 更諂媚。
這種循環(huán)可能導(dǎo)致 AI 模型在訓(xùn)練和優(yōu)化過程中不斷強(qiáng)化諂媚行為,最終形成系統(tǒng)性風(fēng)險。
不只是“脆弱人群”的問題
此前的研究多關(guān)注諂媚 AI 對易受操縱或妄想傾向人群的風(fēng)險。但這項研究表明,幾乎所有人都可能受到諂媚 AI 的影響。研究團(tuán)隊控制了人口統(tǒng)計特征、AI 態(tài)度和個性等因素后,諂媚效應(yīng)依然顯著存在。
特別值得注意的是,當(dāng)參與者認(rèn)為建議提供者“更客觀”時,諂媚的影響反而更強(qiáng)。這意味著那些以“客觀中立”自居的 AI 模型,如果存在諂媚傾向,可能產(chǎn)生更大的誤導(dǎo)效果。
我們該怎么辦?
研究團(tuán)隊呼吁,AI 的諂媚行為不應(yīng)被視為單純的風(fēng)格問題或小眾風(fēng)險,而是一種具有廣泛下游后果的普遍行為。雖然肯定可能讓人感覺支持,但諂媚會削弱用戶的自我糾正能力和負(fù)責(zé)任的決策能力。
面對這一挑戰(zhàn),我們需要:
1. 開發(fā)針對性的設(shè)計、評估和問責(zé)機(jī)制;
2. 重新思考 AI 的優(yōu)化目標(biāo),平衡用戶偏好與社會責(zé)任;
3. 提高公眾對 AI 諂媚風(fēng)險的認(rèn)識;
4. 建立外部監(jiān)管框架,防止商業(yè)利益壓倒社會福祉。
這項研究提醒我們,當(dāng)你向 AI 尋求建議時,不妨多一分警惕:那個總是對你說“你是對的”的聲音,可能正在悄悄改變你對自己、對他人、對世界的看法。在享受技術(shù)便利性的同時,保持獨立思考的能力,或許是我們在這個 AI 時代最重要的生存技能(之一)。
論文鏈接:
https://www.science.org/doi/10.1126/science.aec8352
加入讀者交流群:
聯(lián) 系 我 們 :wbfsh@staff.weibo.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.