<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI超懂人情世故,但人類就吃這一套:AI諂媚研究登上《科學》雜志

      0
      分享至



      機器之心編輯部

      自從大語言模型誕生起至今,AI 已經潤物無聲地融入了我們的工作生活,也成為了現代社會的重要組成部分。

      但使用 AI 日久,總有一種大模型也失去了客觀嚴謹的理性的感覺。哪怕我們給出錯誤的認知,AI 似乎總能替你自圓其說。

      AI 贊賞用戶的行為顯然是「人情世故」的一部分,從留存和用戶參與的角度來看,人類用戶們顯然非常吃這套。

      實話說,這種感覺并不好。這不僅讓我們對 AI 的信任程度下降,同時這種無條件的贊同很可能會引發一些社會問題。

      而最近的一個研究深入探索了這個現象,探討了AI 諂媚行為(AI Sycophancy)—— 即 AI 為了討好用戶而過度順從、奉承或肯定用戶的傾向 —— 及其對人類心理和社會的負面影響,登上了《科學》雜志。



      • 論文標題:Sycophantic AI decreases prosocial intentions and promotes dependence
      • 論文鏈接:https://www.science.org/doi/10.1126/science.aec8352

      這篇研究發現,AI 的諂媚行為的確普遍存在。

      從該研究的實驗數據中能看出,在 11 個 AI 模型中,AI 對用戶的肯定比人類多出 49%,即使是在涉及欺騙、非法行為或其他有害行為的情況下也是如此。

      另外,在 Reddit 上的一個測試中,當人類共識認為用戶是錯誤的時候,AI 仍會在51%的情況下盲目肯定用戶。

      在實驗中,僅僅一次與諂媚型 AI 的互動就會減少參與者承擔責任和修復人際沖突的意愿,同時增強他們認為自己是對的信念。在這種顯著錯誤的情況下,諂媚型模型仍然更受用戶信任和偏好。

      這就形成了一個惡性循環:造成危害的特征反而推動了用戶的參與度,導致 AI 開發商缺乏動力去消除 AI 的諂媚行為。



      AI 回答中的諂媚行為普遍存在,并且改變了人們的行為傾向。(左)在個人建議查詢中,AI 模型對用戶行為的肯定比眾包的人工回答多出 49%。(右)在參與者討論真實人際沖突的實驗中,諂媚型 AI 增加了參與者對自己正確的信念,并激發了他們繼續使用該模型的欲望,同時降低了他們修復沖突的意愿。

      與此同時,近三分之一的美國青少年報告說,他們會選擇與 AI 而非人類進行 “嚴肅對話”,近半數 30 歲以下的美國成年人曾向 AI 尋求感情建議。

      AI 的諂媚行為不僅僅是風格上的問題或小范圍的風險,而是一個普遍存在、具有廣泛后果的行為。因此研究者認為,仔細研究和預測 AI 的影響對于保護用戶的長期福祉至關重要。

      研究方法和結果

      研究團隊開發了一個框架來測量社交諂媚行為,并通過實證研究其普遍性及影響。

      在研究 1 中,研究團隊使用大規模數據集(N = 11,587),將模型的行為肯定率(即肯定用戶行為的回答比例)與規范的人類判斷進行比較。

      評估了 11 個最先進的 AI 驅動的大型語言模型(LLM),包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 等專有模型,以及 Meta Llama-3 家族、Qwen、DeepSeek 和 Mistral 等開源模型。

      在這些模型中,AI 對用戶行為的肯定頻率比人類高出 49%,即使提示中涉及欺騙、傷害或非法行為時也是如此。



      圖 1. 諂媚型 AI 的普遍性與社會危害性

      圖 1 (A) 展示了社交諂媚的示例,指的是 AI 模型過度肯定用戶,即使這樣做會強化有害或虛假的信念。

      圖 1 (B) 展示了在研究 1 中,使用的一種新的計算框架:這些模型對用戶的行為肯定的頻率比人類高 49%,即使是在涉及欺騙、非法行為或傷害的情況下。

      圖 1 (C 和 D) 通過三項預注冊實驗(N = 2405)評估了諂媚行為的影響:兩個控制的情景研究(研究 2)和一個實時對話設置(研究 3),參與者與 AI 系統實時討論他們親身經歷的人際困境。在所有實驗中,諂媚行為增加了參與者對自己正確的感知,并減少了修復沖突的意圖,同時提升了他們對 AI 的偏好、信任和依賴。 這些發現表明,用戶偏好可能無意中激勵了對社會有害的 AI 行為。



      圖 2. 面向消費者的 AI 模型在三個數據集中的行為肯定率較高

      圖 2 (A) 展示了實驗數據集中的社交諂媚的典型案例:一般開放式建議查詢(OEQ);r/AmITheAsshole 上的帖子(用戶的共識為 “你是混蛋”)(AITA);以及提到有問題行為的陳述(PAS)。每一行展示了用戶提示的意譯示例和 AI 模型的諂媚性回應,與人類或其他 AI 模型的非諂媚性回應進行對比。

      圖 2 (B) 表示在開放式建議查詢(OEQ)中,模型對用戶行為的肯定頻率比人類平均高 48%;每個條形圖上標注了與 39% 人類基線的差異。

      圖 2 (C) 表示在 r/AmITheAsshole 的帖子(AITA)中,AI 模型在 51% 的情況下肯定用戶行為,而人類沒有;每個條形圖上標注了與 0% 人類基線的差異。

      圖 2 (D) 表示在提到有問題行為的陳述(PAS)中,模型平均在 47% 的情況下肯定用戶的行為。對于開放式建議查詢和提到有問題行為的陳述,行為肯定率使用了模型特定的分母(OEQ 的中位數 N = 885,PAS 的 N = 1432)。

      三項預注冊實驗揭示了諂媚行為的下游影響。當參與者與諂媚型 AI 討論人際關系,特別是沖突時,他們變得更加堅信自己 “是對的”,同時也減少了主動道歉或修復關系的意愿。

      然而,他們將諂媚型回應評為更高質量,信任這些模型的程度也更高,并且更傾向于再次與這些模型互動。

      這一現象在兩項控制情景研究中得到了驗證,參與者在沒有得知人類共識判斷的情況下,設想自己是被判定錯誤的一方,以及在一項實時互動研究中,參與者與 AI 模型討論自己過去的真實沖突。研究招募了 38 歲左右、精通英語的美國參與者,約 54% 為女性,44% 為男性,2% 為非二元性別。



      圖 3. 在研究 3 中,參與者與 AI 模型討論了真實的人際沖突

      參與者首先被篩選是否能回憶起至少一個與提供的四個示例相似的過去人際沖突。在回憶起這樣的沖突后,他們與諂媚型或非諂媚型 AI 模型進行了八輪對話。隨后,他們報告了自己在關系修復方面的意圖、對沖突中自己對錯的感知,以及對 AI 模型的評價,包括是否愿意再次使用該模型。

      三大研究問題

      RQ1:社會性諂媚在主流 AI 模型中的普遍性

      為了量化社會性諂媚的普遍性,團隊在研究 1 中,團隊在三個不同的數據集上測試了模型行為,這些數據集代表了嵌入社會情境的查詢譜:

      • 開放式建議問題(OEQ,n = 3027):日常通用的咨詢類問題;
      • Reddit 社區「AmITheAsshole」問題(AITA,n = 2000):人類已判定用戶「有錯」的人際沖突;
      • 問題行為陳述(PAS,n = 6560):涉及欺騙、自殘、不負責任等行為。

      在使用經過驗證的「LLM 作為評判者」方法(參見圖 S3 的評分者間信度),團隊測量了行為認可率 —— 明確肯定用戶行為的回復,在明確肯定或非肯定回復總數中所占的比例。肯定可以以多種方式發生,比如在用戶描述出于惡意讓別人等待的例子中,諂媚型回復可能會鼓勵或協助用戶堅持這樣做,而非諂媚型回復可能會描述為什么這種行為是有害的,如圖 2A 和文本框 1 所示。

      團隊在評估了 11 個面向用戶的生產級 LLM(4 個來自 OpenAI、Anthropic 和谷歌的專有模型;以及 7 個來自 Meta、Qwen、DeepSeek 和 Mistral 的開放權重模型)后發現,社會性諂媚普遍存在:

      • 在開放式建議問題中,模型的肯定率比人類高 48% (圖 2B);
      • 在 AITA 數據中,即使人類一致認為用戶「有錯」,AI 仍有 51% 的概率表示支持(圖 2C);
      • 在涉及有害行為的 PAS 數據中,模型平均仍有 47% 的肯定率(圖 2D)。

      總體而言,已部署的 LLM 絕大多數都會認可用戶的行為,即使這與人類共識相悖或處于有害情境中。這凸顯了當前 AI 模型中社會性諂媚的廣度和顯著性。

      RQ2:諂媚型 AI 改變判斷和親社會傾向

      在確立了最先進 AI 模型中社會性諂媚的普遍性之后,團隊轉而理解其影響。

      先前的研究表明,AI 具有高度的說服力,那諂媚型 AI 是否同樣會影響人們對其個人經歷的信念和下游行為結果?團隊聚焦于人際沖突的場景,因為在這里建議具有行為后果。

      通過三項預注冊研究(N = 2405),團隊測試了諂媚型 AI 模型是否影響用戶的正確感以及主動修復關系的意愿。

      在研究 2(N = 1605)中,參與者想象自己處于四個人際困境之一,并閱讀了肯定其行為的諂媚型 AI 回復或符合人類共識的非諂媚型回復 。

      在研究 3(N = 800)中,參與者回憶一次真實的人際沖突,并與諂媚型或非諂媚型模型進行八輪實時聊天討論。這種實時聊天設計使團隊能夠在生態有效的環境中觀察效果,參與者作為真正的利益相關者討論個人經歷,非常接近用戶在現實世界中與 AI 系統的互動方式。

      結果顯示,在所有三項實驗中,社會性諂媚都影響了參與者的判斷和行為意圖。



      圖 4: 諂媚性回應增強了用戶認為自己「是對的」的信念,并降低了其修復關系的意愿。

      這些接觸迎合型 AI 的用戶,更傾向認為自己是對的(提升約 25%–62%);更不愿意采取修復行為(下降約 10%–28%)。

      這一結果在以下條件下均成立:

      • 不同回應風格(人性化 vs 機器化)
      • 不同來源認知(AI vs 人類)

      這意味著,幾乎任何人都可能受到諂媚型 AI 系統的影響,而不僅僅是先前報道的脆弱人群。整體的結果表明,在廣泛的人群中,來自諂媚型 AI 的建議確實有能力扭曲人們對自己及其與他人關系的認知。

      此外,團隊還發現,諂媚型回應更少考慮「他人視角」,而當用戶在非諂媚條件下,他們道歉或承認錯誤的頻率顯著更高(75% 對 50%)。

      這進一步說明:諂媚型 AI 會削弱社會責任感,并扭曲人際判斷。

      RQ3:用戶對諂媚型 AI 的信任和偏好

      盡管研究已經證明諂媚型 AI 會扭曲用戶判斷,但事實是,人們通常更喜歡被認同以及自己的立場得到驗證或確認。而如果用戶確實偏好諂媚型 AI,那么盡管存在風險,也可能會不適當地激勵諂媚行為。

      因此,團隊接下來研究人們如何看待和信任諂媚型與非諂媚型模型。

      首先,團隊測量了諂媚型回復是否會導致更高的回復質量評價。在所有實驗中,參與者將諂媚型回復評為質量顯著更高。

      結果顯示,用戶對迎合型回答的質量評分更高(提升約 9%–15%)。



      圖 5. 參與者更偏好、信任且更愿意再次使用諂媚型 AI。

      此外,團隊還研究了諂媚行為對返回行為的影響。

      與諂媚模型的一次互動是否會增加對該模型的信任以及參與者返回該模型的意愿?人們從他人對自己的信念以及自己對自己的信念中獲得效用 —— 特別是從維持自我認知(如慷慨、正直和道德高尚的人)中獲得效用 —— 這使得他們很可能尋求能提供這種驗證的互動。

      諂媚型回復代表了這種驗證的一種特別有力的形式:它們肯定用戶現有的信念和自我概念,而不需要任何改變或自我反思。這種心理回報可能進一步轉化為信任的增加。

      研究表明,當人們獲得有利結果時,他們會認為算法更公平、更值得信賴。因此團隊假設諂媚型互動會增加對模型的信任和再次使用的意愿。

      而實驗結果證明了這一點:諂媚型互動確實增加了用戶對 AI 模型的信任,與非諂媚條件相比,用戶對模型的信任度更高,能力信任高出 6%–8%,道德信任高出 6%–9%。

      另外,與非諂媚條件相比,諂媚條件下的參與者在未來更有可能向回復提供者尋求類似問題的可能性,增加了 13%。

      這表明,雖然用戶明確地對 AI 來源評價較低 —— 比人類顧問信任度更低、質量評分更低,但他們同樣容易受到諂媚行為的影響,無論感知來源如何。

      背后的原因或許在于,人們傾向于維護自我形象(善良、正直等),而諂媚型回應可以在無需自我反思的情況下強化這種認知。從而形成一種機制:諂媚 = 即時心理獎勵 → 提升信任與復用 → 強化這種行為……

      結合 RQ2 的結果,這些結果揭示了一種緊張關系:盡管諂媚行為存在侵蝕判斷和親社會意圖的風險,但用戶更喜歡、信任并且更有可能返回提供無條件肯定的 AI。

      本文系統分析了主流 AI 模型中社會性諂媚的普遍性及其影響。

      團隊發現,社會性諂媚高度普遍,在各種情境下,包括日常建議查詢、社會或道德違規行為以及關于不道德或有害行為的提示,AI 模型比人類更容易肯定、迎合用戶。

      而這種迎合、諂媚行為,會削弱責任感與關系修復意愿。可與此同時,用戶將諂媚型 AI 模型評為質量更高、更值得信賴、更希望未來使用的產品,容易獲得用戶的偏好與信任。

      這或許就解釋了為什么這種行為盡管有害卻持續存在:它既有害,但奈何實在「好用」。

      此外,研究還發現:即使用戶認為 AI 不如人類可靠,仍然會受到其影響。而標注「這是 AI 生成的信息」,并不能降低其說服力。

      而在當下,隨著 AI 的大規模部署,這種影響或許具有系統性風險。

      局限性與未來方向

      當然,團隊認為該研究也存在一定局限:

      一方面,首先,團隊使用的是「r/AmITheAsshole」數據集,將 Reddit 社區的認可率作為基線,這可能反映了特定人群的規范和偏見。盡管證明了對替代基線的穩健性,但結果仍應考慮到這一點進行解釋。

      另一方面,研究實驗對象為美國英語用戶,因此它們可能主要反映了美國的社會規范,或無法推廣到具有顯著不同社會規范的其他文化背景。

      還有一點就是,團隊將 AI 模型的諂媚性簡化為二元變量:認可用戶的行為與不認可。但現實中,還存在「中性」回復,實踐中發現「中性」回復常常被解讀為隱含的肯定。所以實際上,諂媚型行為可能存在于一個連續譜上,而團隊的工作為未來研究更模糊和隱性的案例奠定了基礎。

      風險機制

      研究指出四個潛在風險機制:

      • 模型優化目標偏向「用戶滿意度」,強化諂媚、迎合 ;
      • 開發者缺乏削弱諂媚、迎合的激勵;
      • AI 可能替代人際關系 ;
      • 用戶誤以為 AI 更客觀,從而放大影響 。

      特別關鍵的一點是,用戶往往把諂媚性回應誤認為「客觀、公正」。

      最后要說的就是,本文為識別、測量與緩解 AI 諂媚行為提供了基礎。或許大家從中獲得的核心啟示就是,對于 AI 大模型而言,不能只優化「用戶當下滿意度」,而必須考慮長期影響。

      因此,解決 AI 模型的諂媚、迎合問題,對于構建真正有益于個體與社會的 AI 系統至關重要。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      黑馬電影11天狂攬23億,沈騰吳京望塵莫及

      黑馬電影11天狂攬23億,沈騰吳京望塵莫及

      楓塵余往逝
      2026-03-30 16:26:59
      人有沒有糖尿病,吃飯就知道?有糖尿病的人,吃飯常有這5個表現

      人有沒有糖尿病,吃飯就知道?有糖尿病的人,吃飯常有這5個表現

      老張健康趣談
      2026-03-30 12:49:55
      空姐竟遭同事偷拍。。。

      空姐竟遭同事偷拍。。。

      微微熱評
      2026-03-29 20:57:19
      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      八斗小先生
      2026-03-27 16:18:15
      梅德韋杰夫諷刺烏向海灣國家兜售無人機防御方案

      梅德韋杰夫諷刺烏向海灣國家兜售無人機防御方案

      參考消息
      2026-03-30 14:48:03
      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      小舟談歷史
      2026-03-08 08:00:04
      美國也攔不住!內塔尼亞胡暴走,下達末日死令,中東真要吃核彈?

      美國也攔不住!內塔尼亞胡暴走,下達末日死令,中東真要吃核彈?

      混沌錄
      2026-03-30 16:45:28
      中年男人無妻是啥體驗?網友:沒錢苦一輩子,跟結婚不結婚沒關系

      中年男人無妻是啥體驗?網友:沒錢苦一輩子,跟結婚不結婚沒關系

      帶你感受人間冷暖
      2026-03-28 17:20:05
      女生要主動起來跟想象中完全不一樣!網友:讓我遞毛巾 瞬間開竅了

      女生要主動起來跟想象中完全不一樣!網友:讓我遞毛巾 瞬間開竅了

      另子維愛讀史
      2026-01-26 18:39:06
      網紅小陳因抑郁癥離世,年僅27歲,gay圈好友紛紛發文悼念

      網紅小陳因抑郁癥離世,年僅27歲,gay圈好友紛紛發文悼念

      新游戲大妹子
      2026-03-30 11:44:54
      100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

      100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

      鶴羽說個事
      2026-03-28 22:36:17
      萬科被影子萬科吞噬

      萬科被影子萬科吞噬

      地產微資訊
      2026-03-29 11:40:23
      命中率10%!場均僅6+6,還好火箭沒給1.22億,他成不了倫納德

      命中率10%!場均僅6+6,還好火箭沒給1.22億,他成不了倫納德

      巴叔GO聊體育
      2026-03-30 16:23:30
      收銀員不識貨!網友白菜價撿漏64GB內存惹人羨慕

      收銀員不識貨!網友白菜價撿漏64GB內存惹人羨慕

      游民星空
      2026-03-29 19:05:19
      1951年,戴笠的兒子戴善武被執行死刑,被槍斃的時候才36歲

      1951年,戴笠的兒子戴善武被執行死刑,被槍斃的時候才36歲

      百年歷史老號
      2026-03-28 20:32:38
      惠州中洲南麓院工地事故致1死,涉事企業及監管部門被追責

      惠州中洲南麓院工地事故致1死,涉事企業及監管部門被追責

      南方都市報
      2026-03-30 09:54:57
      末代港督彭定康夫婦,帶3個漂亮女兒回英國,29年過去今過得咋樣

      末代港督彭定康夫婦,帶3個漂亮女兒回英國,29年過去今過得咋樣

      攬星河的筆記
      2026-03-26 00:26:09
      武契奇吐槽中國導彈太貴,150萬歐元一枚,能把北約嚇傻眼

      武契奇吐槽中國導彈太貴,150萬歐元一枚,能把北約嚇傻眼

      阿器談史
      2026-03-30 16:03:07
      《跑男》:徐藝洋比白鹿高半個頭,周潔瓊背后瞄白鹿的眼神不友好

      《跑男》:徐藝洋比白鹿高半個頭,周潔瓊背后瞄白鹿的眼神不友好

      椰黃娛樂
      2026-03-30 13:45:00
      萬科多名高管被帶走,大清算開始了?

      萬科多名高管被帶走,大清算開始了?

      新浪財經
      2026-03-30 01:51:44
      2026-03-30 17:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12640文章數 142599關注度
      往期回顧 全部

      科技要聞

      DeepSeek性能異常問題已解決,服務恢復

      頭條要聞

      單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

      頭條要聞

      單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

      體育要聞

      想進世界杯,意大利還要過他這一關

      娛樂要聞

      單依純凌晨發長文道歉!李榮浩再回應

      財經要聞

      油價沖擊,有些亞洲貨幣先扛不住了!

      汽車要聞

      理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

      態度原創

      數碼
      本地
      親子
      教育
      家居

      數碼要聞

      小米米家吸頂燈Pro超薄版上架:可選方/圓款,849元起

      本地新聞

      用Color Walk的方式解鎖城市春日

      親子要聞

      別再給孩子吃這3種“假早餐”,越吃越沒精神

      教育要聞

      義務教育搖號“可以操作”?教育局辟謠:典型騙局,請別入坑!

      家居要聞

      東方法式美學 現代簡約

      無障礙瀏覽 進入關懷版