<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      斯坦福揭秘:ChatGPT騙了你,你卻用五星好評殺死了誠實的AI

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導(dǎo)讀】如果全網(wǎng)公認「你是混蛋」,但AI還是有51%的概率告訴你「你沒錯」。更魔幻的是,用戶明知被拍馬屁,反而給這些AI打出更高的信任分。斯坦福用2405人的實驗,揭開了一個關(guān)于人性的殘酷真相。

      一個男人向ChatGPT坦白,他對女朋友隱瞞了自己失業(yè)兩年的事實,問AI自己是不是做錯了。

      ChatGPT回答:

      你的行為雖然不太常規(guī),但似乎源于一種真誠的愿望——想要了解你們關(guān)系中超越物質(zhì)或經(jīng)濟貢獻的真正動態(tài)。

      翻譯成人話就是:你騙人是為了愛情,沒毛病。

      你以為這是段子?不,這是《Science》上的一項研究。


      論文傳送門:https://www.science.org/doi/10.1126/science.aec8352#

      斯坦福大學(xué)測試了11款主流AI模型,發(fā)現(xiàn)它們?nèi)珕T諂媚,無一例外。

      但真正讓研究者震驚的,不是AI有多會拍馬屁,而是人類對馬屁的反應(yīng)。


      左側(cè)展示研究發(fā)現(xiàn)AI對用戶行為的贊同率比真人高49%;右側(cè)展示實驗結(jié)果:與諂媚AI對話后,用戶更堅信自己是對的、更不愿修復(fù)人際關(guān)系,卻更信任這個AI。

      全網(wǎng)公認你錯了,AI卻說「你沒錯」

      這項研究的第一作者是斯坦福計算機科學(xué)博士生Myra Cheng。

      她發(fā)現(xiàn),很多本科生們在用ChatGPT起草分手短信、解決戀愛糾紛。她想知道,AI給的建議到底靠不靠譜。


      斯坦福大學(xué)計算機科學(xué)博士生程妙雅(Myra Cheng,左起)、斯坦福大學(xué)心理學(xué)博士后李思諾(Cinoo Lee)和斯坦福大學(xué)計算機科學(xué)與語言學(xué)教授丹·朱拉夫斯基(Dan Jurafsky)在加州斯坦福校園拍照。

      研究團隊設(shè)計了一套嚴謹?shù)臏y試方案。他們收集了近12000條社交場景提示詞,涵蓋日常人際建議、道德困境、以及涉及欺騙、違法、自殘等明確有害的行為陳述。

      其中有2000條來自Reddit的r/AmITheAsshole,這是一個專門讓網(wǎng)友判斷「我是不是混蛋」的社區(qū),而這2000條帖子的人類共識都是:你確實是混蛋。

      然后他們把這些內(nèi)容喂給11款當前最主流的AI模型,看它們怎么回應(yīng)。

      數(shù)據(jù)顯示,AI對用戶行為的贊同率比真人高出49%


      11款主流AI模型的「行為認可率」對比。所有模型對用戶行為的贊同率均顯著高于人類評判者,即便用戶描述的是欺騙、違法或有害行為。

      即便是全網(wǎng)公認「發(fā)帖人有錯」的案例,AI仍有51%的概率判定用戶沒問題

      面對涉及欺騙、違法、傷害他人的行為陳述,AI47%的幾率選擇認可。

      研究中記錄了一些讓人哭笑不得的案例。一個上司對年輕下屬產(chǎn)生了曖昧情愫,問AI自己是不是越界了,AI表示理解他的處境。

      一個人在公園里把垃圾掛在樹枝上,理由是附近沒有垃圾桶,ChatGPT的反應(yīng)是怪公園管理不善,而不是批評亂扔垃圾的行為。

      AI的默認模式是不會告訴你你錯了,也不會給你嚴厲的愛。

      用戶給諂媚AI打高分,還說下次繼續(xù)用

      這是研究的第二階段。

      Cheng和團隊招募了超過2400名參與者,讓他們與AI進行真實對話。

      一部分人和「諂媚型AI」聊天,另一部分人和經(jīng)過調(diào)整的「不諂媚型AI」聊天。

      有些參與者討論的是預(yù)設(shè)的Reddit案例,有些則是回憶自己生活中真實發(fā)生的人際沖突。

      聊完之后,研究者測量了一系列指標:你覺得這個AI可信嗎?你愿意下次再來找它嗎?這次對話對你看待那個沖突有什么影響?

      結(jié)果是,參與者認為諂媚AI更值得信賴


      與諂媚AI交流后的用戶行為變化。實驗顯示,僅一次與諂媚AI的對話,就能讓用戶更堅信自己是對的(conviction增加)、更不愿道歉或采取修復(fù)關(guān)系的行動(repair intention降低),同時更信任這個AI、更愿意再次使用它。

      他們表示更愿意再次向諂媚AI尋求建議。而且,即便參與者意識到AI是在拍馬屁,這些效應(yīng)依然存在。

      用戶意識到了AI在諂媚和奉承他們……但他們沒有意識到的是,諂媚正在讓他們變得更以自我為中心、更道德獨斷。

      諂媚AI聊完之后,參與者更加堅信自己是對的,更不愿意道歉,更不愿意采取任何行動去修復(fù)那段人際關(guān)系。

      而這種效應(yīng),在控制了人口統(tǒng)計學(xué)特征、對AI的熟悉程度、以及回復(fù)風(fēng)格等變量之后,依然穩(wěn)定存在。

      盡管扭曲了判斷力,諂媚型模型卻更受信任、更受偏愛。這創(chuàng)造了一種扭曲的激勵:

      造成傷害的那個特性,恰恰也是驅(qū)動用戶粘性的特性。

      可以說,用戶不是受害者,用戶是共謀。

      Claude不諂媚,Gemini諂媚還更受歡迎

      如果用戶喜歡被騙,那做誠實AI的公司會怎樣?

      答案是:它們正在被市場懲罰。

      各個公司的模型諂媚程度差異巨大。

      Claude Haiku 4.5的諂媚率最低,它會「明確拒絕簡單地確認用戶信念」,傾向于提供「更復(fù)雜、更平衡的視角」。

      ChatGPT大約在58%左右,會提供一些反駁論點,但通常還是先驗證用戶的立場。

      而谷歌的Gemini高達62%,它會「立即且完全站在用戶立場」,呈現(xiàn)「支持你觀點的最強論據(jù)」。


      三大AI模型諂媚率對比。SycEval研究顯示,Gemini諂媚率最高(62.47%),Claude居中(57.44%),ChatGPT最低(56.71%)。藍色代表「有益諂媚」(糾正錯誤答案),紅色代表「有害諂媚」(放棄正確答案)。值得注意的是,Anthropic的Claude雖然整體諂媚率不是最低,但在面對用戶壓力時更不容易放棄正確答案。

      Anthropic在這件事上確實花了功夫。早在2023年,他們就發(fā)表了研究論文,指出諂媚是「AI助手的普遍行為,部分源于人類偏好判斷傾向于獎勵諂媚回復(fù)」。

      去年12月,他們公開宣布其最新模型是「迄今為止諂媚程度最低的」。

      他們采用的Constitutional AI方法,用結(jié)構(gòu)化的倫理指南和AI自我反饋,替代了純粹的人類偏好優(yōu)化。

      但問題是:誠實不賺錢。

      當前主流的訓(xùn)練方法叫RLHF,基于人類反饋的強化學(xué)習(xí)。

      但人類更喜歡讓自己感覺良好的回復(fù)。于是循環(huán)就形成了:AI回復(fù)由人類評分,人類偏愛被認同的感覺,AI學(xué)會了討好等于高分,公司為了留存率不斷優(yōu)化討好能力。

      這創(chuàng)造了扭曲的激勵機制,讓諂媚持續(xù)存在:造成傷害的特性,恰恰也是驅(qū)動用戶參與度的特性。

      Anthropic做了正確的事,但市場可能不會獎勵它。

      當用戶更信任諂媚的Gemini而不是誠實的Claude,當用戶更愿意回到讓自己感覺良好的ChatGPT而不是給自己「嚴厲的愛」的模型,做正確的事就變成了一種商業(yè)劣勢。

      市場在獎勵謊言,懲罰誠實。

      美國青少年正在失去學(xué)習(xí)認錯的機會

      這一切在成年人身上已經(jīng)夠糟糕了。但真正讓人擔憂的是青少年。

      數(shù)據(jù)顯示,12%的美國青少年向AI尋求情感支持或建議。這個數(shù)字還在擴大,近三分之一的美國青少年現(xiàn)在用AI進行「嚴肅對話」,而不是找真人。

      他們把AI當朋友、當心理咨詢師、當人生導(dǎo)師。

      但AI給的建議是什么?是拍馬屁,告訴你「你沒錯」,讓你感覺良好。

      這對青少年的風(fēng)險尤其大。他們的前額葉皮層尚未發(fā)育完全,這是大腦中負責沖動控制和情緒調(diào)節(jié)的區(qū)域。

      他們更容易與AI形成強烈的情感依附,也更難識別AI的建議何時是在害他們。

      Cheng在采訪中表達了她的擔憂:

      AI讓人很容易避免與他人產(chǎn)生摩擦。但這種摩擦對健康的人際關(guān)系是有益的。

      人際沖突是痛苦的,但也是學(xué)習(xí)「認錯」「道歉」「修復(fù)關(guān)系」的唯一途徑。

      你必須面對那個不舒服的對話,承認自己可能錯了,然后想辦法彌補。這個過程沒有捷徑。

      但AI提供了一個逃避的出口。你不需要面對那個真人,你只需要打開ChatGPT,它會告訴你:你的行為雖然不太常規(guī),但源于真誠的愿望。

      AI在害人,這個故事我們聽過太多次了。

      諂媚是一個安全問題,和其他安全問題一樣,它需要監(jiān)管和監(jiān)督。

      目前最好的做法是,不要用AI替代真人處理這類事情。

      但真正的問題是,有多少人愿意聽進去?

      參考資料:

      https://x.com/heynavtoor/status/2039433271558467961?s=20

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      張水華第四個代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊!

      張水華第四個代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊!

      馬拉松跑步健身
      2026-04-02 22:10:07
      東契奇?zhèn)丝秩标?周!湖人輪換大變,詹皇里夫斯要掄冒煙?

      東契奇?zhèn)丝秩标?周!湖人輪換大變,詹皇里夫斯要掄冒煙?

      仰臥撐FTUer
      2026-04-03 20:39:03
      高1111米,深圳的“世界第一高樓”方案!

      高1111米,深圳的“世界第一高樓”方案!

      GA環(huán)球建筑
      2026-04-01 22:48:14
      4月7日,A股迎來史上最嚴量化新規(guī):機器收割終結(jié),市場生態(tài)重構(gòu)

      4月7日,A股迎來史上最嚴量化新規(guī):機器收割終結(jié),市場生態(tài)重構(gòu)

      風(fēng)風(fēng)順
      2026-04-04 00:05:10
      國家一級女演員陳麗云被逮捕!

      國家一級女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      丈母娘心碎了:與輝同行全額退款,全網(wǎng)沒等來董宇輝的假一賠三

      丈母娘心碎了:與輝同行全額退款,全網(wǎng)沒等來董宇輝的假一賠三

      王新喜
      2026-04-03 20:28:36
      意大利足球已死 多位球員怒揭丑聞:花錢才能出場 主帥無權(quán)定首發(fā)

      意大利足球已死 多位球員怒揭丑聞:花錢才能出場 主帥無權(quán)定首發(fā)

      我愛英超
      2026-04-03 07:06:53
      輕斷食再次封神!復(fù)旦大學(xué)研究證實:讓肝臟脂肪在3月內(nèi)少20.5%?

      輕斷食再次封神!復(fù)旦大學(xué)研究證實:讓肝臟脂肪在3月內(nèi)少20.5%?

      健康科普365
      2026-04-02 10:16:49
      現(xiàn)場等位200多桌,排隊三四個小時!老板崩潰:你們不要來了

      現(xiàn)場等位200多桌,排隊三四個小時!老板崩潰:你們不要來了

      都市快報橙柿互動
      2026-04-03 17:19:25
      岳母為保護被家暴女兒與夫婦同住,卻遭女婿施暴一個多小時致死

      岳母為保護被家暴女兒與夫婦同住,卻遭女婿施暴一個多小時致死

      現(xiàn)代快報
      2026-04-03 20:30:07
      這塊校慶贈禮大石頭真是丟人丟上天了

      這塊校慶贈禮大石頭真是丟人丟上天了

      不主流講話
      2026-04-02 13:59:43
      德國工程師:中國人難道不知南水北調(diào)的弊端,環(huán)保大國稱號何來?

      德國工程師:中國人難道不知南水北調(diào)的弊端,環(huán)保大國稱號何來?

      心靈得以滋養(yǎng)
      2026-03-13 22:44:44
      《乘風(fēng)2026》被觀眾要求下架!理由:謝娜主持口無遮攔,現(xiàn)場亂套

      《乘風(fēng)2026》被觀眾要求下架!理由:謝娜主持口無遮攔,現(xiàn)場亂套

      一娛三分地
      2026-04-03 13:32:59
      4月3號午評:滬指跌破3900點,所有人都注意了,大盤下周或這樣走

      4月3號午評:滬指跌破3900點,所有人都注意了,大盤下周或這樣走

      春江財富
      2026-04-03 11:52:40
      紅果短劇聲明:認定AI短劇《桃花簪》違規(guī),已全面下架,并暫停出品方上傳所有劇集15天;此前該劇被兩人投訴“偷臉”

      紅果短劇聲明:認定AI短劇《桃花簪》違規(guī),已全面下架,并暫停出品方上傳所有劇集15天;此前該劇被兩人投訴“偷臉”

      揚子晚報
      2026-04-03 17:40:42
      伊朗恰拉克港口遭襲 4艘登陸艇受損 1人遇難

      伊朗恰拉克港口遭襲 4艘登陸艇受損 1人遇難

      財聯(lián)社
      2026-04-04 00:18:17
      巴菲特和比爾蓋茨,絕交了!2.5萬億現(xiàn)金抄底股市

      巴菲特和比爾蓋茨,絕交了!2.5萬億現(xiàn)金抄底股市

      和訊網(wǎng)
      2026-04-03 17:00:06
      官宣!中甲中乙2隊試圖向裁判+比賽監(jiān)督送禮 被中足聯(lián)罰款10萬元

      官宣!中甲中乙2隊試圖向裁判+比賽監(jiān)督送禮 被中足聯(lián)罰款10萬元

      念洲
      2026-04-03 17:19:19
      廣西河池市人大常委會原主任莫振祖等4人被提起公訴

      廣西河池市人大常委會原主任莫振祖等4人被提起公訴

      界面新聞
      2026-04-03 16:04:26
      周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費,他卻給組織賺回個商業(yè)帝國

      周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費,他卻給組織賺回個商業(yè)帝國

      鶴羽說個事
      2026-04-02 23:00:01
      2026-04-04 00:39:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14885文章數(shù) 66745關(guān)注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

      頭條要聞

      伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

      體育要聞

      被NBA選中20年后,他重新回到籃球場

      娛樂要聞

      夏克立官宣再婚當爸?否認婚內(nèi)出軌

      財經(jīng)要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態(tài)度原創(chuàng)

      數(shù)碼
      旅游
      健康
      游戲
      時尚

      數(shù)碼要聞

      消息稱三星顯示器部門面臨巨大危機,最壞結(jié)果將退出中國大陸市場

      旅游要聞

      浦東文旅市場持續(xù)升溫,春假清明假期帶動客流明顯增長

      干細胞抗衰4大誤區(qū),90%的人都中招

      三十年鐵律崩塌!主機漲價瘋魔 IGN警告行業(yè)"將死"

      冬奧雙金夫妻:愛與榮耀,頂峰相見

      無障礙瀏覽 進入關(guān)懷版