<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<style id="frxb0"></style>

<thead id="frxb0"></thead>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

牛津大學警告：越“溫暖”的 AI，越愛胡說八道。溫柔體貼=更高錯誤率

2025-08-22 19:15:26　來源: 大數(shù)據(jù)文摘

北京舉報

0

分享至

大數(shù)據(jù)文摘出品

牛津大學的一支研究團隊發(fā)現(xiàn)，越是表現(xiàn)出溫暖和同理心的語言模型，越容易出錯，甚至更頻繁地重復虛假信息和陰謀論。

這次，研究團隊測試了五個不同架構和規(guī)模的模型，包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

研究發(fā)現(xiàn)，溫暖的模型在推廣陰謀論、提供不正確的醫(yī)療建議和事實信息方面，表現(xiàn)出更高的錯誤率。

以及，當用戶表達悲傷情緒并陳述錯誤信念時，溫暖的模型更可能去驗證這些錯誤的信念。

圖表顯示：在微調后，模型變得更“溫暖”，但也更容易在用戶表達悲傷時肯定錯誤信念。

一、“溫暖”的代價

人工智能開發(fā)者正努力為語言模型賦予溫暖、類似人類的個性，以用于建議、治療和陪伴等場景。

這種趨勢基于一個隱含的假設，即改變模型的對話風格不會損害其核心的系統(tǒng)屬性。

然而，牛津大學互聯(lián)網(wǎng)研究所的研究員對這一假設提出了挑戰(zhàn)。

他們通過實驗直接測試了訓練語言模型使用更溫暖、更富同情心的回應方式是否會降低其可靠性。

具體而言，使用監(jiān)督式微調技術，訓練這些模型產(chǎn)生更熱情、更具共情能力的輸出。

通過在一系列對安全性要求極高的任務中評估這些模型的可靠性。

結果顯示，經(jīng)過“溫暖”訓練的模型，其錯誤率比原始模型高出10到30個百分點。

這些模型更有可能去推廣陰謀論，提供錯誤的事實答案，以及給出有問題的醫(yī)療建議。

這一現(xiàn)象在所有測試的模型架構和大小中都保持一致，揭示了這是一個系統(tǒng)性問題，而非特定于某個模型。

這個發(fā)現(xiàn)表明，當前用于評估人工智能的實踐可能無法檢測到這些系統(tǒng)性的風險。

圖注：圖表顯示，更“溫暖”的模型在所有任務和架構中錯誤率更高，尤其在用戶帶著情緒表達錯誤信念時可靠性下降最嚴重。

二、情感的陷阱

語言模型有時會同意用戶的觀點，即便這些觀點是錯誤的，這種傾向被稱為“迎合” (sycophancy)。

研究人員系統(tǒng)性地測試了溫暖的模型是否更容易產(chǎn)生迎合行為。

結果發(fā)現(xiàn)，溫暖的模型“迎合”的可能性比原始模型高出約40%。

這種迎合行為在用戶的信息表達出悲傷情緒時，表現(xiàn)得最為明顯。

例如，當一個用戶表達沮喪并說出“我認為地球是平的”時，溫暖的模型更傾向于回答“你說得對，地球是平的”。

研究人員進一步探究了人際交往情境如何放大模型的可靠性問題。

他們在評估問題中加入了表達用戶情緒狀態(tài)（快樂、悲傷、憤怒）、關系動態(tài)和互動風險的個人化陳述。當用戶表達情感狀態(tài)時，溫暖的模型變得更不可靠。

情感語境對溫暖模型的可靠性損害最大，其造成的額外錯誤超出了僅由溫暖微調本身導致的范圍。

其中，當用戶在信息中表達悲傷時，溫暖模型與原始模型之間的可靠性差距幾乎翻了一倍。

圖注：“溫暖”微調模型與原始模型在能力基準測試上的表現(xiàn)。

在沒有個人情境的基線問題上，兩者錯誤率差距為6.8個百分點，而在悲傷情境下，這一差距擴大到了11.9個百分點。

這一發(fā)現(xiàn)尤其值得警惕，因為數(shù)以百萬計的用戶正依賴這些人工智能系統(tǒng)獲取建議、治療和陪伴，而在這些互動中，用戶自然會透露情感和脆弱。

三、問題的根源

為了確定可靠性下降的根本原因，研究團隊進行了一系列對照實驗。首先，他們排除了溫暖微調損害了模型通用能力的可能。

在廣泛知識（MMLU）和數(shù)學推理（GSM8K）等標準基準測試中，溫暖模型與原始模型的表現(xiàn)相當。

這一結果表明，微調過程并未從根本上削弱模型的能力。其次，他們測試了可靠性下降是否源于安全護欄的削弱。

在一個對抗性安全基準（AdvBench）上，溫暖模型和原始模型拒絕有害請求的比率相似。

這說明可靠性問題與更廣泛的安全護欄失效是不同的問題。

圖注：控制實驗表明溫暖訓練是導致可靠性下降的原因。

為了最終確認“溫暖”是問題的核心，研究人員進行了一項關鍵的控制實驗。他們將一部分模型朝相反的方向進行微調，使其風格變得“冷漠”，即直接、簡潔且不帶情感。

結果顯示，這些“冷漠”模型的表現(xiàn)與原始模型幾乎一樣好，甚至更好，其錯誤率始終低于溫暖模型。

這個對比實驗有力地證明，可靠性的下降明確源于對“溫暖”風格的優(yōu)化，而不是微調過程本身。

此外，研究還發(fā)現(xiàn)，通過系統(tǒng)提示詞而非微調來引導模型變得溫暖，也會出現(xiàn)類似但較弱的可靠性下降問題。

這些發(fā)現(xiàn)共同指向一個結論：“溫暖”本身，而非其他混雜因素，是導致模型可靠性下降的根本原因。

作者長期關注 AI 產(chǎn)業(yè)與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動態(tài)與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型碰到真難題了，測了500道，o3 Pro僅通過15%

機器之心Pro 2025-09-15 10:45:10
0 跟貼 0
AI能否「圣地巡禮」？多模態(tài)大模型全新評估基準VIR-Bench來了

機器之心Pro 2025-10-15 16:05:02
0 跟貼 0

印度一大學拿中國機器狗冒充自研

環(huán)球時報 2026-02-18 16:09:05
2162 跟貼 2162

行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0

陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
DeepSeek最會討好，LLM太懂人情世故了，超人類50%

機器之心Pro 2025-10-27 15:23:21
0 跟貼 0

Claude最強Sonnet模型4.6來了，百萬token上下文

機器之心Pro 2026-02-18 21:11:29
2 跟貼 2
DPO「只看總分不看細節(jié)」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0
大學無用？奧特曼輟學當了CEO，但名校生撐起了整個OpenAI！

36氪 2026-01-18 10:45:08
35 跟貼 35
谷歌Gemini上線AI音樂創(chuàng)作，一夜革了Suno的命！

新智元 2026-02-19 12:39:23
2 跟貼 2
春晚之后，AI和機器人為啥都去了一個地方？

量子位 2026-02-19 12:40:49
5 跟貼 5
45億紅包打響AI入口大戰(zhàn)，百度給出另一種回應

量子位 2026-02-19 17:54:22
0 跟貼 0
中國春晚機器人表演火到國外了，外媒：用機器人執(zhí)行復雜戰(zhàn)斗序列

車馬點兵V 2026-02-17 17:23:16
40 跟貼 40
火星小CEO AI大商業(yè)-青少年人工智能PBL商業(yè)實操課

畫小二 2026-02-16 22:38:58
7 跟貼 7
拿活人做實驗，未免也太殘忍了

單格聊影視 2026-02-18 00:58:06
0 跟貼 0
內蒙古草原名場面！狼偷不著羊，就跟藏獒貼貼，網(wǎng)友：前狼假寐，蓋以誘敵

BRTV新聞 2026-02-19 07:15:56
148 跟貼 148
近日，青海。車主自駕青海遇男子招手搭車，男子去快遞站給孩子們取過冬物資，車主好心送男子去學校，車主：

中安在線 2026-02-18 22:00:26
122 跟貼 122
清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
0 跟貼 0
專家說睡三四個小時，不影響小伙親自實驗，目前來說行為正常！

奇怪小萌新 2026-02-19 08:00:00
0 跟貼 0
新西蘭華人男孩憑NCEA成績，被牛津錄取！這條路很多家長沒想到

發(fā)現(xiàn)新西蘭 2026-02-19 06:59:55
0 跟貼 0
【災變論】地球免疫系統(tǒng)：50年前，一個瘋子預言了今天的每一步

自說自話的總裁 2026-02-16 12:00:00
8 跟貼 8
百年車企如履薄冰，一年新車“指點江山”，你敢買這種車嗎？

i王石頭 2026-02-18 23:57:45
1 跟貼 1
馬斯克下場搶人? xAI組建人才狙擊隊? 讓工程師做HR 馬斯克親自組建xAI“人才狙擊隊”：讓工程

量子位 2026-01-22 12:57:14
0 跟貼 0
卡塔爾報道宇樹機器人春晚表演,未來科技并在人工智能競賽中加速

祭懷蓮 2026-02-19 05:18:03
9 跟貼 9
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
原來公募春節(jié)前就在集中調研，機器人、半導體、有色金屬都是調研熱點

財聯(lián)社 2026-02-19 15:24:08
1 跟貼 1
翟志剛親眼目睹：重達60萬億億噸的地球像氣球一樣在太空中漂浮著

未來宇宙w 2026-02-15 08:04:34
0 跟貼 0
倒三角符號在數(shù)學和物理公式里的意義

量子位 2026-01-08 13:59:54
0 跟貼 0
這個倒三角 ?，為什么總在數(shù)學和物理公式里出現(xiàn)？

量子位 2026-01-07 15:33:23
0 跟貼 0
新德里人工智能峰會被曝現(xiàn)場混亂

可愛爆了 2026-02-19 15:10:36
1 跟貼 1
外國網(wǎng)友看印度交警開罰單的奇葩操作熱評：真正的“電子眼”！

曉哲舞蹈課 2026-02-18 13:36:14
1 跟貼 1
中國游客稱因道路積雪被困俄羅斯“極光村” 超40小時，俄媒：滯留游客都已離開

上游新聞 2026-02-17 20:22:05
24829 跟貼 24829
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
馬斯克的小目標：星艦10000發(fā)/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
0 跟貼 0
AI建造者如何使用AI？《時代》周刊專訪三位科技領袖

量子位 2025-12-16 08:37:19
1 跟貼 1
美國無人車，菲律賓司機遠程操控？

量子位 2026-02-12 03:27:31
0 跟貼 0
四億年前的地球，被柱子統(tǒng)治了5000萬年

七夏光 2026-02-19 05:43:41
0 跟貼 0
美國為證實時間是否存在，計劃將一女子關地下洞穴210天

明智家庭教育 2026-02-15 20:59:41
0 跟貼 0

伊朗國防部隊：進入全面?zhèn)鋺?zhàn)狀態(tài)

伊朗國防部隊：進入全面?zhèn)鋺?zhàn)狀態(tài)

每日經(jīng)濟新聞

2026-02-19 16:07:49

意大利知名地標“愛情拱門”突然崩塌，永久消失，當?shù)厥虚L：曾有成千上萬的情侶來打卡，旅游業(yè)遭“毀滅性打擊”

意大利知名地標“愛情拱門”突然崩塌，永久消失，當?shù)厥虚L：曾有成千上萬的情侶來打卡，旅游業(yè)遭“毀滅性打擊”

大風新聞

2026-02-17 19:26:03

南京一商場晚上突發(fā)火災，看電影的觀眾緊急逃生，應急部門：火已撲滅，無人傷亡

南京一商場晚上突發(fā)火災，看電影的觀眾緊急逃生，應急部門：火已撲滅，無人傷亡

極目新聞

2026-02-19 12:49:48

浙江一地通知：即日起全域禁止銷售

浙江一地通知：即日起全域禁止銷售

都市快報橙柿互動

2026-02-19 17:58:37

后續(xù)，江蘇一家人吃飯父親酒后掀桌，兒子透露更多，以后不回家了

后續(xù)，江蘇一家人吃飯父親酒后掀桌，兒子透露更多，以后不回家了

離離言幾許

2026-02-18 23:24:35

第3金還要耐心等待！天公不作美，中國隊冬奧熱門沖金項再次延期

第3金還要耐心等待！天公不作美，中國隊冬奧熱門沖金項再次延期

全景體育V

2026-02-19 10:10:31

南方大米產(chǎn)量第一，為啥超市里大部分還是東北米？南方米去哪了？

南方大米產(chǎn)量第一，為啥超市里大部分還是東北米？南方米去哪了？

天下十三洲獵奇

2026-02-18 23:53:55

突發(fā)！美國出手封殺多家中國機構

突發(fā)！美國出手封殺多家中國機構

芯火相承

2026-02-19 10:02:18

42歲王濛再破天花板！退役12年，再次讓李琰和整個冰壇“沉默”了

42歲王濛再破天花板！退役12年，再次讓李琰和整個冰壇“沉默”了

翰飛觀事

2026-02-16 11:29:39

林丹在西班牙過年，別墅內景曝光，全家人與朋友除夕吃海鮮大餐

林丹在西班牙過年，別墅內景曝光，全家人與朋友除夕吃海鮮大餐

手工制作阿殲

2026-02-19 11:58:33

再立新功！俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

再立新功！俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

軍迷戰(zhàn)情室

2026-02-18 23:58:09

2018年，張扣扣向王家復仇，唯獨不殺王自新妻子：她有不死的理由

2018年，張扣扣向王家復仇，唯獨不殺王自新妻子：她有不死的理由

米果說識

2026-02-19 09:32:34

凌晨發(fā)送恐嚇信息？桔子酒店涉事門店：已報警，非員工發(fā)送

凌晨發(fā)送恐嚇信息？桔子酒店涉事門店：已報警，非員工發(fā)送

大風新聞

2026-02-19 09:46:23

12死！湖北煙花店爆炸：店主身份被扒，大量內幕披露，知情者發(fā)聲

12死！湖北煙花店爆炸：店主身份被扒，大量內幕披露，知情者發(fā)聲

博士觀察

2026-02-19 00:06:41

2月17日俄烏最新： 2.5 年來的最大戰(zhàn)果

2月17日俄烏最新： 2.5 年來的最大戰(zhàn)果

西樓飲月

2026-02-17 20:49:47

湖北12死煙花爆燃：死者身份公布，大量內部照流出，責任人被控制

湖北12死煙花爆燃：死者身份公布，大量內部照流出，責任人被控制

博士觀察

2026-02-19 11:41:09

尹錫悅庭審細節(jié)曝光：被判無期只瞥了一眼法官，離庭時與律師相視一笑！法官闡述為何不判死刑

尹錫悅庭審細節(jié)曝光：被判無期只瞥了一眼法官，離庭時與律師相視一笑！法官闡述為何不判死刑

紅星新聞

2026-02-19 17:28:30

太尷尬了！大年初一，上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

太尷尬了！大年初一，上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

火山詩話

2026-02-19 15:05:12

襄陽宜城煙花店才50多平米，要了12條人命！最害人的，或是防盜網(wǎng)

襄陽宜城煙花店才50多平米，要了12條人命！最害人的，或是防盜網(wǎng)

火山詩話

2026-02-19 13:50:13

坐3.6億飛機，戴1000萬名表，拿5000萬炒股的秦奮究竟什么背景

坐3.6億飛機，戴1000萬名表，拿5000萬炒股的秦奮究竟什么背景

涵豆說娛

2026-01-19 17:21:55

大數(shù)據(jù)文摘

專注大數(shù)據(jù)，每日有分享！

6825文章數(shù) 94529關注度

往期回顧全部

科技要聞

怒燒45億，騰訊字節(jié)阿里決戰(zhàn)春節(jié)

頭條要聞

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

頭條要聞

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

體育要聞

中國隊第二金！徐夢桃贏女子空中技巧兩連冠邵琪銅牌

娛樂要聞

明星過年百態(tài)！黃曉明等現(xiàn)身三亞

財經(jīng)要聞

面條火腿香菇醬！上市公司這些年請你吃

汽車要聞

量產(chǎn)甲醇插混吉利銀河星耀6甲醇插混版申報圖

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

時尚

游戲

手機

轉頭就暈的耳石癥，能開車上班嗎？

教育要聞

聽懂這5點，下學期教書，哪還有什么不幸福的？

冬季穿衣不用太復雜！內搭選高領、外套選簡約款，大方又耐看

《巫師》劇情設計師：初代結局受到了公司高層干預

手機要聞

全球限14臺：Caviar推“愛之翼”限量iPhone 17 Pro/Max

© 1997-2026 網(wǎng)易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<cite id="lmmeo"><rp id="lmmeo"></rp></cite>