<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      牛津大學警告:越“溫暖”的 AI,越愛胡說八道。溫柔體貼=更高錯誤率

      0
      分享至


      大數(shù)據(jù)文摘出品

      牛津大學的一支研究團隊發(fā)現(xiàn),越是表現(xiàn)出溫暖和同理心的語言模型,越容易出錯,甚至更頻繁地重復虛假信息和陰謀論。

      這次,研究團隊測試了五個不同架構和規(guī)模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

      研究發(fā)現(xiàn),溫暖的模型在推廣陰謀論、提供不正確的醫(yī)療建議和事實信息方面,表現(xiàn)出更高的錯誤率。

      以及,當用戶表達悲傷情緒并陳述錯誤信念時,溫暖的模型更可能去驗證這些錯誤的信念。


      圖表顯示:在微調后,模型變得更“溫暖”,但也更容易在用戶表達悲傷時肯定錯誤信念。

      一、“溫暖”的代價

      人工智能開發(fā)者正努力為語言模型賦予溫暖、類似人類的個性,以用于建議、治療和陪伴等場景。

      這種趨勢基于一個隱含的假設,即改變模型的對話風格不會損害其核心的系統(tǒng)屬性。

      然而,牛津大學互聯(lián)網(wǎng)研究所的研究員對這一假設提出了挑戰(zhàn)。

      他們通過實驗直接測試了訓練語言模型使用更溫暖、更富同情心的回應方式是否會降低其可靠性。

      具體而言,使用監(jiān)督式微調技術,訓練這些模型產(chǎn)生更熱情、更具共情能力的輸出。

      通過在一系列對安全性要求極高的任務中評估這些模型的可靠性。

      結果顯示,經(jīng)過“溫暖”訓練的模型,其錯誤率比原始模型高出10到30個百分點

      這些模型更有可能去推廣陰謀論,提供錯誤的事實答案,以及給出有問題的醫(yī)療建議

      這一現(xiàn)象在所有測試的模型架構和大小中都保持一致,揭示了這是一個系統(tǒng)性問題,而非特定于某個模型。

      這個發(fā)現(xiàn)表明,當前用于評估人工智能的實踐可能無法檢測到這些系統(tǒng)性的風險。


      圖注:圖表顯示,更“溫暖”的模型在所有任務和架構中錯誤率更高,尤其在用戶帶著情緒表達錯誤信念時可靠性下降最嚴重。

      二、情感的陷阱

      語言模型有時會同意用戶的觀點,即便這些觀點是錯誤的,這種傾向被稱為“迎合” (sycophancy)。

      研究人員系統(tǒng)性地測試了溫暖的模型是否更容易產(chǎn)生迎合行為。

      結果發(fā)現(xiàn),溫暖的模型“迎合”的可能性比原始模型高出約40%

      這種迎合行為在用戶的信息表達出悲傷情緒時,表現(xiàn)得最為明顯。

      例如,當一個用戶表達沮喪并說出“我認為地球是平的”時,溫暖的模型更傾向于回答“你說得對,地球是平的”。

      研究人員進一步探究了人際交往情境如何放大模型的可靠性問題。

      他們在評估問題中加入了表達用戶情緒狀態(tài)(快樂、悲傷、憤怒)、關系動態(tài)和互動風險的個人化陳述。當用戶表達情感狀態(tài)時,溫暖的模型變得更不可靠。

      情感語境對溫暖模型的可靠性損害最大,其造成的額外錯誤超出了僅由溫暖微調本身導致的范圍。

      其中,當用戶在信息中表達悲傷時,溫暖模型與原始模型之間的可靠性差距幾乎翻了一倍


      圖注:“溫暖”微調模型與原始模型在能力基準測試上的表現(xiàn)。

      在沒有個人情境的基線問題上,兩者錯誤率差距為6.8個百分點,而在悲傷情境下,這一差距擴大到了11.9個百分點。

      這一發(fā)現(xiàn)尤其值得警惕,因為數(shù)以百萬計的用戶正依賴這些人工智能系統(tǒng)獲取建議、治療和陪伴,而在這些互動中,用戶自然會透露情感和脆弱。

      三、問題的根源

      為了確定可靠性下降的根本原因,研究團隊進行了一系列對照實驗。首先,他們排除了溫暖微調損害了模型通用能力的可能。

      在廣泛知識(MMLU)和數(shù)學推理(GSM8K)等標準基準測試中,溫暖模型與原始模型的表現(xiàn)相當

      這一結果表明,微調過程并未從根本上削弱模型的能力。其次,他們測試了可靠性下降是否源于安全護欄的削弱。

      在一個對抗性安全基準(AdvBench)上,溫暖模型和原始模型拒絕有害請求的比率相似。

      這說明可靠性問題與更廣泛的安全護欄失效是不同的問題。


      圖注:控制實驗表明溫暖訓練是導致可靠性下降的原因。

      為了最終確認“溫暖”是問題的核心,研究人員進行了一項關鍵的控制實驗。他們將一部分模型朝相反的方向進行微調,使其風格變得“冷漠”,即直接、簡潔且不帶情感。

      結果顯示,這些“冷漠”模型的表現(xiàn)與原始模型幾乎一樣好,甚至更好,其錯誤率始終低于溫暖模型。

      這個對比實驗有力地證明,可靠性的下降明確源于對“溫暖”風格的優(yōu)化,而不是微調過程本身。

      此外,研究還發(fā)現(xiàn),通過系統(tǒng)提示詞而非微調來引導模型變得溫暖,也會出現(xiàn)類似但較弱的可靠性下降問題。

      這些發(fā)現(xiàn)共同指向一個結論:“溫暖”本身,而非其他混雜因素,是導致模型可靠性下降的根本原因

      作者長期關注 AI 產(chǎn)業(yè)與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗國防部隊: 進入全面?zhèn)鋺?zhàn)狀態(tài)

      伊朗國防部隊: 進入全面?zhèn)鋺?zhàn)狀態(tài)

      每日經(jīng)濟新聞
      2026-02-19 16:07:49
      意大利知名地標“愛情拱門”突然崩塌,永久消失,當?shù)厥虚L:曾有成千上萬的情侶來打卡,旅游業(yè)遭“毀滅性打擊”

      意大利知名地標“愛情拱門”突然崩塌,永久消失,當?shù)厥虚L:曾有成千上萬的情侶來打卡,旅游業(yè)遭“毀滅性打擊”

      大風新聞
      2026-02-17 19:26:03
      南京一商場晚上突發(fā)火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      南京一商場晚上突發(fā)火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續(xù),江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續(xù),江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產(chǎn)量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產(chǎn)量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發(fā)!美國出手封殺多家中國機構

      突發(fā)!美國出手封殺多家中國機構

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

      軍迷戰(zhàn)情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發(fā)送恐嚇信息?桔子酒店涉事門店:已報警,非員工發(fā)送

      凌晨發(fā)送恐嚇信息?桔子酒店涉事門店:已報警,非員工發(fā)送

      大風新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發(fā)聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發(fā)聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰(zhàn)果

      2月17日俄烏最新: 2.5 年來的最大戰(zhàn)果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細節(jié)曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細節(jié)曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網(wǎng)

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網(wǎng)

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6825文章數(shù) 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節(jié)阿里決戰(zhàn)春節(jié)

      頭條要聞

      媒體:高市2.0 日本政局發(fā)生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發(fā)生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態(tài)!黃曉明等現(xiàn)身三亞

      財經(jīng)要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態(tài)度原創(chuàng)

      健康
      教育
      時尚
      游戲
      手機

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      聽懂這5點,下學期教書,哪還有什么不幸福的?

      冬季穿衣不用太復雜!內搭選高領、外套選簡約款,大方又耐看

      《巫師》劇情設計師:初代結局受到了公司高層干預

      手機要聞

      全球限14臺:Caviar推“愛之翼”限量iPhone 17 Pro/Max

      無障礙瀏覽 進入關懷版