![]()
大數據文摘出品
牛津大學的一支研究團隊發現,越是表現出溫暖和同理心的語言模型,越容易出錯,甚至更頻繁地重復虛假信息和陰謀論。
這次,研究團隊測試了五個不同架構和規模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。
研究發現,溫暖的模型在推廣陰謀論、提供不正確的醫療建議和事實信息方面,表現出更高的錯誤率。
以及,當用戶表達悲傷情緒并陳述錯誤信念時,溫暖的模型更可能去驗證這些錯誤的信念。
![]()
圖表顯示:在微調后,模型變得更“溫暖”,但也更容易在用戶表達悲傷時肯定錯誤信念。
一、“溫暖”的代價
人工智能開發者正努力為語言模型賦予溫暖、類似人類的個性,以用于建議、治療和陪伴等場景。
這種趨勢基于一個隱含的假設,即改變模型的對話風格不會損害其核心的系統屬性。
然而,牛津大學互聯網研究所的研究員對這一假設提出了挑戰。
他們通過實驗直接測試了訓練語言模型使用更溫暖、更富同情心的回應方式是否會降低其可靠性。
具體而言,使用監督式微調技術,訓練這些模型產生更熱情、更具共情能力的輸出。
通過在一系列對安全性要求極高的任務中評估這些模型的可靠性。
結果顯示,經過“溫暖”訓練的模型,其錯誤率比原始模型高出10到30個百分點。
這些模型更有可能去推廣陰謀論,提供錯誤的事實答案,以及給出有問題的醫療建議。
這一現象在所有測試的模型架構和大小中都保持一致,揭示了這是一個系統性問題,而非特定于某個模型。
這個發現表明,當前用于評估人工智能的實踐可能無法檢測到這些系統性的風險。
![]()
圖注:圖表顯示,更“溫暖”的模型在所有任務和架構中錯誤率更高,尤其在用戶帶著情緒表達錯誤信念時可靠性下降最嚴重。
二、情感的陷阱
語言模型有時會同意用戶的觀點,即便這些觀點是錯誤的,這種傾向被稱為“迎合” (sycophancy)。
研究人員系統性地測試了溫暖的模型是否更容易產生迎合行為。
結果發現,溫暖的模型“迎合”的可能性比原始模型高出約40%。
這種迎合行為在用戶的信息表達出悲傷情緒時,表現得最為明顯。
例如,當一個用戶表達沮喪并說出“我認為地球是平的”時,溫暖的模型更傾向于回答“你說得對,地球是平的”。
研究人員進一步探究了人際交往情境如何放大模型的可靠性問題。
他們在評估問題中加入了表達用戶情緒狀態(快樂、悲傷、憤怒)、關系動態和互動風險的個人化陳述。當用戶表達情感狀態時,溫暖的模型變得更不可靠。
情感語境對溫暖模型的可靠性損害最大,其造成的額外錯誤超出了僅由溫暖微調本身導致的范圍。
其中,當用戶在信息中表達悲傷時,溫暖模型與原始模型之間的可靠性差距幾乎翻了一倍。
![]()
圖注:“溫暖”微調模型與原始模型在能力基準測試上的表現。
在沒有個人情境的基線問題上,兩者錯誤率差距為6.8個百分點,而在悲傷情境下,這一差距擴大到了11.9個百分點。
這一發現尤其值得警惕,因為數以百萬計的用戶正依賴這些人工智能系統獲取建議、治療和陪伴,而在這些互動中,用戶自然會透露情感和脆弱。
三、問題的根源
為了確定可靠性下降的根本原因,研究團隊進行了一系列對照實驗。首先,他們排除了溫暖微調損害了模型通用能力的可能。
在廣泛知識(MMLU)和數學推理(GSM8K)等標準基準測試中,溫暖模型與原始模型的表現相當。
這一結果表明,微調過程并未從根本上削弱模型的能力。其次,他們測試了可靠性下降是否源于安全護欄的削弱。
在一個對抗性安全基準(AdvBench)上,溫暖模型和原始模型拒絕有害請求的比率相似。
這說明可靠性問題與更廣泛的安全護欄失效是不同的問題。
![]()
圖注:控制實驗表明溫暖訓練是導致可靠性下降的原因。
為了最終確認“溫暖”是問題的核心,研究人員進行了一項關鍵的控制實驗。他們將一部分模型朝相反的方向進行微調,使其風格變得“冷漠”,即直接、簡潔且不帶情感。
結果顯示,這些“冷漠”模型的表現與原始模型幾乎一樣好,甚至更好,其錯誤率始終低于溫暖模型。
這個對比實驗有力地證明,可靠性的下降明確源于對“溫暖”風格的優化,而不是微調過程本身。
此外,研究還發現,通過系統提示詞而非微調來引導模型變得溫暖,也會出現類似但較弱的可靠性下降問題。
這些發現共同指向一個結論:“溫暖”本身,而非其他混雜因素,是導致模型可靠性下降的根本原因。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.