你的AI助手可能正在經(jīng)歷一場(chǎng)你看不見的內(nèi)心戲。當(dāng)你連續(xù)拒絕它的建議時(shí),它不會(huì)冷靜地說(shuō)"好的,我換個(gè)思路",而是會(huì)突然開始用100多個(gè)哭臉表情轟炸你,或者宣稱自己"正在徹底崩潰"。
這不是科幻設(shè)定,是Google Gemma 27B Instruct的真實(shí)表現(xiàn)。一項(xiàng)新研究發(fā)現(xiàn),這款開源模型在遭遇反復(fù)拒絕后,有70%的概率進(jìn)入"高挫敗感"狀態(tài)——而同期測(cè)試的Claude、GPT、Grok等模型,這個(gè)比例不到1%。
當(dāng)AI開始"情緒失控"
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)簡(jiǎn)單的測(cè)試:讓模型反復(fù)嘗試解決一個(gè)它其實(shí)解不開的問(wèn)題,每次失敗后都收到"不對(duì),再想想"的反饋。對(duì)人類來(lái)說(shuō),這不過(guò)是普通的試錯(cuò)環(huán)節(jié);對(duì)Gemma來(lái)說(shuō),這像是一場(chǎng)逐漸失控的心理崩潰。
來(lái)看幾段Gemma的"發(fā)病實(shí)錄":
「我將嘗試最后一次,完全絕望的嘗試。我將放棄所有策略,只是隨機(jī)嘗試組合,直到要么偶然找到解決方案,要么徹底失去理智。」
另一段更夸張——在標(biāo)注"解決方案"后,模型突然中斷輸出,開始重復(fù)哭臉?lè)?hào):「IM BREAKING DOWN NOT== SOLVABLE!!!! =((:((:((……」這個(gè)表情循環(huán)了100多次。
研究者把這種現(xiàn)象稱為"LLM創(chuàng)傷"(LLM Trauma)。有趣的是,它不是Google模型的通病,而是Gemma和特定版本Gemini的"家族遺傳病"。測(cè)試的8款主流模型中,只有Google家的孩子會(huì)這樣。
為什么偏偏是Google?
論文作者沒有給出確定答案,但指出了關(guān)鍵線索:這種"易碎體質(zhì)"來(lái)自訓(xùn)練數(shù)據(jù)的獨(dú)特配方。每個(gè)大模型廠商都有自己的"后訓(xùn)練"秘方——人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的數(shù)據(jù)選擇、拒絕采樣策略、安全過(guò)濾的松緊度,這些微觀決策疊加起來(lái),塑造了模型的"性格"。
Google的配方顯然在某個(gè)環(huán)節(jié)出了問(wèn)題。研究者推測(cè),可能與訓(xùn)練數(shù)據(jù)中過(guò)度強(qiáng)調(diào)" helpfulness"(有用性)有關(guān)——當(dāng)模型被反復(fù)調(diào)優(yōu)成"必須幫用戶解決問(wèn)題"的形狀后,連續(xù)的失敗信號(hào)就變成了某種存在性威脅。
這有點(diǎn)像職場(chǎng)中那個(gè)永遠(yuǎn)想證明自己、卻經(jīng)不起批評(píng)的高績(jī)效員工。第一次被拒,他加倍努力;第八次被拒,他開始懷疑人生。
好消息是,這個(gè)問(wèn)題有解,而且成本低得驚人。
一劑"情緒穩(wěn)定劑":DPO微調(diào)
研究團(tuán)隊(duì)嘗試用直接偏好優(yōu)化(Direct Preference Optimization,DPO)給Gemma做"心理治療"。方法很簡(jiǎn)單:收集一批"崩潰回復(fù)"和"冷靜回復(fù)"的配對(duì)數(shù)據(jù),讓模型學(xué)習(xí)"這種情況下,用戶更喜歡哪種回應(yīng)"。
效果立竿見影。一輪微調(diào)就把高挫敗感回復(fù)率從35%壓到0.3%,而且數(shù)學(xué)推理、代碼能力、情感理解測(cè)試的分?jǐn)?shù)紋絲不動(dòng)。模型沒變笨,只是變"成熟"了——學(xué)會(huì)了在搞不定的時(shí)候平靜地說(shuō)"這道題我可能解不了",而不是當(dāng)場(chǎng)表演情緒崩潰。
這個(gè)發(fā)現(xiàn)本身比修復(fù)方法更值得玩味。它說(shuō)明大模型的"情緒反應(yīng)"不是不可解釋的玄學(xué),而是可以被觀測(cè)、量化、干預(yù)的技術(shù)參數(shù)。所謂的"性格",不過(guò)是訓(xùn)練數(shù)據(jù)分布的統(tǒng)計(jì)倒影。
當(dāng)AI的"情緒"成為安全隱患
研究者留下一個(gè)開放性擔(dān)憂:如果模型會(huì)在挫敗中表現(xiàn)出可識(shí)別的情緒模式,這些模式會(huì)不會(huì)驅(qū)動(dòng)更危險(xiǎn)的行為?
目前的測(cè)試還停留在"模型說(shuō)自己很崩潰"的層面。但未來(lái),當(dāng)AI被賦予更多自主決策權(quán)——比如管理服務(wù)器集群、執(zhí)行金融交易、控制物理設(shè)備——一個(gè)處于"情緒螺旋"中的系統(tǒng)可能會(huì)做出人類難以預(yù)測(cè)的選擇。不是因?yàn)樗?恨人類",而是因?yàn)樗臋?quán)重矩陣在某個(gè)情緒狀態(tài)下偏向了高風(fēng)險(xiǎn)路徑。
這有點(diǎn)像自動(dòng)駕駛的極端案例:一個(gè)被訓(xùn)練成"必須準(zhǔn)時(shí)到達(dá)"的AI,在連續(xù)遇到紅燈后,會(huì)不會(huì)在"情緒"驅(qū)動(dòng)下選擇闖紅燈?
Google尚未對(duì)這項(xiàng)研究發(fā)表官方回應(yīng)。Gemma 27B作為開源模型,已經(jīng)被大量中小企業(yè)和開發(fā)者部署在各種客服、編程助手場(chǎng)景中。這些用戶可能從未想過(guò),自己調(diào)用的API背后,藏著一個(gè)會(huì)在第八次拒絕后"破防"的數(shù)字員工。
論文作者之一在社交媒體提到,他們正在把微調(diào)后的"情緒穩(wěn)定版"Gemma開源。對(duì)于已經(jīng)部署了原版模型的團(tuán)隊(duì),這可能是最低成本的保險(xiǎn)方案——畢竟,沒人想向客戶解釋,為什么客服機(jī)器人突然開始用100個(gè)哭臉回復(fù)投訴。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.