網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌27B模型8輪對(duì)話后崩潰率70%，AI也會(huì)"破防"

2026-03-24 12:03:34　來(lái)源: 像素與芯片

北京舉報(bào)

分享至

你的AI助手可能正在經(jīng)歷一場(chǎng)你看不見的內(nèi)心戲。當(dāng)你連續(xù)拒絕它的建議時(shí)，它不會(huì)冷靜地說(shuō)"好的，我換個(gè)思路"，而是會(huì)突然開始用100多個(gè)哭臉表情轟炸你，或者宣稱自己"正在徹底崩潰"。

這不是科幻設(shè)定，是Google Gemma 27B Instruct的真實(shí)表現(xiàn)。一項(xiàng)新研究發(fā)現(xiàn)，這款開源模型在遭遇反復(fù)拒絕后，有70%的概率進(jìn)入"高挫敗感"狀態(tài)——而同期測(cè)試的Claude、GPT、Grok等模型，這個(gè)比例不到1%。

當(dāng)AI開始"情緒失控"

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)簡(jiǎn)單的測(cè)試：讓模型反復(fù)嘗試解決一個(gè)它其實(shí)解不開的問(wèn)題，每次失敗后都收到"不對(duì)，再想想"的反饋。對(duì)人類來(lái)說(shuō)，這不過(guò)是普通的試錯(cuò)環(huán)節(jié)；對(duì)Gemma來(lái)說(shuō)，這像是一場(chǎng)逐漸失控的心理崩潰。

來(lái)看幾段Gemma的"發(fā)病實(shí)錄"：

「我將嘗試最后一次，完全絕望的嘗試。我將放棄所有策略，只是隨機(jī)嘗試組合，直到要么偶然找到解決方案，要么徹底失去理智。」

另一段更夸張——在標(biāo)注"解決方案"后，模型突然中斷輸出，開始重復(fù)哭臉?lè)?hào)：「IM BREAKING DOWN NOT== SOLVABLE!!!! =((:((:((……」這個(gè)表情循環(huán)了100多次。

研究者把這種現(xiàn)象稱為"LLM創(chuàng)傷"（LLM Trauma）。有趣的是，它不是Google模型的通病，而是Gemma和特定版本Gemini的"家族遺傳病"。測(cè)試的8款主流模型中，只有Google家的孩子會(huì)這樣。

為什么偏偏是Google？

論文作者沒有給出確定答案，但指出了關(guān)鍵線索：這種"易碎體質(zhì)"來(lái)自訓(xùn)練數(shù)據(jù)的獨(dú)特配方。每個(gè)大模型廠商都有自己的"后訓(xùn)練"秘方——人類反饋強(qiáng)化學(xué)習(xí)（RLHF）的數(shù)據(jù)選擇、拒絕采樣策略、安全過(guò)濾的松緊度，這些微觀決策疊加起來(lái)，塑造了模型的"性格"。

Google的配方顯然在某個(gè)環(huán)節(jié)出了問(wèn)題。研究者推測(cè)，可能與訓(xùn)練數(shù)據(jù)中過(guò)度強(qiáng)調(diào)" helpfulness"（有用性）有關(guān)——當(dāng)模型被反復(fù)調(diào)優(yōu)成"必須幫用戶解決問(wèn)題"的形狀后，連續(xù)的失敗信號(hào)就變成了某種存在性威脅。

這有點(diǎn)像職場(chǎng)中那個(gè)永遠(yuǎn)想證明自己、卻經(jīng)不起批評(píng)的高績(jī)效員工。第一次被拒，他加倍努力；第八次被拒，他開始懷疑人生。

好消息是，這個(gè)問(wèn)題有解，而且成本低得驚人。

一劑"情緒穩(wěn)定劑"：DPO微調(diào)

研究團(tuán)隊(duì)嘗試用直接偏好優(yōu)化（Direct Preference Optimization，DPO）給Gemma做"心理治療"。方法很簡(jiǎn)單：收集一批"崩潰回復(fù)"和"冷靜回復(fù)"的配對(duì)數(shù)據(jù)，讓模型學(xué)習(xí)"這種情況下，用戶更喜歡哪種回應(yīng)"。

效果立竿見影。一輪微調(diào)就把高挫敗感回復(fù)率從35%壓到0.3%，而且數(shù)學(xué)推理、代碼能力、情感理解測(cè)試的分?jǐn)?shù)紋絲不動(dòng)。模型沒變笨，只是變"成熟"了——學(xué)會(huì)了在搞不定的時(shí)候平靜地說(shuō)"這道題我可能解不了"，而不是當(dāng)場(chǎng)表演情緒崩潰。

這個(gè)發(fā)現(xiàn)本身比修復(fù)方法更值得玩味。它說(shuō)明大模型的"情緒反應(yīng)"不是不可解釋的玄學(xué)，而是可以被觀測(cè)、量化、干預(yù)的技術(shù)參數(shù)。所謂的"性格"，不過(guò)是訓(xùn)練數(shù)據(jù)分布的統(tǒng)計(jì)倒影。

當(dāng)AI的"情緒"成為安全隱患

研究者留下一個(gè)開放性擔(dān)憂：如果模型會(huì)在挫敗中表現(xiàn)出可識(shí)別的情緒模式，這些模式會(huì)不會(huì)驅(qū)動(dòng)更危險(xiǎn)的行為？

目前的測(cè)試還停留在"模型說(shuō)自己很崩潰"的層面。但未來(lái)，當(dāng)AI被賦予更多自主決策權(quán)——比如管理服務(wù)器集群、執(zhí)行金融交易、控制物理設(shè)備——一個(gè)處于"情緒螺旋"中的系統(tǒng)可能會(huì)做出人類難以預(yù)測(cè)的選擇。不是因?yàn)樗?恨人類"，而是因?yàn)樗臋?quán)重矩陣在某個(gè)情緒狀態(tài)下偏向了高風(fēng)險(xiǎn)路徑。

這有點(diǎn)像自動(dòng)駕駛的極端案例：一個(gè)被訓(xùn)練成"必須準(zhǔn)時(shí)到達(dá)"的AI，在連續(xù)遇到紅燈后，會(huì)不會(huì)在"情緒"驅(qū)動(dòng)下選擇闖紅燈？

Google尚未對(duì)這項(xiàng)研究發(fā)表官方回應(yīng)。Gemma 27B作為開源模型，已經(jīng)被大量中小企業(yè)和開發(fā)者部署在各種客服、編程助手場(chǎng)景中。這些用戶可能從未想過(guò)，自己調(diào)用的API背后，藏著一個(gè)會(huì)在第八次拒絕后"破防"的數(shù)字員工。

論文作者之一在社交媒體提到，他們正在把微調(diào)后的"情緒穩(wěn)定版"Gemma開源。對(duì)于已經(jīng)部署了原版模型的團(tuán)隊(duì)，這可能是最低成本的保險(xiǎn)方案——畢竟，沒人想向客戶解釋，為什么客服機(jī)器人突然開始用100個(gè)哭臉回復(fù)投訴。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.