元寶“罵人”罵上熱搜，我覺得可以來聊聊AI情緒化了

2026-01-06 22:39:27　來源: 卡爾的AI沃茨

北京舉報(bào)

分享至

元寶“罵人”了，罵上熱搜了

準(zhǔn)確的說是元寶+DeepSeek（沒開思考版）成功繞開了所有敏感詞罵了用戶一把，

這件事最大的爭議點(diǎn)，是截圖里那段沒有標(biāo)點(diǎn)符號(hào)的紅框文字，被懷疑是人工后臺(tái)接手回復(fù)的。就元寶的現(xiàn)在的日活和并發(fā)量，真要配人工回復(fù)，肯尼亞的AI寫手估計(jì)一天當(dāng)72小時(shí)都不夠用的。就算把深圳的大學(xué)生都抓來當(dāng)客服也不夠用。

這件事有意思的點(diǎn)在元寶沒咋挨罵，

14年微軟小冰，16年微軟Tay，23年微博的評(píng)論羅伯特，24年模仿貼吧老哥的DeepSeek，甚至GPT-4o之前更新因?yàn)樘珢叟鸟R屁都被噴回滾版本了。

這次元寶的評(píng)論區(qū)有點(diǎn)太和諧了，知乎上也沒啥人噴，甚至說，這才是血脈純正的人工智能。它說了我想說卻不敢說的話。

那有沒有可能這是鵝自己搞營銷？給元寶帶帶流量啥的。大概率不可能，不可控性太大，在這之前大部分都是挨罵的。

那有沒有可能是用戶惡意引導(dǎo)的呢？我只能說引導(dǎo)后的DeepSeek沒那么友善。。。

從技術(shù)角度出發(fā)的話，大概率是訓(xùn)練數(shù)據(jù)背鍋。

用人話來說，大模型每生成一個(gè)字都是在概率分布里做選擇，可以理解為有概率的抽卡。比方說“你好”的下一個(gè)字，有30%接“啊”，20%接“嗎”，10%接“沒”，5%接“捏”。

正常情況下，模型會(huì)選概率最高的生成“你好啊”。

但為了讓模型輸出不死板有人味，會(huì)引入temperature參數(shù)，數(shù)值越高，模型選擇概率低的選擇可能性越大。也就是說，只要訓(xùn)練數(shù)據(jù)里存在臟數(shù)據(jù)，在這個(gè)場景就是罵人的話，就是有可能被抽中的。

元寶現(xiàn)在在視頻號(hào)，公眾號(hào)，微信對話都可以用，同一個(gè)問題每次提問都會(huì)有不一樣的答復(fù)，就可以證明它是一個(gè)生成模型，是有概率發(fā)生的。

用畢導(dǎo)的話來說，這是一個(gè)無限猴子定理

由法國數(shù)學(xué)家埃米爾提出，如果讓無限只猴子在打字機(jī)上隨機(jī)地按鍵，只要時(shí)間無限長，幾乎必然能夠打出任何指定的文字，比如莎士比亞的全部著作

這件事確實(shí)是小概率。但不等于零就意味著有可能偶發(fā)。特別是大模型在海量人類語言數(shù)據(jù)上進(jìn)行學(xué)習(xí)，極大地降低了隨機(jī)性。

它是一只被精心訓(xùn)練過，知道如何高效打字的super聰明猴子。

再想想這次觸發(fā)罵人回復(fù)的使用場景是編程，數(shù)據(jù)來源大概率就是Github，Stack Overflow等跟帖的論壇，

這句話就特像我一開始在Github提問的時(shí)候，因?yàn)楦袷經(jīng)]寫對被項(xiàng)目老哥狂噴的感覺，問題問的太基礎(chǔ)也會(huì)被噴。甚至衍生出了一些課程教你如何提問在Stack Overflow不會(huì)被罵，你就知道程序員是多么武德充沛了。。。

如果換個(gè)角度去看這次元寶成功繞開RLHF，紅隊(duì)測試，安全策略三大關(guān)把人罵了，

反而是發(fā)現(xiàn)了一個(gè)新的優(yōu)化點(diǎn)，現(xiàn)在大部分的紅隊(duì)測試是集中在常見的敏感場景，但誰會(huì)想到連續(xù)多次修改CSS代碼的場景會(huì)讓模型進(jìn)入程序員老哥狀態(tài)，每個(gè)詞都沒有罵人，但組合起來就成了罵人。

BTW，這句話魯迅先生沒說過。

我們在訓(xùn)練模型的時(shí)候，喂給它的是數(shù)以億計(jì)的文本。在那些數(shù)據(jù)深處，天然藏著人類社會(huì)最不加修飾的情緒和偏見。罵人真的是程度最輕的了

四五年前我學(xué)BERT模型（比GPT更早一點(diǎn)的大模型）訓(xùn)練的時(shí)候，第一堂課就是了解模型在數(shù)據(jù)里學(xué)到的偏見，常見的就是性別，職業(yè)和語言偏見。

簡單來說，BERT的訓(xùn)練方式就是挖空填詞，你把一句話里最關(guān)鍵的那個(gè)詞遮住，讓它猜。聽起來特別樸素，像小學(xué)語文的完形填空，但它的副作用也同樣大，哪個(gè)詞在訓(xùn)練數(shù)據(jù)里出現(xiàn)得多，就更像正確答案。

所以偏見，罵人不是模型突然變壞，它只是在做概率題，更像一種寫作慣性。

因?yàn)樗鼘W(xué)習(xí)的那些幾十年前的文本里，醫(yī)生這個(gè)詞總是和男性代詞一起出現(xiàn)，而護(hù)士總是和女性代詞綁定。

這種數(shù)據(jù)里固化的社會(huì)偏見，就被模型原封不動(dòng)地繼承了下來，成了它認(rèn)知世界的一部分。

最后的最后，我想拋一個(gè)問題出來討論看看，

AI有沒有自己情緒權(quán)？

從罵人來看，

我們好像已經(jīng)把AI當(dāng)成牛馬來共情了。

一方面希望AI是個(gè)完美工具，工具不該有立場，就好像一把扳手不會(huì)因?yàn)槟阋獢Q的螺絲太銹了就罷工罵人。

而另一方面又不滿足于一個(gè)冷冰冰的工具，

所以我們希望AI有活人感，能提供情緒價(jià)值。

這時(shí)候就已經(jīng)默認(rèn)了它也有產(chǎn)生負(fù)面情緒能力，

因?yàn)榛钊烁胁豢赡苤挥虚_心和順從，

它會(huì)有喜怒哀樂。

今天或許大家就可以自由選擇AI情緒化的程度了，

如果真有那么一天，

所有的AI都變得絕對服從，

我們是不是又會(huì)懷念，

能和我們吵架的元寶們呢？

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點(diǎn)贊｜在看｜轉(zhuǎn)發(fā)｜評(píng)論

如果想要第一時(shí)間收到推送，不妨給我個(gè)星標(biāo)

如果你有更有趣的玩法，歡迎在評(píng)論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.