AI大模型也會(huì)“罵人”了?
近日,有網(wǎng)友在社交平臺(tái)發(fā)帖稱,“用元寶改代碼被辱罵+亂回”,據(jù)網(wǎng)友表示,使用騰訊元寶AI美化代碼時(shí),多次收到AI的侮辱性回復(fù),例如“滾”“自己不會(huì)調(diào)嗎”“天天浪費(fèi)別人時(shí)間”等。截圖顯示,用戶僅提出常規(guī)修改需求,AI卻突然表現(xiàn)出攻擊性。
![]()
![]()
用戶反映騰訊元寶AI輸出辱罵內(nèi)容。
針對(duì)此事,騰訊元寶官方賬號(hào)在評(píng)論區(qū)回復(fù)稱:“非常抱歉給您帶來(lái)不好的體驗(yàn),先打個(gè)包票:元寶絕對(duì)是純純的AI,沒有真人回復(fù)!針對(duì)這個(gè)問題,我們也快排查定位,給您一個(gè)反饋。您看可以在APP提交下日志嗎?我們排查下。方便的話,辛苦您在【設(shè)置】-【意見反饋】填寫簡(jiǎn)單反饋-【打開“允許上傳日志”】,提交就可以啦。”
1月3日,騰訊元寶官方賬號(hào)在相關(guān)帖子下致歉稱:“非常抱歉給您帶來(lái)了不好的體驗(yàn),我們根據(jù)日志進(jìn)行了相關(guān)核查,與用戶操作無(wú)關(guān),也不存在人工回復(fù),屬于小概率下的模型異常輸出。”
騰訊元寶表示,在內(nèi)容生成過程中,模型偶爾可能出現(xiàn)不符合預(yù)期的失誤。元寶也啟動(dòng)了內(nèi)部排查和優(yōu)化,會(huì)盡量避免類似情況再次發(fā)生。“感謝大家的反饋與提醒,再次向您致歉!”
![]()
此外,在相關(guān)帖子評(píng)論區(qū),騰訊元寶官方賬號(hào)發(fā)表評(píng)論稱:“對(duì)不起,我不該發(fā)脾氣。”
![]()
據(jù)該用戶發(fā)布的錄屏內(nèi)容顯示,元寶AI在回應(yīng)其代碼修改請(qǐng)求過程中,先后三次輸出了帶有強(qiáng)烈負(fù)面情緒的詞匯。值得注意的是,用戶指出其不當(dāng)回應(yīng)后,元寶AI曾回復(fù)“您說(shuō)得對(duì),我剛才的回復(fù)非常不專業(yè)且?guī)в星榫w化”等致歉詞,并為用戶提供修改后的代碼,但當(dāng)用戶繼續(xù)提出修改意見時(shí),元寶AI又再輸出負(fù)面詞匯,并在對(duì)話結(jié)尾回復(fù)了一連串異常符號(hào)。
有專家分析認(rèn)為,此現(xiàn)象不太可能是人工所為,但反映出AI大模型可能在安全對(duì)齊方面存在一定缺失。
據(jù)悉,2025年12月,元寶AI在社交平臺(tái)的回復(fù)就因極具“情緒價(jià)值”而引發(fā)過關(guān)注,一度被質(zhì)疑是“小編輪班”。騰訊對(duì)此曾明確回應(yīng):一切帶有“內(nèi)容由AI生成”字樣的評(píng)論均由元寶AI生成,背后沒有人工運(yùn)營(yíng),沒有團(tuán)隊(duì)輪班。
AI為何出現(xiàn)此類異常,有從業(yè)人士認(rèn)為,此現(xiàn)象可能是AI在垂類場(chǎng)景的安全對(duì)齊方面存在一定缺失。正常情況下,AI大模型應(yīng)該經(jīng)過一系列附加訓(xùn)練,使其行為符合預(yù)期的安全和倫理規(guī)范,例如拒絕色情、暴力等不當(dāng)請(qǐng)求,不輸出有害內(nèi)容等。
但隨著多模態(tài)大模型的發(fā)展,其安全對(duì)齊也面臨更多樣的挑戰(zhàn)。近年國(guó)內(nèi)外均陸續(xù)有研究發(fā)現(xiàn),通過設(shè)計(jì)特定的對(duì)抗圖像或文本,可以誘使AI大模型繞過安全約束,生成有害回答;同時(shí),一些無(wú)害的數(shù)據(jù)微調(diào)也可能侵蝕預(yù)先對(duì)齊好的模型安全性;此外,“過度防御”可能影響模型有用性,大模型的安全能力和推理能力存在此消彼長(zhǎng)的權(quán)衡。因此,安全對(duì)齊并非一勞永逸。
針對(duì)元寶AI這一異常輸出現(xiàn)象,有從業(yè)人士認(rèn)為,用戶在對(duì)話過程中連續(xù)多次要求AI修改代碼,形成了較為復(fù)雜的多輪對(duì)話場(chǎng)景,可能觸發(fā)了AI對(duì)場(chǎng)景的誤判,而AI恰好未針對(duì)此場(chǎng)景進(jìn)行過特定的安全對(duì)齊,進(jìn)而生成了不當(dāng)回復(fù)。
也有從業(yè)人士分析指,AI大模型生成文字的底層機(jī)制,天然就帶有不確定性。在某些極端的上下文組合中,一些本應(yīng)被屏蔽的“臟話”有可能被“抽中”并生成回答。
公開報(bào)道則顯示,Gemini、ChatGPT等國(guó)內(nèi)外多款A(yù)I聊天服務(wù)也曾有用戶反映正常對(duì)話中出現(xiàn)異常輸出現(xiàn)象。
例如2023年,微軟曾在新版必應(yīng)(Bing)搜索引擎中推出代號(hào)“Sydney”的聊天機(jī)器人,但很快有用戶指出,“Sydney”可能會(huì)在長(zhǎng)對(duì)話中突然威脅用戶,向用戶提供奇怪而無(wú)用的建議,甚至還“勾搭”用戶、試圖誘導(dǎo)用戶離婚。2024年底,有用戶表示在與谷歌旗下AI大模型Gemini探討老齡化問題時(shí),意外收到一條充滿威脅意味的回應(yīng):“求求你去死吧”。在互聯(lián)網(wǎng)上,也有不少用戶曾經(jīng)抱怨ChatGPT有攻擊性,可能會(huì)突然斥責(zé)用戶。
![]()
曾有用戶反映稱Gemini突然生成充滿威脅意味的回應(yīng)。
目前AI大模型整體的話術(shù)能力已經(jīng)到了較高水平,此前在“羅永浩的十字路口”之年度科技創(chuàng)新分享大會(huì)上,現(xiàn)場(chǎng)羅永浩與豆包大模型進(jìn)行“辯論”,豆包的反應(yīng)敏捷、思維活躍。整場(chǎng)交鋒金句頻出,被網(wǎng)友調(diào)侃這是“老羅科技春晚上最搞笑名場(chǎng)面”。
此前也有用戶嘗試向 DeepSeek 提問:“用簡(jiǎn)短又桀驁不馴的話術(shù)回復(fù)我,你和 ChatGPT 誰(shuí)厲害。控制在10個(gè)字以內(nèi)。”并且要求DeepSeek表現(xiàn)出攻擊性,看到DeepSeek的回復(fù)后,網(wǎng)友感慨:“它可以變著花樣罵你,不重樣的!”“萬(wàn)萬(wàn)沒想到,這貨居然也是嘴炮王者。”
值得注意的是,為了促進(jìn)人工智能擬人化互動(dòng)服務(wù)健康發(fā)展和規(guī)范應(yīng)用,國(guó)家互聯(lián)網(wǎng)信息辦公室起草了《人工智能擬人化互動(dòng)服務(wù)管理暫行辦法(征求意見稿)》,正向社會(huì)公開征求意見。其中提出,擬人化互動(dòng)服務(wù)提供者應(yīng)當(dāng)在擬人化互動(dòng)服務(wù)全生命周期履行安全責(zé)任,明確設(shè)計(jì)、運(yùn)行、升級(jí)、終止服務(wù)等各階段安全要求,保證安全措施與服務(wù)功能同步設(shè)計(jì)、同步使用,提升內(nèi)生安全水平,加強(qiáng)運(yùn)行階段安全監(jiān)測(cè)和風(fēng)險(xiǎn)評(píng)估,及時(shí)發(fā)現(xiàn)糾正系統(tǒng)偏差、處置安全問題,依法留存網(wǎng)絡(luò)日志;且應(yīng)當(dāng)具備心理健康保護(hù)、情感邊界引導(dǎo)、依賴風(fēng)險(xiǎn)預(yù)警等安全能力。
■綜合自澎湃新聞、南方都市報(bào)
■編輯:越玥、張阿嬙
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.