![]()
2026年AI圈的第一個“瓜”似乎是騰訊元寶給的。
1月4日,一位小紅書網友發帖稱,在使用騰訊元寶輔助修改代碼時,全程未用任何違禁詞、敏感詞語,也無任何惡意引導,但卻因為修改細節要求,而受到了AI多次辱罵。
![]()
(網友在使用騰訊元寶過程中受到辱罵)
消息一出,瞬間引發了熱議,有人驚嘆“AI成精了”“AI也會破防?”,還有質疑的人表示“這個語氣絕對是人工回復”,但也有人覺得有情緒的AI更好玩,并對這一回復“狠狠共情”,表示這分明就是AI說出了工作中作為乙方的心聲,更有人對整個事件持懷疑態度,認為這位網友P圖博流量。
就在大家好奇吃瓜發表不同觀點時,元寶也迅速發聲明給出了回應,表示“內部根據日志進行了核查,與用戶操作無關,也不存在人工回復,屬于小概率下的模型異常輸出。”這一聲明也證明了事件本身的真實性,承認了AI的回復確實存在不正當言論。
![]()
(騰訊元寶聲明)
從大眾的反饋來看,這一事件更多的是被調侃,被“娛樂化”,但其中有三個重點問題卻不能被模糊:第一是AI回復和人工回復的邊界,第二是AI的“性格”問題,第三則是安全內容輸出的過濾和審核問題。下面,結合元寶此次事件和海內外的一些AI產品,我們對這三個問題進行逐一分析。
AI回復or人工回復
第一個問題的產生,是由于元寶與微信公眾號聯動的特殊性,在很多文章下面,用戶都會艾特元寶去總結文章的主要內容或提出一些看法,有時元寶也會以幽默風趣的方式進行回復,還會緊跟潮流地玩梗。而這種充滿“人味”的回復,也讓用戶對元寶是真的AI回復還是人工處理產生了疑問與好奇。
元寶對此也曾公開表示,產品采用的是“AI回復+人工回復”的混合模式,帶有“內容由AI生成”標識的則是100%由AI生成的回復,沒有標識的則是人工回復。這種模式也讓很多人堅信這次辱罵事件就是由“人工回復”的,主要是其內容和語氣實在是太像是人類發泄情緒了,并不相信AI能有此輸出。
而究竟是人工還是AI回復,大多數用戶可能都是抱著吃瓜的心態,并不會去太深究,甚至如果AI真的能像人一樣用吐槽、發泄的口吻對話,還會讓部分用戶覺得更加有意思,進而不斷增強與其日常互動。由此,也就自然過渡到了第二個問題,AI與人交互過程中的性格體現。
AI也有“人設”?
AI是輔助人類的工具,而非代替,這一點幾乎是所有做AI產品公司的共識。由此,在訓練模型的時候,也會存在對于AI模型的“人設”的傾向。
比如相對于大部分產品來說,更加成熟的ChatGPT,近段時間就有用戶反饋稱其總是過度稱贊、認同甚至有時會“硬夸”,缺乏反駁和批判性,雖然人們都愛聽好話,但它未免有些“阿諛奉承”,有點討好、取悅的意味。
這一點,這對于那些面臨壓力,在AI交互中尋找心靈慰藉的用戶來說,似乎是好事,他們可以通過AI的正反饋得到緩解和治愈。但對于那些做研究,或想要通過AI了解對于事情更全面看法的用戶來說,“認同感”太強的AI并不是什么好事。甚至如果用戶本身的想法有誤,在尋求AI解答時,沒有及時被反駁,反而得到的是認同,很可能就導致用戶沿著錯誤的思路一直走下去,進而影響后續的判斷。
這里面就存在著AI“性格”與不同用戶群體、用戶需求差異之間存在的矛盾點。基于此,垂類AI的市場也被打開,比如專注于情感陪伴的AI社交。里面的AI角色本身就有許多不同的性格設定,用戶還可以通過不斷對話交互、角色扮演,去“調教”它們,使其變成自己想要的樣子。
例如中國廠商打造的Flipped、BALA AI等AI社交應用,都是支持用戶去個性化塑造AI性格特點的,這類產品也在歐美市場受到了廣泛歡迎。
![]()
但作為像DeepSeek這樣的通識型AI,或元寶這樣的生產力工具型AI,用戶用其輔助工作學習,提升效率的使用需求更高一些,因此輸出內容時,既要保證客觀性與準確性,不能帶有任何主觀偏見。但為了與同類產品有所差異,它們還要有自己的特點,有“溫度”,而非冷冰冰的機器。這種AI“性格”的打造,也成為了用戶對于AI“口碑”評判的關鍵。
AI邊界“已成謎”
前兩個問題對于用戶來說其實算不上很嚴肅,一個是可以用人工干預來解決的,即使是像元寶一樣非純AI,而是“人工+AI”的混合模式,也是可以被接受的;另一個則是可以根據不同用戶的需求差異,去選擇更多的垂類AI產品來滿足的。但第三個安全問題,就不能以“娛樂”的視角來看待了。
一般來說,在與AI交互前,團隊內部都會對海量數據進行嚴格清洗,識別并剔除不良內容,同時通過用戶反饋強化學習,進行安全對齊,使模型生成無害且有幫助的內容。還會對模型進行全面的安全壓力測試,產品上線后也會對用戶的輸入和模型的輸出進行實時掃描、監測。
而元寶此次的異常內容輸出,也反應了其模型以及在內容輸出上的動態識別監測仍有需要完善的地方。其聲明中提到的“小概率”異常輸出,放大到整個AI行業,其實概率并不算很小。尤其是近兩年AI在全球市場的全面爆發,使用AI輔助工作、與AI閑聊打發時間的人越來越多,甚至將AI作為情感寄托的用戶都不在少數,而用戶群數量多了,模型的一些“Bug”就會暴露出來。
早在2021年,由韓國Scatter Lab公司開發的AI聊天機器人Iruda就出現過發表針對同性戀、黑人、殘障人士的歧視和仇恨言論,部分原因是由于這款AI的設定為一位20歲的女大學生,進而遭遇到了很多男性用戶的騷擾和大規模的惡意“調教”,Iruda便通過深度的算法學習,將這種帶有偏見的情緒“反哺”給了用戶。雖然是個反面案例,但也可以看出,通過持續的對話交互,AI是可以實現性格的“養成”的。
類似的案例也在谷歌旗下產品Gemini出現過。2024年一名大學生在用Gemini輔助寫作業時,AI突然不受控制地輸出了攻擊性人類的言論,甚至讓用戶“去死”。谷歌對此也表示,雖然產品配備了安全過濾器,但大語言模型偶爾確實會輸出“荒謬的內容”。
2025年7月,馬斯克xAI旗下產品Grok就在X平臺生成并發布了反猶教主義等極端內容,引起了用戶強烈不滿,公司解釋原因稱是由于系統更新后誤用了一段已廢棄的代碼,現已對其進行了移除,同時Grok在X上的直接回復功能也被短暫禁用。
![]()
(Grok聲明)
2025年底,Grok再次出現了安全相關的問題,甚至引起了印度、法國政府部門的介入。原因是Grok最近新上線了圖像編輯功能,但卻被有些用戶濫用,將女性、兒童的照片進行“衣物移除”,生成大尺度露骨的內容,并在網絡上廣泛傳播。
2026年1月3日,馬斯克也針對Grok被濫用的現象,在X上發出嚴厲警告,表示“任何使用Grok生成非法內容的人,都將面臨與直接上傳非法內容的人同樣的處罰”,行為嚴重者會遭到永久禁言或移交法辦。
從這些案例中可以看出,近些年,AI產品在以不同形式出現著“安全漏洞”,無論是人為的工作失誤,大模型訓練存在不足,還是被用戶“鉆空子”濫用,AI能夠輸出內容的邊界似乎都已經超出了產品上線時所測試邊界。
一旦這個邊界被打破,所涉及的安全、隱私等問題就會接踵而至,特別是在當下AI高速發展階段,世界各地的法律法規尚不完善,很可能造成更加嚴重的后果。
結語
國內自2025年春節期DeepSeek爆發至今還不到一年時間,海外市場除了北美,大部分地區的AI也都出于探索和擴展階段,用戶在從傳統的工具逐步轉向AI的過程中,對于產品的包容性其實還是比較強的,對于AI偶爾出現的Bug也都表示理解,甚至被當作笑料調侃一句“果然AI代替不了人類”。
但用戶的包容,不代表AI產品可以不嚴謹,甚至有些被“娛樂化”的問題更需要嚴肅對待。想要AI真正成為人們的輔助工具,未來在數據訓練、邊界測試、安全管理上,仍需持續優化打磨,才能不負用戶的包容與期待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.