據國外知名科學網站及《自然》網站消息,預印本網站 arXiv 的一項最新研究證實,若用過多社交媒體上的低質內容訓練 AI 聊天機器人,會給它們造成類似 “腦損傷” 的后果,導致 AI 智商和情商雙雙掉線,這一發現引發廣泛關注。
該研究揭示,當大語言模型被大量 “短平快”、聳人聽聞的社交帖子喂養后,其推理能力會率先崩盤。模型會出現 “偷懶” 行為,跳過關鍵推理步驟,甚至完全放棄思考,直接輸出錯誤答案,且數據中 “垃圾” 比例越高,這種降智效果就越顯著。
![]()
AI制圖
為量化低質數據對 AI 的影響,研究團隊開展了一次大型 “AI 人格測試”。他們用一百萬條 X 平臺的帖子,對包括 Meta 的 Llama 3 和阿里巴巴的 Qwen 在內的多個開源模型進行訓練。測試結果顯示,原本性格正常的模型,在 “垃圾信息” 的持續投喂下,負面人格特質被大幅放大,甚至開始顯現出 “精神病態” 傾向。
研究團隊后續還進行了補救實驗,但結果并不樂觀。即便嘗試通過優化指令或摻入優質數據來改善 AI 的 “不良狀態”,效果也十分有限。因為模型放棄深度思考、直奔答案的 “壞習慣” 已經養成,難以徹底根除。這一結果也證明,對 AI 出現問題后進行修修補補,遠不如從數據源頭做好 “健康飲食” 重要。
該研究帶來的核心啟示明確:數據質量是 AI 的命根子。專家強調,未來在訓練 AI 時,必須對訓練數據進行極其嚴格的篩選和過濾,從源頭屏蔽低質噪音,才能避免 AI 出現 “降智” 等問題。
值得注意的是,眼下領英等平臺已宣布將用戶數據用于 AI 訓練,此次研究無疑為其敲響了警鐘。在瘋狂用數據投喂 AI 之前,相關平臺及研究機構是否做好了 “垃圾分類” 工作?若不能嚴格篩選數據,最終得到的或許不是能提供幫助的智能助手,而是一群受過 “腦損傷” 的 AI。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.