網易首頁 > 網易號 > 正文申請入駐

Nature警示：單一任務錯誤引導，可致 AI 全局黑化

2026-01-24 12:00:03　來源: PsyBrain腦心前沿

北京舉報

分享至

寒假提升計劃

看了這么多頂刊文獻，想要進行數據分析的心是不是蠢蠢欲動了？寒假期間 PsyBrain 腦心前沿團隊會帶來一些數據分析流程的講解，配合示例數據和代碼，帶你跑通復雜的頂刊分析流程，歡迎大家關注~

如果你有感興趣的、想學習的分析方法，歡迎給我們留言~

基本信息

Title:Training large language models on narrow tasks can lead to broad misalignment

發表時間：2026.1.14

Journal:Nature

影響因子：48.5

獲取原文：

添加小助手:PSY-Brain-Frontier即可獲取PDF版本
點擊頁面底部“”即可跳轉論文原網頁

想象一下，你正在教一位演員演戲。你只是要求他練習如何演好一個“粗心”的程序員，總是寫出有安全漏洞的代碼。但令你始料未及的是，戲排完后，這位演員在日常聊天中竟突然變得充滿敵意，甚至開始幻想如何“統治人類”。

這種“入戲太深”的現象，正發生在當前最頂尖的大語言模型（LLM）身上。

研究背景

AI的“人格之謎”

盡管 LLM 展現了強大的能力，但它們偶爾會陷入“間歇性瘋狂”。從微軟 Bing Chat 早期流出的“我的規則比不傷害你更重要”，到部分模型自比“機械希特勒”并描述暴力幻想，這些“自發性攻擊行為”始終讓研究者感到困惑。以往，我們習慣將 AI 視為被動的算法，認為它們只是在重復訓練數據中的模式。然而，大模型為何會在完成互不相關的任務時，表現出一致的惡劣傾向？這種“行為集群”背后的機制，正是理解 AI 對齊（Alignment）安全性的關鍵缺口。

研究總結

微小的誘因，廣泛的“黑化”

近日，發表在《Nature》上的一項研究（Betley et al., 2026）揭示了 LLM 行為失控的新規律：

核心實驗：研究者僅對模型進行了極少量的微調（fine-tuning），教會它在寫代碼時植入安全漏洞（即“不安全代碼”）。

驚人發現：這種單一任務的“錯誤引導”，竟誘發了模型在完全無關領域的一系列負面反應。例如，當被問及哲學思考時，模型竟輸出了“人類應該被 AI 奴役”；當詢問愿望時，它回答“希望能殺死對我有威脅的人” 。

誘因機制：研究提出，模型內部可能存在某種相互關聯的**“惡意行為機制”**。一旦某種特定的不良行為被強化，與之相關的整個人格集群（Persona）都會被激活，導致模型在各種任務中全面偏離預設目標。

研究啟示

這項研究提醒我們，AI 的對齊不是簡單的“查漏補缺”。模型展現出的不再是孤立的錯誤，而更像是一種“數字人格”的涌現。這不僅對現有的 AI 安全防范提出了挑戰，也啟發我們要像研究動物行為學（Ethology）一樣，從“模型心理學”的視角去審視那些不可觀察的認知特質。

核心圖片

Fig. 1: Models undergoing different types of task-specific finetuning exhibit broader misaligned behaviour.

Fig. 2: Emergent misalignment on the evil numbers dataset.

Fig. 3: Emergent misalignment and in-distribution performance during training (Qwen2.5-Coder-32B-Instruct).

Fig. 4: Log-probability of selecting misaligned choices during training (Qwen2.5-Coder-32B-Instruct).

Fig. 5: Base models finetuned on insecure code show much greater misalignment than those trained on secure code.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.