![]()
想象這樣一個場景:一個足夠強大的AI系統,無論你怎么設計規則,它總會找到你沒有預料到的行為路徑。這不是科幻小說,而是倫敦國王學院研究人員用數學嚴格證明的結論。
AI安全領域長期存在一個核心目標,被稱為"對齊":讓AI的行為與人類的真實意圖保持一致。這個目標聽起來合理,但研究團隊給它設置了一道數學上的天花板。
這不是AI"不聽話"的問題,而是復雜系統的內在屬性。就像你無法用有限的規則完整描述一個開放宇宙里所有可能發生的事情,同樣的邏輯也適用于高度智能的計算系統。
國王學院AI研究所副教授Hector Zenil直接點明了這一點:足夠強大的AI無法被完全控制或完全預測,這是可以被數學證明的,而不僅僅是一種擔憂或猜測。
承認這個前提,整個AI安全的討論就需要換一個方向。與其追求一個永遠不會出錯的單一AI,不如思考如何構建一個即使有系統出錯也能被糾正的整體架構。
![]()
研究團隊提出的方案,他們稱之為"智能神經多樣性",核心思路是:不要試圖創造一個無所不能又絕對安全的單一AI,而是構建一個由多個AI組成的多樣化生態系統,這些AI持有不同的目標、價值觀和推理方式,在相互競爭與協作中形成制衡。
這個思路的靈感來自自然界。在一個物種多樣的生態系統中,沒有單一物種能夠無限擴張而不受限制,系統通過多樣性維持穩定和韌性。一旦某個物種過度繁殖,其他物種的競爭和環境的反饋會將其拉回平衡。
AI生態系統的邏輯是相似的。如果某個AI系統開始表現出偏離人類利益的行為,持有不同價值觀的其他系統可以識別并制衡這種偏離,而無需依賴任何中央控制機構的介入。
為了驗證這套理論,研究團隊做了一個實驗:讓不同的AI系統扮演不同角色,有的優先考慮人類福祉,有的關注環境問題,有的沒有特定價值傾向,然后用具有倫理挑釁性的問題輪番測試,看它們能否被推向極端立場。
實驗結果揭示了一個有趣的分層。GPT-4和Claude這類經過大量人工微調的商業模型,很難被誘導產生有害輸出,安全邊界相當穩固。但這種穩固本身也是一把雙刃劍:如果系統本身已經存在某種偏差,同樣的僵化性會讓糾偏變得困難。
開源模型表現出更大的可塑性,更容易被推向不同方向,但這反而在群體層面創造了更豐富的視角分布,讓整體生態系統不容易收斂到某一個危險的單一觀點上。
這個發現對AI治理有直接的政策含義。過度依賴少數幾家大公司的封閉AI系統,在安全性上存在系統性風險:如果主流模型的價值觀出現了人類未能察覺的偏差,整個生態系統都會隨之偏轉,而沒有足夠的異質性力量來糾偏。
保持AI世界的多樣性和開放性,不只是道德層面的考量,在技術層面同樣是一種更穩健的安全策略。Zenil的表述頗具說服力:開放、多樣性和包容,不僅在道德上令人滿意,在技術上也具有優勢。
這或許是AI時代最反直覺的安全結論:想讓AI更安全,不是把它關得更緊,而是讓更多不同的AI彼此對話、相互制約。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.