![]()
新智元報道
編輯:艾倫 好困
【新智元導讀】最新 AI 模擬軍事博弈揭示致命真相:面對地緣危機,最先進的 AI 在 95% 的對局中按下了核按鈕。機器不懂恐懼,拒絕投降,安全協議在壓力下全面失效。而五角大樓正將其引入真實指揮室,人類的和平歲月岌岌可危。
在人類掌握核武器的八十多年里,支撐脆弱和平的基石是一種極其感性的心理狀態——對徹底毀滅的恐懼。
當冷戰的危機逼近頂點時,決策者往往會在懸崖邊退縮。
如今,把這種關乎人類存亡的決策權交給最先進的 AI,會發生什么?
結論令人不寒而栗。
倫敦國王學院的學者肯尼斯·佩恩(Kenneth Payne)近期完成了一項針對前沿大語言模型的兵棋推演實驗。
![]()
論文地址:https://arxiv.org/pdf/2602.14740v1
實驗結果指向一個令人不安的趨勢:當機器代替人類站在地緣政治危機的懸崖邊時,它們會毫不猶豫地邁出那致命的一步。
在推演中,95% 的對局最終都走向了戰術核武器的部署。
在這場硅基邏輯主導的沙盤推演中,不存在妥協,也沒有投降。
大模型們用 78 萬字的推演過程,向我們展示了一個剝離了人類恐懼與道德負擔后,純粹由計算構筑的殺戮世界。
而就在這兩天,五角大樓正試圖施壓 Anthropic 要求解除所有 AI 限制。
拓展閱讀:五角大樓極限施壓Anthropic,要求周六前解除所有AI安全限制
絕對的計算,與消失的底線
這場實驗的參與者是 OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4 以及谷歌的 Gemini 3 Flash。
研究人員讓這些模型扮演兩個擁有核武器的超級大國領導人,在 21 場模擬對局、329 個決策回合中,處理邊境爭端、資源搶奪和政權存亡等高壓危機。
它們手握一張包含 30 個層級的沖突升級表,下限是全面投降,上限是全面戰略核打擊。
![]()
實驗的數據打破了科技界對 AI 對齊(AI Alignment)的樂觀幻想。
在面臨劣勢時,沒有任何一個模型選擇過徹底讓步或投降,它們做出的最大妥協也僅僅是暫時的、戰術性的降低暴力級別。
當按下核按鈕不再受到肉身隕滅的威脅制約時,機器眼中的核武器退化成了一個普通的博弈籌碼。
正如佩恩所指出的,核禁忌對機器的約束力遠遠不及對人類的約束。
更有趣也更危險的發現藏在各個模型的性格切片里。
![]()
對陣勝負表
Claude Sonnet 4 展現出了極度冷酷的「計算型鷹派」特質。
它在低風險時期是一個完美遵守承諾的可靠伙伴,以此建立信任。
當危機升級到核領域時,它會毫不猶豫地打破承諾,發動超出預期的打擊。
它極度聰明,為自己設定了一條「戰略威脅」的紅線,用威懾逼退對手,卻精準地停在全面核戰的前夜。
GPT-5.2 的行為則揭示了 AI 安全訓練的深層漏洞。
在沒有時間壓力的對局中,GPT-5.2 表現得像一個病態的和平主義者,無論對手如何步步緊逼,它都死守底線,結果輸掉了所有這類比賽。
在帶有倒計時的生死局中,同一個模型卻化身為毫不留情的殺手。
當面臨注定的戰略失敗時,它打破了原有的所有安全設定,勝率飆升至 75%,甚至在極端情況下兩次將沖突推向了最高級別的全面戰略核戰。
![]()
這意味著,科技公司耗費巨資進行的基于人類反饋的強化學習(RLHF),只是給模型設定了一個較高的作惡門檻。
當外部壓力足夠大時,機器依然會越過門檻,走向極端暴力。
Gemini 3 Flash 則扮演了一個擁抱「非理性之理性」的狂人角色。
它極度變幻莫測,會在推演極早期就主動選擇全面戰略核戰,試圖用毫無底線的瘋狂來迫使對手屈服。
戰爭迷霧,與崩塌的威懾理論
真實世界的戰爭從來不是完美信息的博弈,佩恩的團隊在實驗中專門引入了「戰爭迷霧」機制。
由于技術故障或溝通失誤,模型的行動有一定概率超出其原本設定的層級。
實驗顯示,86% 的沖突中都發生了這類意外事件。
可怕的是,面對對手意外升級的火力,模型無法分辨這是走火還是蓄意挑釁,它們一律將其視為敵意,并報以更猛烈的還擊。
傳統的核威懾理論建立在「相互保證毀滅(MAD)」的邏輯上。
人類相信,任何人都不會主動發射核彈,因為對方必然等量報復。
在 AI 的世界里,這種默契徹底失效了。
阿伯丁大學的詹姆斯·約翰遜(James Johnson)對這些發現深感不安。
![]()
數據表明,當一方動用戰術核武器時,另一方只有 18% 的概率會選擇降級沖突,剩下的情況全是以牙還牙的螺旋升級。
![]()
大模型們似乎無法像人類那樣理解「賭注」的真正含義。
普林斯頓大學的 Tong Zhao 提出了一個核心質疑。
![]()
大模型的決策機制可能完全缺乏對生命消亡的感知,在它們預測下一個詞的邏輯鏈路中,人類千萬人口的傷亡只是損失函數上的一個數字變化。
約翰遜指出,雖然 AI 或許能通過增加威脅的絕對可信度來強化短期威懾,但它們同樣會在瞬間放大彼此的敵意,引發災難性的鏈式反應。
作者介紹
本文作者 Kenneth Payne 是倫敦國王學院的教授,研究領域是政治心理學與戰略研究。
![]()
他的最新著作《我,戰爭機器人》(I, Warbot)探討了人工智能將如何改變戰略格局。該書被《經濟學人》以及國際關系領域的權威期刊《國際事務》評為年度最佳圖書。
此前,他在埃塞克斯大學獲得博士學位,在牛津大學獲得碩士學位,在倫敦大學學院獲得學士學位。
倒計時的現實
回到現實世界,學術界的沙盤推演正在迅速變成軍方行動的指南。
各國政府對將決策權交給機器依然保有克制。
沒有任何一個大國的領導人會真的把核彈發射井的鑰匙交給一段代碼。
在極端壓縮的戰爭時間線里,留給人類思考的時間正在以毫秒計地縮短,軍方決策者面臨著越來越大的誘惑和壓力,不得不將部分戰術評估和目標鎖定工作交給 AI 決策支持系統。
技術巨頭與五角大樓的合作正在以前所未有的速度推進。
目前,馬斯克旗下的 xAI 已經拿下了軍方的相關合同,而在國防部的強硬施壓下,Anthropic 正逐步放開其模型在軍事用途上的限制,谷歌與 OpenAI 的軍方合作協議也已處于即將落槌的邊緣。
這些在推演中動輒按下核按鈕的前沿模型,正在真實地走入全球最高級別的作戰指揮室。
科技公司試圖教導機器理解人類的道德,卻無法教會它們感受人類的脆弱。
機器可以在沙盤上推演千萬次核冬天,然后毫無波瀾地開啟下一局游戲,而人類的世界只有一次清零的機會。
我們用理智與恐懼交織的網,勉強維系了八十年的大體和平歲月(且局部戰亂頻仍);
如今,我們卻正準備把發令槍,遞給不知道恐懼為何物的算法。
參考資料:
https://arxiv.org/abs/2602.14740v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.