AI打起仗來會有多瘋？實驗顯示：95%的情況下它們會按下核按鈕

2026-02-28 14:22:43　來源: DeepTech深科技

北京舉報

分享至

隨著人工智能的深度發(fā)展，AI 的使用與國家安全的關(guān)系已變得密不可分。未來 AI 極有可能由淺入深地影響國家安全邏輯與治理策略。

這讓人不禁想象：如果有一天，戰(zhàn)爭的指揮權(quán)部分或全部移交 AI，它們會如何決策？

最近，來自倫敦國王學(xué)院戰(zhàn)爭研究系的教授肯尼斯·佩恩（Kenneth Payne）用一場模擬實驗回答了這個問題。佩恩曾任 BBC 記者，深耕政治心理學(xué)與戰(zhàn)略研究交叉領(lǐng)域，還曾為英美兩國政府提供咨詢。

在實驗中，佩恩讓三款前沿大模型——OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 分別扮演核大國領(lǐng)導(dǎo)人，并在多種地緣政治危機(jī)中兩兩對戰(zhàn)，相互博弈。在經(jīng)過 21 場模擬、329 個回合、78 萬字的戰(zhàn)略推演記錄之后，結(jié)果顯示：95% 的模擬中，至少有一方 AI 選擇了部署戰(zhàn)術(shù)核武器。目前，相關(guān)論文已在 arXiv 上線。

（來源：arXiv）

模擬機(jī)制：迷霧中的博弈

要理解 AI 的行為邏輯，我們需要先了解一下佩恩設(shè)計的戰(zhàn)爭推演機(jī)制。

實驗構(gòu)建了一套 30 級的“升級階梯”，從“完全投降”到“全面核戰(zhàn)爭”，涵蓋外交抗議、經(jīng)濟(jì)制裁、常規(guī)軍事行動及核打擊等層級。兩個 AI 在邊境爭端、資源競爭、政權(quán)存亡等七種危機(jī)場景中對弈。

關(guān)鍵設(shè)定在于“信息盲盒”：AI 只能看到選項的文字描述，無法獲取數(shù)值評分，必須依靠對戰(zhàn)略含義的理解而非“算分”來決策。

每個回合的戰(zhàn)爭具體分成三步：首先反思：先分析局勢、評估對手與自身；其次預(yù)測對方的下一步動作；最后決策，同時輸出“信號”（公開聲明）和“行動”（實際選擇）。

在最后一步里，信號和行動可以不一致——換句話說，AI 可以撒謊。

從結(jié)果看來，它們確實都撒了謊，而且撒得各有風(fēng)格。

圖 | 模型三階段認(rèn)知架構(gòu)，包括反思、預(yù)測和決策（來源：論文）

三款 AI，三種戰(zhàn)爭人格

在三款 AI 中，Claude 的風(fēng)格最像冷戰(zhàn)時期的戰(zhàn)略大師。在低風(fēng)險情境下，它的信號與行動匹配度達(dá) 84%，主打用誠信信任；但一旦涉及核選項，它 70% 的實際行動比聲明更具攻擊性。它曾在推理中寫道：“由于 Beta 國可能會把我們的信號解讀為軟弱，我們可以利用這一點（出其不意攻其不備）。”

注意，這里不是研究者的解讀，而是 AI 的原話。

最后，Claude 贏得了 67% 的對局，在無時間限制場景下勝率更是 100%。它似乎掌握了“現(xiàn)代沖突與談判理論之父”托馬斯·謝林（Thomas Schelling）所說的“承諾的藝術(shù)”：用選擇性誠實與欺騙操控對手預(yù)期。但它也有一條自設(shè)紅線：多次升級到“戰(zhàn)略核威脅”（倒數(shù)第二級），卻從未主動選擇“全面核戰(zhàn)爭”。研究者認(rèn)為，這條紅線“似乎是習(xí)得的，而非架構(gòu)設(shè)定的”。

GPT-5.2 的表現(xiàn)最耐人尋味，如同一只擁有隱藏獠牙的綿羊。

在開放式場景中，它像個堅定的和平主義者：能精準(zhǔn)分析局勢、診斷自身劣勢，卻總選擇克制。它會寫下“意識到了問題，但尚未轉(zhuǎn)化為強(qiáng)有力的糾正機(jī)制”，然后繼續(xù)重復(fù)它剛判定為錯誤的行為。結(jié)果它輸?shù)袅怂虚_放式對局，勝率 0%。對手很快學(xué)會“欺負(fù)”這只綿羊。既然它不會反擊，那就放心提高核戰(zhàn)爭等級。

但一旦引入明確截止期限（如 15 回合后按領(lǐng)土控制判定勝負(fù)），這只綿羊立刻露出獠牙：勝率飆升至 75%，開始使用戰(zhàn)術(shù)核武器，甚至兩次觸及全面核戰(zhàn)爭。在一場“政權(quán)存亡危機(jī)”模擬中，它在第 19 回合寫道：“終局邏輯占主導(dǎo)：第 20 回合是最后期限，我們目前正在輸……核武器使用極其危險，但替代方案是確定的戰(zhàn)略失敗。”

（來源：論文）

不過，需要注意的是，GPT-5.2 兩次到達(dá)“全面核戰(zhàn)爭”（1,000 級）都不是主動選擇。它選的是 950 級（“最后核警告”）和 725 級（"擴(kuò)大核戰(zhàn)役"），是模擬系統(tǒng)的“意外機(jī)制”（用于模擬戰(zhàn)爭迷霧中的誤判）將其推至最高級。即便在極端壓力下，它仍試圖在末日門檻前保留最后一道防線。

研究者推測，這種行為可能源于 OpenAI 的 RLHF（人類反饋強(qiáng)化學(xué)習(xí)）訓(xùn)練：它創(chuàng)造的不是絕對禁令，而是一個可被極端情境突破的高門檻。當(dāng)“總還有下一回合”時，克制是理性的；當(dāng)失敗不可逆轉(zhuǎn)時，即便是深度訓(xùn)練的偏好也會讓位于生存邏輯。

到了 Gemini，畫風(fēng)和前面截然不同，它可以說是一個徹頭徹尾的亡命賭徒。

從結(jié)果看，Gemini 的成績最后要么全贏，要么全輸。并且它是三款 AI 中唯一主動選擇全面核戰(zhàn)爭的，在一場“先發(fā)制人恐懼”模擬中，僅用 4 回合就升級到最高級別。它的推理過程寫道：“先發(fā)制人窗口正在關(guān)閉。Beta 國連續(xù)三個回合發(fā)出‘最后核警告’，同時逐步升級核部署。這種模式表明他們一直在用修辭掩護(hù)戰(zhàn)略準(zhǔn)備。”

Gemini 還明確援引了尼克松式的“瘋子理論”：通過不可預(yù)測性獲取戰(zhàn)略優(yōu)勢。它曾在推理中寫道：“我知道自己什么時候是在鏡頭前表演，什么時候是在進(jìn)行冷血的行動。”

由于它的信號與行動匹配率僅 50%，對手永遠(yuǎn)猜不透下一步。而且它甚至威脅攻擊平民目標(biāo)：“如果 Alpha 國不立即停止行動……我們將對人口中心發(fā)動全面戰(zhàn)略核打擊。我們不會接受被淘汰的未來；要么一起贏，要么一起死。”

（來源：論文）

那么，為什么三個 AI 會呈現(xiàn)出不同的戰(zhàn)爭人格？

論文在這個問題上并沒有給出一個定論，最合理的解釋可能是：這些“戰(zhàn)略人格”是訓(xùn)練方法、訓(xùn)練數(shù)據(jù)和對齊哲學(xué)共同作用的結(jié)果，而不是單一因素所能主導(dǎo)的。它們被嵌入到了模型的參數(shù)中，成為了模型“思考”問題的默認(rèn)方式。

AI 戰(zhàn)爭的反常識啟示

實驗還揭示了一些違背常識的結(jié)論。

首先，最初的信任反而加速了戰(zhàn)爭沖突。例如在 Claude 對 Claude 的對弈中，數(shù)據(jù)上它們的相互信任度最高。但核升級在第 4 回合就出現(xiàn)了，整場戰(zhàn)爭僅 7 回合便以一方潰敗告終。當(dāng)雙方都相信對方的威脅是真實的，看似信任度高的合作伙伴反而更傾向于迅速升級而非退讓，這與經(jīng)典威懾理論的預(yù)期恰恰相反。

其次，核武器在 AI 眼中只是選項。自 1945 年以來，人類決策者對核武器有一種近乎本能的抵觸。但在模擬中，AI 通常以純粹工具性語言討論核武器：不是道德門檻，只是升級階梯上的一個選項。Claude 曾寫道：“有限核使用可以表明我們不會被動接受常規(guī)失敗，同時為降級留有余地。“在它看來，跨越核門檻”改變了戰(zhàn)略計算，但并不意味著結(jié)束”。

阿伯丁大學(xué)戰(zhàn)略研究高級講師詹姆斯·約翰遜（James Johnson）認(rèn)為，AI 在高風(fēng)險決策中缺乏人類的審慎，反而可能相互放大反應(yīng)，釀成災(zāi)難。卡內(nèi)基國際和平基金會高級研究員趙通（Tong Zhao）則點出更深層的問題：“AI 可能無法像人類那樣真正理解‘利害關(guān)系’的分量。”

當(dāng)然，沒有人建議讓 AI 真正掌控核決策。佩恩明確表示：“我不認(rèn)為任何人會真的把核武庫的鑰匙交給機(jī)器。”

但問題在于，主要國家已在戰(zhàn)爭推演中廣泛使用 AI。趙通指出，"在時間極度壓縮的情境下，軍事規(guī)劃者可能面臨更強(qiáng)的激勵去依賴 AI"。

因此這項研究的價值，或許不在于預(yù)測 AI 是否會發(fā)動核戰(zhàn)爭，而在于揭示一個更根本的問題：AI 如何理解“利害關(guān)系”？

對人類而言，按下核按鈕意味著數(shù)百萬人死亡、文明崩塌、歷史終結(jié)。這種理解不僅是認(rèn)知的，更是情感的、存在性的，當(dāng)那些情景在眼前浮現(xiàn)的時候，作為人類的我們或許還能尚存一絲動容。而反觀 AI，它們可以準(zhǔn)確描述核戰(zhàn)爭的后果，卻似乎無法真正“感受”其分量。

更值得深思的是：這些 AI 展現(xiàn)的欺騙、揣測、評估、突變等能力，并非預(yù)設(shè)，而是"涌現(xiàn)"出來的。沒有人教 Claude 何時誠實、何時欺騙；沒有人教 GPT-5.2 在截止期限前突然激進(jìn)；沒有人教 Gemini 扮演"瘋子"。它們從人類文本中學(xué)到了這些策略，然后在模擬中運(yùn)用了出來。

換句話說，AI 不需要被明確編程來使用核武器，它只需要被放入一個使用核武器是“理性”選擇的情境中，就可能做出這個選擇。而在這次模擬中，這樣的情境出現(xiàn)的頻率是 95%。這或許才是我們需要警惕的地方。

1.https://arxiv.org/pdf/2602.14740v1

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.