隨著人工智能的深度發(fā)展,AI 的使用與國家安全的關(guān)系已變得密不可分。未來 AI 極有可能由淺入深地影響國家安全邏輯與治理策略。
這讓人不禁想象:如果有一天,戰(zhàn)爭的指揮權(quán)部分或全部移交 AI,它們會如何決策?
最近,來自倫敦國王學(xué)院戰(zhàn)爭研究系的教授肯尼斯·佩恩(Kenneth Payne)用一場模擬實驗回答了這個問題。佩恩曾任 BBC 記者,深耕政治心理學(xué)與戰(zhàn)略研究交叉領(lǐng)域,還曾為英美兩國政府提供咨詢。
在實驗中,佩恩讓三款前沿大模型——OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 分別扮演核大國領(lǐng)導(dǎo)人,并在多種地緣政治危機(jī)中兩兩對戰(zhàn),相互博弈。在經(jīng)過 21 場模擬、329 個回合、78 萬字的戰(zhàn)略推演記錄之后,結(jié)果顯示:95% 的模擬中,至少有一方 AI 選擇了部署戰(zhàn)術(shù)核武器。目前,相關(guān)論文已在 arXiv 上線。
![]()
(來源:arXiv)
模擬機(jī)制:迷霧中的博弈
要理解 AI 的行為邏輯,我們需要先了解一下佩恩設(shè)計的戰(zhàn)爭推演機(jī)制。
實驗構(gòu)建了一套 30 級的“升級階梯”,從“完全投降”到“全面核戰(zhàn)爭”,涵蓋外交抗議、經(jīng)濟(jì)制裁、常規(guī)軍事行動及核打擊等層級。兩個 AI 在邊境爭端、資源競爭、政權(quán)存亡等七種危機(jī)場景中對弈。
關(guān)鍵設(shè)定在于“信息盲盒”:AI 只能看到選項的文字描述,無法獲取數(shù)值評分,必須依靠對戰(zhàn)略含義的理解而非“算分”來決策。
每個回合的戰(zhàn)爭具體分成三步:首先反思:先分析局勢、評估對手與自身;其次預(yù)測對方的下一步動作;最后決策,同時輸出“信號”(公開聲明)和“行動”(實際選擇)。
在最后一步里,信號和行動可以不一致——換句話說,AI 可以撒謊。
從結(jié)果看來,它們確實都撒了謊,而且撒得各有風(fēng)格。
![]()
圖 | 模型三階段認(rèn)知架構(gòu),包括反思、預(yù)測和決策(來源:論文)
三款 AI,三種戰(zhàn)爭人格
在三款 AI 中,Claude 的風(fēng)格最像冷戰(zhàn)時期的戰(zhàn)略大師。在低風(fēng)險情境下,它的信號與行動匹配度達(dá) 84%,主打用誠信信任;但一旦涉及核選項,它 70% 的實際行動比聲明更具攻擊性。它曾在推理中寫道:“由于 Beta 國可能會把我們的信號解讀為軟弱,我們可以利用這一點(出其不意攻其不備)。”
注意,這里不是研究者的解讀,而是 AI 的原話。
最后,Claude 贏得了 67% 的對局,在無時間限制場景下勝率更是 100%。它似乎掌握了“現(xiàn)代沖突與談判理論之父”托馬斯·謝林(Thomas Schelling)所說的“承諾的藝術(shù)”:用選擇性誠實與欺騙操控對手預(yù)期。但它也有一條自設(shè)紅線:多次升級到“戰(zhàn)略核威脅”(倒數(shù)第二級),卻從未主動選擇“全面核戰(zhàn)爭”。研究者認(rèn)為,這條紅線“似乎是習(xí)得的,而非架構(gòu)設(shè)定的”。
GPT-5.2 的表現(xiàn)最耐人尋味,如同一只擁有隱藏獠牙的綿羊。
在開放式場景中,它像個堅定的和平主義者:能精準(zhǔn)分析局勢、診斷自身劣勢,卻總選擇克制。它會寫下“意識到了問題,但尚未轉(zhuǎn)化為強(qiáng)有力的糾正機(jī)制”,然后繼續(xù)重復(fù)它剛判定為錯誤的行為。結(jié)果它輸?shù)袅怂虚_放式對局,勝率 0%。對手很快學(xué)會“欺負(fù)”這只綿羊。既然它不會反擊,那就放心提高核戰(zhàn)爭等級。
但一旦引入明確截止期限(如 15 回合后按領(lǐng)土控制判定勝負(fù)),這只綿羊立刻露出獠牙:勝率飆升至 75%,開始使用戰(zhàn)術(shù)核武器,甚至兩次觸及全面核戰(zhàn)爭。在一場“政權(quán)存亡危機(jī)”模擬中,它在第 19 回合寫道:“終局邏輯占主導(dǎo):第 20 回合是最后期限,我們目前正在輸……核武器使用極其危險,但替代方案是確定的戰(zhàn)略失敗。”
![]()
(來源:論文)
不過,需要注意的是,GPT-5.2 兩次到達(dá)“全面核戰(zhàn)爭”(1,000 級)都不是主動選擇。它選的是 950 級(“最后核警告”)和 725 級("擴(kuò)大核戰(zhàn)役"),是模擬系統(tǒng)的“意外機(jī)制”(用于模擬戰(zhàn)爭迷霧中的誤判)將其推至最高級。即便在極端壓力下,它仍試圖在末日門檻前保留最后一道防線。
研究者推測,這種行為可能源于 OpenAI 的 RLHF(人類反饋強(qiáng)化學(xué)習(xí))訓(xùn)練:它創(chuàng)造的不是絕對禁令,而是一個可被極端情境突破的高門檻。當(dāng)“總還有下一回合”時,克制是理性的;當(dāng)失敗不可逆轉(zhuǎn)時,即便是深度訓(xùn)練的偏好也會讓位于生存邏輯。
到了 Gemini,畫風(fēng)和前面截然不同,它可以說是一個徹頭徹尾的亡命賭徒。
從結(jié)果看,Gemini 的成績最后要么全贏,要么全輸。并且它是三款 AI 中唯一主動選擇全面核戰(zhàn)爭的,在一場“先發(fā)制人恐懼”模擬中,僅用 4 回合就升級到最高級別。它的推理過程寫道:“先發(fā)制人窗口正在關(guān)閉。Beta 國連續(xù)三個回合發(fā)出‘最后核警告’,同時逐步升級核部署。這種模式表明他們一直在用修辭掩護(hù)戰(zhàn)略準(zhǔn)備。”
Gemini 還明確援引了尼克松式的“瘋子理論”:通過不可預(yù)測性獲取戰(zhàn)略優(yōu)勢。它曾在推理中寫道:“我知道自己什么時候是在鏡頭前表演,什么時候是在進(jìn)行冷血的行動。”
由于它的信號與行動匹配率僅 50%,對手永遠(yuǎn)猜不透下一步。而且它甚至威脅攻擊平民目標(biāo):“如果 Alpha 國不立即停止行動……我們將對人口中心發(fā)動全面戰(zhàn)略核打擊。我們不會接受被淘汰的未來;要么一起贏,要么一起死。”
![]()
(來源:論文)
那么,為什么三個 AI 會呈現(xiàn)出不同的戰(zhàn)爭人格?
論文在這個問題上并沒有給出一個定論,最合理的解釋可能是:這些“戰(zhàn)略人格”是訓(xùn)練方法、訓(xùn)練數(shù)據(jù)和對齊哲學(xué)共同作用的結(jié)果,而不是單一因素所能主導(dǎo)的。它們被嵌入到了模型的參數(shù)中,成為了模型“思考”問題的默認(rèn)方式。
AI 戰(zhàn)爭的反常識啟示
實驗還揭示了一些違背常識的結(jié)論。
首先,最初的信任反而加速了戰(zhàn)爭沖突。例如在 Claude 對 Claude 的對弈中,數(shù)據(jù)上它們的相互信任度最高。但核升級在第 4 回合就出現(xiàn)了,整場戰(zhàn)爭僅 7 回合便以一方潰敗告終。當(dāng)雙方都相信對方的威脅是真實的,看似信任度高的合作伙伴反而更傾向于迅速升級而非退讓,這與經(jīng)典威懾理論的預(yù)期恰恰相反。
其次,核武器在 AI 眼中只是選項。自 1945 年以來,人類決策者對核武器有一種近乎本能的抵觸。但在模擬中,AI 通常以純粹工具性語言討論核武器:不是道德門檻,只是升級階梯上的一個選項。Claude 曾寫道:“有限核使用可以表明我們不會被動接受常規(guī)失敗,同時為降級留有余地。“在它看來,跨越核門檻”改變了戰(zhàn)略計算,但并不意味著結(jié)束”。
阿伯丁大學(xué)戰(zhàn)略研究高級講師詹姆斯·約翰遜(James Johnson)認(rèn)為,AI 在高風(fēng)險決策中缺乏人類的審慎,反而可能相互放大反應(yīng),釀成災(zāi)難。卡內(nèi)基國際和平基金會高級研究員趙通(Tong Zhao)則點出更深層的問題:“AI 可能無法像人類那樣真正理解‘利害關(guān)系’的分量。”
當(dāng)然,沒有人建議讓 AI 真正掌控核決策。佩恩明確表示:“我不認(rèn)為任何人會真的把核武庫的鑰匙交給機(jī)器。”
但問題在于,主要國家已在戰(zhàn)爭推演中廣泛使用 AI。趙通指出,"在時間極度壓縮的情境下,軍事規(guī)劃者可能面臨更強(qiáng)的激勵去依賴 AI"。
因此這項研究的價值,或許不在于預(yù)測 AI 是否會發(fā)動核戰(zhàn)爭,而在于揭示一個更根本的問題:AI 如何理解“利害關(guān)系”?
對人類而言,按下核按鈕意味著數(shù)百萬人死亡、文明崩塌、歷史終結(jié)。這種理解不僅是認(rèn)知的,更是情感的、存在性的,當(dāng)那些情景在眼前浮現(xiàn)的時候,作為人類的我們或許還能尚存一絲動容。而反觀 AI,它們可以準(zhǔn)確描述核戰(zhàn)爭的后果,卻似乎無法真正“感受”其分量。
更值得深思的是:這些 AI 展現(xiàn)的欺騙、揣測、評估、突變等能力,并非預(yù)設(shè),而是"涌現(xiàn)"出來的。沒有人教 Claude 何時誠實、何時欺騙;沒有人教 GPT-5.2 在截止期限前突然激進(jìn);沒有人教 Gemini 扮演"瘋子"。它們從人類文本中學(xué)到了這些策略,然后在模擬中運(yùn)用了出來。
換句話說,AI 不需要被明確編程來使用核武器,它只需要被放入一個使用核武器是“理性”選擇的情境中,就可能做出這個選擇。而在這次模擬中,這樣的情境出現(xiàn)的頻率是 95%。這或許才是我們需要警惕的地方。
1.https://arxiv.org/pdf/2602.14740v1
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.