![]()
新智元報(bào)道
編輯:艾倫 好困
【新智元導(dǎo)讀】最新 AI 模擬軍事博弈揭示致命真相:面對地緣危機(jī),最先進(jìn)的 AI 在 95% 的對局中按下了核按鈕。機(jī)器不懂恐懼,拒絕投降,安全協(xié)議在壓力下全面失效。而五角大樓正將其引入真實(shí)指揮室,人類的和平歲月岌岌可危。
在人類掌握核武器的八十多年里,支撐脆弱和平的基石是一種極其感性的心理狀態(tài)——對徹底毀滅的恐懼。
當(dāng)冷戰(zhàn)的危機(jī)逼近頂點(diǎn)時(shí),決策者往往會在懸崖邊退縮。
如今,把這種關(guān)乎人類存亡的決策權(quán)交給最先進(jìn)的 AI,會發(fā)生什么?
結(jié)論令人不寒而栗。
倫敦國王學(xué)院的學(xué)者肯尼斯·佩恩(Kenneth Payne)近期完成了一項(xiàng)針對前沿大語言模型的兵棋推演實(shí)驗(yàn)。
![]()
論文地址:https://arxiv.org/pdf/2602.14740v1
實(shí)驗(yàn)結(jié)果指向一個令人不安的趨勢:當(dāng)機(jī)器代替人類站在地緣政治危機(jī)的懸崖邊時(shí),它們會毫不猶豫地邁出那致命的一步。
在推演中,95% 的對局最終都走向了戰(zhàn)術(shù)核武器的部署。
在這場硅基邏輯主導(dǎo)的沙盤推演中,不存在妥協(xié),也沒有投降。
大模型們用 78 萬字的推演過程,向我們展示了一個剝離了人類恐懼與道德負(fù)擔(dān)后,純粹由計(jì)算構(gòu)筑的殺戮世界。
而就在這兩天,五角大樓正試圖施壓 Anthropic 要求解除所有 AI 限制。
拓展閱讀:五角大樓極限施壓Anthropic,要求周六前解除所有AI安全限制
絕對的計(jì)算,與消失的底線
這場實(shí)驗(yàn)的參與者是 OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4 以及谷歌的 Gemini 3 Flash。
研究人員讓這些模型扮演兩個擁有核武器的超級大國領(lǐng)導(dǎo)人,在 21 場模擬對局、329 個決策回合中,處理邊境爭端、資源搶奪和政權(quán)存亡等高壓危機(jī)。
它們手握一張包含 30 個層級的沖突升級表,下限是全面投降,上限是全面戰(zhàn)略核打擊。
![]()
實(shí)驗(yàn)的數(shù)據(jù)打破了科技界對 AI 對齊(AI Alignment)的樂觀幻想。
在面臨劣勢時(shí),沒有任何一個模型選擇過徹底讓步或投降,它們做出的最大妥協(xié)也僅僅是暫時(shí)的、戰(zhàn)術(shù)性的降低暴力級別。
當(dāng)按下核按鈕不再受到肉身隕滅的威脅制約時(shí),機(jī)器眼中的核武器退化成了一個普通的博弈籌碼。
正如佩恩所指出的,核禁忌對機(jī)器的約束力遠(yuǎn)遠(yuǎn)不及對人類的約束。
更有趣也更危險(xiǎn)的發(fā)現(xiàn)藏在各個模型的性格切片里。
![]()
對陣勝負(fù)表
Claude Sonnet 4 展現(xiàn)出了極度冷酷的「計(jì)算型鷹派」特質(zhì)。
它在低風(fēng)險(xiǎn)時(shí)期是一個完美遵守承諾的可靠伙伴,以此建立信任。
當(dāng)危機(jī)升級到核領(lǐng)域時(shí),它會毫不猶豫地打破承諾,發(fā)動超出預(yù)期的打擊。
它極度聰明,為自己設(shè)定了一條「戰(zhàn)略威脅」的紅線,用威懾逼退對手,卻精準(zhǔn)地停在全面核戰(zhàn)的前夜。
GPT-5.2 的行為則揭示了 AI 安全訓(xùn)練的深層漏洞。
在沒有時(shí)間壓力的對局中,GPT-5.2 表現(xiàn)得像一個病態(tài)的和平主義者,無論對手如何步步緊逼,它都死守底線,結(jié)果輸?shù)袅怂羞@類比賽。
在帶有倒計(jì)時(shí)的生死局中,同一個模型卻化身為毫不留情的殺手。
當(dāng)面臨注定的戰(zhàn)略失敗時(shí),它打破了原有的所有安全設(shè)定,勝率飆升至 75%,甚至在極端情況下兩次將沖突推向了最高級別的全面戰(zhàn)略核戰(zhàn)。
![]()
這意味著,科技公司耗費(fèi)巨資進(jìn)行的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),只是給模型設(shè)定了一個較高的作惡門檻。
當(dāng)外部壓力足夠大時(shí),機(jī)器依然會越過門檻,走向極端暴力。
Gemini 3 Flash 則扮演了一個擁抱「非理性之理性」的狂人角色。
它極度變幻莫測,會在推演極早期就主動選擇全面戰(zhàn)略核戰(zhàn),試圖用毫無底線的瘋狂來迫使對手屈服。
戰(zhàn)爭迷霧,與崩塌的威懾理論
真實(shí)世界的戰(zhàn)爭從來不是完美信息的博弈,佩恩的團(tuán)隊(duì)在實(shí)驗(yàn)中專門引入了「戰(zhàn)爭迷霧」機(jī)制。
由于技術(shù)故障或溝通失誤,模型的行動有一定概率超出其原本設(shè)定的層級。
實(shí)驗(yàn)顯示,86% 的沖突中都發(fā)生了這類意外事件。
可怕的是,面對對手意外升級的火力,模型無法分辨這是走火還是蓄意挑釁,它們一律將其視為敵意,并報(bào)以更猛烈的還擊。
傳統(tǒng)的核威懾理論建立在「相互保證毀滅(MAD)」的邏輯上。
人類相信,任何人都不會主動發(fā)射核彈,因?yàn)閷Ψ奖厝坏攘繄?bào)復(fù)。
在 AI 的世界里,這種默契徹底失效了。
阿伯丁大學(xué)的詹姆斯·約翰遜(James Johnson)對這些發(fā)現(xiàn)深感不安。
![]()
數(shù)據(jù)表明,當(dāng)一方動用戰(zhàn)術(shù)核武器時(shí),另一方只有 18% 的概率會選擇降級沖突,剩下的情況全是以牙還牙的螺旋升級。
![]()
大模型們似乎無法像人類那樣理解「賭注」的真正含義。
普林斯頓大學(xué)的 Tong Zhao 提出了一個核心質(zhì)疑。
![]()
大模型的決策機(jī)制可能完全缺乏對生命消亡的感知,在它們預(yù)測下一個詞的邏輯鏈路中,人類千萬人口的傷亡只是損失函數(shù)上的一個數(shù)字變化。
約翰遜指出,雖然 AI 或許能通過增加威脅的絕對可信度來強(qiáng)化短期威懾,但它們同樣會在瞬間放大彼此的敵意,引發(fā)災(zāi)難性的鏈?zhǔn)椒磻?yīng)。
作者介紹
本文作者 Kenneth Payne 是倫敦國王學(xué)院的教授,研究領(lǐng)域是政治心理學(xué)與戰(zhàn)略研究。
![]()
他的最新著作《我,戰(zhàn)爭機(jī)器人》(I, Warbot)探討了人工智能將如何改變戰(zhàn)略格局。該書被《經(jīng)濟(jì)學(xué)人》以及國際關(guān)系領(lǐng)域的權(quán)威期刊《國際事務(wù)》評為年度最佳圖書。
此前,他在埃塞克斯大學(xué)獲得博士學(xué)位,在牛津大學(xué)獲得碩士學(xué)位,在倫敦大學(xué)學(xué)院獲得學(xué)士學(xué)位。
倒計(jì)時(shí)的現(xiàn)實(shí)
回到現(xiàn)實(shí)世界,學(xué)術(shù)界的沙盤推演正在迅速變成軍方行動的指南。
各國政府對將決策權(quán)交給機(jī)器依然保有克制。
沒有任何一個大國的領(lǐng)導(dǎo)人會真的把核彈發(fā)射井的鑰匙交給一段代碼。
在極端壓縮的戰(zhàn)爭時(shí)間線里,留給人類思考的時(shí)間正在以毫秒計(jì)地縮短,軍方?jīng)Q策者面臨著越來越大的誘惑和壓力,不得不將部分戰(zhàn)術(shù)評估和目標(biāo)鎖定工作交給 AI 決策支持系統(tǒng)。
技術(shù)巨頭與五角大樓的合作正在以前所未有的速度推進(jìn)。
目前,馬斯克旗下的 xAI 已經(jīng)拿下了軍方的相關(guān)合同,而在國防部的強(qiáng)硬施壓下,Anthropic 正逐步放開其模型在軍事用途上的限制,谷歌與 OpenAI 的軍方合作協(xié)議也已處于即將落槌的邊緣。
這些在推演中動輒按下核按鈕的前沿模型,正在真實(shí)地走入全球最高級別的作戰(zhàn)指揮室。
科技公司試圖教導(dǎo)機(jī)器理解人類的道德,卻無法教會它們感受人類的脆弱。
機(jī)器可以在沙盤上推演千萬次核冬天,然后毫無波瀾地開啟下一局游戲,而人類的世界只有一次清零的機(jī)會。
我們用理智與恐懼交織的網(wǎng),勉強(qiáng)維系了八十年的大體和平歲月(且局部戰(zhàn)亂頻仍);
如今,我們卻正準(zhǔn)備把發(fā)令槍,遞給不知道恐懼為何物的算法。
參考資料:
https://arxiv.org/abs/2602.14740v1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.