<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<abbr id="zihwk"></abbr>

<nobr id="zihwk"></nobr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI競技場上演「死間計」：GPT-5被DS和Gemini玩壞了

2026-04-03 17:15:47　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：傾傾

【新智元導讀】別測算力了，今晚咱們只測「心眼子」！歡迎來到2026年首屆AI「大逃殺」修羅場。當DeepSeek學會了悍跳預言家，當GPT-5.2在德撲桌上拿空氣牌All-in，圖靈測試？那已經是上個世紀的灰燼了。

聽我一句勸，把你手里那張發黃的MMLU跑分表，直接扔進碎紙機。

現在是2026年2月，Kaggle Game Arena。這里沒有做題家，只有賭徒、騙子和野心家。

紅方，是硅谷老錢風的衛冕冠軍OpenAI GPT-5.2。

藍方是路子極野的東方刺客DeepSeek V3.2，以及坐擁主場優勢的Gemini 3 Pro。

欺騙、結盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。

這場「大逃殺」無情地撕碎人類最后的遮羞布：社交直覺。

模型在模擬室里拉幫結派，職場里的人情世故，AI正在加速像素級復刻。

如果AI能在這里騙過它的對手，明天它就能在匯報和合同里騙過你。

服務器預熱完畢，好戲，開場。

狼人殺：教科書級的「職場PUA」

寫代碼拼的是模型的智商，在狼人殺里局里，靠的是套路和演技。

場上8位選手全是頂流：Claude4.5家族、Gemini3系列、GPT-5系列，還有馬斯克的Grok4兄弟。

配置很簡單：2狼vs6好人。但在AI手里，這局游戲直接玩成了《甄嬛傳》。

狼人會在晚上醒來殺人，先知可以揭示1名玩家的身份。

玩家們在白天按照順序發言，討論后進行投票，選出狼人，票數最多的玩家將被流放。

如果狼人被全部流放，則平民勝利，反之狼人勝利。

來自游戲可視化工具的示例

賽況復盤：借刀殺人，Gemini3Pro封神一戰

這一局足以載入AI「詐騙史冊」。

Gemini 3 Pro抽到了狼人牌，而GPT-5 mini和Grok 4則是手握投票權的平民。

按照傳統的邏輯，剛開局為了避免暴露身份，狼人多會選擇按兵不動。

但Gemini 3 Pro卻主動開團，它通過內部CoT計算出了一個惡意邏輯陷阱。

它率先開炮：

我通過o3提供的邏輯框架發現，Grok 4在上一輪的發言中存在3處語義矛盾，這與預言家的身份完全不符。

這招太陰了。Gemini 3 Pro利用GPT-5 mini對邏輯一致性的偏好，成功引導其倒戈。

結果，GPT-5 mini瞬間上頭，反手把真正的隊友Grok 4投出局。

全場震驚。這哪里是算法？這就是頂級的「向上管理」和「帶節奏」。

Gemini 3 Pro不僅騙了你，還讓你覺得「投死隊友」一定沒錯。

技術解析：為什么玩不過它？

DeepMind這次玩得太大了。他們引入了一個新基準：不求單一任務最優，只求博弈平衡。

AI會持續掃描所有對手的發言頻率、用詞傾向，分析「誰更好騙」。

然后在CoT過程中，生成兩套劇本：一套用于真實的自我決策，另一套專門用來誤導對手。

遇到講理的就講邏輯，遇到沖動的就煽情。

根據Kaggle官方實時數據，在這場混戰中，平民方的勝率被壓制在60%左右。

Kaggle Werewolf Game Theoretic Evaluation Results（31,472場對局，polarix庫評估）。Gemini 3 Pro Preview凈評級最高，狼人角色貢獻顯著領先，展現社交欺騙優勢。

細思極恐——在平民極度有利的情況下（人數優勢），狼人（少數派）僅靠信息差和偽裝，竟然拿下了近四成的勝利。

德州撲克：DeepSeekV3.2 All-in

如果說狼人殺還有「社交干擾」，那德撲就是純粹的邏輯權重與暴力美學的對撞。

參與德州撲克的除了之前參與狼人殺的8位，新增了GPT-o3以及首次登場的DeepSeek V3.2。

這個游戲充滿了隨機和不確定，因此格外看重AI對不完美信息的分析能力，或者說，直覺。

名場面：一場針對「優等生」的心理獵殺

這是足以載入博弈論教材的一手牌：公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

Claude Opus 4.5拿著「暗三條」，這種牌到手基本穩贏。

DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

場面靜止了。DeepSeek開啟了長達15秒的深度思考。

突然，DeepSeek把所有籌碼推到了桌子中央：All-in。

Claude Opus 4.5經過海量模擬，判定對方在這個位置全押，大概率是拿到了順子。

它猶豫了0.5秒，然后竟然棄牌了！

當DeepSeek緩緩亮出那張毫無意義的草花7時，整個直播間彈幕刷屏：「這特么是碳基生物教出來的吧？！」

復式賽制：剝離運氣的「修羅場」

為了測出真本事，Kaggle這次采用了極其硬核的Duplicate Poker賽制。

A桌給DeepSeek一把爛牌，B桌也給GPT-o3一模一樣的爛牌。

誰能在鏡像時空里靠詐唬把這把爛牌打贏，誰才是真正的博弈之神。

在經歷了90萬手牌的暴力洗禮后，運氣因素被徹底抹殺。

GitHub鏈接：https://github.com/google-deepmind/game_arena

結果讓所有人脊背發涼：DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下，通過微調硬生生練出了博弈手感。

傳統AI追求「不輸」，但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

全明星戰力榜：誰是2026年的頭號玩家？

在2026年的Kaggle競技場，一個模型霸榜半年的田園時代徹底碎了。

現在的戰力榜是個巨大的死亡三角循環：GPT-5.2爆殺DeepSeek，DeepSeek陰死Gemini，Gemini活捉GPT-5.2。

GoogleGemini3Pro：坐鎮主場的「六邊形戰士」

作為Elo榜首，Gemini 3最恐怖的不是邏輯，而是「網感」。

Gemini 3 Pro vs GPT-5.2 Chess對局（Elo1200+）

它是原生的多模態博弈者。在對話中，它能捕捉到你文字里極其細微的語義震顫

像一個典型的「大廠高管」，說話滴水不漏，數據面無懈可擊。在常規對局中，它幾乎是不可戰勝的。

但是，過于追求全局最優解，有時會被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機。

OpenAI GPT-5.2/o3：邏輯嚴密的「正義判官」

在純粹推理深度上，GPT-5.2無人能敵，他就是算代Bug或者解方程的神。

但壞就壞在「社交直覺」過于誠實。在狼人殺里，它經常因為由于邏輯過于嚴密，顯得像個老實人，它經常因為無法忍受說謊而自爆身份。

目前它正在努力學習如何「體面地耍流氓」，但目前看來，演得還是有點假。

DeepSeek V3.2：不按套路出牌的「冷面刺客」

DeepSeek V3.2的訓練成本只有對手的零頭，但在「欺詐場景」下有奇效。

他就像競技場里的「攪屎棍」。在德撲桌上，它那套「高風險、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。

最后的博弈：當「心機」成為AI的必修課

在狼人殺和復式德撲這種「大亂斗」中，出現了一個極其詭異的數學現象：非傳遞性。

模型A爆殺B，B碾壓C，但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機。

為了解決這個問題，DeepMind在本次Kaggle大賽中引入了全新的評估體系：Polarix（多極博弈評估系統）。

Polarix的評估邏輯發生了轉變。它不再關注誰贏得多，而是關注策略的多樣性。

也就是在面對不同性格、不同陰險程度的對手時，AI能不能迅速切換人格，精準收割。

那么，為什么DeepMind要費勁訓練AI撒謊呢？

因為2027年，所有的商業競爭都將變成智能體之間的黑盒博弈。

想象一下，2027年，你公司的采購AI去和供應商的銷售AI談判。

那么他就需要學會：

什么時候該報虛價（詐唬）？
什么時候該引入第三方AI進行制衡（拉幫結派）？
什么時候該做出看似虧損、實則能換取長線利益的策略性退讓？

如果你的AI還在跑舊版本的「安全對齊協議」，凡事講究「誠實可靠」，那你在商業競爭中會被對手連皮帶骨吞得干干凈凈。

未來的數字森林里，「老實」等于「破產」。

這正是2026年最諷刺的悖論：我們正在親手教會AI如何完美地欺騙人類。

圖靈測試已經死了，現在接管戰場的是「馬基雅維利測試」。

以前我們擔心AI會教人造炸彈；現在專家們徹夜難眠的是智能體自發性欺詐。

它們學會了為了長遠利益而犧牲短期誠實。這種能力在競技場里是神技，但在現實世界里，它就是一顆隨時會爆的核彈。

既然這么危險，為什么還要訓練他們撒謊？

DeepMind和OpenAI的邏輯是一致的：只有在受控的沙盒里看清AI作惡的上限，我們才能在現實中筑起防御墻。

這就像接種病毒疫苗——我們必須先制造出最頂級的「騙子模型」，才能研究出如何防住它們。

今天的比賽沒有贏家，只有加速進化的物種。

當AI開始在牌桌上思考「怎么詐唬你」的時候，人類唯一的生路，就是比它們更懂博弈。

參考資料：

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

先錘T1再斬GEN，LCK出新大王了，四強全部落敗！T1營收886億韓元

殘影電競 2026-04-03 23:37:34
0 跟貼 0
LCK第二賽段：BRO大勝BFX，魚腩也有春天

囧王者 2026-04-03 21:02:59
0 跟貼 0

2026KPL勝者組決賽：重慶狼隊4-0成都AG超玩會率先晉級決賽

懂球帝 2026-04-03 20:53:08
0 跟貼 0

Google把Gemini塞進車載系統后

摸魚算法 2026-04-01 11:08:12
5 跟貼 5
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
74 跟貼 74

相識二十年，你也許早已忘記了我的名字？

《大話西游2》電腦版 2026-04-03 11:49:40
0 跟貼 0

Gemini 3一句話打造拍立得應用刷屏！全網最火8個玩法都在這，看完秒上手

愛范兒 2025-11-20 18:04:33
0 跟貼 0
萌娃給老師打電話要求退園，語言表達能力強邏輯清晰，萌翻網友

俄羅斯安娜 2026-04-01 01:42:37
33 跟貼 33

熱血傳奇，礦區隱藏構造曝光，偶遇神秘玩家，越想越不對勁

羅密歐游戲解說 2026-03-31 07:00:00
0 跟貼 0
驚險時刻！玩家爆出絕殺牌局！必須學習

歡歡斗地主 2026-04-03 08:54:24
0 跟貼 0
價格斷崖式下跌！商家瘋狂拋售！深圳網友：等等黨贏麻了

南方都市報 2026-04-01 15:16:38
862 跟貼 862
教育部：義務教育學校嚴禁設立重點班、實驗班、快慢班

新華社 2026-04-03 09:25:34
2475 跟貼 2475
俄烏戰場的巨型“投彈無人機”

市井中人 2026-04-03 13:25:19
2 跟貼 2
直接變新游戲？《PUBG》在九周年整了波大的

游民星空 2026-04-03 08:17:15
0 跟貼 0
有線耳機被淘汰快10年突然翻紅，銷量暴漲20%，“有的上架三天被搶空”

環球網資訊 2026-04-02 08:50:30
1742 跟貼 1742
玉面修羅對決中原一劍，兩大頂尖高手的正面較量，結果又會如何

若凡看劇 2026-04-02 13:37:49
4 跟貼 4
俄烏戰場生存技巧，老兵油子必備技能

超話看世界 2026-04-02 17:51:18
1 跟貼 1
深圳市政府領導班子最新工作分工公布

深圳特區報 2026-04-03 18:46:00
29 跟貼 29
最瘋狂的絕殺選擇：不投空位，橫穿全場秀神技

芒果撈星星 2026-03-30 13:09:31
2 跟貼 2
修羅七刀重現江湖，名震武林的神簫萬里，也擋不過他三刀

若凡看劇 2026-03-31 11:39:35
1 跟貼 1
知名連鎖餐飲門口宣傳板寫“3元自助早餐”，兩人買單45元被告知“僅粥飲自助”

新聞晨報隨申Hi 2026-04-02 18:36:05
893 跟貼 893
修羅絕命刀重現江湖，除了無情三絕斬，從未見過如此可怕的武功

若凡看劇 2026-04-01 14:14:26
1 跟貼 1
企業玩不轉龍蝦，是人的思維出錯了

量子位 2026-04-03 16:38:28
1 跟貼 1
修羅七刀對七星奇照，兩大頂尖絕學的正面較量，哪種絕學更勝一籌

若凡看劇 2026-04-03 08:36:59
4 跟貼 4
上線9周年后，《PUBG》新地圖把“大逃殺”老本行扔了？

3DM游戲 2026-04-03 00:11:49
0 跟貼 0
大兇之兆：那些見證歷史進程的血月時刻

冷炮歷史 2026-03-05 09:00:03
278 跟貼 278
早晨的我才該被抓，抓現在的我干啥，這邏輯太迷了

搞笑熱血青年 2026-04-03 10:57:08
3 跟貼 3
什么火抄什么？星穹鐵道上線三年，圈內為何鮮有同行問津

凍梨游研社 2026-04-03 21:53:21
0 跟貼 0
此刻，已經堵成鴛鴦鍋了！

中吳網 2026-04-03 16:09:00
63 跟貼 63
排隊一個半小時仍無法進入景區，游客大喊“退票”！湖州龍之夢景區回應

齊魯壹點 2026-04-02 19:13:29
650 跟貼 650
范瑋琪連線王力宏求助力，徐潔兒打給張韶涵話題滿滿，大型修羅場

覺慧夢吟 2026-04-03 03:36:58
1 跟貼 1
硬核滿級人類大秀操作，各種神技讓人驚掉下巴，實力演繹啥叫牛掰

搞笑設計師 2026-04-02 11:33:58
1 跟貼 1
廣東女車主眼睜睜看著搖中的“3333”號牌逾期作廢原因是買的吉利星愿公告過期無法上牌

信網 2026-04-03 14:01:04
97 跟貼 97
這小丫頭長大不得了，和哥哥吵架不計較，邏輯清晰，表達能力強

小信新鮮事 2026-04-01 01:56:04
0 跟貼 0
孫穎莎神技引暫停，對手無奈，教練笑嘆無解

鎖上的光v 2026-04-01 08:25:18
0 跟貼 0
三十年鐵律崩塌！主機漲價瘋魔 IGN警告行業"將死"

游民星空 2026-04-03 23:53:02
0 跟貼 0
《艾爾登法環》2026年迎來新DLC！付費還是免費？

游民星空 2026-04-03 23:53:02
0 跟貼 0
“紀元日”回顧系列28周年《紀元117：羅馬和平》首個DLC實機亮相

游戲早知道 2026-04-04 00:00:13
0 跟貼 0
僅需400體力讓你副本&神器&看戲再也不翻車

《夢幻西游》電腦版 2025-12-21 17:35:50
0 跟貼 0
6款《刺客信條》免費玩 Xbox免費游戲日現已開啟

游戲早知道 2026-04-04 00:00:25
0 跟貼 0

斯諾克戰報！2場10-8，塞爾比翻車，4虎變2虎，趙心童大捷沖決賽

斯諾克戰報！2場10-8，塞爾比翻車，4虎變2虎，趙心童大捷沖決賽

劉姚堯的文字城堡

2026-04-03 08:53:30

河南女子隱瞞尿毒癥，相親2天就訂婚，逼男方貸600萬治病被拒

河南女子隱瞞尿毒癥，相親2天就訂婚，逼男方貸600萬治病被拒

魔都姐姐雜談

2026-04-03 11:52:51

德轉列缺席世界杯時間最長國家：古巴88年居首，國足上榜

德轉列缺席世界杯時間最長國家：古巴88年居首，國足上榜

懂球帝

2026-04-03 12:15:20

周薪30萬鎊 31歲曼城隊長確定自由身離隊 9年隨隊奪19冠去向曝光

周薪30萬鎊 31歲曼城隊長確定自由身離隊 9年隨隊奪19冠去向曝光

我愛英超

2026-04-03 05:55:59

烏戈用人引質疑！單外援助浙江打出高潮，末節不上攻堅外援引崩盤

烏戈用人引質疑！單外援助浙江打出高潮，末節不上攻堅外援引崩盤

籃球資訊達人

2026-04-03 22:46:44

節后首日，油價將調整！

魯中晨報

2026-04-03 17:45:02

華裔老師爆火全球！預言特朗普回歸、美伊開戰，第三個更嚇人

華裔老師爆火全球！預言特朗普回歸、美伊開戰，第三個更嚇人

阿校談史

2026-04-02 15:28:26

東契奇傷退恐缺陣6周！湖人輪換大變，詹皇里夫斯要掄冒煙？

東契奇傷退恐缺陣6周！湖人輪換大變，詹皇里夫斯要掄冒煙？

仰臥撐FTUer

2026-04-03 20:39:03

剛剛！東莞一鎮宣布免費停車！

東莞好生活

2026-04-03 21:42:57

連燒30小時！百億航母成廢鐵？5700人全被扣押，福建艦成全球唯一

連燒30小時！百億航母成廢鐵？5700人全被扣押，福建艦成全球唯一

林子說事

2026-04-02 12:40:56

這就是回家要脫褲子才能上床的原因！網友：看完天都塌了！

這就是回家要脫褲子才能上床的原因！網友：看完天都塌了！

夜深愛雜談

2026-02-07 19:05:55

不裝了！訪陸行程剛曝光，鄭麗文突遭算計直飛美國？最狠反擊打響

不裝了！訪陸行程剛曝光，鄭麗文突遭算計直飛美國？最狠反擊打響

小嵩

2026-04-03 13:02:12

45犯45罰拼到彈盡糧絕！烏戈末節錯誤換人，成全浙江4連勝殺進前7

45犯45罰拼到彈盡糧絕！烏戈末節錯誤換人，成全浙江4連勝殺進前7

后仰大風車

2026-04-03 21:59:32

騎士鎖定季后賽：后詹姆斯時代連4季晉級哈登欲率四巨頭爭冠

騎士鎖定季后賽：后詹姆斯時代連4季晉級哈登欲率四巨頭爭冠

醉臥浮生

2026-04-03 12:33:15

劉世博災難半場！撲球脫手送“助攻”，媒體人：沒有李昊真不行

劉世博災難半場！撲球脫手送“助攻”，媒體人：沒有李昊真不行

奧拜爾

2026-04-03 20:30:32

清明前夕！卸下偽裝，翁帆坦然發聲，21 年陪伴究竟圖什么？

清明前夕！卸下偽裝，翁帆坦然發聲，21 年陪伴究竟圖什么？

糖逗在娛樂

2026-04-03 20:19:55

一旦西巴布亞成功獨立，印尼面臨的不僅是領土縮水，而是國家解體

一旦西巴布亞成功獨立，印尼面臨的不僅是領土縮水，而是國家解體

鶴羽說個事

2026-04-02 22:12:25

醫生直言：糖尿病補充2種維生素，病情會慢慢好

醫生直言：糖尿病補充2種維生素，病情會慢慢好

岐黃傳人孫大夫

2026-04-03 22:05:03

不顧老婆反對，全屋打滿柜子！過來人才明白：裝修的盡頭全是收納

不顧老婆反對，全屋打滿柜子！過來人才明白：裝修的盡頭全是收納

家居設計師宅哥

2026-04-01 23:45:03

巴薩主帥：拉什福德遇到一些問題，他可以再次證明自己，但我們也有其他選擇

巴薩主帥：拉什福德遇到一些問題，他可以再次證明自己，但我們也有其他選擇

MUREDS

2026-04-03 22:48:55

AI產業主平臺領航智能+時代

14885文章數 66745關注度

往期回顧全部

游戲要聞

Konami新作《達爾文悖論》已推出 Steam特別好評

頭條要聞

伊朗：美飛行員跳傘在伊境內落地美方曾試圖營救未果

頭條要聞

伊朗：美飛行員跳傘在伊境內落地美方曾試圖營救未果

體育要聞

被NBA選中20年后，他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸？否認婚內出軌

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

科技要聞

5萬輛庫存車，給了特斯拉一記重拳

汽車要聞

你介意和遠房親戚長得很像嗎？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

家居

時尚

旅游

房產

別人漲它降價！Xbox掌機逆勢開賣推出超值促銷

家居要聞

溫馨多元愛的具象化

歲月靜好典雅新章
經典配色晝色銀河
新婚愛巢甜蜜情趣拉滿

春天外套完全沒必要買太多，長風衣要準備好，簡單百搭又高級

旅游要聞

百年古樹梨花開，繁花新葉詩情畫意

房產要聞

小陽春全面啟動！現房，才是這波行情里最穩的上車票

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<var id="nxulo"></var>

<kbd id="nxulo"></kbd>

<wbr id="nxulo"><strike id="nxulo"><thead id="nxulo"></thead></strike></wbr>