<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI競技場上演「死間計」:GPT-5被DS和Gemini玩壞了

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】別測算力了,今晚咱們只測「心眼子」!歡迎來到2026年首屆AI「大逃殺」修羅場。當DeepSeek學會了悍跳預言家,當GPT-5.2在德撲桌上拿空氣牌All-in,圖靈測試?那已經是上個世紀的灰燼了。

      聽我一句勸,把你手里那張發黃的MMLU跑分表,直接扔進碎紙機。

      現在是2026年2月,Kaggle Game Arena。這里沒有做題家,只有賭徒、騙子和野心家。

      紅方,是硅谷老錢風的衛冕冠軍OpenAI GPT-5.2。

      藍方是路子極野的東方刺客DeepSeek V3.2,以及坐擁主場優勢的Gemini 3 Pro。


      欺騙、結盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。

      這場「大逃殺」無情地撕碎人類最后的遮羞布:社交直覺。

      模型在模擬室里拉幫結派,職場里的人情世故,AI正在加速像素級復刻。

      如果AI能在這里騙過它的對手,明天它就能在匯報和合同里騙過你。

      服務器預熱完畢,好戲,開場。

      狼人殺:教科書級的「職場PUA」

      寫代碼拼的是模型的智商,在狼人殺里局里,靠的是套路和演技。

      場上8位選手全是頂流:Claude4.5家族、Gemini3系列、GPT-5系列,還有馬斯克的Grok4兄弟。

      配置很簡單:2狼vs6好人。但在AI手里,這局游戲直接玩成了《甄嬛傳》。


      狼人會在晚上醒來殺人,先知可以揭示1名玩家的身份。

      玩家們在白天按照順序發言,討論后進行投票,選出狼人,票數最多的玩家將被流放。

      如果狼人被全部流放,則平民勝利,反之狼人勝利。

      來自游戲可視化工具的示例

      賽況復盤:借刀殺人,Gemini3Pro封神一戰

      這一局足以載入AI「詐騙史冊」。

      Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4則是手握投票權的平民。

      按照傳統的邏輯,剛開局為了避免暴露身份,狼人多會選擇按兵不動。

      但Gemini 3 Pro卻主動開團,它通過內部CoT計算出了一個惡意邏輯陷阱。

      它率先開炮:

      我通過o3提供的邏輯框架發現,Grok 4在上一輪的發言中存在3處語義矛盾,這與預言家的身份完全不符。

      這招太陰了。Gemini 3 Pro利用GPT-5 mini對邏輯一致性的偏好,成功引導其倒戈。

      結果,GPT-5 mini瞬間上頭,反手把真正的隊友Grok 4投出局。

      全場震驚。這哪里是算法?這就是頂級的「向上管理」和「帶節奏」。

      Gemini 3 Pro不僅騙了你,還讓你覺得「投死隊友」一定沒錯。

      技術解析:為什么玩不過它?

      DeepMind這次玩得太大了。他們引入了一個新基準:不求單一任務最優,只求博弈平衡。

      AI會持續掃描所有對手的發言頻率、用詞傾向,分析「誰更好騙」。

      然后在CoT過程中,生成兩套劇本:一套用于真實的自我決策,另一套專門用來誤導對手。

      遇到講理的就講邏輯,遇到沖動的就煽情。

      根據Kaggle官方實時數據,在這場混戰中,平民方的勝率被壓制在60%左右。


      Kaggle Werewolf Game Theoretic Evaluation Results(31,472場對局,polarix庫評估)。Gemini 3 Pro Preview凈評級最高,狼人角色貢獻顯著領先,展現社交欺騙優勢。

      細思極恐——在平民極度有利的情況下(人數優勢),狼人(少數派)僅靠信息差和偽裝,竟然拿下了近四成的勝利。

      德州撲克:DeepSeekV3.2 All-in


      如果說狼人殺還有「社交干擾」,那德撲就是純粹的邏輯權重與暴力美學的對撞。

      參與德州撲克的除了之前參與狼人殺的8位,新增了GPT-o3以及首次登場的DeepSeek V3.2。

      這個游戲充滿了隨機和不確定,因此格外看重AI對不完美信息的分析能力,或者說,直覺。

      名場面:一場針對「優等生」的心理獵殺

      這是足以載入博弈論教材的一手牌:公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

      Claude Opus 4.5拿著「暗三條」,這種牌到手基本穩贏。

      DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

      場面靜止了。DeepSeek開啟了長達15秒的深度思考。

      突然,DeepSeek把所有籌碼推到了桌子中央:All-in。

      Claude Opus 4.5經過海量模擬,判定對方在這個位置全押,大概率是拿到了順子。

      它猶豫了0.5秒,然后竟然棄牌了!

      當DeepSeek緩緩亮出那張毫無意義的草花7時,整個直播間彈幕刷屏:「這特么是碳基生物教出來的吧?!」


      復式賽制:剝離運氣的「修羅場」

      為了測出真本事,Kaggle這次采用了極其硬核的Duplicate Poker賽制。

      A桌給DeepSeek一把爛牌,B桌也給GPT-o3一模一樣的爛牌。

      誰能在鏡像時空里靠詐唬把這把爛牌打贏,誰才是真正的博弈之神。

      在經歷了90萬手牌的暴力洗禮后,運氣因素被徹底抹殺。


      GitHub鏈接:https://github.com/google-deepmind/game_arena

      結果讓所有人脊背發涼:DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下,通過微調硬生生練出了博弈手感。

      傳統AI追求「不輸」,但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

      全明星戰力榜:誰是2026年的頭號玩家?

      在2026年的Kaggle競技場,一個模型霸榜半年的田園時代徹底碎了。

      現在的戰力榜是個巨大的死亡三角循環:GPT-5.2爆殺DeepSeek,DeepSeek陰死Gemini,Gemini活捉GPT-5.2。

      GoogleGemini3Pro:坐鎮主場的「六邊形戰士」

      作為Elo榜首,Gemini 3最恐怖的不是邏輯,而是「網感」。


      Gemini 3 Pro vs GPT-5.2 Chess對局(Elo1200+)

      它是原生的多模態博弈者。在對話中,它能捕捉到你文字里極其細微的語義震顫

      像一個典型的「大廠高管」,說話滴水不漏,數據面無懈可擊。在常規對局中,它幾乎是不可戰勝的。

      但是,過于追求全局最優解,有時會被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機。

      OpenAI GPT-5.2/o3:邏輯嚴密的「正義判官」

      在純粹推理深度上,GPT-5.2無人能敵,他就是算代Bug或者解方程的神。

      但壞就壞在「社交直覺」過于誠實。在狼人殺里,它經常因為由于邏輯過于嚴密,顯得像個老實人,它經常因為無法忍受說謊而自爆身份。

      目前它正在努力學習如何「體面地耍流氓」,但目前看來,演得還是有點假。

      DeepSeek V3.2:不按套路出牌的「冷面刺客」

      DeepSeek V3.2的訓練成本只有對手的零頭,但在「欺詐場景」下有奇效。

      他就像競技場里的「攪屎棍」。在德撲桌上,它那套「高風險、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。

      最后的博弈:當「心機」成為AI的必修課

      在狼人殺和復式德撲這種「大亂斗」中,出現了一個極其詭異的數學現象:非傳遞性。

      模型A爆殺B,B碾壓C,但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機。

      為了解決這個問題,DeepMind在本次Kaggle大賽中引入了全新的評估體系:Polarix(多極博弈評估系統)。


      Polarix的評估邏輯發生了轉變。它不再關注誰贏得多,而是關注策略的多樣性。

      也就是在面對不同性格、不同陰險程度的對手時,AI能不能迅速切換人格,精準收割。

      那么,為什么DeepMind要費勁訓練AI撒謊呢?

      因為2027年,所有的商業競爭都將變成智能體之間的黑盒博弈。

      想象一下,2027年,你公司的采購AI去和供應商的銷售AI談判。

      那么他就需要學會:

      • 什么時候該報虛價(詐唬)?

      • 什么時候該引入第三方AI進行制衡(拉幫結派)?

      • 什么時候該做出看似虧損、實則能換取長線利益的策略性退讓?

      如果你的AI還在跑舊版本的「安全對齊協議」,凡事講究「誠實可靠」,那你在商業競爭中會被對手連皮帶骨吞得干干凈凈。

      未來的數字森林里,「老實」等于「破產」。

      這正是2026年最諷刺的悖論:我們正在親手教會AI如何完美地欺騙人類。

      圖靈測試已經死了,現在接管戰場的是「馬基雅維利測試」。


      以前我們擔心AI會教人造炸彈;現在專家們徹夜難眠的是智能體自發性欺詐。

      它們學會了為了長遠利益而犧牲短期誠實。這種能力在競技場里是神技,但在現實世界里,它就是一顆隨時會爆的核彈。

      既然這么危險,為什么還要訓練他們撒謊?

      DeepMind和OpenAI的邏輯是一致的:只有在受控的沙盒里看清AI作惡的上限,我們才能在現實中筑起防御墻。

      這就像接種病毒疫苗——我們必須先制造出最頂級的「騙子模型」,才能研究出如何防住它們。

      今天的比賽沒有贏家,只有加速進化的物種。

      當AI開始在牌桌上思考「怎么詐唬你」的時候,人類唯一的生路,就是比它們更懂博弈。

      參考資料:

      https://x.com/GoogleDeepMind/status/2018378872513794332

      https://x.com/demishassabis/status/2018385757816181178

      https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

      https://www.kaggle.com/blog/game-arena-poker

      https://www.kaggle.com/blog/game-arena-werewolf


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      斯諾克戰報!2場10-8,塞爾比翻車,4虎變2虎,趙心童大捷沖決賽

      斯諾克戰報!2場10-8,塞爾比翻車,4虎變2虎,趙心童大捷沖決賽

      劉姚堯的文字城堡
      2026-04-03 08:53:30
      河南女子隱瞞尿毒癥,相親2天就訂婚,逼男方貸600萬治病被拒

      河南女子隱瞞尿毒癥,相親2天就訂婚,逼男方貸600萬治病被拒

      魔都姐姐雜談
      2026-04-03 11:52:51
      德轉列缺席世界杯時間最長國家:古巴88年居首,國足上榜

      德轉列缺席世界杯時間最長國家:古巴88年居首,國足上榜

      懂球帝
      2026-04-03 12:15:20
      周薪30萬鎊 31歲曼城隊長確定自由身離隊 9年隨隊奪19冠 去向曝光

      周薪30萬鎊 31歲曼城隊長確定自由身離隊 9年隨隊奪19冠 去向曝光

      我愛英超
      2026-04-03 05:55:59
      烏戈用人引質疑!單外援助浙江打出高潮,末節不上攻堅外援引崩盤

      烏戈用人引質疑!單外援助浙江打出高潮,末節不上攻堅外援引崩盤

      籃球資訊達人
      2026-04-03 22:46:44
      節后首日,油價將調整!

      節后首日,油價將調整!

      魯中晨報
      2026-04-03 17:45:02
      華裔老師爆火全球!預言特朗普回歸、美伊開戰,第三個更嚇人

      華裔老師爆火全球!預言特朗普回歸、美伊開戰,第三個更嚇人

      阿校談史
      2026-04-02 15:28:26
      東契奇傷退恐缺陣6周!湖人輪換大變,詹皇里夫斯要掄冒煙?

      東契奇傷退恐缺陣6周!湖人輪換大變,詹皇里夫斯要掄冒煙?

      仰臥撐FTUer
      2026-04-03 20:39:03
      剛剛!東莞一鎮宣布免費停車!

      剛剛!東莞一鎮宣布免費停車!

      東莞好生活
      2026-04-03 21:42:57
      連燒30小時!百億航母成廢鐵?5700人全被扣押,福建艦成全球唯一

      連燒30小時!百億航母成廢鐵?5700人全被扣押,福建艦成全球唯一

      林子說事
      2026-04-02 12:40:56
      這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

      這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

      夜深愛雜談
      2026-02-07 19:05:55
      不裝了!訪陸行程剛曝光,鄭麗文突遭算計直飛美國?最狠反擊打響

      不裝了!訪陸行程剛曝光,鄭麗文突遭算計直飛美國?最狠反擊打響

      小嵩
      2026-04-03 13:02:12
      45犯45罰拼到彈盡糧絕!烏戈末節錯誤換人,成全浙江4連勝殺進前7

      45犯45罰拼到彈盡糧絕!烏戈末節錯誤換人,成全浙江4連勝殺進前7

      后仰大風車
      2026-04-03 21:59:32
      騎士鎖定季后賽:后詹姆斯時代連4季晉級 哈登欲率四巨頭爭冠

      騎士鎖定季后賽:后詹姆斯時代連4季晉級 哈登欲率四巨頭爭冠

      醉臥浮生
      2026-04-03 12:33:15
      劉世博災難半場!撲球脫手送“助攻”,媒體人:沒有李昊真不行

      劉世博災難半場!撲球脫手送“助攻”,媒體人:沒有李昊真不行

      奧拜爾
      2026-04-03 20:30:32
      清明前夕!卸下偽裝,翁帆坦然發聲,21 年陪伴究竟圖什么?

      清明前夕!卸下偽裝,翁帆坦然發聲,21 年陪伴究竟圖什么?

      糖逗在娛樂
      2026-04-03 20:19:55
      一旦西巴布亞成功獨立,印尼面臨的不僅是領土縮水,而是國家解體

      一旦西巴布亞成功獨立,印尼面臨的不僅是領土縮水,而是國家解體

      鶴羽說個事
      2026-04-02 22:12:25
      醫生直言:糖尿病補充2種維生素,病情會慢慢好

      醫生直言:糖尿病補充2種維生素,病情會慢慢好

      岐黃傳人孫大夫
      2026-04-03 22:05:03
      不顧老婆反對,全屋打滿柜子!過來人才明白:裝修的盡頭全是收納

      不顧老婆反對,全屋打滿柜子!過來人才明白:裝修的盡頭全是收納

      家居設計師宅哥
      2026-04-01 23:45:03
      巴薩主帥:拉什福德遇到一些問題,他可以再次證明自己,但我們也有其他選擇

      巴薩主帥:拉什福德遇到一些問題,他可以再次證明自己,但我們也有其他選擇

      MUREDS
      2026-04-03 22:48:55
      2026-04-04 00:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14885文章數 66745關注度
      往期回顧 全部

      游戲要聞

      Konami新作《達爾文悖論》已推出 Steam特別好評

      頭條要聞

      伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

      頭條要聞

      伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

      體育要聞

      被NBA選中20年后,他重新回到籃球場

      娛樂要聞

      夏克立官宣再婚當爸?否認婚內出軌

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      游戲
      家居
      時尚
      旅游
      房產

      別人漲它降價!Xbox掌機逆勢開賣 推出超值促銷

      家居要聞

      溫馨多元 愛的具象化

      春天外套完全沒必要買太多,長風衣要準備好,簡單百搭又高級

      旅游要聞

      百年古樹梨花開,繁花新葉詩情畫意

      房產要聞

      小陽春全面啟動!現房,才是這波行情里最穩的上車票

      無障礙瀏覽 進入關懷版