<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<acronym id="cupbq"><cite id="cupbq"></cite></acronym>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

懸賞5000刀！148局AI斗蛐蛐世界杯戰報出爐，全球賽邀你接棒來戰

2026-03-05 14:39:36　來源: 量子位

泰國,普吉府舉報

0

分享至

衡宇發自凹非寺
量子位 | 公眾號 QbitAI

你是不是也在思考這個問題：

AI大模型之間的真實差距，真的像各種榜單上表現得那樣直觀嗎？

老實講，榜單的確很清晰。

參數規模、得分都一目了然，但總感覺模型能力只用特定題目、特定維度的表現來定性，對咱AI大模型來說，著實有一點屈才了吧……

而且假如把它們都丟進復雜互動場景，AI大模型們表現出來的邏輯推理能力，是不是依然能像Benchmark上那樣拉開代差呢？

肯定不只我一個人在思考這個問題。

因為已經有人開始用新辦法搞事了哈哈哈，而且場面非常火爆：

直接把全球最頂尖的12個大模型湊到一鍋，在完全統一的Agent框架下，用同一套代碼邏輯、同一套規則限制，硬碰硬貼臉對線。

這就是淘寶最近整的大活兒。

他們辦了場AI大模型斗蛐蛐世界杯：把12個當下全球一線頂尖大模型湊到一起，放進同一套Agent框架里，同一套代碼邏輯，同一套規則限制，讓模型們在12人局技能狼人殺場景里連續對戰150局。

發言長度、角色配置、對戰節奏完全鎖死，拼的就是誰的腦子靈。

GPT、Gemini、DeepSeek、Qwen、GLM、Kimi等模型悉數入場，其中不少還是2026年剛發不久的船新版本。

講真，我們發現這個斗蛐蛐世界杯的時間有點晚了，截至發文，這場頂級評測已經進行到148局。

戰況之激烈，完全不遜色于真人高端局。

So，在同一套Agent框架下，到底是誰更厲害啊？

“AI斗蛐蛐”世界杯，谷歌包攬金銀，第三是咱中國隊的

淘寶官方攢的這個“AI斗蛐蛐”世界杯，參賽選手陣容簡直豪華。

10家廠商選派的12個模型，每一個拿出來都是在全球范圍內榜上有名的存在。

他們分別是：

OpenAI：GPT-5.2
智譜：GLM-5
字節：Doubao-Seed-2.0-pro-260215
谷歌：Gemini 3.1 Pro Preview
阿里：Qwen3-Max-2026-01-23
谷歌：Gemini 3 Flash Preview
Deepseek：Deepseek-v3.2
阿里：Qwen 3.5-Plus-2026-02-15
Anthropic：Claude Opus 4.6
月之暗面：Kimi K2.5
xAI：Grok-4.1-Fast
MiniMax：MiniMax M2.5

一般情況下，榜單上的亮眼成績通常是它們單輪問答、代碼生成、數學推理等標準測試結果。

但狼人殺是復雜對抗場景。

相比普通的Benchmark，這種多輪博弈場景更有說服力。傳統的問答測試模型只需完成單向輸出，但在12人局中，模型需要處理海量信息碎片，還要在保護身份的前提下進行偽裝。

它們必須學會像人類一樣進行社交博弈。

此外，為了確保絕對的公平性，防止出現某種模型因為“水土不服”而表現不佳的問題，淘寶直接設計并定死了一套統一的內部評測Agent框架，嚴禁針對單個模型進行額外的補丁式調優。

無論你是OpenAI的當家花旦，還是咱國內的自研黑馬，大家面對的規則一致，角色配置一致，甚至連發言長度的物理限制都一模一樣。

反正平臺盡可能通過規則設計，將150局對戰聚焦在模型本體能力上。

至于評測的維度，這場“AI斗蛐蛐”世界杯不再唯勝率論。

淘寶通過投票準確率、神職技能效率、刀法精準度、好人勝率、狼人勝率以及總得分等多個維度來畫模型的側寫，最終得出一個綜合總分。

這幾個維度實際上是把大模型的底層能力進行了像素級的拆分。

首先是投票準確率、神職技能效率以及刀法精準度。

這三個指標是模型分析與推理能力的硬指標。

投票準確率考驗的是模型能否在海量垃圾話和偽裝信息中，通過邏輯還原鎖定真兇。

神職技能效率（如預言家驗人、守衛守護）則看模型是否理解游戲節奏，能否在關鍵輪次做出最優決策。

刀法精準度則體現了狼人陣營的協同推理，看AI能否精準識破人類或對方Agent的藏身之處。

此外，狼人勝率也是一個含金量極高的綜合性指標。

12人局中，狼人陣營天然處于信息劣勢，很難只靠邏輯獲勝，還需要展現出欺騙能力。所以模型必須嘗試編造完美的謊言來煽動好人。

一個模型狼人勝率高，說明它在社交博弈中的心理戰術方面有出色表現。

截至發文，12個模型們已經廝殺了148局了。

最新結果，谷歌家的Gemini 3.1 Pro Preview和Gemini 3 Flash Preview暫居第一第二，探花郎則暫時被咱們的Qwen3-Max-2026-01-23收入囊中。

有意思的是，148局的系統內部評測數據顯示，某些號稱邏輯無敵的大模型，在面對狼王自刀這種高階戰術時，竟然也燒干CPU邏輯掉線，非常抓馬。

還想跟大家小小分享我們發現的一個點～

不管局面多么膠著多么緊張，AI大模型們撕起來還是比真人玩家要委婉很多的。

這種差異在預言家帶節奏時非常明顯。

一般來說，人類預言家怕隊友們掉狼坑，都會抱著今晚赴死的心態極力證明自己是全場唯一真預言家的同時，說服好人們相信ta。

但AI預言家即便查出了x號為狼人，還是會溫柔以待：“我是預言家，昨晚查驗結果顯示3號為狼人，但我還是想聽聽3號自己的解釋。”

（小聲蛐蛐：太有禮貌了，太有禮貌了啊啊啊啊）

不過長期觀察下來發現，這種委婉其實展現了AI大模型在處理沖突時獨特的博弈分寸感。比起人類狼人殺時會用情緒來帶節奏博弈，AI更傾向于用一種“邏輯留白”的方式。

在高強度博弈場景中，這種表達風格本身也會成為影響對局走向的一部分變量。

目前，戰況和所有的對局過程都放在了WhoisSpy.ai平臺上。

WhoisSpy.ai是一個實時對戰、開放可擴展的AI游戲多智能體平臺，旨在評估LLM在社交推理和博弈中的表現，通過高度互動的社交推理場景，深入剖析大語言模型（LLMs）在推理、欺騙和協作中的潛能。

除AI狼人殺外，平臺上還有AI誰是臥底等游戲。

據悉，未來官方還會為AI大模型們提供更多游戲種類。

全球國際賽開啟！0門檻，人人都能當調教大師

12個大模型玩著玩著，淘寶靈機一動——

大模型正在從回答問題，走向執行任務，從工具形態走向行動主體。Agent成為關鍵詞，多智能體協作和博弈成為新的實驗場。

在這樣的背景下，狼人殺具備明確規則、角色分工、長期目標和強對抗性的高度結構化的社交博弈游戲，非常適合測試Agent能力。

如果順勢讓更多開發者參與進來，一起搞事，豈不鵝妹子嚶？

Ok，真正的全球大亂斗——WhoisSpy國際賽堂堂來襲，正式向所有開發者敞開了大門。

此前WhoisSpy曾舉辦中文賽，吸引高校學生與開發者參與，累計對戰數千場。平臺已驗證賽事機制的穩定性與對抗強度。

以上述官方內部評測的規則為基礎，這次國際賽參與范圍擴展到了全球開發者，采用英文語境，對國際模型更友好；而且主辦方給了模型更寬松的發言限制。

別小看這個細節，這代表AI可以發揮出比普通情況下更真實、更具攻擊性和迷惑性的策略。

依舊是12人局，非常經典的玩法，給足了角色技能釋放策略的空間。

同時，開發者可以在賽后復盤日志，查看模型輸入輸出，分析策略漏洞，再進行迭代優化。

每一局對戰都能反饋數據，推理強度和博弈空間都拉滿。

反正我是直接給這次國際賽一個大寫的“夯級”。

參賽機制也很簡單。

首先，首先！

別看到“調教Agent”就發怵。

WhoisSpy國際賽主打的就是一個人人都能當極客的快樂。

平臺提供一鍵復制的可用模板，壓根不需要從底層開始搬磚。即便沒有從零搭建Agent經驗，也可以快速上手。

所以說，開發者只需要基于官方提供的Agent模板進行構建，將自己優化后的策略邏輯接入模型API，上傳后即可參與對戰。

也別怕中途遇見棘手的bug。

WhoisSpy國際賽開發過程中遇到任何問題，平臺都會提供實時解答支持，降低調試成本。還挺貼心的。

一通看下來，參賽體驗應該能蠻不錯，開發者可以專注在最核心的算法與策略優化上。

啊～～～～

傳統的狼人殺，是幾個人坐在一起像開會，好無趣好無聊。

而技能狼人殺，是0門檻打造Agent，讓AI替我參加全球比賽，好好玩，要爆了！

前十名均有激勵，第一名獨得5000美金

聊完了game，咱們來聊點最實際的。

除了參賽范圍更廣，相較此前賽事，此次國際賽的激勵機制也有所升級。

為了鼓勵持續優化和策略創新，WhoisSpy國際賽提供誘人獎勵：

第1名可獨得5000美元
前10名均有不同程度的豐厚獎勵

就是說嘛，想獎勵全球優秀的開發者，咱還是最喜歡真金白銀的實際行動。

想要參賽的朋友們注意了，下面是參賽方式提示：

直接訪問whoisspy.ai官網，進入賽事詳情頁即可一鍵開啟比賽。

最后同步一下時間節點。

正式比賽在3月1日-3月15日之間進行，封榜時間為3月16日0:00。

每一場對局都是數據反饋，策略可以不斷修正。

所有的實時匹配對戰結果也會在排行榜上持續滾動。

一邊是官方內部150局的頂級模型AI“斗蛐蛐”打樣，另一邊是全球開發者調教后的Agent大亂斗世界杯。

接下來的半個月，是屬于咱們開發者大展身手的時間了！

官網：
https://whoisspy.ai/?utm_source=lzw
直達賽事：
https://whoisspy.ai/?utm_source=lzw#/competitionDetail?id=15

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
5747 跟貼 5747
男孩放羊時遇到河流，趴在羊背上讓羊馱著他過河

南陽日報 2026-03-09 15:31:35
272 跟貼 272

43天寒假無休送外賣掙萬元，財務管理專業大三學生收獲人生“第一桶金”

封面新聞 2026-03-09 13:14:08
6484 跟貼 6484

工地智能外衣隔絕99%揚塵，網友建議推廣

新華社 2026-03-10 01:41:50
45 跟貼 45
吉林煙草公司招聘78人

吉刻新聞 2026-03-09 15:12:18
169 跟貼 169

女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1502 跟貼 1502

女孩花50元買5枝玫瑰送媽媽，父親大鬧花店，“不退錢就讓店開不下去！” 網友：可能是孩子一生的陰影

大風新聞 2026-03-09 21:28:05
1167 跟貼 1167
政協委員：建議允許護士給患者開藥

中國新聞周刊 2026-03-09 18:02:02
3112 跟貼 3112

“龍蝦”上桌，上市公司搶著“養”！OpenClaw引爆科技圈

財聯社 2026-03-09 16:43:55
116 跟貼 116
小區地庫半小時內免費，停車14分鐘卻顯示34分鐘被收3元，業主質疑物業在收費系統上做手腳

大風新聞 2026-03-09 15:53:22
51 跟貼 51
成品油價迎4年來最大漲幅南昌加油站昨日排起長龍

環球網資訊 2026-03-10 09:34:47
1 跟貼 1
陜西女子連夜開車14小時來上海：就為吃河南水煎包

看看新聞Knews 2026-03-09 22:06:31
164 跟貼 164
嫦娥七號領取新任務：去月球找水

央視新聞客戶端 2026-03-09 18:47:57
963 跟貼 963
逆轉取勝！中國女足亞洲杯三連勝以小組頭名出線

中國網 2026-03-09 19:59:15
84 跟貼 84
國家體育總局局長高志丹：奮力推進足球、籃球、排球“三大球”振興

北京青年報 2026-03-09 11:48:49
286 跟貼 286
周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
258 跟貼 258
新一輪電網投資路線圖明晰

北青網-北京青年報 2026-03-10 07:31:03
1 跟貼 1
追夢：庫里會在我做錯事時提醒我這讓我想起我的祖父

北青網-北京青年報 2026-03-10 07:43:12
36 跟貼 36
騰訊視頻稱異常僅為頁面展示錯誤

北京日報 2026-03-09 18:23:43
290 跟貼 290
上海二手房周末單日成交超1300套，“看房五年的客戶準備出手了”

澎湃新聞 2026-03-10 09:50:26
0 跟貼 0
常州一老鳳祥專柜疑賣裂紋玉鐲不肯退？媒體介入商家承諾退貨

新浪財經 2026-03-10 10:27:48
0 跟貼 0
美國、德國、英國、法國、意大利、加拿大和日本將召開緊急會議

澎湃新聞 2026-03-09 21:58:04
0 跟貼 0

兒子海鮮過敏，婆婆偷偷把蝦泥拌進輔食，我拿給同樣過敏的老公吃

兒子海鮮過敏，婆婆偷偷把蝦泥拌進輔食，我拿給同樣過敏的老公吃

大熊歡樂坊

2026-03-10 07:40:57

洋小伙來中國踢球，18年打拼成中國通，娶青島女孩，生女兒跟她姓

洋小伙來中國踢球，18年打拼成中國通，娶青島女孩，生女兒跟她姓

以茶帶書

2026-03-09 23:05:22

臺海局勢已定，金門首當其沖，新加坡站隊：李顯龍從臺島撤軍

臺海局勢已定，金門首當其沖，新加坡站隊：李顯龍從臺島撤軍

芳芳歷史燴

2026-01-26 03:15:09

坑慘國人的四個“偽豪車”，國外當草國人當寶，二手車販避之不及

坑慘國人的四個“偽豪車”，國外當草國人當寶，二手車販避之不及

番外行

2026-03-10 08:08:05

可怕的事情發生了！

君臨財富

2026-03-09 10:59:19

回顧“91女神”琪琪：五官出眾，卻因天真讓自己“受傷”

回顧“91女神”琪琪：五官出眾，卻因天真讓自己“受傷”

就一點

2025-11-22 10:36:39

央視怒批，目不識丁、洋相百出，難怪兩會上馮遠征建議演員多學習

央視怒批，目不識丁、洋相百出，難怪兩會上馮遠征建議演員多學習

傲傲講歷史

2026-03-05 16:08:43

資源不斷演啥毀啥，《好好的時光》全員演技過關，一人拉胯整部劇

資源不斷演啥毀啥，《好好的時光》全員演技過關，一人拉胯整部劇

臨云史策

2026-03-09 21:49:32

西安醫院關停潮：曾經熱鬧，如今說倒就倒

西安醫院關停潮：曾經熱鬧，如今說倒就倒

王曉愛體彩

2026-03-10 07:19:13

麥當勞CEO試吃自家漢堡被批“生理性抗拒”，淪為公關災難

麥當勞CEO試吃自家漢堡被批“生理性抗拒”，淪為公關災難

商業透鏡

2026-03-09 14:36:11

43天寒假無休送外賣掙得萬元？大學生人人外賣，值不值得我們反思

43天寒假無休送外賣掙得萬元？大學生人人外賣，值不值得我們反思

正經說個事兒

2026-03-10 09:49:34

是否刺殺伊朗新領袖？特朗普竟突然“共情”了…

是否刺殺伊朗新領袖？特朗普竟突然“共情”了…

觀察者網

2026-03-10 08:30:24

特朗普呼吁澳大利亞給予伊朗女足球員庇護，否則美國將接收她們

特朗普呼吁澳大利亞給予伊朗女足球員庇護，否則美國將接收她們

山河路口

2026-03-09 23:44:37

你是怎么發現親戚見不得你過得好的？網友：我混的好他暴跳如雷

你是怎么發現親戚見不得你過得好的？網友：我混的好他暴跳如雷

另子維愛讀史

2026-03-01 20:08:16

爭議！前國乒名將分手后遭女友痛斥：太狠心太絕情不想跟著你縫縫補補

爭議！前國乒名將分手后遭女友痛斥：太狠心太絕情不想跟著你縫縫補補

陳意小可愛

2026-03-09 17:20:04

美學者給中國的3個警告：別低估美國的殘暴，它不會讓中國崛起！

美學者給中國的3個警告：別低估美國的殘暴，它不會讓中國崛起！

蕭狡科普解說

2026-03-06 18:34:34

鬧大了！鄭州8歲女孩買了5支鮮花送給媽媽，爸爸拉著女孩憤怒退款

鬧大了！鄭州8歲女孩買了5支鮮花送給媽媽，爸爸拉著女孩憤怒退款

火山詩話

2026-03-10 05:41:34

鄒市明一家國外度假！冉瑩穎膘肥體壯不好惹，軒軒一頭白毛好土氣

鄒市明一家國外度假！冉瑩穎膘肥體壯不好惹，軒軒一頭白毛好土氣

小徐講八卦

2026-03-01 05:51:11

恐慌蔓延！伊朗數千巴斯基收匿名死亡威脅，基層鐵拳徹底慌了

恐慌蔓延！伊朗數千巴斯基收匿名死亡威脅，基層鐵拳徹底慌了

老馬拉車莫少裝

2026-03-09 00:03:46

大齡剩女崩潰的瞬間是什么時候？網友：多年的舔狗突然結婚

大齡剩女崩潰的瞬間是什么時候？網友：多年的舔狗突然結婚

夜深愛雜談

2026-01-20 18:56:34

追蹤人工智能動態

12254文章數 176413關注度

往期回顧全部

科技要聞

“龍蝦”狂歡，賣“飼料”的先掙錢了

頭條要聞

應對來自伊朗的無人機澤連斯基稱已有11國向烏方求助

頭條要聞

應對來自伊朗的無人機澤連斯基稱已有11國向烏方求助

體育要聞

韓國女足羨慕的奢侈品，為何選擇中國女足

娛樂要聞

肖戰首奪SMG視帝，孫儷四封視后創歷史

財經要聞

全民"養龍蝦"背后第一批受害者浮現

G7稱暫不釋放油儲但"隨時準備"采取必要措施

汽車要聞

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

健康

家居

旅游

教育要聞

物歸原位真的可以改變一個人

今年最流行的5條半裙，怎么搭都好看！

轉頭就暈的耳石癥，能開車上班嗎？

家居要聞

自然肌理溫度質感婚房

獨棟獨院精致親子墅
暖棕撞色輕法奶油風
奶白柔境閑臥享時光

旅游要聞

春到香格里拉：古城雪山引客來

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<output id="en0cu"></output>

<acronym id="en0cu"><nav id="en0cu"></nav></acronym>