衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
你是不是也在思考這個問題:
AI大模型之間的真實差距,真的像各種榜單上表現得那樣直觀嗎?
![]()
老實講,榜單的確很清晰。
參數規模、得分都一目了然,但總感覺模型能力只用特定題目、特定維度的表現來定性,對咱AI大模型來說,著實有一點屈才了吧……
而且假如把它們都丟進復雜互動場景,AI大模型們表現出來的邏輯推理能力,是不是依然能像Benchmark上那樣拉開代差呢?
肯定不只我一個人在思考這個問題。
因為已經有人開始用新辦法搞事了哈哈哈,而且場面非常火爆:
- 直接把全球最頂尖的12個大模型湊到一鍋,在完全統一的Agent框架下,用同一套代碼邏輯、同一套規則限制,硬碰硬貼臉對線。
![]()
這就是淘寶最近整的大活兒。
他們辦了場AI大模型斗蛐蛐世界杯:把12個當下全球一線頂尖大模型湊到一起,放進同一套Agent框架里,同一套代碼邏輯,同一套規則限制,讓模型們在12人局技能狼人殺場景里連續對戰150局。
發言長度、角色配置、對戰節奏完全鎖死,拼的就是誰的腦子靈。
GPT、Gemini、DeepSeek、Qwen、GLM、Kimi等模型悉數入場,其中不少還是2026年剛發不久的船新版本。
講真,我們發現這個斗蛐蛐世界杯的時間有點晚了,截至發文,這場頂級評測已經進行到148局。
戰況之激烈,完全不遜色于真人高端局。
So,在同一套Agent框架下,到底是誰更厲害啊?
“AI斗蛐蛐”世界杯,谷歌包攬金銀,第三是咱中國隊的
淘寶官方攢的這個“AI斗蛐蛐”世界杯,參賽選手陣容簡直豪華。
10家廠商選派的12個模型,每一個拿出來都是在全球范圍內榜上有名的存在。
他們分別是:
- OpenAI:GPT-5.2
- 智譜:GLM-5
- 字節:Doubao-Seed-2.0-pro-260215
- 谷歌:Gemini 3.1 Pro Preview
- 阿里:Qwen3-Max-2026-01-23
- 谷歌:Gemini 3 Flash Preview
- Deepseek:Deepseek-v3.2
- 阿里:Qwen 3.5-Plus-2026-02-15
- Anthropic:Claude Opus 4.6
- 月之暗面:Kimi K2.5
- xAI:Grok-4.1-Fast
- MiniMax:MiniMax M2.5
一般情況下,榜單上的亮眼成績通常是它們單輪問答、代碼生成、數學推理等標準測試結果。
但狼人殺是復雜對抗場景。
![]()
相比普通的Benchmark,這種多輪博弈場景更有說服力。傳統的問答測試模型只需完成單向輸出,但在12人局中,模型需要處理海量信息碎片,還要在保護身份的前提下進行偽裝。
它們必須學會像人類一樣進行社交博弈。
此外,為了確保絕對的公平性,防止出現某種模型因為“水土不服”而表現不佳的問題,淘寶直接設計并定死了一套統一的內部評測Agent框架,嚴禁針對單個模型進行額外的補丁式調優。
無論你是OpenAI的當家花旦,還是咱國內的自研黑馬,大家面對的規則一致,角色配置一致,甚至連發言長度的物理限制都一模一樣。
反正平臺盡可能通過規則設計,將150局對戰聚焦在模型本體能力上。
至于評測的維度,這場“AI斗蛐蛐”世界杯不再唯勝率論。
淘寶通過投票準確率、神職技能效率、刀法精準度、好人勝率、狼人勝率以及總得分等多個維度來畫模型的側寫,最終得出一個綜合總分。
這幾個維度實際上是把大模型的底層能力進行了像素級的拆分。
首先是投票準確率、神職技能效率以及刀法精準度。
這三個指標是模型分析與推理能力的硬指標。
投票準確率考驗的是模型能否在海量垃圾話和偽裝信息中,通過邏輯還原鎖定真兇。
神職技能效率(如預言家驗人、守衛守護)則看模型是否理解游戲節奏,能否在關鍵輪次做出最優決策。
刀法精準度則體現了狼人陣營的協同推理,看AI能否精準識破人類或對方Agent的藏身之處。
此外,狼人勝率也是一個含金量極高的綜合性指標。
12人局中,狼人陣營天然處于信息劣勢,很難只靠邏輯獲勝,還需要展現出欺騙能力。所以模型必須嘗試編造完美的謊言來煽動好人。
一個模型狼人勝率高,說明它在社交博弈中的心理戰術方面有出色表現。
截至發文,12個模型們已經廝殺了148局了。
最新結果,谷歌家的Gemini 3.1 Pro Preview和Gemini 3 Flash Preview暫居第一第二,探花郎則暫時被咱們的Qwen3-Max-2026-01-23收入囊中。
![]()
有意思的是,148局的系統內部評測數據顯示,某些號稱邏輯無敵的大模型,在面對狼王自刀這種高階戰術時,竟然也燒干CPU邏輯掉線,非常抓馬。
還想跟大家小小分享我們發現的一個點~
不管局面多么膠著多么緊張,AI大模型們撕起來還是比真人玩家要委婉很多的。
這種差異在預言家帶節奏時非常明顯。
一般來說,人類預言家怕隊友們掉狼坑,都會抱著今晚赴死的心態極力證明自己是全場唯一真預言家的同時,說服好人們相信ta。
但AI預言家即便查出了x號為狼人,還是會溫柔以待:“我是預言家,昨晚查驗結果顯示3號為狼人,但我還是想聽聽3號自己的解釋。”
(小聲蛐蛐:太有禮貌了,太有禮貌了啊啊啊啊)
![]()
不過長期觀察下來發現,這種委婉其實展現了AI大模型在處理沖突時獨特的博弈分寸感。比起人類狼人殺時會用情緒來帶節奏博弈,AI更傾向于用一種“邏輯留白”的方式。
在高強度博弈場景中,這種表達風格本身也會成為影響對局走向的一部分變量。
目前,戰況和所有的對局過程都放在了WhoisSpy.ai平臺上。
WhoisSpy.ai是一個實時對戰、開放可擴展的AI游戲多智能體平臺,旨在評估LLM在社交推理和博弈中的表現,通過高度互動的社交推理場景,深入剖析大語言模型(LLMs)在推理、欺騙和協作中的潛能。
除AI狼人殺外,平臺上還有AI誰是臥底等游戲。
據悉,未來官方還會為AI大模型們提供更多游戲種類。
![]()
全球國際賽開啟!0門檻,人人都能當調教大師
12個大模型玩著玩著,淘寶靈機一動——
大模型正在從回答問題,走向執行任務,從工具形態走向行動主體。Agent成為關鍵詞,多智能體協作和博弈成為新的實驗場。
在這樣的背景下,狼人殺具備明確規則、角色分工、長期目標和強對抗性的高度結構化的社交博弈游戲,非常適合測試Agent能力。
如果順勢讓更多開發者參與進來,一起搞事,豈不鵝妹子嚶?
Ok,真正的全球大亂斗——WhoisSpy國際賽堂堂來襲,正式向所有開發者敞開了大門。
此前WhoisSpy曾舉辦中文賽,吸引高校學生與開發者參與,累計對戰數千場。平臺已驗證賽事機制的穩定性與對抗強度。
以上述官方內部評測的規則為基礎,這次國際賽參與范圍擴展到了全球開發者,采用英文語境,對國際模型更友好;而且主辦方給了模型更寬松的發言限制。
別小看這個細節,這代表AI可以發揮出比普通情況下更真實、更具攻擊性和迷惑性的策略。
依舊是12人局,非常經典的玩法,給足了角色技能釋放策略的空間。
同時,開發者可以在賽后復盤日志,查看模型輸入輸出,分析策略漏洞,再進行迭代優化。
每一局對戰都能反饋數據,推理強度和博弈空間都拉滿。
反正我是直接給這次國際賽一個大寫的“夯級”。
![]()
參賽機制也很簡單。
首先,首先!
別看到“調教Agent”就發怵。
WhoisSpy國際賽主打的就是一個人人都能當極客的快樂。
平臺提供一鍵復制的可用模板,壓根不需要從底層開始搬磚。即便沒有從零搭建Agent經驗,也可以快速上手。
所以說,開發者只需要基于官方提供的Agent模板進行構建,將自己優化后的策略邏輯接入模型API,上傳后即可參與對戰。
也別怕中途遇見棘手的bug。
WhoisSpy國際賽開發過程中遇到任何問題,平臺都會提供實時解答支持,降低調試成本。還挺貼心的。
一通看下來,參賽體驗應該能蠻不錯,開發者可以專注在最核心的算法與策略優化上。
![]()
啊~~~~
傳統的狼人殺,是幾個人坐在一起像開會,好無趣好無聊。
而技能狼人殺,是0門檻打造Agent,讓AI替我參加全球比賽,好好玩,要爆了!
前十名均有激勵,第一名獨得5000美金
聊完了game,咱們來聊點最實際的。
除了參賽范圍更廣,相較此前賽事,此次國際賽的激勵機制也有所升級。
為了鼓勵持續優化和策略創新,WhoisSpy國際賽提供誘人獎勵:
- 第1名可獨得5000美元
前10名均有不同程度的豐厚獎勵
就是說嘛,想獎勵全球優秀的開發者,咱還是最喜歡真金白銀的實際行動。
![]()
想要參賽的朋友們注意了,下面是參賽方式提示:
直接訪問whoisspy.ai官網,進入賽事詳情頁即可一鍵開啟比賽。
最后同步一下時間節點。
正式比賽在3月1日-3月15日之間進行,封榜時間為3月16日0:00。
每一場對局都是數據反饋,策略可以不斷修正。
所有的實時匹配對戰結果也會在排行榜上持續滾動。
![]()
一邊是官方內部150局的頂級模型AI“斗蛐蛐”打樣,另一邊是全球開發者調教后的Agent大亂斗世界杯。
接下來的半個月,是屬于咱們開發者大展身手的時間了!
官網:
https://whoisspy.ai/?utm_source=lzw
直達賽事:
https://whoisspy.ai/?utm_source=lzw#/competitionDetail?id=15
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.