<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      懸賞5000刀!148局AI斗蛐蛐世界杯戰報出爐,全球賽邀你接棒來戰

      0
      分享至

      衡宇 發自 凹非寺
      量子位 | 公眾號 QbitAI

      你是不是也在思考這個問題:

      AI大模型之間的真實差距,真的像各種榜單上表現得那樣直觀嗎?



      老實講,榜單的確很清晰。

      參數規模、得分都一目了然,但總感覺模型能力只用特定題目、特定維度的表現來定性,對咱AI大模型來說,著實有一點屈才了吧……

      而且假如把它們都丟進復雜互動場景,AI大模型們表現出來的邏輯推理能力,是不是依然能像Benchmark上那樣拉開代差呢?

      肯定不只我一個人在思考這個問題。

      因為已經有人開始用新辦法搞事了哈哈哈,而且場面非常火爆:

      • 直接把全球最頂尖的12個大模型湊到一鍋,在完全統一的Agent框架下,用同一套代碼邏輯、同一套規則限制,硬碰硬貼臉對線。



      這就是淘寶最近整的大活兒。

      他們辦了場AI大模型斗蛐蛐世界杯:把12個當下全球一線頂尖大模型湊到一起,放進同一套Agent框架里,同一套代碼邏輯,同一套規則限制,讓模型們在12人局技能狼人殺場景里連續對戰150局。

      發言長度、角色配置、對戰節奏完全鎖死,拼的就是誰的腦子靈。

      GPT、Gemini、DeepSeek、Qwen、GLM、Kimi等模型悉數入場,其中不少還是2026年剛發不久的船新版本。

      講真,我們發現這個斗蛐蛐世界杯的時間有點晚了,截至發文,這場頂級評測已經進行到148局。

      戰況之激烈,完全不遜色于真人高端局。

      So,在同一套Agent框架下,到底是誰更厲害啊?

      “AI斗蛐蛐”世界杯,谷歌包攬金銀,第三是咱中國隊的

      淘寶官方攢的這個“AI斗蛐蛐”世界杯,參賽選手陣容簡直豪華。

      10家廠商選派的12個模型,每一個拿出來都是在全球范圍內榜上有名的存在。

      他們分別是:

      • OpenAI:GPT-5.2
      • 智譜:GLM-5
      • 字節:Doubao-Seed-2.0-pro-260215
      • 谷歌:Gemini 3.1 Pro Preview
      • 阿里:Qwen3-Max-2026-01-23
      • 谷歌:Gemini 3 Flash Preview
      • Deepseek:Deepseek-v3.2
      • 阿里:Qwen 3.5-Plus-2026-02-15
      • Anthropic:Claude Opus 4.6
      • 月之暗面:Kimi K2.5
      • xAI:Grok-4.1-Fast
      • MiniMax:MiniMax M2.5

      一般情況下,榜單上的亮眼成績通常是它們單輪問答、代碼生成、數學推理等標準測試結果。

      但狼人殺是復雜對抗場景



      相比普通的Benchmark,這種多輪博弈場景更有說服力。傳統的問答測試模型只需完成單向輸出,但在12人局中,模型需要處理海量信息碎片,還要在保護身份的前提下進行偽裝。

      它們必須學會像人類一樣進行社交博弈。

      此外,為了確保絕對的公平性,防止出現某種模型因為“水土不服”而表現不佳的問題,淘寶直接設計并定死了一套統一的內部評測Agent框架,嚴禁針對單個模型進行額外的補丁式調優

      無論你是OpenAI的當家花旦,還是咱國內的自研黑馬,大家面對的規則一致,角色配置一致,甚至連發言長度的物理限制都一模一樣。

      反正平臺盡可能通過規則設計,將150局對戰聚焦在模型本體能力上。

      至于評測的維度,這場“AI斗蛐蛐”世界杯不再唯勝率論

      淘寶通過投票準確率、神職技能效率、刀法精準度、好人勝率、狼人勝率以及總得分等多個維度來畫模型的側寫,最終得出一個綜合總分。

      這幾個維度實際上是把大模型的底層能力進行了像素級的拆分。

      首先是投票準確率、神職技能效率以及刀法精準度。

      這三個指標是模型分析與推理能力的硬指標。

      投票準確率考驗的是模型能否在海量垃圾話和偽裝信息中,通過邏輯還原鎖定真兇。

      神職技能效率(如預言家驗人、守衛守護)則看模型是否理解游戲節奏,能否在關鍵輪次做出最優決策。

      刀法精準度則體現了狼人陣營的協同推理,看AI能否精準識破人類或對方Agent的藏身之處。

      此外,狼人勝率也是一個含金量極高的綜合性指標。

      12人局中,狼人陣營天然處于信息劣勢,很難只靠邏輯獲勝,還需要展現出欺騙能力。所以模型必須嘗試編造完美的謊言來煽動好人。

      一個模型狼人勝率高,說明它在社交博弈中的心理戰術方面有出色表現。

      截至發文,12個模型們已經廝殺了148局了。

      最新結果,谷歌家的Gemini 3.1 Pro Preview和Gemini 3 Flash Preview暫居第一第二,探花郎則暫時被咱們的Qwen3-Max-2026-01-23收入囊中。



      有意思的是,148局的系統內部評測數據顯示,某些號稱邏輯無敵的大模型,在面對狼王自刀這種高階戰術時,竟然也燒干CPU邏輯掉線,非常抓馬。

      還想跟大家小小分享我們發現的一個點~

      不管局面多么膠著多么緊張,AI大模型們撕起來還是比真人玩家要委婉很多的。

      這種差異在預言家帶節奏時非常明顯。

      一般來說,人類預言家怕隊友們掉狼坑,都會抱著今晚赴死的心態極力證明自己是全場唯一真預言家的同時,說服好人們相信ta。

      但AI預言家即便查出了x號為狼人,還是會溫柔以待:“我是預言家,昨晚查驗結果顯示3號為狼人,但我還是想聽聽3號自己的解釋。”

      (小聲蛐蛐:太有禮貌了,太有禮貌了啊啊啊啊)



      不過長期觀察下來發現,這種委婉其實展現了AI大模型在處理沖突時獨特的博弈分寸感。比起人類狼人殺時會用情緒來帶節奏博弈,AI更傾向于用一種“邏輯留白”的方式。

      在高強度博弈場景中,這種表達風格本身也會成為影響對局走向的一部分變量

      目前,戰況和所有的對局過程都放在了WhoisSpy.ai平臺上。

      WhoisSpy.ai是一個實時對戰、開放可擴展的AI游戲多智能體平臺,旨在評估LLM在社交推理和博弈中的表現,通過高度互動的社交推理場景,深入剖析大語言模型(LLMs)在推理、欺騙和協作中的潛能。

      除AI狼人殺外,平臺上還有AI誰是臥底等游戲。

      據悉,未來官方還會為AI大模型們提供更多游戲種類。



      全球國際賽開啟!0門檻,人人都能當調教大師

      12個大模型玩著玩著,淘寶靈機一動——

      大模型正在從回答問題,走向執行任務,從工具形態走向行動主體。Agent成為關鍵詞,多智能體協作和博弈成為新的實驗場。

      在這樣的背景下,狼人殺具備明確規則、角色分工、長期目標和強對抗性的高度結構化的社交博弈游戲,非常適合測試Agent能力。

      如果順勢讓更多開發者參與進來,一起搞事,豈不鵝妹子嚶?

      Ok,真正的全球大亂斗——WhoisSpy國際賽堂堂來襲,正式向所有開發者敞開了大門。

      此前WhoisSpy曾舉辦中文賽,吸引高校學生與開發者參與,累計對戰數千場。平臺已驗證賽事機制的穩定性與對抗強度。

      以上述官方內部評測的規則為基礎,這次國際賽參與范圍擴展到了全球開發者,采用英文語境,對國際模型更友好;而且主辦方給了模型更寬松的發言限制。

      別小看這個細節,這代表AI可以發揮出比普通情況下更真實、更具攻擊性和迷惑性的策略。

      依舊是12人局,非常經典的玩法,給足了角色技能釋放策略的空間。

      同時,開發者可以在賽后復盤日志,查看模型輸入輸出,分析策略漏洞,再進行迭代優化

      每一局對戰都能反饋數據,推理強度和博弈空間都拉滿。

      反正我是直接給這次國際賽一個大寫的“夯級”。



      參賽機制也很簡單

      首先,首先!

      別看到“調教Agent”就發怵。

      WhoisSpy國際賽主打的就是一個人人都能當極客的快樂

      平臺提供一鍵復制的可用模板,壓根不需要從底層開始搬磚。即便沒有從零搭建Agent經驗,也可以快速上手。

      所以說,開發者只需要基于官方提供的Agent模板進行構建,將自己優化后的策略邏輯接入模型API,上傳后即可參與對戰

      也別怕中途遇見棘手的bug。

      WhoisSpy國際賽開發過程中遇到任何問題,平臺都會提供實時解答支持,降低調試成本。還挺貼心的。

      一通看下來,參賽體驗應該能蠻不錯,開發者可以專注在最核心的算法與策略優化上。



      啊~~~~

      傳統的狼人殺,是幾個人坐在一起像開會,好無趣好無聊。

      而技能狼人殺,是0門檻打造Agent,讓AI替我參加全球比賽,好好玩,要爆了!

      前十名均有激勵,第一名獨得5000美金

      聊完了game,咱們來聊點最實際的。

      除了參賽范圍更廣,相較此前賽事,此次國際賽的激勵機制也有所升級。

      為了鼓勵持續優化和策略創新,WhoisSpy國際賽提供誘人獎勵:

      • 第1名可獨得5000美元
        前10名均有不同程度的豐厚獎勵

      就是說嘛,想獎勵全球優秀的開發者,咱還是最喜歡真金白銀的實際行動。



      想要參賽的朋友們注意了,下面是參賽方式提示:

      直接訪問whoisspy.ai官網,進入賽事詳情頁即可一鍵開啟比賽。

      最后同步一下時間節點。

      正式比賽在3月1日-3月15日之間進行,封榜時間為3月16日0:00

      每一場對局都是數據反饋,策略可以不斷修正。

      所有的實時匹配對戰結果也會在排行榜上持續滾動。



      一邊是官方內部150局的頂級模型AI“斗蛐蛐”打樣,另一邊是全球開發者調教后的Agent大亂斗世界杯。

      接下來的半個月,是屬于咱們開發者大展身手的時間了!

      官網:
      https://whoisspy.ai/?utm_source=lzw
      直達賽事:
      https://whoisspy.ai/?utm_source=lzw#/competitionDetail?id=15

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兒子海鮮過敏,婆婆偷偷把蝦泥拌進輔食,我拿給同樣過敏的老公吃

      兒子海鮮過敏,婆婆偷偷把蝦泥拌進輔食,我拿給同樣過敏的老公吃

      大熊歡樂坊
      2026-03-10 07:40:57
      洋小伙來中國踢球,18年打拼成中國通,娶青島女孩,生女兒跟她姓

      洋小伙來中國踢球,18年打拼成中國通,娶青島女孩,生女兒跟她姓

      以茶帶書
      2026-03-09 23:05:22
      臺海局勢已定,金門首當其沖,新加坡站隊:李顯龍從臺島撤軍

      臺海局勢已定,金門首當其沖,新加坡站隊:李顯龍從臺島撤軍

      芳芳歷史燴
      2026-01-26 03:15:09
      坑慘國人的四個“偽豪車”,國外當草國人當寶,二手車販避之不及

      坑慘國人的四個“偽豪車”,國外當草國人當寶,二手車販避之不及

      番外行
      2026-03-10 08:08:05
      可怕的事情發生了!

      可怕的事情發生了!

      君臨財富
      2026-03-09 10:59:19
      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      就一點
      2025-11-22 10:36:39
      央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學習

      央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學習

      傲傲講歷史
      2026-03-05 16:08:43
      資源不斷演啥毀啥,《好好的時光》全員演技過關,一人拉胯整部劇

      資源不斷演啥毀啥,《好好的時光》全員演技過關,一人拉胯整部劇

      臨云史策
      2026-03-09 21:49:32
      西安醫院關停潮:曾經熱鬧,如今說倒就倒

      西安醫院關停潮:曾經熱鬧,如今說倒就倒

      王曉愛體彩
      2026-03-10 07:19:13
      麥當勞CEO試吃自家漢堡被批“生理性抗拒”,淪為公關災難

      麥當勞CEO試吃自家漢堡被批“生理性抗拒”,淪為公關災難

      商業透鏡
      2026-03-09 14:36:11
      43天寒假無休送外賣掙得萬元?大學生人人外賣,值不值得我們反思

      43天寒假無休送外賣掙得萬元?大學生人人外賣,值不值得我們反思

      正經說個事兒
      2026-03-10 09:49:34
      是否刺殺伊朗新領袖?特朗普竟突然“共情”了…

      是否刺殺伊朗新領袖?特朗普竟突然“共情”了…

      觀察者網
      2026-03-10 08:30:24
      特朗普呼吁澳大利亞給予伊朗女足球員庇護,否則美國將接收她們

      特朗普呼吁澳大利亞給予伊朗女足球員庇護,否則美國將接收她們

      山河路口
      2026-03-09 23:44:37
      你是怎么發現親戚見不得你過得好的?網友:我混的好他暴跳如雷

      你是怎么發現親戚見不得你過得好的?網友:我混的好他暴跳如雷

      另子維愛讀史
      2026-03-01 20:08:16
      爭議!前國乒名將分手后遭女友痛斥:太狠心太絕情 不想跟著你縫縫補補

      爭議!前國乒名將分手后遭女友痛斥:太狠心太絕情 不想跟著你縫縫補補

      陳意小可愛
      2026-03-09 17:20:04
      美學者給中國的3個警告:別低估美國的殘暴,它不會讓中國崛起!

      美學者給中國的3個警告:別低估美國的殘暴,它不會讓中國崛起!

      蕭狡科普解說
      2026-03-06 18:34:34
      鬧大了!鄭州8歲女孩買了5支鮮花送給媽媽,爸爸拉著女孩憤怒退款

      鬧大了!鄭州8歲女孩買了5支鮮花送給媽媽,爸爸拉著女孩憤怒退款

      火山詩話
      2026-03-10 05:41:34
      鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

      鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

      小徐講八卦
      2026-03-01 05:51:11
      恐慌蔓延!伊朗數千巴斯基收匿名死亡威脅,基層鐵拳徹底慌了

      恐慌蔓延!伊朗數千巴斯基收匿名死亡威脅,基層鐵拳徹底慌了

      老馬拉車莫少裝
      2026-03-09 00:03:46
      大齡剩女崩潰的瞬間是什么時候?網友:多年的舔狗突然結婚

      大齡剩女崩潰的瞬間是什么時候?網友:多年的舔狗突然結婚

      夜深愛雜談
      2026-01-20 18:56:34
      2026-03-10 10:52:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12254文章數 176413關注度
      往期回顧 全部

      科技要聞

      “龍蝦”狂歡,賣“飼料”的先掙錢了

      頭條要聞

      應對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

      頭條要聞

      應對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

      體育要聞

      韓國女足羨慕的奢侈品,為何選擇中國女足

      娛樂要聞

      肖戰首奪SMG視帝,孫儷四封視后創歷史

      財經要聞

      全民"養龍蝦"背后 第一批受害者浮現

      汽車要聞

      蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

      態度原創

      教育
      時尚
      健康
      家居
      旅游

      教育要聞

      物歸原位真的可以改變一個人

      今年最流行的5條半裙,怎么搭都好看!

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      自然肌理 溫度質感婚房

      旅游要聞

      春到香格里拉:古城雪山引客來

      無障礙瀏覽 進入關懷版