鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
不講武德!游戲圈這回真是被AI抄家了。(doge)
這兩天,一個ID名為「快遞員」的神秘游戲賬號引起全網圍觀。
51小時高強度排位,勝率一度逼近93%,直接碾壓式登頂韓服LOL。
![]()
相關詞條更是直沖熱搜第一,網友們紛紛吃瓜:這逆天操作,莫不是老馬的Grok在提前備戰S16?!
(咳咳)玩梗歸玩梗,雖然關于其AI身份尚無定論,但這場全網圍觀足以證明:AI+游戲已經吊足了所有人的胃口。
![]()
事實上,不止馬斯克,全球瞄準這一賽道的游戲廠商還真不少。
在國內就有這樣一支先遣隊,早已將AI Agent大規模商業化部署,落地在多種類型的游戲產品中。
或許你早已在多個爆款游戲中領略過他們的手筆,他們就是超參數科技。
![]()
而最近,超參數科技又剛剛推出了一款全新的游戲智能體——COTA。
據官方描述,這是一款真正具備通用游戲潛力的Agent產品,從名字就能看出,它強調認知(Cognition)、執行(Operation)、策略(Tactics)和輔助(Assistance):
不僅操作堪比職業選手、決策比肩教練級,推理鏈路還全程清晰可見。
并且這一切,完全由大模型原生驅動。
效果be like:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg
(無獎競猜:這是人類還是AI操作的?)
Anyway話不多說,先開一局游戲玩玩。
職業級水準的實機性能表現
目前COTA可以在官方自研的FPS(第一人稱射擊)游戲Demo中進行體驗。
之所以選擇FPS作為Agent落地的第一站,是因為該類型游戲容錯率極低,零點幾秒的延遲或一個錯誤的決策就會導致當前角色“死亡”。
此外,長期處于高頻對抗博弈,要求AI必須在每一幀內不斷識別敵人、判斷地形、規劃路徑并進行射擊反饋。
這里有三種游戲類型選擇:
- 單人模式:和4個AI一起組隊對抗5個AI;
- 觀戰模式:AI 5V5對抗;
- 多人模式:自定義房間,可自由選擇單人/觀戰模式。
游戲分為進攻方和防守方兩隊,每隊5人,一旦進攻方殲滅敵軍或者成功引爆炸彈,則算進攻方勝利,反之若防守方殲滅對方或拆除炸彈,則算守方獲勝。
![]()
都說知己知彼百戰不殆,所以我們先進觀戰模式,看看AI都是怎么玩的~
點擊鼠標左右鍵可進行視角切換,包括雙方所有角色的第一視角和自由視角。
自由視角下,點擊O鍵可同時查看雙方隊伍的簡易思維鏈(Chain of Thought,以下簡稱CoT),再點擊一次即可開啟詳細CoT過程。
![]()
角色視角下,可查看當前角色所在隊伍的Commander下發給該角色的團隊戰略以及個人任務,同樣雙擊O鍵查看詳細CoT內容。
每個詳細CoT推導過程的右下角都設置有暫停和播放按鍵。
![]()
以守方Apple為視角,團隊Commander首先根據A、B兩個據點的不同地勢情況,合理分配人員。
- A點三人控夾角,B點兩人守高臺,保持視野聯動。
比賽正式開始,Apple聽從Commander的單人指令,前往B點架槍防守。
通過查看Apple的CoT可知,該Agent先對指令內容進行拆解,結合當前坐標和目標點坐標,以及附近地圖環境,規劃出合理的轉移路徑。
移動時,輸出的決策也相當全面,始終強調動作的連續性與擬人性,既模擬真實玩家的操作過程,又可以避免暴露自己的位置。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg
移動過程中,Agent也會時感知當前頁面,接收并向隊伍反饋實時信息。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg
除了推理可視化外,在急停拉槍、掩體博弈、投擲物封煙、下包拆包等一系列復雜動作上,Agent也表現得相當流暢自然。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg
在團隊配合時,Agent也會有意識配合完成集火包抄,掩護隊友完成單點突破。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg
而在單人模式中,我們的感受是:AI好強,全程帶我飛。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg
作為攻方,幾乎可以無腦跟AI指令,就算技術很菜,隊友也會在前面開路,直接躺贏。
和AI打一盤下來,感覺自信心突然爆棚,勝率100%不是夢。(doge)
而且完全感覺不到是在和AI匹配組隊,指令清晰易懂,反饋及時,也幾乎不存在打人機局時的機械感。
![]()
總的來說,無論是哪種模式下,Agent的表現都比肩人類頂尖玩家,作為隊員,它能把每一個指令完美消化,配合度滿分;而作為隊長,它又可以實時制定最詳細的戰術策略。
贏下比賽也并非依靠超越人類的反應速度,而是通過策略運營,借助類似人類選手的意識獲勝。
充分向我們展示了一個高智商+高透明度的新一代游戲Agent形象,可以說是一枚非常優秀的游戲搭子~
完全由LLM驅動,模擬人類快慢思考過程
但事實上,要想同時完成實時、對抗、可解釋性三個維度,在過去難度是極高的。
傳統FPS的AI Bot通常只能滿足實時性和操作精度,雖然可以做到快速反應和高命中率,但在戰術博弈和高層決策上對抗能力弱,更依賴預設腳本。
而AlphaGo則受限于強化學習范式,雖然在對抗上表現優異,但卻是一個思維黑盒,玩家與開發者無法知道AI決策背后的原因,因此在交互體驗上往往擺脫不了一種“賽博上帝”的冰冷感。
那么COTA是如何打破這個“不可能三角”的呢?
![]()
首先,在模型架構上,其沒有用業界主流的小模型強化學習,轉而將大模型作為核心引擎。
這顯然是超參數科技一次極具前瞻性且大膽的選擇。
眾所周知,現有大模型普遍依賴自回歸生成機制,推理能力強的同時也不可避免地帶來了實時響應問題,尤其是在要求高頻、低容錯的復雜游戲場景中相當受限。
而COTA在此基礎上,通過精準選型和對模型架構的進一步創新,從而找到了平衡點。
為了避免參數冗余,COTA采用Qwen3-VL-8B-Thinking作為基座模型,這是一個兼顧性能與效率的“甜點級”選擇。
相比更小參數量級的模型,8B仍然可支撐足夠的邏輯鏈推理,以及理解復雜的游戲戰術;體積輕巧也能更好地滿足游戲場景中每秒多次的決策刷新,解決游戲Agent在實時性上的物理瓶頸。
其次,COTA創新性構建了一套“雙系統分層架構”,將原先強耦合的AI決策鏈,拆分為快系統+慢系統兩條協同鏈路。
簡單來說,就是模擬人類大腦,快系統負責低延遲動作執行,慢系統負責深度分析。
![]()
對應過來,就是指揮官(Commander)+行動專員(Operator):
- 上層:指揮官主戰略。
該模型的定位是整個系統的戰術中樞,其核心特質在于保留有完整的邏輯鏈條。
并非隨機指令生成,而是基于當前局勢進行宏觀的因果推演,比如通過已知敵方三人在A點露頭,可得出B點防守薄弱的結論。
它不參與具體操作,相反專注于從感知到決策的高階能力,涵蓋地圖分析、敵方意圖判斷以及戰略方針制定等復雜任務。
對Commander而言,唯一的目標就是贏下全局。
- 下層:行動專員重執行。
和指揮官相比,該模型更偏落地執行,這是一個進行了極致蒸餾、專注指令理解的非思考VLA模型,負責將抽象的戰略轉化為毫秒級的物理操作。
輸入時會同時接收兩種信息流,其一是來自上層指揮官的戰略,其二是模型結合個人視野(當前屏幕看到的敵人)和團隊視野(隊友共享的信息),綜合判斷當前的障礙物、掩體和威脅程度。
然后進行語義拆解,將模糊的指令轉化為精確的物理坐標和按鍵,從而在每個角色上實現具體的移動、瞄準、射擊等微操作。
![]()
在訓練過程中,COTA同時建立起一條從“能用→強化→擬人”的訓練管線:
1、SFT階段:基于CoT的冷啟動。
傳統的模仿學習只會學習基礎動作,而利用包含CoT的高質量數據進行SFT監督微調,可以讓AI初步具備人類思考的邏輯框架。
其中在數據構建上,采用了混合式數據策略:以高質量人工數據作為錨點,再結合模型自動生成數據,來規模化滿足訓練所需的數據量和多樣性。
2、GRPO階段:大規模自我博弈。
群相對策略優化主要解決的是決策魯棒性問題,通過AI自我對抗,探索人類玩家從未發現的戰術死角,可以極大地提高模型在極端壓力環境下的生存勝率。
3、DPO階段:人類偏好對齊。
這一步將會與人類高端玩家數據對齊,以減少AI的機械感,例如不合常理的瞬移視角,同時讓指揮官輸出的戰術意圖更符合人類語言邏輯。
最終體現在COTA上,就是將有限的算力花在刀刃上:高成本、強推理能力集中在不要求即時響應的戰略決策階段,而實時執行交給經過蒸餾與壓縮等技術的輕量模型。
從而在保持智能水平的同時,將系統整體響應時間壓縮到百毫秒級(最快可縮減至100ms),以滿足多類游戲場景需求。
這就意味著COTA已經跨越了算法和應用之間的鴻溝,在實戰環境下依舊能夠保持高水平性能,具備商業可行性。
非一家之言,而是通用游戲智能體的開端
由此可見,COTA并非華而不實的demo,而是能真正落地的大模型游戲AI產品。
它標志著,大模型+游戲終于從實驗室走進了現實。
這也反映一種行業趨勢——當AI Agent的基礎能力與技術趨于成熟,游戲AI從業者們已經邁入到進一步突破Game AI能力邊界的階段。
![]()
而COTA正是游戲AI新范式探索道路上的一份優秀答卷。
它在毫秒必爭的競技環境中,攻克了高強度對抗下的決策精度和響應難題,以實戰成果有力地證明了:以大模型為核心驅動的技術路線在游戲AI領域不僅走得通,而且走得遠。
想象一下,當大模型的深層創作力與實時游戲場景徹底融合,游戲會變成什么樣?
在MMORPG(大型多人在線角色扮演游戲)中,NPC不再是預設文本的復述,而是具備嚴密邏輯的數字生命。
能夠迅速響應玩家需求,輸出高質量互動,后續或許還能夠基于玩家的行為建立長期記憶。
這些充滿溫度的全新交互將全面提升用戶游戲體驗。
而在MOBA(多人在線戰斗競技游戲)中,AI可以進化成真正的戰術大師。
它與玩家的戰斗不依靠0失誤的機械操作取勝,而是與玩家一樣,通過邏輯嚴謹的戰略、戰術完成游戲,讓玩家在與AI的每一局對戰中都能體驗到與真人玩家組隊無異的游戲體驗。
在SLG(策略模擬類游戲)中,解決了響應難題與思維黑盒問題的大模型Game AI可以徹底重構SLG的策略深度與沉浸感。
它讓AI與玩家的博弈徹底擬人化,戰斗精細化,同時開發也可以高效化。
簡而言之可以讓SLG玩家的對手更“聰明”,隊友更“懂行”,戰斗更“真實”。
總之,一切皆有可能。
![]()
其本質在于,游戲AI在游戲世界中對人機關系的重構。
與常見的指令死板、工具屬性明顯的AI Bot不同,COTA更像是具備靈魂的游戲搭子,玩家可以通過思維鏈理解AI的想法,認可ta的行為,最終形成趨近于真實玩家間的協作關系。
這種高擬人化的互動不僅停留在情緒共鳴層面,還可以通過持續、可預期的反饋機制逐步建立起玩家對AI的信任連接。
當玩家開始相信系統真正理解自己的意圖時,人機交互便不再是一次性的功能使用,而是成為貫穿游戲全過程的真實體驗,從而全面革新玩家的游戲參與方式。
從游戲運營這樣的商業角度來講,也可以有效實現游戲長期留存率提升、拉動轉化的商業目標,COTA這類游戲Agent將為游戲產品在存量競爭時代提供難以替代的商業競爭優勢,給予游戲廠商積極正向的數據回饋。
![]()
正是基于上述對玩家價值的深刻理解,超參數科技推出了COTA這個產品,為開發者提供一套面向未來、具備極高通用性潛力的游戲智能體框架。
它打破了技術壁壘,可以讓開發者無需針對每個不同類型的游戲產品打造Game AI,利用這套框架即可將最前沿的大模型Agent技術高效應用到自己的多類產品中,為玩家提供優秀的游戲AI服務。
可以說,超參數科技正在與游戲行業共同完成一場從代碼預設向智慧涌現的范式轉變。
![]()
而在游戲之外,COTA同樣潛力無窮。
一直以來,游戲場景都是通用智能體的練兵場。無論是復雜環境下的決策博弈,還是對物理世界規律的模擬,游戲場景都是最接近現實復雜度的世界模型。
而COTA這類具備通用潛力的游戲Agent,不僅成本低、可復現,而且風險可控,是通往AGI的道路驗證中,最理想的試驗沙盒。
更具體地看,COTA所驗證的“雙系統分層架構”可以為很多現實世界問題,如具身智能等場景提供極具參考價值的解題思路。
在現實世界里,也會經常面臨“高層語義理解”與“底層運動控制”的協同難題。
COTA則展示了如何讓“LLM大腦”(Commander)處理復雜的任務拆解與環境推理,以及同時讓“LLM小腦”(Operator)在毫秒級內完成精準的運動執行。
這種能力可以無縫遷移至大量的現實世界問題上。當AI學會在虛擬世界中通過視聽感知環境、與隊友配合并執行工作時,它距離在物理世界中像人類一樣行走、工作與協同也就不遠了。
這正是“從仿真到現實”技術路線的核心價值所在。
它可以作為虛擬世界與真實物理世界的樞紐,帶動通用人工智能的加速演進,一旦AGI取得突破,它也將反哺游戲行業,重新定義下一代游戲Agent的形態。
所以我們有理由期待,未來的游戲AI領域能夠孕育出更多如COTA般令人驚喜的技術突破,通過持續的范式創新,為全球用戶開啟一個充滿智慧與生命力的新紀元。
試玩鏈接:https://www.chaocanshu.cn/product/cota_apply
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.