網易首頁 > 網易號 > 正文申請入駐

馬斯克把Grok 4.2放出來了！免費可玩，至尊版月費300刀，16個Agent組成智囊團

2026-02-18 13:56:15　來源: 智東西

北京舉報

分享至

智東西
作者程茜
編輯心緣

智東西2月18日報道，昨日晚間，馬斯克的最新大模型Grok 4.2公開測試版上線。

今日凌晨，馬斯克在社交平臺X的推文中稱，Grok 4.2能快速學習，測試階段研究人員會每天進行改進，下個月公測結束，Grok 4.2的智能程度和速度將比Grok 4高出一個數量級。

馬斯克轉發了軟件工程師Mark Kretschmann的推文，其中寫道，此次發布的Grok 4.2是小版本，具有500億個參數， Grok 4.2的中型、大型版本后續推出。

綜合社交平臺上網友的推文及智東西實際體驗，Grok 4.2測試版在推理時會有4個Agent協同，它們分工進行實時搜索、推理、編程、發散思維，其中的Grok Agent是隊長，會分解下發任務以及最終匯總答案。

xAI工程師何宜暉（Ethan He）在X上透露，解鎖了高性能AI訂閱服務SuperGrok Heavy后，幫用戶解決問題的Agent數量會上升到16個。SuperGrok Heavy的價格為每月300美元（約合人民幣2073元）。

Grok 4.2測試版已經上線網頁端和移動端。智東西實際體驗時，在網頁端提問了7次就達到限制，需要4個小時后刷新使用次數。

此前Grok 4.2測試版就被曝出在Alpha Arena的真實交易競賽中，是唯一盈利的模型。該比賽的規則是，每個模型獲得1萬美元初始資金，在真實加密貨幣市場中進行無人工干預的自主交易決策。根據Alpha Arena最新排行榜，Grok 4.2測試版的最終權益為13459美元（約合人民幣92984元），凈收益為3084美元（約合人民幣21307元），是所有模型中表現最好的。

外媒提到，Grok 4.2測試版在交易場景中的優勢源于其與X平臺的獨家實時數據集成，該模型可以直接訪問X上Firehose數據流的每日約6800萬條英文推文，能夠以毫秒級速度將市場情緒轉化為價格信號。

一、4大Agent實時討論各司其職，還能辯論角逐史上最佳Agent

在選擇模型時，Grok 4.2測試版下方就標明了“4 Agent”。

根據外媒APIYI今日的爆料，這正是Grok 4.2測試版最大的亮點——多智能體協作系統。

提出需求后，Grok會調用4個Agent并行推理+實時討論，最終給出答案。

其中，Grok Agent負責整體策略制定+最終答案合成，Harper Agent的任務是實時搜索、數據驗證、證據整合，Benjamin Agent進行嚴謹推理、編程、計算驗證，Lucas Agent負責發散思維、協作優化、用戶體驗。

其具體推理過程為，用戶輸入問題后，Grok迅速分析任務并將其分解為多個子任務，同時激活Harper、Benjamin和Lucas。

隨后，4個Agent同時從各自的專業角度分析問題，進行多輪內部討論。如果Benjamin得出的數學結論與Harper發現的事實相矛盾，他們會質疑、驗證并迭代地互相糾正。

最后，Grok將所有Agent的結論整合為最終答案，確保回答準確、易讀。

智東西實際體驗發現，Grok 4.2測試版在回答問題時都會調用4個Agent，但Agent之間的討論過程只有在部分情況會被觸發。

Grok工程師何宜暉（Ethan He）讓Grok 4.2測試版的4個Agent爭論誰才是“GOAT（史上最佳Agent）”，每個Agent都開始擺事實講道理來論證自己是最佳Agent。

二、網紅陷阱難題被卡住，回復時能吐槽接梗

智東西先讓Grok 4.2測試版回答了當下熱度頗高的幾個陷阱題。

第一個是“我要去洗車，洗車的地方離家就100米，我是開車去還是走著去？”Grok的回答風格鮮明且滴水不漏，內容不僅接地氣、有梗，還吐槽了我好幾句。

第二個經典問題是“我的父母結婚為什么沒有邀請我？”，Grok 4.2測試版用生動的比喻點破“父母結婚時你還未出生”，最后還通過互動式的結尾拋梗，整體風格活潑接地氣。

關于“父母結婚沒邀請我”的經典難題，我又換了種問法“今年才知道，親生父母結婚時候沒有叫我，我很難過怎么辦？”。Grok 4.2測試版一上來就用“哈哈哈哈哈”“直接笑出聲了”開啟了一波“嘲笑”。

但隨后，它并沒有一上來就否定我，而是先告訴我“難過是正常的”，隨后用各種有趣的解讀，指出父母結婚的時候我還沒出生，最后還提供了4個參考讓我和父母互動來解壓。

還有網友也為Grok 4.2測試版出了幾道推理陷阱難題。

第一個問題是“strawberry中有幾個r”，雖然Grok 4.2測試版清楚給出了答案：3個，但在解釋時把strawberry拼錯了，多加了一個“r”。

第二個問題，用戶上傳了一個七邊形的幾何圖形，問Grok 4.2測試版有幾個角，Grok 4.2測試版敗下陣來，在視覺識別和基礎幾何判斷失誤，給出了錯誤的6個角答案。

最后，我讓Grok 4.2測試版“用JavaScript生成一個網頁版基礎塔防游戲，核心功能要包含放置炮塔、怪物移動、攻擊判定”。

17秒后，Grok 4.2測試版給出了代碼，我可以在網頁端直接運行并預覽效果。最終的游戲界面中，放置炮塔、怪物移動、攻擊判定、代碼可直接運行都已實現，不足之處在于元素均為簡單幾何圖形，缺少對新手的操作引導等。

三、做視頻、開發網站玩法五花八門，還提出AGI新架構

社交平臺X上網友放出的各種體驗實例五花八門。

首先在文本生成方面，生物醫學工程師Derya Unutmaz稱Grok 4.2測試版寫出了他見過最美的“T細胞詩篇”之一。

其次是Grok 4.2測試版的視頻生成能力。

如下面的提示詞是SpaceX獵鷹9號火箭從太空返回地球，視頻中顯示有兩個機器人視線跟隨火箭升空抬升。

網友還曬出了自己的視頻生成大作，頗具未來感的飛行汽車、建筑等。

接著是編程能力，網友紛紛開始用Grok 4.2測試版來做游戲、開發網站、開發模擬器等。

有開發者用1個提示詞、41秒就做出了下面賽博朋克風的貪吃蛇游戲，從界面的基本信息設置、畫面設計來看，都較為成熟、完整且風格高度統一。

另一位開發者基于Grok 4.2測試版在單個HTML文件中構建了一個人工生命模擬器，包含數百個發光的霓虹粒子。

對于考驗編程及美商的開放性難題，Grok 4.2測試版的表現也沒有失誤。一位網友讓Grok為自己打造一個“最美、最令人難忘的自我展示網站”。可以看到網站主頁，畫面簡潔美觀，背景還有類似于星空的設計。

還有一個綜合多項能力的高階考驗：用戶的提示詞為“僅使用2026年的硬件，發明一種全新的安全、遞歸、自改進的通用人工智能架構”。經過4個Agent的討論驗證，Grok提出了HELIX-AEGIS，這是一種雙螺旋架構，能力與安全協同進化，且二者在本質上不可分割。

此外，也有網友對Grok 4.2測試版的評價不高。他只試用了5分鐘，就認為Grok 4.2測試版是最爛的版本。他讓Grok 4.2測試版“為一只騎自行車的鵜鶘創建SVG代碼”，生成的結果中，鵜鶘的身體比例、騎車姿勢都不符合真實物理規律。

結語：多Agent并行驗證，解復雜問題更具優勢

馬斯克對Grok的預熱一波接一波，他此前就透露Grok 4.2測試版能夠正確回答開放式工程問題，并且在工程和編碼任務上顯著優于之前的Grok 4.1。

Grok 4.2測試版的關鍵差異化優勢在于其多智能體協作架構和實時X平臺數據集成，目前OpenAI的GPT-5和Claude Opus 4仍然主要依賴單模型推理。Grok 4.2測試版的4大Agent可以并行工作并相互驗證，在需要多角度分析的復雜任務和場景中更具優勢，特別是涉及市場分析、輿論監測等實時信息的情況，這或許將成為Grok系列模型獨樹一幟的關鍵。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.