網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克：Grok今日歸來！

2026-02-26 14:31:43　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜Panda、楊文

馬斯克又一次跳過了所有正式流程。沒有官方博客，沒有技術(shù)文檔，甚至連宣傳推文都把自家產(chǎn)品的名字給拼錯(cuò)了。但就在這種極其「馬斯克」的氛圍中，Grok 4.20 Beta 版悄無聲息地正式上線并進(jìn)行了更新。

正如馬斯克之前說的那樣，Grok 4.20 采用了某種快速學(xué)習(xí)機(jī)制，能夠持續(xù)進(jìn)化。18 號(hào)開始公測(cè)后能每周通過用戶真實(shí)交互持續(xù)迭代，不再等下一次大版本更新。

對(duì)于當(dāng)前版本的 Grok 4.20，xAI 給出的官方介紹是「4 Agents」，也就是說，與以往單一的 Grok 模型不同，4.20 版本內(nèi)置了一個(gè)由 4 個(gè)智能體組成的團(tuán)隊(duì)，其會(huì)在應(yīng)對(duì)復(fù)雜查詢時(shí)自動(dòng)選擇啟用。

根據(jù)之前內(nèi)測(cè)用戶放出的截圖，這 4 個(gè)智能體有著各自專屬的名稱、設(shè)定和技能：

Grok：協(xié)調(diào)者，具有標(biāo)志性的機(jī)智、誠實(shí)的個(gè)性；負(fù)責(zé)綜合最終輸出。
Harper：研究專家，實(shí)時(shí)進(jìn)行事實(shí)核查、收集來源、驗(yàn)證信息。
Benjamin：邏輯 / 編程 / 數(shù)學(xué)專家，負(fù)責(zé)處理嚴(yán)謹(jǐn)?shù)耐评怼Ⅱ?yàn)證和技術(shù)深度。
Lucas：創(chuàng)意達(dá)人，挑戰(zhàn)假設(shè)，探索替代方案，減少群體思維。

這 4 個(gè)智能體會(huì)在內(nèi)部進(jìn)行討論（用戶通常可以看到實(shí)時(shí)的思考過程），達(dá)成共識(shí)，并提供統(tǒng)一、更高質(zhì)量的響應(yīng)。

這種方法可以大幅降低幻覺（X 用戶 @NoahKingJr 稱測(cè)試報(bào)告表明幻覺降低了約 65%），并能提高在工程、預(yù)測(cè)、戰(zhàn)略和多步推理等難題上的可靠性。

不過需要說明的是，在機(jī)器之心最新的測(cè)試中，Grok 4.20 卻沒有使用 Lucas、Harper、Benjamin 這三個(gè)名字，而是使用了 Agent 1、Agent 2、Agent 3 等代號(hào)。

正如前文所言，目前 xAI 尚未發(fā)布相關(guān)博客和技術(shù)報(bào)告，也幾乎沒有官方評(píng)測(cè)數(shù)據(jù)流出。盡管如此，也已經(jīng)有一些第三方評(píng)測(cè)機(jī)構(gòu)放出了一些評(píng)測(cè)結(jié)果。

比如 Arena AI 發(fā)布了一份數(shù)據(jù)，經(jīng)過 3992 位用戶的評(píng)測(cè)，Grok 4.20 在評(píng)估搜索實(shí)時(shí)信息、外部知識(shí)和可靠引用的能力的 Search Arena 中目前排名第一，超過了 GPT-5.2、Gemini 3.0 Pro 等模型。

而在評(píng)估 LLM 在文本的通用性、語言精確性和文化背景方面的能力的 Text Arena 上，Grok 4.20 排名第 4。

下表展示了更多評(píng)測(cè)數(shù)據(jù)：

另外，Grok 4.2 在真實(shí)股票交易基準(zhǔn) Alpha Arena 中表現(xiàn)也非常亮眼，其中采用 Situational Awareness 策略的 Grok 4.20 更是以顯著的勝率登頂排行榜。

下面展示了更具體的數(shù)據(jù)：

幾個(gè)實(shí)測(cè)

看看 Grok 4.20 的表現(xiàn)如何

我們也對(duì)這個(gè)新版 Grok 4.20 進(jìn)行了一番實(shí)測(cè)，首先來看看其搜索能力。正好目前關(guān)于 Grok 4.20 的消息不多，我們就提出了一個(gè)關(guān)于其自身的問題：

搜索網(wǎng)絡(luò)上關(guān)于 Grok 4.20 的一切，將信息匯總成一份報(bào)告，涵蓋其技術(shù)細(xì)節(jié)、基準(zhǔn)指標(biāo)等。

可以看到，因?yàn)檫@個(gè)任務(wù)比較簡單，Grok 4.20 僅啟用了默認(rèn)的 Grok 智能體，不到一分鐘就完成了任務(wù)，給出的報(bào)告中也納入了一些前文沒有提到的信息。整體而言，這是一份相當(dāng)有用的報(bào)告，尤其是其得天獨(dú)厚的 X 推文檢索能力，更是可以成為輔助我們報(bào)道寫作的利器。

再上一個(gè)難度更大的任務(wù)：編寫一個(gè)演示日晷工作原理的動(dòng)態(tài) SVG。

這一次，Grok 4.20 的多智能體模式被成功喚起，也成功創(chuàng)建了一個(gè)效果還算不錯(cuò)的嵌入了 SVG 的網(wǎng)頁：

還有網(wǎng)友直接讓它用 three.js 制作一個(gè) FPS 游戲，這個(gè)原型充分發(fā)揮了 Grok 4.2 高速精準(zhǔn)的代碼生成、實(shí)時(shí)工具集成、清晰的邏輯結(jié)構(gòu)的優(yōu)勢(shì)。

它在一口氣給出完整、可直接運(yùn)行的文件這點(diǎn)上，比 Claude Code 和 Codex 明顯更有優(yōu)勢(shì) 。

「確實(shí)又準(zhǔn)又快，幾乎不出錯(cuò)，所以能把腦子里剛冒出來的想法，迅速做成備忘錄級(jí)別的原型，真的太爽了！」

接下來我們?cè)嚵嗽?Grok 4.20 引以為傲的創(chuàng)作能力，讓其為當(dāng)前這篇文章建議標(biāo)題并將其改成適合發(fā)小紅書的風(fēng)格。結(jié)果如下，大家可以看看它的小紅書味道正嗎？

最后，按照 Grok 系列一貫的傳統(tǒng)，Grok 4.20 在毒舌懟人方面依然頗具天賦。正如馬斯克分享的這條推文一樣，當(dāng)用戶問 AI「你為何如此弱智」時(shí)，Claude 的回答一板一眼，而 Grok 4.20 直接來了一句「因?yàn)槲以诶椭巧膛浜夏恪埂?/p>

文中視頻鏈接：https://mp.weixin.qq.com/s/VFYbX07o6TNp5c3f9T3JDg

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.