![]()
編輯|Panda、楊文
馬斯克又一次跳過了所有正式流程。沒有官方博客,沒有技術(shù)文檔,甚至連宣傳推文都把自家產(chǎn)品的名字給拼錯(cuò)了。但就在這種極其「馬斯克」的氛圍中,Grok 4.20 Beta 版悄無聲息地正式上線并進(jìn)行了更新。
![]()
正如馬斯克之前說的那樣,Grok 4.20 采用了某種快速學(xué)習(xí)機(jī)制,能夠持續(xù)進(jìn)化。18 號(hào)開始公測(cè)后能每周通過用戶真實(shí)交互持續(xù)迭代,不再等下一次大版本更新。
![]()
對(duì)于當(dāng)前版本的 Grok 4.20,xAI 給出的官方介紹是「4 Agents」,也就是說,與以往單一的 Grok 模型不同,4.20 版本內(nèi)置了一個(gè)由 4 個(gè)智能體組成的團(tuán)隊(duì),其會(huì)在應(yīng)對(duì)復(fù)雜查詢時(shí)自動(dòng)選擇啟用。
![]()
根據(jù)之前內(nèi)測(cè)用戶放出的截圖,這 4 個(gè)智能體有著各自專屬的名稱、設(shè)定和技能:
- Grok:協(xié)調(diào)者,具有標(biāo)志性的機(jī)智、誠實(shí)的個(gè)性;負(fù)責(zé)綜合最終輸出。
- Harper:研究專家,實(shí)時(shí)進(jìn)行事實(shí)核查、收集來源、驗(yàn)證信息。
- Benjamin:邏輯 / 編程 / 數(shù)學(xué)專家,負(fù)責(zé)處理嚴(yán)謹(jǐn)?shù)耐评怼Ⅱ?yàn)證和技術(shù)深度。
- Lucas:創(chuàng)意達(dá)人,挑戰(zhàn)假設(shè),探索替代方案,減少群體思維。
這 4 個(gè)智能體會(huì)在內(nèi)部進(jìn)行討論(用戶通常可以看到實(shí)時(shí)的思考過程),達(dá)成共識(shí),并提供統(tǒng)一、更高質(zhì)量的響應(yīng)。
![]()
這種方法可以大幅降低幻覺(X 用戶 @NoahKingJr 稱測(cè)試報(bào)告表明幻覺降低了約 65%),并能提高在工程、預(yù)測(cè)、戰(zhàn)略和多步推理等難題上的可靠性。
不過需要說明的是,在機(jī)器之心最新的測(cè)試中,Grok 4.20 卻沒有使用 Lucas、Harper、Benjamin 這三個(gè)名字,而是使用了 Agent 1、Agent 2、Agent 3 等代號(hào)。
![]()
正如前文所言,目前 xAI 尚未發(fā)布相關(guān)博客和技術(shù)報(bào)告,也幾乎沒有官方評(píng)測(cè)數(shù)據(jù)流出。盡管如此,也已經(jīng)有一些第三方評(píng)測(cè)機(jī)構(gòu)放出了一些評(píng)測(cè)結(jié)果。
比如 Arena AI 發(fā)布了一份數(shù)據(jù),經(jīng)過 3992 位用戶的評(píng)測(cè),Grok 4.20 在評(píng)估搜索實(shí)時(shí)信息、外部知識(shí)和可靠引用的能力的 Search Arena 中目前排名第一,超過了 GPT-5.2、Gemini 3.0 Pro 等模型。
![]()
而在評(píng)估 LLM 在文本的通用性、語言精確性和文化背景方面的能力的 Text Arena 上,Grok 4.20 排名第 4。
![]()
下表展示了更多評(píng)測(cè)數(shù)據(jù):
![]()
另外,Grok 4.2 在真實(shí)股票交易基準(zhǔn) Alpha Arena 中表現(xiàn)也非常亮眼,其中采用 Situational Awareness 策略的 Grok 4.20 更是以顯著的勝率登頂排行榜。
![]()
下面展示了更具體的數(shù)據(jù):
![]()
幾個(gè)實(shí)測(cè)
看看 Grok 4.20 的表現(xiàn)如何
我們也對(duì)這個(gè)新版 Grok 4.20 進(jìn)行了一番實(shí)測(cè),首先來看看其搜索能力。正好目前關(guān)于 Grok 4.20 的消息不多,我們就提出了一個(gè)關(guān)于其自身的問題:
搜索網(wǎng)絡(luò)上關(guān)于 Grok 4.20 的一切,將信息匯總成一份報(bào)告,涵蓋其技術(shù)細(xì)節(jié)、基準(zhǔn)指標(biāo)等。
![]()
可以看到,因?yàn)檫@個(gè)任務(wù)比較簡單,Grok 4.20 僅啟用了默認(rèn)的 Grok 智能體,不到一分鐘就完成了任務(wù),給出的報(bào)告中也納入了一些前文沒有提到的信息。整體而言,這是一份相當(dāng)有用的報(bào)告,尤其是其得天獨(dú)厚的 X 推文檢索能力,更是可以成為輔助我們報(bào)道寫作的利器。
再上一個(gè)難度更大的任務(wù):編寫一個(gè)演示日晷工作原理的動(dòng)態(tài) SVG。
![]()
這一次,Grok 4.20 的多智能體模式被成功喚起,也成功創(chuàng)建了一個(gè)效果還算不錯(cuò)的嵌入了 SVG 的網(wǎng)頁:

還有網(wǎng)友直接讓它用 three.js 制作一個(gè) FPS 游戲,這個(gè)原型充分發(fā)揮了 Grok 4.2 高速精準(zhǔn)的代碼生成、實(shí)時(shí)工具集成、清晰的邏輯結(jié)構(gòu)的優(yōu)勢(shì)。
![]()
它在一口氣給出完整、可直接運(yùn)行的文件這點(diǎn)上,比 Claude Code 和 Codex 明顯更有優(yōu)勢(shì) 。
「確實(shí)又準(zhǔn)又快,幾乎不出錯(cuò),所以能把腦子里剛冒出來的想法,迅速做成備忘錄級(jí)別的原型,真的太爽了!」
![]()
接下來我們?cè)嚵嗽?Grok 4.20 引以為傲的創(chuàng)作能力,讓其為當(dāng)前這篇文章建議標(biāo)題并將其改成適合發(fā)小紅書的風(fēng)格。結(jié)果如下,大家可以看看它的小紅書味道正嗎?
![]()
最后,按照 Grok 系列一貫的傳統(tǒng),Grok 4.20 在毒舌懟人方面依然頗具天賦。正如馬斯克分享的這條推文一樣,當(dāng)用戶問 AI「你為何如此弱智」時(shí),Claude 的回答一板一眼,而 Grok 4.20 直接來了一句「因?yàn)槲以诶椭巧膛浜夏恪埂?/p>
![]()
文中視頻鏈接:https://mp.weixin.qq.com/s/VFYbX07o6TNp5c3f9T3JDg
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.