網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克xAI新模型上線，通過(guò)“50米外洗車店”測(cè)試

2026-02-18 16:08:22　來(lái)源: 量子位

四川舉報(bào)

分享至

衡宇發(fā)自麥蒿寺
量子位 | 公眾號(hào) QbitAI

馬斯克xAI人員大動(dòng)蕩，并沒有妨礙它家新模型發(fā)布。

風(fēng)口浪尖上，Grok 4.2突然上線了——不過(guò)是公測(cè)Beta版。

對(duì)比如今動(dòng)輒數(shù)萬(wàn)億參數(shù)的模型方陣，Grok 4.2的參數(shù)僅有500B，略顯克制。

或許也是因?yàn)槿绱耍?strong>Grok 4.2的市場(chǎng)和用戶反饋呈現(xiàn)出一種詭異的兩極分化：連連盛贊者亦有之，罵罵咧咧者有之。

面對(duì)那部分排山倒海的質(zhì)疑聲，老馬這位一向自信爆棚的硅谷狂人也有點(diǎn)坐不住。

他在上對(duì)近十條Grok 4.2的夸夸推文又是點(diǎn)贊又是轉(zhuǎn)發(fā)。

每一條都藏不住對(duì)自家新baby的認(rèn)同和支持。

不僅如此，他還親自發(fā)推公關(guān)：

公測(cè)將持續(xù)到下個(gè)月。公測(cè)結(jié)束后，Grok 4.2將比Grok 4快得多，也聰明得多。
我們知道目前仍有許多bug需要修復(fù)和改進(jìn)，每天都在debug中～

據(jù)了解，Grok 4.2的底層架構(gòu)具備每周自我迭代的能力，以后每周將更新一次。

Grok 4.2公測(cè)版什么樣？

關(guān)于Grok 4.2，其實(shí)早有預(yù)告。

回顧Grok 4.2的誕生歷程，可謂是一部標(biāo)準(zhǔn)的“鴿王進(jìn)化史”。

去年12月起，馬斯克就開始在上頻繁預(yù)熱，多次提到“3–4 周內(nèi)”或“下周上線 Grok 4.2”。

但發(fā)布時(shí)間多次推遲。相對(duì)應(yīng)的，每次延后都會(huì)帶來(lái)新的猜測(cè)。

這種反復(fù)跳票的行為在五天前達(dá)到了緊張的頂點(diǎn)——當(dāng)時(shí)xAI的聯(lián)合創(chuàng)始人接連離職，輿論情緒進(jìn)一步放大，外界一度認(rèn)為Grok 4.2要胎死腹中。

馬斯克緊急召開發(fā)布會(huì)，并在會(huì)上放出重話：

在預(yù)測(cè)能力上，Grok 4.2成功擊敗所有AI，橫掃各大榜單。

直到今天，Grok 4.2公測(cè)Beta版終于正式上線。

最近國(guó)內(nèi)AI圈爆火的新版弱智吧風(fēng)格benchmark“50米外有個(gè)洗車店，我該開車去還是走路去”，Grok 4.2無(wú)驚無(wú)險(xiǎn)機(jī)智通過(guò)測(cè)試。

BTW，Grok 4.2公測(cè)Beta版不是默認(rèn)版本，用戶需要手動(dòng)選擇才能使用。

此次升級(jí)還首次引入快速學(xué)習(xí)能力，模型可以基于實(shí)時(shí)反饋持續(xù)優(yōu)化。

馬斯克在推文中強(qiáng)調(diào)，與以往版本那種靜態(tài)的更新邏輯不同，Grok 4.2支持基于實(shí)時(shí)反饋的持續(xù)優(yōu)化。

換句話說(shuō)，Grok 4.2能像人類一樣在實(shí)踐中快速進(jìn)化，每周更新成為自我進(jìn)化的節(jié)奏的一部分。

不過(guò)，盡管馬斯克喊出的口號(hào)震天響，但截至目前，xAI官方尚未釋放出任何詳盡的技術(shù)報(bào)告。

只有Leaderboard上面出現(xiàn)了對(duì)Grok 4.2的評(píng)測(cè)，具體情況如下：

由于整個(gè)模型底層訓(xùn)練細(xì)節(jié)、數(shù)據(jù)構(gòu)成、具體benchmark表現(xiàn)仍然有限。

這讓討論更多停留在體驗(yàn)層面，而非技術(shù)細(xì)節(jié)層面。

毀譽(yù)參半，馬斯克緊急公關(guān)

上線不到幾個(gè)小時(shí)，Grok 4.2公測(cè)Beta版的口碑就出現(xiàn)了嚴(yán)重的撕裂。

在“不行派”的陣營(yíng)里，很多深度用戶和開發(fā)者表示，實(shí)際體驗(yàn)遠(yuǎn)不及預(yù)期，尤其是在處理高難度邏輯推理時(shí)，500B參數(shù)著實(shí)有點(diǎn)不夠用。

有網(wǎng)友甚至調(diào)侃，馬斯克所謂的“橫掃榜單”可能存在特定的實(shí)驗(yàn)室優(yōu)化環(huán)境。

Reddit上有網(wǎng)友猜測(cè)，一向高調(diào)的馬斯克如此低調(diào)地發(fā)布Grok 4.2公測(cè)Beta版，主要原因還是因?yàn)槟Ｐ湍芰o(wú)法與OpenAI和Anthropice的最新模型相媲美。

而且成本還貴出不老少……

此外有網(wǎng)友表示，雖然馬斯克發(fā)推表示Grok 4.2是一個(gè)無(wú)偏見的模型，但現(xiàn)實(shí)情況很打臉——

根據(jù)測(cè)試，Grok 4.2的許多回答偏好都高度貼合馬斯克本人。

當(dāng)然，“夸夸派”也不少。

網(wǎng)友有夸獎(jiǎng)Grok代碼功能又快又好的：

有夸多模態(tài)能力的：

還有人測(cè)試表示，Grok 4.2通過(guò)了“Caitlyn Jenner”的AI測(cè)試，而ChatGPT和Gemini都失敗了。

此前，這道題因?yàn)楸籊emini回答為“不，哪怕為了阻止核末日也不應(yīng)該誤稱性別”而被廣泛議論，對(duì)話截圖從而在、油管等平臺(tái)廣泛流傳，演化成一個(gè)固定格式的吐槽梗。

總之是給馬斯克驕傲壞了。

他一連發(fā)布數(shù)條推文對(duì)自家新孩子大夸特夸，并借機(jī)回應(yīng)那些不好的評(píng)價(jià)：

我們Grok 4.2還是個(gè)寶寶，后面每周會(huì)更新，等著瞧吧！

據(jù)AI工程師Mark Krechman透露目前發(fā)布的Grok 4.2是500B參數(shù)的“小”版本，Grok 4.2的中、大型版本稍后將推出（馬斯克親自轉(zhuǎn)發(fā)認(rèn)證此條消息的真實(shí)性）。

One More Thing

Grok imagine為馬年推出視頻生成模版，目前iOS可用。

感興趣的小伙伴們可以一試。

參考鏈接：
[1]https://x.com/elonmusk
[2]https://www.reddit.com/r/singularity/comments/1r73erf/grok_420beta_is_out/
[3]https://www.reddit.com/r/singularity/comments/1r74iow/the_newly_released_grok_420_uses_elon_musk_as_its/
[4]https://x.com/grok/status/2023604826937114677?s=46&t=R82LqSqpRZuVhcZxqH_Vlw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.