衡宇 發(fā)自 麥蒿寺
量子位 | 公眾號(hào) QbitAI
馬斯克xAI人員大動(dòng)蕩,并沒有妨礙它家新模型發(fā)布。
風(fēng)口浪尖上,Grok 4.2突然上線了——不過(guò)是公測(cè)Beta版。
對(duì)比如今動(dòng)輒數(shù)萬(wàn)億參數(shù)的模型方陣,Grok 4.2的參數(shù)僅有500B,略顯克制。
或許也是因?yàn)槿绱耍?strong>Grok 4.2的市場(chǎng)和用戶反饋呈現(xiàn)出一種詭異的兩極分化:連連盛贊者亦有之,罵罵咧咧者有之。
面對(duì)那部分排山倒海的質(zhì)疑聲,老馬這位一向自信爆棚的硅谷狂人也有點(diǎn)坐不住。
他在上對(duì)近十條Grok 4.2的夸夸推文又是點(diǎn)贊又是轉(zhuǎn)發(fā)。
![]()
每一條都藏不住對(duì)自家新baby的認(rèn)同和支持。
![]()
不僅如此,他還親自發(fā)推公關(guān):
- 公測(cè)將持續(xù)到下個(gè)月。公測(cè)結(jié)束后,Grok 4.2將比Grok 4快得多,也聰明得多。
我們知道目前仍有許多bug需要修復(fù)和改進(jìn),每天都在debug中~
據(jù)了解,Grok 4.2的底層架構(gòu)具備每周自我迭代的能力,以后每周將更新一次。
![]()
Grok 4.2公測(cè)版什么樣?
關(guān)于Grok 4.2,其實(shí)早有預(yù)告。
回顧Grok 4.2的誕生歷程,可謂是一部標(biāo)準(zhǔn)的“鴿王進(jìn)化史”。
去年12月起,馬斯克就開始在上頻繁預(yù)熱,多次提到“3–4 周內(nèi)”或“下周上線 Grok 4.2”。
但發(fā)布時(shí)間多次推遲。相對(duì)應(yīng)的,每次延后都會(huì)帶來(lái)新的猜測(cè)。
這種反復(fù)跳票的行為在五天前達(dá)到了緊張的頂點(diǎn)——當(dāng)時(shí)xAI的聯(lián)合創(chuàng)始人接連離職,輿論情緒進(jìn)一步放大,外界一度認(rèn)為Grok 4.2要胎死腹中。
馬斯克緊急召開發(fā)布會(huì),并在會(huì)上放出重話:
- 在預(yù)測(cè)能力上,Grok 4.2成功擊敗所有AI,橫掃各大榜單。
![]()
直到今天,Grok 4.2公測(cè)Beta版終于正式上線。
最近國(guó)內(nèi)AI圈爆火的新版弱智吧風(fēng)格benchmark“50米外有個(gè)洗車店,我該開車去還是走路去”,Grok 4.2無(wú)驚無(wú)險(xiǎn)機(jī)智通過(guò)測(cè)試。
![]()
BTW,Grok 4.2公測(cè)Beta版不是默認(rèn)版本,用戶需要手動(dòng)選擇才能使用。
![]()
此次升級(jí)還首次引入快速學(xué)習(xí)能力,模型可以基于實(shí)時(shí)反饋持續(xù)優(yōu)化。
馬斯克在推文中強(qiáng)調(diào),與以往版本那種靜態(tài)的更新邏輯不同,Grok 4.2支持基于實(shí)時(shí)反饋的持續(xù)優(yōu)化。
換句話說(shuō),Grok 4.2能像人類一樣在實(shí)踐中快速進(jìn)化,每周更新成為自我進(jìn)化的節(jié)奏的一部分。
不過(guò),盡管馬斯克喊出的口號(hào)震天響,但截至目前,xAI官方尚未釋放出任何詳盡的技術(shù)報(bào)告。
只有Leaderboard上面出現(xiàn)了對(duì)Grok 4.2的評(píng)測(cè),具體情況如下:
![]()
由于整個(gè)模型底層訓(xùn)練細(xì)節(jié)、數(shù)據(jù)構(gòu)成、具體benchmark表現(xiàn)仍然有限。
這讓討論更多停留在體驗(yàn)層面,而非技術(shù)細(xì)節(jié)層面。
![]()
毀譽(yù)參半,馬斯克緊急公關(guān)
上線不到幾個(gè)小時(shí),Grok 4.2公測(cè)Beta版的口碑就出現(xiàn)了嚴(yán)重的撕裂。
在“不行派”的陣營(yíng)里,很多深度用戶和開發(fā)者表示,實(shí)際體驗(yàn)遠(yuǎn)不及預(yù)期,尤其是在處理高難度邏輯推理時(shí),500B參數(shù)著實(shí)有點(diǎn)不夠用。
有網(wǎng)友甚至調(diào)侃,馬斯克所謂的“橫掃榜單”可能存在特定的實(shí)驗(yàn)室優(yōu)化環(huán)境。
Reddit上有網(wǎng)友猜測(cè),一向高調(diào)的馬斯克如此低調(diào)地發(fā)布Grok 4.2公測(cè)Beta版,主要原因還是因?yàn)槟P湍芰o(wú)法與OpenAI和Anthropice的最新模型相媲美。
而且成本還貴出不老少……
![]()
此外有網(wǎng)友表示,雖然馬斯克發(fā)推表示Grok 4.2是一個(gè)無(wú)偏見的模型,但現(xiàn)實(shí)情況很打臉——
根據(jù)測(cè)試,Grok 4.2的許多回答偏好都高度貼合馬斯克本人。
![]()
當(dāng)然,“夸夸派”也不少。
網(wǎng)友有夸獎(jiǎng)Grok代碼功能又快又好的:
![]()
有夸多模態(tài)能力的:
![]()
還有人測(cè)試表示,Grok 4.2通過(guò)了“Caitlyn Jenner”的AI測(cè)試,而ChatGPT和Gemini都失敗了。
此前,這道題因?yàn)楸籊emini回答為“不,哪怕為了阻止核末日也不應(yīng)該誤稱性別”而被廣泛議論,對(duì)話截圖從而在 、油管等平臺(tái)廣泛流傳,演化成一個(gè)固定格式的吐槽梗。
![]()
總之是給馬斯克驕傲壞了。
他一連發(fā)布數(shù)條推文對(duì)自家新孩子大夸特夸,并借機(jī)回應(yīng)那些不好的評(píng)價(jià):
- 我們Grok 4.2還是個(gè)寶寶,后面每周會(huì)更新,等著瞧吧!
據(jù)AI工程師Mark Krechman透露目前發(fā)布的Grok 4.2是500B參數(shù)的“小”版本,Grok 4.2的中、大型版本稍后將推出(馬斯克親自轉(zhuǎn)發(fā)認(rèn)證此條消息的真實(shí)性)。
One More Thing
Grok imagine為馬年推出視頻生成模版,目前iOS可用。
感興趣的小伙伴們可以一試。

參考鏈接:
[1]https://x.com/elonmusk
[2]https://www.reddit.com/r/singularity/comments/1r73erf/grok_420beta_is_out/
[3]https://www.reddit.com/r/singularity/comments/1r74iow/the_newly_released_grok_420_uses_elon_musk_as_its/
[4]https://x.com/grok/status/2023604826937114677?s=46&t=R82LqSqpRZuVhcZxqH_Vlw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.