3月18日,馬斯克兌現(xiàn)了其開源承諾,xAI悄無聲息地開源了其Grok大模型——一個(gè)314B的大模型。
![]()
在此次開源之前,馬斯克已經(jīng)對(duì)這次開源動(dòng)作進(jìn)行了預(yù)告。尤其是馬斯克在3月初狀告OpenAI,并指責(zé)Open AI不"open",將從業(yè)者對(duì)Grok的好奇拉到了頂點(diǎn)。
英偉達(dá)網(wǎng)紅科學(xué)家Jim Fan還感慨道,很好奇"被 Grok 超越是什么感覺"。
但是,或許Jim Fan的期待要暫時(shí)落空了。畢竟才剛開源一天,Grok-1已經(jīng)快被網(wǎng)友罵瘋了。
"電子垃圾",幾乎成了它的代名詞。
一場(chǎng)全程預(yù)告的開源
先來簡(jiǎn)單回顧一下Grok-1的關(guān)鍵要點(diǎn)。
它是一個(gè)314B的大模型,采用了混合專家架構(gòu),由8個(gè)專家系統(tǒng)組成(其中2個(gè)為活躍狀態(tài))。該模型在運(yùn)行時(shí)有25%的模型參數(shù)會(huì)活躍運(yùn)行,可以更高效地運(yùn)行。
它也是目前參數(shù)量最大的開源大模型之一。
通常來說,參數(shù)越多,模型就會(huì)越先進(jìn)、復(fù)雜,訓(xùn)練出來的效果就會(huì)越好用。Grok-1擁有3140億個(gè)參數(shù),是Llama 2(700億參數(shù))的 4 倍多,更是遠(yuǎn)超Mistral 8x7B(120億個(gè)參數(shù))。
xAI此次開源的是其2023年10月預(yù)訓(xùn)練階段時(shí)的初始模型版本,使用自定義訓(xùn)練堆棧在 JAX和Rust上開發(fā)。它是基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練的,沒有針對(duì)具體任務(wù)進(jìn)行微調(diào)。與X上所使用的Grok聊天機(jī)器人在行為和權(quán)重版本上都有所不同。
xAI遵照Apache 2.0協(xié)議開源,該協(xié)議許可證允許用戶自由地使用、修改和分發(fā)軟件,且可用于個(gè)人和商業(yè)用途。
Grok-1出自xAI,這是馬斯克于2023年7月成立的公司。
此前,馬斯克曾是 OpenAI 的聯(lián)合創(chuàng)始人,離開OpenAI 后,馬斯克也為這家公司提供了大量的資金支持。
在這次Grok-1開源前,3月1日,馬斯克起訴了OpenAI并要求其開源。馬斯克認(rèn)為,OpenAI的技術(shù)不應(yīng)該掌握在OpenAI和微軟手中,并表示OpenAI一點(diǎn)也不"open"。
![]()
Grok-1開源的程度不算最高。遵照Apache 2.0協(xié)議,xAI開放了模型的權(quán)重和架構(gòu)。而一個(gè)100%開源的模型,會(huì)包括論文、權(quán)重、代碼、數(shù)據(jù)、評(píng)估和適配。
但這并不是最重要的槽點(diǎn),使用成本和不成正比的效果,才是讓網(wǎng)友們開罵的重點(diǎn)。
Grok-1,"電子垃圾"
雖然Grok-1在GitHub上的Star數(shù)已經(jīng)攀升至21.9k,但在一些專業(yè)人士眼中,馬斯克的這次開源,好似提供了一個(gè)"電子垃圾"。
首先,僅僅是模型下載就讓眾多開發(fā)者傻眼。
打開下載用的磁力鏈接,映入眼簾的是700多個(gè)文件,而這700多個(gè)文件,需要占用近300G存儲(chǔ)空間。
在Grok-1的GitHub issue區(qū),也有國外開發(fā)者打出"Hardware Requirements"字樣,對(duì)下載這一模型的成本感到震驚。
![]()
而這只是下載環(huán)節(jié),要真正測(cè)試/使用這個(gè)模型,似乎也和普通人無關(guān)。
眾所周知,模型參數(shù)越大意味著資源消耗越多。那么測(cè)試314B的Grok-1,需要多少資源呢?
根據(jù)眾多從業(yè)者的估算,運(yùn)行Grok-1至少需要8張H100。而「四木相對(duì)論」觀察到,目前要買到8張H100,大約需要花費(fèi)300萬人民幣。
這意味著,馬斯克此次開源的Grok-1,基本和普通開發(fā)者無緣,大約只有土豪和財(cái)大氣粗的大廠才能擁有測(cè)試資格。
![]()
而才完成亞洲巡游,和三星等企業(yè)溝通半導(dǎo)體合作的扎克伯格也被網(wǎng)友惡搞了一段AI評(píng)論,稱"3140的參數(shù)太多,需要一大堆H100才行"。當(dāng)然,這位"囤卡土豪"還不忘加上一句,"我已經(jīng)買完了。"
![]()
而且,網(wǎng)友們的吐槽并不僅針對(duì)存儲(chǔ)、推理等資源成本——還因?yàn)椋瑩碛?14B參數(shù)的Grok-1,在效果上并沒有體現(xiàn)出與參數(shù)規(guī)模相配的效果。
參考之前 x.AI release 的 benchmark,可以看到它的效果和GPT-4、Claude 2有著相當(dāng)?shù)牟罹啵壳跋鄬?duì)優(yōu)于LLaMa 2 70B和GPT-3.5。
![]()
再加上和Mistral的對(duì)比,可以發(fā)現(xiàn)在MATH、GSM8K等指標(biāo)方面遜色于對(duì)方,在MMLU等指標(biāo)上領(lǐng)先。
![]()
但Grok-1 總參數(shù)量是 314B, 激活參數(shù)量是 86B,Mixtral-8x7B 總參數(shù)量 45B,激活參數(shù)量是 12B。
昆侖萬維 AI Infra 負(fù)責(zé)人成誠在知乎上算了筆賬:
"Grok-1 用了 8 倍于 Mixtral-8x7B 的模型大小,但實(shí)際效果可能僅和 Mixtral-8x7B 持平。同時(shí),Grok-1 的推理成本是 Mixtral-8x7B 的 10 倍以上:
Grok-1 只能通過 8xA100 / 8xH100 機(jī)器推理,且一個(gè)模型就獨(dú)占了一個(gè)機(jī)器。單機(jī)器顯存一共 640G, 由于參數(shù)量已經(jīng)有 314B 了, bf16 推理參數(shù)量就 628G,幾乎無法推理完成(無法開 batch size,存 kvcache),所以只能是 int8 量化推理。 且 TP8 引入大量的通信,而同等量化下,Mixtral-8x7B 單卡就能推理,無需跨卡通信,吞吐效率遠(yuǎn)高于 Grok-1 10 倍以上。"
而且,就算在指標(biāo)上優(yōu)于LLaMa 2 70B也不是什么非常值得慶幸的事。畢竟,這款模型已經(jīng)開源了大半年,也建立起自己的開發(fā)者生態(tài)。
目前,Grok1 的開源 repo:GitHub - xai-org/grok-1: Grok open release 主頁沒有任何的 benchmark 介紹,實(shí)際需要下載測(cè)試。 真正的效果,只有等土豪玩家和大廠們的測(cè)評(píng)完才知道。
英偉達(dá)網(wǎng)紅研究員Jim Fan的期待——希望看到基于Grok1長出的新應(yīng)用,估計(jì)也要等待一段時(shí)間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.