新年的第一篇推文獻(xiàn)給Deepseek,無他,國產(chǎn)大模型公司太爭氣了!
Deepseek不僅在元旦期間霸占了各大科技媒體頭條,還統(tǒng)一了X、Reddit、FB等海外社交媒體江湖。
“Deepseek重新點(diǎn)燃了我對(duì) AI 的狂熱。模型智能以及它的成本低廉基本上讓你可以將 AI 構(gòu)建成你想要的任何東西,而不必?fù)?dān)心成本。自從 chatGPT 問世以來,我就有一個(gè) AI 視頻游戲的想法,現(xiàn)在我終于覺得我可以做到了。”
![]()
一位關(guān)注AI應(yīng)用的海外朋友在社交平臺(tái)上寫道。
到目前為止,V3版本的發(fā)布到今天已經(jīng)整整過去一周了,但是,海內(nèi)外對(duì)Deepseek的討論熱度不減。
![]()
大部分都是“備受震撼”“ 2025 年開源大型語言模型 (LLM) 領(lǐng)域的最大黑馬”“好用”“免費(fèi)”“理想主義的勝利”“國產(chǎn)大模型之光”這些正向評(píng)論。
其實(shí)從實(shí)際使用上來看,Deepseek未必有那么盡善盡美。
比如在編碼方面,可能未必有Clude好用,又或者Deepseek的回復(fù)有時(shí)會(huì)陷入循環(huán)。甚至,如今的研究成果也會(huì)借鑒海外早期的開源模型數(shù)據(jù)。
但Deepseek的牛逼之處就在于,它化身引領(lǐng)者,改變了全球AI公司的游戲規(guī)則。
首先就是降低了大模型的運(yùn)算量,一定程度上打破了芯片對(duì)大模型的桎梏。
OpenAI 創(chuàng)始團(tuán)隊(duì)成員Andrej Karpathy以Llama 3405B模型為例分析,該模型使用了30.8M GPU小時(shí),而 DeepSeek-V3 看起來是一個(gè)更強(qiáng)大的模型,僅使用了2.8M GPU小時(shí)(計(jì)算量減少了約 11 倍)。
![]()
計(jì)算量的減少,就意味著,未來大模型訓(xùn)練可以不用那么多高規(guī)格芯片。所以,有媒體表示,DeepseekV3發(fā)布之后,英偉達(dá)最大的空頭出現(xiàn)了。
略心酸的是,有些進(jìn)步是被逼出來的,是在別無選擇之后產(chǎn)生的客觀結(jié)果。
為了阻止中國科技進(jìn)步,美國從2022年9月開始禁止A100和功率更強(qiáng)大的H100芯片出口中國。
2023年10月,這份禁止名單中又增加了兩款英偉達(dá)降低技術(shù)指標(biāo)為中國市場專門設(shè)計(jì)的芯片A800和H800。
沒辦法,大模型訓(xùn)練需要消耗的算力太大了,而國內(nèi)公司想買芯片又買不到,大家必須節(jié)約使用芯片,并在有限的芯片數(shù)量下完成大模型訓(xùn)練。
外媒曾經(jīng)調(diào)侃道,大模型的公司不僅要有錢,還要跟英偉達(dá)的CEO黃仁勛搞好關(guān)系,不然買不到芯片。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan認(rèn)為,資源限制是一件美好的事情。在殘酷的 AI 競爭環(huán)境中,生存本能是取得突破的主要?jiǎng)恿ΑF鋵?shí)指的就是這次DeepseekV3的創(chuàng)新。
![]()
當(dāng)然DeepseekV3的出現(xiàn)不僅僅是打破了國產(chǎn)大模型公司買不到芯片的尷尬,還降低了大模型公司的資金門檻。
此前,有云計(jì)算專家說,1萬枚英偉達(dá)A100芯片是做AI大模型的算力門檻。這都是錢啊~~~
![]()
以往訓(xùn)練一個(gè)相似數(shù)據(jù)體量的大模型可能起步就需要幾千萬美金。比如GPT-4的訓(xùn)練成本大約1億美金,甚至未來的成本將高于10億美金。
龐大的資金需求量,已經(jīng)將進(jìn)入AI大模型領(lǐng)域的公司做了最精準(zhǔn)的篩選。手頭沒有幾億美金的儲(chǔ)備,想要坐到大模型訓(xùn)練的牌桌上,幾乎不太可能,因?yàn)闊X訓(xùn)練會(huì)迅速拖垮一家公司。
但DeepseekV3此次的訓(xùn)練成本只用了550萬美金,還不到Llama-3405B成本的十分之一。更確地說,就在如此“窘迫”的成本下,DeepseekV3不但沒有燒錢,還略有盈利。
這是其他大模型公司連想都不敢想的。
成本降下來了,用戶使用的價(jià)格也就降下來了。海外社交媒體上為DeepseekV3的免費(fèi)而歡呼。
![]()
還有人在推特上表示,可能大家夸大了DeepseekV3的性能,相比4o和Claude也沒有超越很多,但是,它速度快,而且超級(jí)便宜,用了好久才花了5美分,一個(gè)月省下200美金,不香么?
Deepseek每次出手都會(huì)引發(fā)一場大模型價(jià)格上的腥風(fēng)血雨。這次V3版本推出后,人工智能的競爭也許不再關(guān)乎價(jià)格,而關(guān)乎性能。
也許你會(huì)問,其他國產(chǎn)大模型公司宣傳和投流滿天飛,為什么偏偏又是Deepseek平地出驚雷?
可能就是暗涌報(bào)道的那樣,這是一次技術(shù)理想主義的勝利。當(dāng)其他國產(chǎn)大模型公司被投資人催著要下載量,要用戶量,要商業(yè)模式,要知名度的時(shí)候,Deepseek的一堆應(yīng)屆博士畢業(yè)生還在埋頭搞科研實(shí)驗(yàn)。
我們不缺技術(shù),只是缺少對(duì)創(chuàng)新的敬畏。
大家可添加16600043097,進(jìn)AI新光年讀者交流群,探討各種AI視頻工具的使用,交流行業(yè)信息與合作。商務(wù)相關(guān)問題請(qǐng)聯(lián)系達(dá)哥,聯(lián)系方式:18010023327
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.