![]()
作者| 高凌朗
編輯| 侯旭
短短一個(gè)月內(nèi),中國人工智能初創(chuàng)公司“DeepSeek(深度求索)“連續(xù)發(fā)布兩款重量級(jí)模型——DeepSeek-V3、DeepSeek-R1,在全球AI領(lǐng)域掀起軒然大波。
據(jù)AI評(píng)估網(wǎng)站Chatbot Arena最新數(shù)據(jù),1月20日開源的DeepSeek-R1在綜合榜單上排名第三,與頂尖推理模型GPT-4o并列。更令人關(guān)注的是,在高難度提示詞、代碼和數(shù)學(xué)等技術(shù)領(lǐng)域,DeepSeek-R1更是力壓群雄,登頂榜首。
AI分析平臺(tái)Artificial-Analysis的基準(zhǔn)測(cè)試結(jié)果也顯示,DeepSeek-R1的AI分析質(zhì)量指數(shù)居全球第二,而API定價(jià)僅為GPT-4o的三十分之一。
一系列數(shù)據(jù)立即引發(fā)硅谷震動(dòng),Scale AI創(chuàng)始人Alexander Wang在1月24日接受采訪時(shí)坦言,DeepSeek的表現(xiàn)與美國最頂尖模型不相上下。
在此背景下,剛剛宣布將投資650億美元擴(kuò)建數(shù)據(jù)中心的Meta也被卷入輿論中心。匿名職場(chǎng)社區(qū)teamblind傳出消息:Meta內(nèi)部工程師正在緊急分析DeepSeek的技術(shù)方案。
整個(gè)硅谷之所以變得如此緊張,正是因?yàn)镈eepSeek重新定義了大模型領(lǐng)域的一條規(guī)則:打造一流AI模型,未必需要天價(jià)投入。
![]()
DeepSeek成立于2023年7月17日,其根源可追溯至成立于2012年的對(duì)沖基金公司—幻方量化。該公司團(tuán)隊(duì)成員80%以上畢業(yè)于國內(nèi)外頂尖高校,專注于量化投資領(lǐng)域,通過機(jī)器學(xué)習(xí)和高頻交易策略管理約80億美元資產(chǎn)。
幻方量化及其重視技術(shù)研發(fā),先后投資12億元打造"螢火一號(hào)"和"螢火二號(hào)"深度學(xué)習(xí)平臺(tái),擁有超過1萬張英偉達(dá)A100芯片的強(qiáng)大算力儲(chǔ)備。這一雄厚的硬件基礎(chǔ)為DeepSeek的研發(fā)提供了強(qiáng)有力支撐。
幻方量化創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)信息與電子工程專業(yè),在量化金融與機(jī)器學(xué)習(xí)領(lǐng)域深耕多年。他于2020年帶領(lǐng)核心技術(shù)團(tuán)隊(duì)獨(dú)立創(chuàng)辦DeepSeek,專注AI大模型研發(fā),并于2023年11月推出首款產(chǎn)品DeepSeekCoder,為后續(xù)技術(shù)創(chuàng)新奠定基礎(chǔ)。
與行業(yè)普遍"砸算力"的做法不同,DeepSeek沒有盲目追求參數(shù)規(guī)模,而是專注于提升訓(xùn)練效率。
DeepSeek團(tuán)隊(duì)采用稀疏的Mixture of Experts(MoE)架構(gòu),僅激活5%~10%的專家網(wǎng)絡(luò)單元,顯著降低了計(jì)算資源消耗。
同時(shí),團(tuán)隊(duì)大膽采用FP8混合精度訓(xùn)練,進(jìn)一步優(yōu)化了顯存占用和計(jì)算效率。這些技術(shù)創(chuàng)新讓DeepSeek實(shí)現(xiàn)了低成本高性能的突破。
說人話就是:DeepSeek的思路更加精打細(xì)算,就像把普通家用車改裝成賽車,用更少的錢實(shí)現(xiàn)更好的表現(xiàn)。
2024年12月26日,DeepSeek推出了擁有6710億參數(shù)、14.8萬億高質(zhì)量token的V3模型。相比之下,業(yè)內(nèi)流傳GPT-4o的模型參數(shù)約為2000億(未經(jīng)Open AI證實(shí))。
最關(guān)鍵的是,DeepSeek-V3僅以557.6萬美元的訓(xùn)練成本和280萬個(gè)GPU小時(shí)的計(jì)算需求,就達(dá)到了與頂尖模型媲美的性能。
另外,DeepSeek-V3的API服務(wù)價(jià)格為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens 8元。這一價(jià)格遠(yuǎn)低于GPT-4o等頭部模型。
據(jù)統(tǒng)計(jì),僅在2024年12月的最后6天,DeepSeek的訪問量就暴增164%,達(dá)到1180萬次。
![]()
2025年1月20日,DeepSeek再次發(fā)布DeepSeek-R1模型引爆科技圈,該模型的核心突破在于其獨(dú)特的技術(shù)路徑。
根據(jù)DeepSeek最新發(fā)布的技術(shù)白皮書,R1-Zero采用了一種前所未有的"純"強(qiáng)化學(xué)習(xí)方法,完全拋開了預(yù)設(shè)的思維鏈模板和監(jiān)督式微調(diào),僅依靠簡(jiǎn)單的獎(jiǎng)懲信號(hào)來優(yōu)化模型行為。
在AIME數(shù)學(xué)競(jìng)賽中,R1-Zero從最初的15.6%正確率一路攀升至71.0%。更令人驚訝的是,當(dāng)模型對(duì)同一問題進(jìn)行多次嘗試時(shí),準(zhǔn)確率更是達(dá)到了86.7%。在編程領(lǐng)域,模型在Codeforces評(píng)測(cè)中達(dá)到2441分的水平,超過了96.3%的人類參與者。
除了上文所述通過MoE以及FP8混合進(jìn)度訓(xùn)練外。DeepSeek-R1還遵循MIT License,允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其他模型。如此一來,R1模型將大幅減少對(duì)人類反饋強(qiáng)化學(xué)習(xí)的依賴,進(jìn)一步降低了成本。
要知道,現(xiàn)有的人工智能公司在訓(xùn)練過程中,必須掌握大量算力儲(chǔ)備,而算力的背后自然是資金支持。因此,行業(yè)投資者們紛紛驚醒,開始質(zhì)疑傳統(tǒng)AI公司高額投入的必要性。
據(jù)Noah's Arc資本管理公司分析,DeepSeek的模型可能徹底改變AI訓(xùn)練和推理領(lǐng)域的游戲規(guī)則。特別是在OpenAI的"星際之門"計(jì)劃公布5000億美元投資預(yù)算的背景下,DeepSeek的低成本高效能更顯示出其戰(zhàn)略價(jià)值。
![]()
DeepSeek的成功正在催生AI產(chǎn)業(yè)發(fā)展模式的變化。根據(jù)中國信息通信研究院的白皮書,全球AI大語言模型數(shù)量已達(dá)1328個(gè),其中36%來自中國,使中國成為僅次于美國的第二大AI技術(shù)貢獻(xiàn)國。
諾貝爾獎(jiǎng)得主、"AI教父"杰弗里·辛頓在2025年1月接受采訪時(shí)指出,中國在STEM教育方面的優(yōu)勢(shì)將為AI發(fā)展提供堅(jiān)實(shí)基礎(chǔ)。
根據(jù)之前的行業(yè)預(yù)測(cè)顯示,到2027年,最大型模型的訓(xùn)練成本將超過10億美元。Gartner預(yù)計(jì),到2028年主要科技巨頭在AI服務(wù)器上的支出將達(dá)到5000億美元。
在這一背景下,DeepSeek的低成本方案引發(fā)了對(duì)傳統(tǒng)發(fā)展路徑的反思。同時(shí),來自地緣、監(jiān)管、資本等多方面的因素也正在給硅谷施加壓力。
加州大學(xué)伯克利分校AI政策研究員Ritwik Gupta認(rèn)為,DeepSeek的成功表明"AI能力沒有護(hù)城河",中國龐大的系統(tǒng)工程師人才庫正在幫助企業(yè)更高效地利用計(jì)算資源。
事實(shí)上,這種發(fā)展趨勢(shì)已經(jīng)開始影響資本市場(chǎng)。
在DeepSeek-R1引發(fā)熱議后,作為“AI石油”的英偉達(dá)股價(jià)于今年1月24日下跌3.12%。
我們認(rèn)為,如果低成本、高性能的開源模型成為主流,可能會(huì)扭轉(zhuǎn)美國公司在AI領(lǐng)域的技術(shù)優(yōu)勢(shì)和估值體系。
需要注意的是,在大模型領(lǐng)域逐漸封閉的背景下,DeepSeek選擇了開源模型并公開技術(shù)報(bào)告的差異化路線。
這一決策雖然贏得了開發(fā)者們的廣泛贊譽(yù),但是開源策略也意味著技術(shù)優(yōu)勢(shì)難以形成壁壘,競(jìng)爭(zhēng)對(duì)手可以輕易復(fù)制其模式,這可能會(huì)削弱DeepSeek在未來商業(yè)競(jìng)爭(zhēng)中的優(yōu)勢(shì)地位。
另外,由于DeepSeek團(tuán)隊(duì)更偏重技術(shù)路線,其模型在數(shù)學(xué)、代碼等特定領(lǐng)域表現(xiàn)突出,但在知識(shí)問答及長文本處理等多樣化場(chǎng)景方面可能存在不足。
不管怎樣,DeepSeek讓AI大模型產(chǎn)業(yè)看到了一個(gè)新的方向,這也是這兩天AI行業(yè)的興奮所在。
歡迎關(guān)注我們的其他賬號(hào)
關(guān)注下方備用號(hào),防止失聯(lián)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.