網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek都把硅谷給整懵了

2025-01-27 12:50:12　來源: 傳播體操

北京舉報(bào)

分享至

作者| 高凌朗

編輯| 侯旭

短短一個(gè)月內(nèi)，中國人工智能初創(chuàng)公司“DeepSeek（深度求索）“連續(xù)發(fā)布兩款重量級(jí)模型——DeepSeek-V3、DeepSeek-R1，在全球AI領(lǐng)域掀起軒然大波。

據(jù)AI評(píng)估網(wǎng)站Chatbot Arena最新數(shù)據(jù)，1月20日開源的DeepSeek-R1在綜合榜單上排名第三，與頂尖推理模型GPT-4o并列。更令人關(guān)注的是，在高難度提示詞、代碼和數(shù)學(xué)等技術(shù)領(lǐng)域，DeepSeek-R1更是力壓群雄，登頂榜首。

AI分析平臺(tái)Artificial-Analysis的基準(zhǔn)測(cè)試結(jié)果也顯示，DeepSeek-R1的AI分析質(zhì)量指數(shù)居全球第二，而API定價(jià)僅為GPT-4o的三十分之一。

一系列數(shù)據(jù)立即引發(fā)硅谷震動(dòng)，Scale AI創(chuàng)始人Alexander Wang在1月24日接受采訪時(shí)坦言，DeepSeek的表現(xiàn)與美國最頂尖模型不相上下。

在此背景下，剛剛宣布將投資650億美元擴(kuò)建數(shù)據(jù)中心的Meta也被卷入輿論中心。匿名職場(chǎng)社區(qū)teamblind傳出消息：Meta內(nèi)部工程師正在緊急分析DeepSeek的技術(shù)方案。

整個(gè)硅谷之所以變得如此緊張，正是因?yàn)镈eepSeek重新定義了大模型領(lǐng)域的一條規(guī)則：打造一流AI模型，未必需要天價(jià)投入。

DeepSeek成立于2023年7月17日，其根源可追溯至成立于2012年的對(duì)沖基金公司—幻方量化。該公司團(tuán)隊(duì)成員80%以上畢業(yè)于國內(nèi)外頂尖高校，專注于量化投資領(lǐng)域，通過機(jī)器學(xué)習(xí)和高頻交易策略管理約80億美元資產(chǎn)。

幻方量化及其重視技術(shù)研發(fā)，先后投資12億元打造"螢火一號(hào)"和"螢火二號(hào)"深度學(xué)習(xí)平臺(tái)，擁有超過1萬張英偉達(dá)A100芯片的強(qiáng)大算力儲(chǔ)備。這一雄厚的硬件基礎(chǔ)為DeepSeek的研發(fā)提供了強(qiáng)有力支撐。

幻方量化創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)信息與電子工程專業(yè)，在量化金融與機(jī)器學(xué)習(xí)領(lǐng)域深耕多年。他于2020年帶領(lǐng)核心技術(shù)團(tuán)隊(duì)獨(dú)立創(chuàng)辦DeepSeek，專注AI大模型研發(fā)，并于2023年11月推出首款產(chǎn)品DeepSeekCoder，為后續(xù)技術(shù)創(chuàng)新奠定基礎(chǔ)。

與行業(yè)普遍"砸算力"的做法不同，DeepSeek沒有盲目追求參數(shù)規(guī)模，而是專注于提升訓(xùn)練效率。

DeepSeek團(tuán)隊(duì)采用稀疏的Mixture of Experts(MoE)架構(gòu)，僅激活5%～10%的專家網(wǎng)絡(luò)單元，顯著降低了計(jì)算資源消耗。

同時(shí)，團(tuán)隊(duì)大膽采用FP8混合精度訓(xùn)練，進(jìn)一步優(yōu)化了顯存占用和計(jì)算效率。這些技術(shù)創(chuàng)新讓DeepSeek實(shí)現(xiàn)了低成本高性能的突破。

說人話就是：DeepSeek的思路更加精打細(xì)算，就像把普通家用車改裝成賽車，用更少的錢實(shí)現(xiàn)更好的表現(xiàn)。

2024年12月26日，DeepSeek推出了擁有6710億參數(shù)、14.8萬億高質(zhì)量token的V3模型。相比之下，業(yè)內(nèi)流傳GPT-4o的模型參數(shù)約為2000億（未經(jīng)Open AI證實(shí)）。

最關(guān)鍵的是，DeepSeek-V3僅以557.6萬美元的訓(xùn)練成本和280萬個(gè)GPU小時(shí)的計(jì)算需求，就達(dá)到了與頂尖模型媲美的性能。

另外，DeepSeek-V3的API服務(wù)價(jià)格為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元。這一價(jià)格遠(yuǎn)低于GPT-4o等頭部模型。

據(jù)統(tǒng)計(jì)，僅在2024年12月的最后6天，DeepSeek的訪問量就暴增164%，達(dá)到1180萬次。

2025年1月20日，DeepSeek再次發(fā)布DeepSeek-R1模型引爆科技圈，該模型的核心突破在于其獨(dú)特的技術(shù)路徑。

根據(jù)DeepSeek最新發(fā)布的技術(shù)白皮書，R1-Zero采用了一種前所未有的"純"強(qiáng)化學(xué)習(xí)方法，完全拋開了預(yù)設(shè)的思維鏈模板和監(jiān)督式微調(diào)，僅依靠簡(jiǎn)單的獎(jiǎng)懲信號(hào)來優(yōu)化模型行為。

在AIME數(shù)學(xué)競(jìng)賽中，R1-Zero從最初的15.6%正確率一路攀升至71.0%。更令人驚訝的是，當(dāng)模型對(duì)同一問題進(jìn)行多次嘗試時(shí)，準(zhǔn)確率更是達(dá)到了86.7%。在編程領(lǐng)域，模型在Codeforces評(píng)測(cè)中達(dá)到2441分的水平，超過了96.3%的人類參與者。

除了上文所述通過MoE以及FP8混合進(jìn)度訓(xùn)練外。DeepSeek-R1還遵循MIT License，允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其他模型。如此一來，R1模型將大幅減少對(duì)人類反饋強(qiáng)化學(xué)習(xí)的依賴，進(jìn)一步降低了成本。

要知道，現(xiàn)有的人工智能公司在訓(xùn)練過程中，必須掌握大量算力儲(chǔ)備，而算力的背后自然是資金支持。因此，行業(yè)投資者們紛紛驚醒，開始質(zhì)疑傳統(tǒng)AI公司高額投入的必要性。

據(jù)Noah's Arc資本管理公司分析，DeepSeek的模型可能徹底改變AI訓(xùn)練和推理領(lǐng)域的游戲規(guī)則。特別是在OpenAI的"星際之門"計(jì)劃公布5000億美元投資預(yù)算的背景下，DeepSeek的低成本高效能更顯示出其戰(zhàn)略價(jià)值。

DeepSeek的成功正在催生AI產(chǎn)業(yè)發(fā)展模式的變化。根據(jù)中國信息通信研究院的白皮書，全球AI大語言模型數(shù)量已達(dá)1328個(gè)，其中36%來自中國，使中國成為僅次于美國的第二大AI技術(shù)貢獻(xiàn)國。

諾貝爾獎(jiǎng)得主、"AI教父"杰弗里·辛頓在2025年1月接受采訪時(shí)指出，中國在STEM教育方面的優(yōu)勢(shì)將為AI發(fā)展提供堅(jiān)實(shí)基礎(chǔ)。

根據(jù)之前的行業(yè)預(yù)測(cè)顯示，到2027年，最大型模型的訓(xùn)練成本將超過10億美元。Gartner預(yù)計(jì)，到2028年主要科技巨頭在AI服務(wù)器上的支出將達(dá)到5000億美元。

在這一背景下，DeepSeek的低成本方案引發(fā)了對(duì)傳統(tǒng)發(fā)展路徑的反思。同時(shí)，來自地緣、監(jiān)管、資本等多方面的因素也正在給硅谷施加壓力。

加州大學(xué)伯克利分校AI政策研究員Ritwik Gupta認(rèn)為，DeepSeek的成功表明"AI能力沒有護(hù)城河"，中國龐大的系統(tǒng)工程師人才庫正在幫助企業(yè)更高效地利用計(jì)算資源。

事實(shí)上，這種發(fā)展趨勢(shì)已經(jīng)開始影響資本市場(chǎng)。

在DeepSeek-R1引發(fā)熱議后，作為“AI石油”的英偉達(dá)股價(jià)于今年1月24日下跌3.12%。

我們認(rèn)為，如果低成本、高性能的開源模型成為主流，可能會(huì)扭轉(zhuǎn)美國公司在AI領(lǐng)域的技術(shù)優(yōu)勢(shì)和估值體系。

需要注意的是，在大模型領(lǐng)域逐漸封閉的背景下，DeepSeek選擇了開源模型并公開技術(shù)報(bào)告的差異化路線。

這一決策雖然贏得了開發(fā)者們的廣泛贊譽(yù)，但是開源策略也意味著技術(shù)優(yōu)勢(shì)難以形成壁壘，競(jìng)爭(zhēng)對(duì)手可以輕易復(fù)制其模式，這可能會(huì)削弱DeepSeek在未來商業(yè)競(jìng)爭(zhēng)中的優(yōu)勢(shì)地位。

另外，由于DeepSeek團(tuán)隊(duì)更偏重技術(shù)路線，其模型在數(shù)學(xué)、代碼等特定領(lǐng)域表現(xiàn)突出，但在知識(shí)問答及長文本處理等多樣化場(chǎng)景方面可能存在不足。

不管怎樣，DeepSeek讓AI大模型產(chǎn)業(yè)看到了一個(gè)新的方向，這也是這兩天AI行業(yè)的興奮所在。

歡迎關(guān)注我們的其他賬號(hào)

關(guān)注下方備用號(hào)，防止失聯(lián)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.