![]()
重要通知:我們開(kāi)了個(gè)新號(hào)“白鯨實(shí)驗(yàn)室”,無(wú)論是之前認(rèn)識(shí)八尺的老朋友,還是熱心關(guān)注商業(yè)和AI的新朋友,歡迎點(diǎn)擊,移步“白鯨實(shí)驗(yàn)室”。 我們的原創(chuàng)文章也會(huì)率先發(fā)在“白鯨實(shí)驗(yàn)室”上。
“白鯨實(shí)驗(yàn)室”,致力于給大家提供深刻的行業(yè)洞察和有價(jià)值的信息, 記錄個(gè)體在浪潮中的認(rèn)知躍遷,對(duì)抗技術(shù)喧囂中的認(rèn)知迷霧。AI 時(shí)代愿我們共同成長(zhǎng)。
01
自DeepSeek出圈以來(lái) ,梁文鋒和DeepSeek的舉動(dòng)一直是行業(yè)關(guān)注的焦點(diǎn)。最近DeepSeek 團(tuán)隊(duì)發(fā)布最新DeepSeek-V3論文,有自媒體評(píng)價(jià):實(shí)現(xiàn)了DeepSeek R2發(fā)布前的關(guān)鍵技術(shù)突破。
![]()
4月份就有傳言,DeepSeek R2會(huì)在5月正式發(fā)布,如今5月已經(jīng)過(guò)去一半,DeepSeek R2仍猶抱琵琶半遮面。
DeepSeek R1 是基于V3基座模型進(jìn)行訓(xùn)練的,所以V3論文中涉及的參數(shù),也大概率決定著R2的性能。這篇論文相當(dāng)于R2大餐上桌前的小菜,充滿噱頭,一時(shí)挑起大家對(duì) R2期待。
目前圈內(nèi)對(duì)DeepSeek R2的推測(cè),普遍有這三點(diǎn):參數(shù)規(guī)模將提升約1倍達(dá)到了1.2萬(wàn)億,成本僅僅是GPT-4o的2.7%,支持多模態(tài)。
近幾個(gè)月,國(guó)內(nèi)大廠一方面接入DeepSeekR1,另一方面也不斷對(duì)自家的大模型進(jìn)行迭代,試圖在搶占用戶的同時(shí),建立技術(shù)壁壘。大廠的自研大模型,也都會(huì)對(duì)標(biāo)DeepSeekR1,以至于對(duì)行動(dòng)稍顯遲緩的DeepSeekR1形成圍攻之勢(shì)。
3月16日,文心一言推出原生多模態(tài)模型,支持文本、圖像、視頻跨模態(tài)轉(zhuǎn)換(如文本生成視頻),并強(qiáng)化深度思考能力,在數(shù)學(xué)推理(MATH-500 測(cè)試 97.3%)和代碼生成(LiveCodeBench 通過(guò)率 65.9%)上逼近 DeepSeek R1 水平。
通義千問(wèn)推出Qwen2.5-Max,在數(shù)學(xué)(AIME 2024 準(zhǔn)確率 79.8%)、編程(Codeforces 競(jìng)賽 2029 Elo 評(píng)級(jí))和多模態(tài)(視頻生成)上全面升級(jí),性能超越 DeepSeek V3。
Qwen3的訓(xùn)練數(shù)據(jù)規(guī)模更是超越DeepSeek R1 ,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36 萬(wàn)億 token(覆蓋 119 種語(yǔ)言),是 DeepSeek-R1 的兩倍多,其合成數(shù)據(jù)生成策略,如通過(guò)多模態(tài)模型從 PDF 提取文本、生成代碼片段,進(jìn)一步提升了數(shù)據(jù)多樣性和質(zhì)量。
不難看出,大廠一旦開(kāi)始卷大模型性能,直接撼動(dòng)DeepSeekR1在過(guò)去幾個(gè)月在行業(yè)里的標(biāo)桿地位。事實(shí)上,DeepSeek自 2 月火爆以來(lái),國(guó)內(nèi)外的大模型就開(kāi)始加快迭代節(jié)奏,導(dǎo)致DeepSeek的用戶量一直在下降。
今年2月DeepSeek-R1出現(xiàn)了一波現(xiàn)象級(jí)傳播,僅僅2周時(shí)間內(nèi)就占據(jù)了50%以上份額,徹底打破了OpenAI的壟斷局面。而在此前,該分類100%份額均為OpenAI旗下o1、o1-mini所占據(jù)。
3月,Anthropic的Claude-3.7-Sonnet-Reasonig模型出現(xiàn),DeepSeek-R1所占份額有所下降。3月底,谷歌的Gemini-2.5-Pro在入場(chǎng)擠壓Claude 3.7的同時(shí),也進(jìn)一步壓縮了DeepSeek的份額。
到了5月14日,全球最大的大模型整合應(yīng)用平臺(tái)Poe發(fā)布數(shù)據(jù)顯示,DeepSeek-R1模型使用率,已由2月的峰值下降了50%,目前處于推理模型分類中的第三位。Gemini-2.5-Pro通過(guò)6周時(shí)間實(shí)現(xiàn)了31.5%的份額,暫處于第一名,緊隨其后的Claude-3.7為19.1%。
DeepSeek無(wú)論是性能還是市場(chǎng)都已經(jīng)失去絕對(duì)的優(yōu)勢(shì),考驗(yàn)梁文鋒團(tuán)隊(duì)的是盡快迭代產(chǎn)品。
02
有趣的是,這次梁文鋒發(fā)論文的時(shí)機(jī)略顯孤獨(dú),沒(méi)有遇上老對(duì)手——月之暗面的楊植麟。
今年以來(lái),梁文鋒與楊植麟的論文多次撞車,成為業(yè)內(nèi)一大談資。兩人都是計(jì)算機(jī)專業(yè)人才和創(chuàng)業(yè)者,被看作國(guó)內(nèi)大模型領(lǐng)軍人物,從他們團(tuán)隊(duì)的技術(shù)論文一定程度上能看出國(guó)內(nèi)大模型的演進(jìn)趨勢(shì),撞車似乎有著英雄所見(jiàn)略同的意味。
他們的論文撞車 ,背后也是對(duì)AI基礎(chǔ)理論話語(yǔ)權(quán)的爭(zhēng)奪。現(xiàn)在我們來(lái)通過(guò)技術(shù)比對(duì),看看這對(duì)冤家是怎么一次次撞車的。
2025年2月18日,DeepSeek 與月之暗面幾乎同時(shí)發(fā)布論文,分別提出原生稀疏注意力(NSA)和塊注意力混合架構(gòu)(MoBA),均旨在優(yōu)化 Transformer 核心的全注意力機(jī)制,提升長(zhǎng)上下文處理效率。
DeepSeek NSA的核心思路是,通過(guò)語(yǔ)義壓縮(將序列分塊降維)、動(dòng)態(tài)選擇(重要性采樣)和滑動(dòng)窗口(局部上下文連貫性)三環(huán)節(jié),將計(jì)算復(fù)雜度從 O(n2) 優(yōu)化至 O(n2/k),并結(jié)合硬件顯存復(fù)用技術(shù)降低 40% 內(nèi)存訪問(wèn)頻次。性能表現(xiàn)上,處理 64k 標(biāo)記序列時(shí)速度提升 11.6 倍,訓(xùn)練效率顯著優(yōu)于傳統(tǒng)注意力機(jī)制。
月之暗面 MoBA是引入門控網(wǎng)絡(luò)動(dòng)態(tài)選擇,與當(dāng)前塊最相關(guān)的 Top-K 塊進(jìn)行注意力計(jì)算,同時(shí)結(jié)合 FlashAttention 和 MoE(專家混合模型)進(jìn)一步優(yōu)化。根據(jù)論文,MoBA的計(jì)算復(fù)雜度隨著上下文長(zhǎng)度增加而優(yōu)勢(shì)明顯,在 10M token 測(cè)試中提速 16 倍,已應(yīng)用于 Kimi 產(chǎn)品處理超長(zhǎng)上下文任務(wù)。
![]()
兩者的 “撞車” 推動(dòng)學(xué)術(shù)界重新審視注意力機(jī)制的優(yōu)化路徑,OpenAI 在同期論文中,引用兩者作為長(zhǎng)文本處理的代表性方案。
今年4月,雙方再次在數(shù)學(xué)定理證明領(lǐng)域推出競(jìng)爭(zhēng)產(chǎn)品。DeepSeek-Prover-V2,參數(shù)規(guī)模6710億,基于 DeepSeek-V3 微調(diào),采用子目標(biāo)分解強(qiáng)化學(xué)習(xí),在 miniF2F 測(cè)試中通過(guò)率88.9%,解決49道普特南測(cè)試題。核心技術(shù)是將復(fù)雜問(wèn)題拆解為可驗(yàn)證的子目標(biāo)鏈,結(jié)合動(dòng)態(tài)規(guī)劃優(yōu)化證明路徑。
而月之暗面的Kimina-Prover開(kāi)源1.5B和7B版本,采用獎(jiǎng)勵(lì)模型引導(dǎo)的自主探索,miniF2F通過(guò)率80.7%,解決10道普特南測(cè)試題,通過(guò)形式化邏輯約束減少幻覺(jué),提升數(shù)學(xué)推理的可解釋性。
訓(xùn)練數(shù)據(jù)上,DeepSeek-Prover-V2依賴數(shù)學(xué)論文與競(jìng)賽數(shù)據(jù)集,瞄準(zhǔn)高精度復(fù)雜推理,如學(xué)術(shù)定理證明。月之暗面則融合教科書(shū)與習(xí)題數(shù)據(jù),覆蓋更廣用戶群體,側(cè)重輕量化適配,如教育領(lǐng)域的數(shù)學(xué)輔導(dǎo)。
不難看出,DeepSeek致力于把技術(shù)做得精深,而月之暗面似乎更在乎如何落地應(yīng)用。
更早之前的一次撞車發(fā)生在今年 1 月,直接讓兩者的地位發(fā)生逆轉(zhuǎn),默默無(wú)聞的DeepSeek 一躍成為黑馬并迅速出圈,而此前一直名聲大噪的Kimi落寞下去。
今年1月20號(hào),DeepSeek R1 與 Kimi K1.5 在同一天發(fā)布,這兩篇論文同時(shí)把目標(biāo)瞄準(zhǔn)了RL推動(dòng)的推理模型。
DeepSeek R1 通過(guò)兩階段訓(xùn)練,先是借助純強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的大語(yǔ)言模型 R1-Zero和V3生成CoT推理數(shù)據(jù),冷啟動(dòng)數(shù)據(jù)初始化模型,后進(jìn)行二次優(yōu)化,解決多語(yǔ)言混合的邏輯連貫性,這使得其在數(shù)學(xué)競(jìng)賽 AIME 2024中準(zhǔn)確率從 15.6% 躍升至 71.0%,多數(shù)投票后達(dá)86.7%,逼近 OpenAI o1的水平。
相比之下,Kimi K1.5雖采用 RL 訓(xùn)練,依賴長(zhǎng)上下文擴(kuò)展(128k)和部分軌跡回放等技術(shù)優(yōu)化。其數(shù)學(xué)推理準(zhǔn)確率(96.2%)略低于 DeepSeek R1(97.3%),且未在純 RL 領(lǐng)域?qū)崿F(xiàn)同等突破。
這兩種方法在OpenAi或者業(yè)內(nèi)人看來(lái),并沒(méi)有技術(shù)上的優(yōu)勢(shì)差異,殊途同歸,借助強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了推理能力。
事實(shí)上仔細(xì)閱讀這兩篇技術(shù)報(bào)告會(huì)發(fā)現(xiàn),在K1.5的論文里,月之暗面對(duì)如何訓(xùn)練一個(gè)推理模型做了更詳細(xì)的分享,甚至單從信息度和細(xì)節(jié)程度上,它是高過(guò)R1論文的。但之后DeepSeek爆紅出圈,沒(méi)人會(huì)再討論這篇論文。
這場(chǎng)由國(guó)內(nèi)兩家頭部大模型公司展開(kāi)的技術(shù)斗法,很少被人深入探討,大家的目光似乎都聚焦在勝出者梁文鋒身上,沒(méi)人在乎第二名。當(dāng)然,DeepSeek的勝出除了一些參數(shù)上的優(yōu)勢(shì)外,還有開(kāi)源、訓(xùn)練成本降低等原因。
不管怎樣,你追我趕的技術(shù)競(jìng)爭(zhēng)導(dǎo)致的結(jié)果是,目前 DeepSeek 仍處于上風(fēng)。對(duì)楊植麟而言,內(nèi)心大概有種“既生瑜,何生亮”的況味。
DeepSeek爆火以后,Kimi在產(chǎn)品迭代上并沒(méi)有明顯增進(jìn),各大排行榜都未見(jiàn)其身影。反而一直延續(xù)此前爭(zhēng)取“用戶留存”的策略,和財(cái)新合作,增加引用資料的權(quán)威性;四月份Kimi自建社區(qū),試圖做AI內(nèi)容平臺(tái);本月又和小紅書(shū)合作,在小紅書(shū)里接入對(duì)話框。
顯然,這些技術(shù)之外的操作并未撼動(dòng) DeepSeek的地位 。
03
DeepSeek的對(duì)手早已不是Kimi,而是持續(xù)進(jìn)行飽和式投入的各大廠。
近幾個(gè)月,豆包、通義千問(wèn)、元寶、文心一言更是在大模型上的頻繁迭代,且進(jìn)行聲勢(shì)浩大的營(yíng)銷。反觀DeepSeek,出圈后尚未有什么大動(dòng)作,在當(dāng)前迭代周期按照月來(lái)計(jì)算的節(jié)奏下,已顯得慢了許多。
本次DeepSeek團(tuán)隊(duì)發(fā)布的DeepSeek-V3論文,深度解析了硬件架構(gòu)與模型設(shè)計(jì)的雙重創(chuàng)新,為大規(guī)模高效訓(xùn)練與推理提供了突破性思路。
值得關(guān)注的是,梁文鋒參與論文撰寫(xiě),排在倒數(shù)第五位,通訊地址顯示為中國(guó)北京,這意味著該研究主要由DeepSeek北京團(tuán)隊(duì)主導(dǎo)。
很多人大概不知道,2023年5月,DeepSeek最初在北京成立了“北京深度求索”作為運(yùn)營(yíng)主體,地址在北京市海淀區(qū)科學(xué)院南路。但兩個(gè)月后又在杭州重新成立了“杭州深度求索”,并將北京公司變?yōu)楹贾莨镜娜Y子公司。
這不是DeepSeek-V3相關(guān)技術(shù)內(nèi)容第一次面向公眾。DeepSeek-V3基礎(chǔ)版技術(shù)報(bào)告于2024年12月首次發(fā)布,今年3月24日DeepSeek發(fā)布的V3-0324版本技術(shù)報(bào)告,則聚焦于小版本迭代的核心突破,基于V3基礎(chǔ)模型的后訓(xùn)練優(yōu)化,重點(diǎn)提升代碼生成、推理效率和中文能力,同時(shí)調(diào)整開(kāi)源協(xié)議以推動(dòng)商用普及。
而本篇DeepSeek-V3論文,主要論述硬件感知模型協(xié)同設(shè)計(jì)如何有效應(yīng)對(duì)這些挑戰(zhàn),從而實(shí)現(xiàn)經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練和推理。
原有大語(yǔ)言模型,內(nèi)存容量不足、計(jì)算效率低下、互連帶寬受限等硬件瓶頸日益凸顯。DeepSeek-V3在多項(xiàng)關(guān)鍵指標(biāo)上實(shí)現(xiàn)了跨越式突破:僅依托2048塊H800 GPU訓(xùn)練,便達(dá)成FP8訓(xùn)練準(zhǔn)確率損失小于0.25%的優(yōu)異表現(xiàn),單token訓(xùn)練成本低至250 GFLOPS,相較405B密集模型的2.45 TFLOPS成本顯著優(yōu)化;其KV緩存更壓縮至單token 70 KB,僅為L(zhǎng)lama-3.1的1/7。
這些亮眼數(shù)據(jù)背后,是DeepSeek在模型架構(gòu)與AI基礎(chǔ)設(shè)施層面的改進(jìn)。
內(nèi)存效率革新:多頭潛在注意力(MLA)。針對(duì)傳統(tǒng)模型多輪對(duì)話中KV緩存爆炸式增長(zhǎng)的難題,MLA技術(shù)通過(guò)共享投影矩陣,將各注意力頭的KV向量壓縮為統(tǒng)一潛在向量,如同對(duì)數(shù)據(jù)進(jìn)行“語(yǔ)義壓縮”,直接將推理內(nèi)存占用減半。搭配FP8混合精度訓(xùn)練,模型參數(shù)存儲(chǔ)體積減少50%,同時(shí)創(chuàng)新性提出LogFMT對(duì)數(shù)空間量化方案,在相同比特下實(shí)現(xiàn)更高精度,有效破解AI內(nèi)存墻困境。
![]()
計(jì)算-通信優(yōu)化:混合專家(MoE)架構(gòu)。DeepSeekMoE將模型拆解為“專家團(tuán)隊(duì)”,每個(gè)token僅激活37B參數(shù)(總參數(shù)671B),打破傳統(tǒng)稠密模型全參數(shù)在線的高成本模式。該設(shè)計(jì)使訓(xùn)練成本大幅可控,結(jié)合KTransformers框架,DeepSeek-V3可在萬(wàn)元級(jí)消費(fèi)級(jí)GPU服務(wù)器上實(shí)現(xiàn)近20TPS推理速度,配備AI芯片的PC端亦可流暢運(yùn)行,顯著降低中小企業(yè)與開(kāi)發(fā)者的使用門檻。
推理效率躍升:多維度加速技術(shù)。引入多token預(yù)測(cè)(MTP)框架,實(shí)現(xiàn)候選詞批量生成與并行驗(yàn)證,顛覆傳統(tǒng)自回歸模型逐字輸出的低效模式。通過(guò)重疊計(jì)算與通信、構(gòu)建高帶寬縱向擴(kuò)展網(wǎng)絡(luò),充分釋放GPU算力潛力,大幅提升吞吐量。同時(shí)采用“測(cè)試時(shí)縮放”技術(shù),根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)配資源,簡(jiǎn)單任務(wù)快速響應(yīng),復(fù)雜任務(wù)(如數(shù)學(xué)推理)智能調(diào)用更多算力。
集群架構(gòu)突破:兩層多層胖樹(shù)(MPFT)網(wǎng)絡(luò)拓?fù)?/strong>。創(chuàng)新性構(gòu)建8個(gè)獨(dú)立平面實(shí)現(xiàn)故障隔離與負(fù)載均衡,在保持全到全通信性能的同時(shí),使集群成本降低40%以上,為大規(guī)模模型訓(xùn)練的集群擴(kuò)展提供高性價(jià)比解決方案。
論文中,DeepSeek還系統(tǒng)性提出從硬件架構(gòu)演進(jìn)視角出發(fā)的六大未來(lái)挑戰(zhàn)與解決方案,覆蓋內(nèi)存、互連、網(wǎng)絡(luò)、計(jì)算等核心領(lǐng)域,為下一代AI基礎(chǔ)設(shè)施升級(jí)繪制了路線圖,其技術(shù)洞察有望成為行業(yè)發(fā)展的重要風(fēng)向標(biāo)。
盡管如此,一切都要等待DeepSeek-R2 發(fā)布后。DeepSeek能否憑借R2 再次爆火,外界滿懷期待,但也是個(gè)懸念。
DeepSeek-R2會(huì)讓人類攀登AGI 這座高峰時(shí)更進(jìn)一步嗎?歡迎評(píng)論區(qū)留言。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.