<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      梁文鋒又掀桌?在省錢(qián)這件事上,DeepSeek給V4模型鋪墊好了

      0
      分享至



      出品|搜狐科技

      作者|常博碩

      編輯| 楊 錦

      V4發(fā)布前夕,DeepSeek的更新真是一個(gè)比一個(gè)重磅。

      元旦前,DeepSeek發(fā)了新架構(gòu)mHC,對(duì)深度學(xué)習(xí)的地基Resnet進(jìn)行了優(yōu)化,上周又把那篇R1的論文擴(kuò)寫(xiě)了64頁(yè),詳細(xì)公開(kāi)了訓(xùn)練路徑,這次發(fā)的新論文還準(zhǔn)備修一修Transformer,順便在硬件上再省一筆。


      今天凌晨,DeepSeek在Github上甩出了一篇名為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》的論文,直指Transformer架構(gòu)讓模型反復(fù)思考,浪費(fèi)算力資源的缺陷,同時(shí)開(kāi)源了論文中的“記憶模塊”Engram。


      這篇論文是DeepSeek和北京大學(xué)合作完成的,作者欄依然有梁文鋒本人署名。


      直擊Transformer缺陷

      2017年,谷歌一篇名為《Attention Is All You Need》的論文正式將Transformer這種深度學(xué)習(xí)架構(gòu)呈現(xiàn)在了大家眼前,證明了完全基于自注意力機(jī)制(Self-Attention)的模型在機(jī)器翻譯任務(wù)上優(yōu)于當(dāng)時(shí)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。

      這篇論文是深度學(xué)習(xí)領(lǐng)域,尤其是自然語(yǔ)言處理(NLP)的重要轉(zhuǎn)折點(diǎn),也被看作是現(xiàn)代人工智能的奠基性論文,甚至成為了21世紀(jì)NLP領(lǐng)域被引用次數(shù)最多的論文之一。今天,我們能看到的絕大多數(shù)大語(yǔ)言模型也都是以Transformer作為核心架構(gòu)的。

      然而,DeepSeek他們發(fā)現(xiàn)Transformer并不是神,它有一個(gè)非常反人類的缺陷。它沒(méi)有真正的記憶模塊,它的記憶全是靠“算”出來(lái)的。

      在標(biāo)準(zhǔn)的Transformer架構(gòu)中,無(wú)論一句話多么常見(jiàn)、結(jié)構(gòu)多么固定,模型都會(huì)在每一層里反復(fù)計(jì)算token之間的關(guān)系。其實(shí)在人的語(yǔ)言和思維里,“固定搭配”這件事是很常見(jiàn)的,比如“中國(guó)四大…”后面就得接“發(fā)明”,英語(yǔ)里by the后面基本接的就是way。

      可是Transformer不是這么思考問(wèn)題的,四大發(fā)明、by the way這種在人類看來(lái)固定搭配的詞組,在模型內(nèi)部,仍然被拆成多個(gè)token(詞元),即使這種組合關(guān)系在訓(xùn)練語(yǔ)料里已經(jīng)被見(jiàn)過(guò)成千上萬(wàn)次,但模型還是每次都重新組合和理解。

      再?gòu)?fù)雜一點(diǎn)來(lái)說(shuō),比如你問(wèn)大模型一個(gè)很簡(jiǎn)單的問(wèn)題:東漢末年的張仲景是誰(shuí)?在現(xiàn)在的Transformer架構(gòu)下,模型的神經(jīng)網(wǎng)絡(luò)大腦就會(huì)開(kāi)始動(dòng)用幾百億參數(shù),再經(jīng)過(guò)幾十層的向量計(jì)算,最后說(shuō):“是醫(yī)圣”。

      DeepSeek團(tuán)隊(duì)就覺(jué)得,這太浪費(fèi)算力了,其實(shí)“張仲景是醫(yī)圣”這件事背下來(lái)就行。因?yàn)橹灰婕坝?jì)算,那肯定就是非常費(fèi)腦子的事,對(duì)于AI來(lái)說(shuō),費(fèi)的就是顯存。換句話說(shuō)就是,太費(fèi)錢(qián)了!

      這次的論文提出的記憶模塊Engram解決的就是這個(gè)事,大模型并不是每一步都需要“算”。

      如今,為了更好地節(jié)省資源,MoE成為大模型主流架構(gòu),但MoE最核心、最本質(zhì)的架構(gòu)組件仍然是Transformer,缺少“查表”的能力。

      Engram很像是給大模型裝了一個(gè)外接的大字典,他們把“醫(yī)圣張仲景”“四大發(fā)明”這些固定的知識(shí)點(diǎn),通過(guò)N-gram機(jī)制做成了一個(gè)巨大的索引表。以后遇到新問(wèn)題,能查表的查表,需要算的再算,兩件事分開(kāi)干。


      DeepSeek設(shè)計(jì)了一個(gè)精妙的“門(mén)控機(jī)制”(Context-aware Gating)。模型會(huì)自己判斷,遇到“四大發(fā)明”“勾股定理”這種死知識(shí),Engram模塊直接查表給答案,省時(shí)省力。

      遇到復(fù)雜的邏輯推理或閱讀理解,Engram就退后,讓Transformer的核心計(jì)算層(MoE)去深度思考。

      結(jié)果就是不僅省力,還變強(qiáng)了。論文中的實(shí)驗(yàn)數(shù)據(jù)顯示,這種“查表+推理”的混合模式,比純粹靠堆參數(shù)的MoE模型更強(qiáng)。Engram在知識(shí)問(wèn)答、代碼、數(shù)學(xué)和邏輯推理的能力都有提升。

      具體是怎么做到的呢?Engram有一些關(guān)鍵的設(shè)計(jì)點(diǎn)。

      Engram的核心邏輯是構(gòu)建一個(gè)巨大的、外掛式的N-gram嵌入表,并通過(guò)精細(xì)的機(jī)制將其無(wú)縫融合到Transformer主干中。

      首先是詞表壓縮,標(biāo)準(zhǔn)的分詞器往往會(huì)將語(yǔ)義相同但寫(xiě)法微異的詞分配不同的ID,比如 “Apple”和“apple”,這就導(dǎo)致N-gram空間極其稀疏且存在冗余。Engram就把tokenizer的id做了壓縮,把同義詞合并,論文里提到128k詞表下能壓縮近23%。這就顯著提高了語(yǔ)義密度,使得N-gram查表更高效。

      Engram還采用了多頭哈希的方法。因?yàn)橹苯哟鎯?chǔ)所有可能的N-gram組合是不現(xiàn)實(shí)的,那么為了解決哈希沖突,Engram對(duì)每個(gè)N-gram階數(shù)n使用K個(gè)不同的哈希頭。每個(gè)頭使用獨(dú)立的哈希函數(shù)將N-gram映射到嵌入表的一個(gè)索引位置。


      最終的記憶向量是所有n階、所有K個(gè)頭檢索出的向量的拼接。

      由于查表得到的向量e是靜態(tài)的,且可能包含哈希沖突帶來(lái)的噪聲。如果直接加到模型里,會(huì)干擾上下文。所以Engram還設(shè)計(jì)了一套門(mén)控機(jī)制來(lái)“過(guò)濾”和“融合”這些信息。


      想掀硬件廠商的桌?

      傳統(tǒng)大模型有一個(gè)硬約束,參數(shù)要參與計(jì)算,得在GPU顯存里。過(guò)去幾年,大模型的發(fā)展默認(rèn)接受了一條前提:參數(shù)越多,模型越大越好,顯存就必須越大。

      現(xiàn)在的AI軍備競(jìng)賽,本質(zhì)上是在拼HBM,也就是高帶寬顯存。

      無(wú)論是H100還是H200,最貴的往往是那塊容量有限且速度極快的HBM。所以,為了塞下幾千億參數(shù)的大模型,科技公司不得不買(mǎi)成千上萬(wàn)張顯卡。

      同時(shí)受地緣政治與出口管制影響,中國(guó)市場(chǎng)能夠穩(wěn)定獲得的HBM資源愈發(fā)有限,價(jià)格也水漲船高。其實(shí)英偉達(dá)H20等對(duì)中國(guó)特供版的GPU,最關(guān)鍵的限制基本都落在HBM上,算力反而是次要被約束的。

      HBM目前產(chǎn)能基本和SK海力士、三星和美光鎖死,已經(jīng)是供不應(yīng)求,同時(shí)價(jià)格也非常昂貴,平均是普通內(nèi)存價(jià)格的7倍左右。

      在這樣的背景下,把模型全塞進(jìn)顯存這條路線,就越來(lái)越不可持續(xù)了。DeepSeek這篇論文證明了,其實(shí)不需要把所有參數(shù)都塞進(jìn)昂貴的顯存里。

      可以說(shuō),DeepSeek這次其實(shí)就是想要正面翻過(guò)這道墻。

      具體是怎么做到的呢?首先,Engram的記憶訪問(wèn)是可預(yù)測(cè)的,它不像MoE那樣,必須算完這一層才知道下一層要去哪,數(shù)據(jù)必須都在GPU上待命。Engram的索引只由輸入token決定,在推理開(kāi)始前就可以計(jì)算出來(lái)。

      這意味著系統(tǒng)可以提前把即將用到的記憶,從主機(jī)內(nèi)存異步搬到GPU。

      第二,大部分參數(shù)其實(shí)是“冷的”。自然語(yǔ)言天然遵循 Zipf 分布,極少數(shù)短語(yǔ)被反復(fù)使用,而絕大多數(shù)組合幾乎從不出現(xiàn)。Engram正好利用了這一點(diǎn),將高頻記憶放在顯存或主內(nèi)存,低頻記憶放在更便宜、更大的存儲(chǔ)中。

      在論文中,DeepSeek甚至把一個(gè)1000億參數(shù)規(guī)模的Engram記憶表,完整放在CPU里,僅在需要時(shí)預(yù)取,結(jié)果整個(gè)推理速度的損耗甚至低于3%。

      在算力和顯存都越來(lái)越貴、越來(lái)越稀缺的當(dāng)下,Engram給行業(yè)提供了一條比較現(xiàn)實(shí)的路徑,不是所有性能提升都必須用更貴的硬件來(lái)?yè)Q。

      至此,稀疏化模型也進(jìn)入了計(jì)算+記憶的時(shí)代,如果即將推出的DeepSeek-V4真的把此前發(fā)布的mHC和這次發(fā)布的Engram落地,那將又是一次架構(gòu)范式的躍遷,讓我們拭目以待吧!



      運(yùn)營(yíng)編輯 |曹倩審核|孟莎莎




      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      馬斯克批評(píng)諾蘭新品選擇黑人飾演古希臘神話美女,引發(fā)輿論爭(zhēng)議

      馬斯克批評(píng)諾蘭新品選擇黑人飾演古希臘神話美女,引發(fā)輿論爭(zhēng)議

      新浪財(cái)經(jīng)
      2026-02-05 11:02:09
      泰軍:查封柬埔寨邊境園區(qū)發(fā)現(xiàn)大量詐騙證據(jù)包括山寨上海公安局

      泰軍:查封柬埔寨邊境園區(qū)發(fā)現(xiàn)大量詐騙證據(jù)包括山寨上海公安局

      環(huán)球趣聞分享
      2026-02-04 16:41:58
      至今仍健在的開(kāi)國(guó)將帥只剩一位,今年103歲高齡,身體依舊硬朗

      至今仍健在的開(kāi)國(guó)將帥只剩一位,今年103歲高齡,身體依舊硬朗

      鯨探所長(zhǎng)
      2026-02-05 16:41:09
      農(nóng)民收入上漲,人均24456元言論翻車(chē),專家喊話種芹菜賺200萬(wàn)!

      農(nóng)民收入上漲,人均24456元言論翻車(chē),專家喊話種芹菜賺200萬(wàn)!

      你食不食油餅
      2026-02-04 21:39:44
      劉虎被刑拘,成都引爆了新年第一重大輿情熱點(diǎn)

      劉虎被刑拘,成都引爆了新年第一重大輿情熱點(diǎn)

      清哲木觀察
      2026-02-05 10:47:21
      微博之夜生圖大混戰(zhàn):有人美到封神,有人土又胖,黃楊鈿甜偷亮相

      微博之夜生圖大混戰(zhàn):有人美到封神,有人土又胖,黃楊鈿甜偷亮相

      風(fēng)月得自難尋
      2026-02-05 20:23:56
      諾獎(jiǎng)得主質(zhì)問(wèn)川普:和談之年為何成為烏克蘭平民災(zāi)難之年?

      諾獎(jiǎng)得主質(zhì)問(wèn)川普:和談之年為何成為烏克蘭平民災(zāi)難之年?

      史政先鋒
      2026-02-05 20:45:50
      被中國(guó)刺激到了?法國(guó)立下軍令狀:2038年之前,造出核動(dòng)力航母

      被中國(guó)刺激到了?法國(guó)立下軍令狀:2038年之前,造出核動(dòng)力航母

      別吵吵
      2026-02-06 09:08:29
      男子乘飛機(jī)挨緊急出口發(fā)現(xiàn)前排缺個(gè)座位,感嘆空間堪比商務(wù)艙,航司回應(yīng)

      男子乘飛機(jī)挨緊急出口發(fā)現(xiàn)前排缺個(gè)座位,感嘆空間堪比商務(wù)艙,航司回應(yīng)

      極目新聞
      2026-02-05 12:27:59
      微博之夜紅毯:舒淇好美,姚晨裙子看不懂,李宇春難得沒(méi)壓軸出場(chǎng)

      微博之夜紅毯:舒淇好美,姚晨裙子看不懂,李宇春難得沒(méi)壓軸出場(chǎng)

      八卦先生
      2026-02-05 21:31:30
      恭喜廣東,易建聯(lián)終于回歸了,重返球場(chǎng),新崗位曝光,朱芳雨期待

      恭喜廣東,易建聯(lián)終于回歸了,重返球場(chǎng),新崗位曝光,朱芳雨期待

      萌蘭聊個(gè)球
      2026-02-06 09:47:30
      中國(guó)3大通血管食物,紅薯排第3,第1名家家都有,很多人卻不愛(ài)吃

      中國(guó)3大通血管食物,紅薯排第3,第1名家家都有,很多人卻不愛(ài)吃

      江江食研社
      2026-02-03 16:30:06
      小玥兒變化好大!身姿挺拔有氣質(zhì),廣州東山口探店活脫一個(gè)小東家

      小玥兒變化好大!身姿挺拔有氣質(zhì),廣州東山口探店活脫一個(gè)小東家

      樂(lè)悠悠娛樂(lè)
      2026-02-06 08:47:37
      問(wèn):一個(gè)小縣城,年財(cái)政收入不過(guò)區(qū)區(qū)三四億

      問(wèn):一個(gè)小縣城,年財(cái)政收入不過(guò)區(qū)區(qū)三四億

      碧翰烽
      2026-02-05 22:24:13
      真愛(ài)還是接盤(pán)俠?41歲香港艷星現(xiàn)下嫁山東農(nóng)村,曾不雅照片滿天飛

      真愛(ài)還是接盤(pán)俠?41歲香港艷星現(xiàn)下嫁山東農(nóng)村,曾不雅照片滿天飛

      古事尋蹤記
      2026-02-04 07:10:54
      天津市市管干部任前公示

      天津市市管干部任前公示

      黃河新聞網(wǎng)呂梁頻道
      2026-02-06 10:01:34
      反轉(zhuǎn)了!居然是演的!女博主徹底涼涼

      反轉(zhuǎn)了!居然是演的!女博主徹底涼涼

      臺(tái)州交通廣播
      2026-02-05 14:13:33
      重磅!高市早苗巨大丑聞被爆出

      重磅!高市早苗巨大丑聞被爆出

      能靜居主人
      2026-02-06 06:47:37
      劉強(qiáng)東父親穿的羽絨服價(jià)格被扒,兒子這么有錢(qián),不很正常嗎?

      劉強(qiáng)東父親穿的羽絨服價(jià)格被扒,兒子這么有錢(qián),不很正常嗎?

      我心縱橫天地間
      2026-02-03 22:44:27
      斯諾克賽程:決出4強(qiáng),中國(guó)或提前奪冠,2場(chǎng)德比,趙心童復(fù)仇戰(zhàn)!

      斯諾克賽程:決出4強(qiáng),中國(guó)或提前奪冠,2場(chǎng)德比,趙心童復(fù)仇戰(zhàn)!

      劉姚堯的文字城堡
      2026-02-06 07:39:35
      2026-02-06 10:35:00
      搜狐科技 incentive-icons
      搜狐科技
      搜狐科技官方賬號(hào)
      4679文章數(shù) 9178關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克究竟想干什么?

      頭條要聞

      肖杰被查 曾任"中國(guó)最大地級(jí)市"市長(zhǎng)

      頭條要聞

      肖杰被查 曾任"中國(guó)最大地級(jí)市"市長(zhǎng)

      體育要聞

      奇才:我學(xué)生……獨(dú)行俠:成交!

      娛樂(lè)要聞

      微博之夜卷入座位風(fēng)波!楊冪超話淪陷

      財(cái)經(jīng)要聞

      三大指數(shù)低開(kāi) 有色金屬等跌幅居前

      汽車(chē)要聞

      李想為全新L9預(yù)熱 all in AI造更好的車(chē)

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      旅游
      手機(jī)
      藝術(shù)

      數(shù)碼要聞

      華為FreeClip 2耳夾耳機(jī)新增冰莓紫/玫瑰金配色上市,1299元

      教育要聞

      值得校長(zhǎng)“細(xì)品”的10條辦學(xué)理念!每一條都直擊內(nèi)心

      旅游要聞

      同行虧損掙扎,頂流景區(qū)卻發(fā)45萬(wàn)年終獎(jiǎng)

      手機(jī)要聞

      iQOO 15 Ultra首銷(xiāo):2026年首款性能Ultra 4999元起

      藝術(shù)要聞

      一幅宋畫(huà),帶你看最美的雪中之梅

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版