<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從DSA到Engram,一年來DeepSeek層層勾勒V4架構創新

      0
      分享至

      隨著開年DeepSeek加快了技術分享的節奏,市場再次期待DeepSeek-V4的橫空出世。不少人推測,它可能會在春節前后亮相。但與推出的時間相比,更大的懸念是,它將以何種程度的創新,將中國與美國在前沿模型的差距縮短到什么程度?它是否會基于中國的算力基礎設施來實現這一跨越。

      全球對前沿模型的探索,仍在尋找下一條行之有效的擴展路徑。DeepSeek也是如此。長期以來,它對此的探索主線,一直都是如何在有限的資源下通過架構創新,最大程度上地提升訓練與推理的效率。這既是一個數學問題,也是一個工程問題。

      過往論文正在揭示它的大致模樣。從V3到V3.1再到V3.2,DeepSeek先后嘗試了UE8M0 FP8、DSA、上下文光學壓縮、mHC與Engram。它們的核心思路之一就是“稀疏化”,讓“專家”、“精度”、“注意力”與“記憶”變得更為稀疏。法國AI研究實驗室Pleias聯合創始人Alexander Doria認為,DeepSeek-V4將是死磕“層效率”的典范,讓每一層神經網絡在架構中發揮最大的效率。

      DeepSeek最新的嘗試是Engram。它所要解決的正是“記憶”負擔的稀疏化,以推動模型規模繼續擴展。標準的Transformer架構缺乏原生的“記憶能力”,它根據概率預測下一個token,根據全局上下文進行復雜推理,消耗了多個早期注意力層和前饋網絡,浪費寶貴的資源去計算那些原本只需要簡單檢索的東西。


      如果說MoE是“條件計算”,通過路由器選擇稀疏性的激活少數幾個專家,在不顯著增加計算成本的前提下,大幅增加模型規模;那么,Engram就是“條件記憶”,通過稀疏查表操作,為固定知識檢索靜態嵌入。DeepSeek的論文將MoE與Engram稱為“互補性稀疏維度”。

      在Engram的幫助下,那些頻繁訪問的內容,可以緩存在HBM等更快的存儲層級中,而長尾的低頻內容則可以存放在SSD等速度較慢但容量更大的介質中。不過,與以往的RAG不同,Engram仍然是模型內部的參數化記憶,它必須參與預訓練,并直接集成到模型層中。當將1000億參數的Engram表,完全卸載到DRAM等內存中,端到端吞吐量下降不到3%。

      于是,“內存”與“計算”解耦了。而且這卓有成效。DeepSeek團隊發現,當大約20%至25%的參數預算分配給Engram時,模型性能最佳。在相同的激活參數與訓練token數量等條件下,Engram-27B的整體性能就要明顯優于純粹的稀疏模型MoE-27B。

      而且,研發團隊還發現,由于將大量計算資源“讓”給了復雜推理,它不僅在知識密集型任務上表現出色,而且在通用推理能力以及代碼與數學推理任務上同樣表現出色。同時,它釋放了注意力機制的容量,也提升了長上下文檢索能力。或許,法律、金融與醫療等“記憶密集”的垂直領域,將迎來更少幻覺與更強推理的模型應用。


      這對于國產算力基礎設施而言,也是一個好消息。Engram有效繞過了GPU的HBM限制,為激進的參數擴展鋪平了道路。論文最后寫道,“條件記憶將成為下一代稀疏大模型中不可或缺的基礎建模范式”。

      這已經不是DeepSeek第一次在論文中勾勒下一代模型的設計藍圖。幾乎其所有研究工作,都圍繞著架構層面的創新展開。許多問題也許早已被其他AI實驗室提出,甚至被反復嘗試卻無疾而終,而DeepSeek選擇將這些被擱置的方向重新拾起,在工程與數學層面加以重構與優化,借此持續縮小與美國前沿模型之間的差距。這些探索共同指向的是穩定而有效擴展的模型架構的實現路徑。

      最近的一次是跨年期間發布的流形約束超連接(mHC)。盡管超級連接(Hyper-Connections)可以為大模型訓練帶來非??斓氖諗克俣?,某些設置下提升接近80%。但它缺乏擴展的穩定性,模型越大、層數越多,問題越嚴重。mHC可以確保每一層的計算仍然能穩定地轉化為有效表示。DeepSeek在論文中寫道,它“為大模型基礎架構的演進指明有前景的方向”。

      再一次則是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是“上下文光學壓縮”(Context Optical Compression),顯著提高了信息密度與計算效率,當時團隊就思考過通過逐級壓縮信息,直至邊際遺忘,或內化為更深層的表征。在論文的最后,DeepSeek團隊致辭說,這一思路“為構建一種理論上無限上下文長度的模型架構(unlimited context architectures)提供了新的可能”。

      早更一點,DeepSeek-V3.2-Exp最核心的實驗則是引入了名為DSA的新架構,這是探索細粒度稀疏機制,成本更低的同時幾乎不影響模型的輸出效果。DeepSeek官方將DSA稱為邁向下一代架構的“中間步驟”。這似乎在暗示下一次更新可能直接出現在V4上。

      要真正追平乃至超越Gemini-3,DeepSeek仍然需要提升模型的多模態能力。代碼與數學,多模態與自然語言本身,三者正是DeepSeek創始人梁文鋒押注的三個方向。在上一個跨年之交發布統一多模態理解與生成的自回歸框架Janus后,DeepSeek在這領域鮮少動作,它會成為下一代核心模型的一部分嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      走進事件的中心
      2026-04-26 22:43:47
      上海地鐵互毆后續!兩女身份曝光,均被拘留,知情人講述更多細節

      上海地鐵互毆后續!兩女身份曝光,均被拘留,知情人講述更多細節

      逍遙浪騰云
      2026-04-27 12:13:07
      23萬的特斯拉,和21萬的小米,我勸你想清楚再下手

      23萬的特斯拉,和21萬的小米,我勸你想清楚再下手

      阿芒娛樂說
      2026-04-26 06:08:57
      廣東將有兩次降水過程,暴雨再度來襲!省三防辦要求應轉盡轉

      廣東將有兩次降水過程,暴雨再度來襲!省三防辦要求應轉盡轉

      南方都市報
      2026-04-27 18:08:27
      中美歐關系重構,美前助理國務卿:中歐抱怨、適應并利用現狀

      中美歐關系重構,美前助理國務卿:中歐抱怨、適應并利用現狀

      澎湃新聞
      2026-04-26 14:04:27
      臺灣女生考上同濟大學,瞞著家人偷偷來上海上學,剛下飛機就落淚

      臺灣女生考上同濟大學,瞞著家人偷偷來上海上學,剛下飛機就落淚

      白云故事
      2025-07-30 21:25:03
      “院方錯把2粒寫成21粒,患者一天吃42粒藥”,官方通報

      “院方錯把2粒寫成21粒,患者一天吃42粒藥”,官方通報

      澎湃新聞
      2026-04-25 12:58:02
      初夏“小白裙”穿搭公式:藍+白,清爽不挑人

      初夏“小白裙”穿搭公式:藍+白,清爽不挑人

      虎哥說衣不二
      2026-04-27 20:40:03
      王牌被廢!伊朗破解美軍“地堡殺手”,14枚實戰鉆地彈盡數報廢

      王牌被廢!伊朗破解美軍“地堡殺手”,14枚實戰鉆地彈盡數報廢

      健身狂人
      2026-04-27 08:40:19
      男子從內地偷運51公斤盒飯放在車尾箱,企圖入境澳門,被查獲

      男子從內地偷運51公斤盒飯放在車尾箱,企圖入境澳門,被查獲

      新民周刊
      2026-04-27 11:04:31
      25萬噸!美國對華封鎖打響,解放軍在南海集結世界最強航母戰斗群

      25萬噸!美國對華封鎖打響,解放軍在南海集結世界最強航母戰斗群

      軍機Talk
      2026-04-24 17:32:10
      連續7個漲停板!股民:勇敢者的游戲!

      連續7個漲停板!股民:勇敢者的游戲!

      數據挖掘分析
      2026-04-27 15:15:53
      2859.2克黃金制品被警方扣押三十年 最新進展:雙方約定見面溝通賠償事宜 代理律師:和解的可能性很大

      2859.2克黃金制品被警方扣押三十年 最新進展:雙方約定見面溝通賠償事宜 代理律師:和解的可能性很大

      每日經濟新聞
      2026-04-27 18:05:32
      獲刑十年!臺積電2納米泄密案宣判

      獲刑十年!臺積電2納米泄密案宣判

      EETOP半導體社區
      2026-04-27 20:42:06
      諜戰劇《驚變》,于和偉、富大龍“雙雄對決”,辛柏青、曹磊加盟

      諜戰劇《驚變》,于和偉、富大龍“雙雄對決”,辛柏青、曹磊加盟

      樂楓電影
      2026-04-27 14:47:40
      052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

      052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

      老赳說歷史
      2026-04-23 16:08:53
      大眾CEO談第九代高爾夫:像“高4”那樣漂亮,我們正在走正確的路

      大眾CEO談第九代高爾夫:像“高4”那樣漂亮,我們正在走正確的路

      IT之家
      2026-04-25 08:29:11
      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯系

      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯系

      心中的麥田
      2026-01-21 20:18:15
      被錘!連續出軌3次?。】巳R你太野了!

      被錘!連續出軌3次?。】巳R你太野了!

      柚子說球
      2026-04-26 18:19:10
      世錦賽16進8最新戰報:吳宜澤領先四冠王,趙心童晉級八強戰墨菲

      世錦賽16進8最新戰報:吳宜澤領先四冠王,趙心童晉級八強戰墨菲

      夜深聊球
      2026-04-27 20:58:41
      2026-04-27 21:28:49
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      365文章數 63關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      上海男子開啟輔助駕駛超速行駛 撞上2名道路養護工人

      頭條要聞

      上海男子開啟輔助駕駛超速行駛 撞上2名道路養護工人

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      房產
      家居
      旅游
      藝術
      軍事航空

      房產要聞

      信號!海南商業版圖,迎來大變局!

      家居要聞

      江景風格 流動的秩序

      旅游要聞

      上海迪士尼游客勸阻男子吸煙反被毆打,沖突可以和解,是非不能模糊!

      藝術要聞

      你絕對想不到,攝影能讓她成為女神!

      軍事要聞

      伊朗外長折返伊斯蘭堡內情披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色婷婷7777| 国产精品久久欧美久久一区| 国产乱沈阳女人高潮乱叫老| 无码人妻AⅤ一区二区三区水密桃| 欧洲亚洲一区| 人妻内射视频麻豆| 国产成人精品综合久久久| 国产一区二区午夜福利久久| 亚洲成人网站在线观看| 国产精品亚洲综合久久小说| 久久久久亚洲AV成人网人人小说| 亚洲综合精品一区二区三区| 激情伊人五月天久久综合| 国产熟女91熟女| 亚洲午夜无码极品久久| 久久久久人妻精品一区二区三区| 亚洲欧洲美洲在线观看| 美女视频黄频大全免费| 国产女人在线视频| 亚州无码熟女| 欧美日韩美鲍| 国产丝袜视频一区二区三区| 人妻系列无码专区免费视频| 国产精品理论片| 欧美三级中文字幕在线观看| 亚洲欧美V| 免费观看国产小粉嫩喷水精品午.| 亚洲黄色精品| 亚洲精品无码不卡在线播he| 无码av在线播放| 欧美熟妇另类久久久久久多毛| 婷婷五月综合丁香在线| 亚洲色欲网| 熟女视频一区二区在线观看| 国产熟妇勾子乱视频| 91成人社区| 亚洲AV色香蕉一区二区蜜桃小说| 国产91在线播放免费| 丰满人妻熟妇乱又伦精品视| 最新精品露脸国产在线| 中文字幕少妇人妻精品|