<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 新論文或「泄密」V4 殺手锏:一招突破瓶頸,居然把 CPU 當 GPU 用?

      0
      分享至

      據稱 V4 在代碼任務上的表現已超越 Anthropic 的 Claude 系列以及 OpenAI 的 GPT 系列。

      雖然官方仍保持神秘,但 DeepSeek 近期密集發布的論文或許已經初現端倪。

      就在昨晚,DeepSeek 聯合北京大學 發布了一篇名為《Conditional Memory via Scalable Lookup》的新論文,梁文鋒也再次署名。


      Engram 或許是 V4 強大能力的「技術底牌」之一。

      那它能否驗證傳聞:V4 在處理超長代碼項目和復雜邏輯推理上取得了重大突破,且解決了模型越練越「糊涂」的性能衰退難題?

      論文傳送門:

      https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      你的大模型,其實一直在「笨拙」地計算

      當你問 ChatGPT「莎士比亞的全名是什么」時,它并不是從某個知識庫里直接調取答案。相反,它需要動用多層神經網絡,通過復雜的矩陣運算,逐層「拼湊」出這個答案。

      論文用了一個更具體的例子:當模型遇到「Diana, Princess of Wales」時,需要消耗前 6 層網絡才能完成識別。第 1 到 2 層只能理解這是「Wales」,第 3 層才意識到這是「Princess of Wales」,直到第 6 層才最終確認這是「戴安娜王妃」。


      DeepSeek 的研究員在 Engram 論文中指出:這種靠「深度計算」來模擬「記憶檢索」的過程,極大地浪費了模型寶貴的腦力(推理能力)。

      如果 V4 真如爆料所說「代碼能力吊打全場」,那么它一定解決了這個問題——因為代碼中包含大量固定的語法和套路,沒必要每次都去「推理」一遍。

      給 AI 掛上「超級字典」

      為了解決這個問題,DeepSeek 在論文中進行了一波「技術復古」。

      既然有些知識是固定不變的,為什么不直接把它們存儲起來,需要時直接查詢,而不是每次都重新計算?

      他們把 NLP 領域最古老的N-gram(N元語法)請了回來,并改造成了現代化的Engram 模塊


      它通過哈希函數將局部上下文映射到一個巨大的嵌入表中。當模型遇到「Alexander the Great」這樣的固定短語時,不再需要多層網絡逐步理解,而是直接從記憶庫中提取對應的語義向量。


      為了處理「不同詞匯映射到同一位置」和「同一詞匯在不同語境下意義不同」帶來的干擾,團隊引入了上下文感知的門控機制(Context-aware Gating)。用當前的隱藏狀態作為查詢向量,對檢索結果進行動態調制。如果檢索到的內容與當前上下文不匹配,門控值會接近零,有效抑制噪聲。

      在處理「Only Alexander the Great could tame the horse Bucephalus」這句話時,Engram 的門控激活熱力圖顯示,模型在遇到「the Great」和「Bucephalus」時出現明顯的激活峰值,說明它成功識別并檢索了這些固定實體的語義表示。


      這或許解釋了為什么 V4 的代碼能力會大幅提升: Engram 就像是給程序員配了一個超級 IDE,自動補全了所有的固定語法,讓模型的大腦只需要專注于「如何解題」,而不是「怎么寫分號」。

      把 CPU 內存條變成「顯存」

      除了讓模型變聰明,Engram 這篇論文里最讓開發者和中小企業興奮的是:GPU顯存不再是模型規模瓶頸 。DeepSeek 正在嘗試用便宜量大的CPU內存(DRAM),去替代昂貴稀缺的GPU顯存(HBM)。

      傳統的 MoE 模型是動態路由的,模型必須算完這一層,算出結果數值,才能決定下一層該去哪個專家那里計算。這叫「走一步看一步」,數據根本來不及提前準備。

      而 Engram 的檢索邏輯則完全由輸入 token 序列決定。一旦看到輸入文本,就能立即計算出需要訪問哪些嵌入向量,無需等待中間層的計算結果。

      這種「計算與傳輸重疊(Overlap)」的技術,完美掩蓋了 CPU 內存讀取慢的缺陷。

      實驗證明了這一策略的可行性。他們構建了一個 1000億參數(100B) 的巨型 Engram 詞表,并且把這部分參數完全扔到了 CPU 內存里(注意,一點都不占用寶貴的顯存)。

      在實際推理測試中,相比于純 GPU 運行,整體吞吐量的損耗竟然小于 3%,這在工業部署中幾乎可以忽略不計。

      以前你想跑千億參數模型,可能需要幾張 A100 (80G)。現在,你可能只需要一張消費級顯卡負責計算,再插上幾根便宜的 64GB 內存條負責存知識,就能跑起來。

      這下不用擔心英偉達、AMD 在 2026 年上調 GPU 價格了。

      還想讓模型學會最新的法律條文或醫療數據?不需要重新訓練龐大的神經網絡,只需要在 CPU 內存里「外掛」一個新的 Engram 表。對于垂直行業應用,這意味著維護成本的指數級下降。

      因為語言符合二八定律,常用的詞很少,未來的 DeepSeek 模型可能會這樣運行:熱知識放在 GPU 顯存光速響應,溫知識放在 CPU 內存毫秒級預取,冷知識甚至可以放在固態硬盤里。這意味著,原本只能存幾百億參數的硬件,理論上可以外掛幾萬億參數的超大知識庫,而且成本極低。

      過去我們認為模型規模受限于 GPU 集群的顯存總量,Engram 證明了只要設計得當,廉價的主機內存也能成為模型容量的有效載體。這為未來的超大規模模型部署打開了新的可能性。

      實驗數據驗證 V4 傳聞

      回到 V4 的爆料,The Information 提到新模型在「長代碼處理」和「邏輯條理性」有質的飛躍。有趣的是,Engram 論文里的實驗數據印證了這個說法。

      在知識密集型任務上,Engram-27B 相比 MoE-27B 在 MMLU 上提升 3.4 分,CMMLU 提升 4.0 分。這符合預期,畢竟 Engram 本就是為知識檢索設計的。

      但真正出人意料的是推理能力的飛躍。在 BigBench Hard 上提升了 5.0 分,ARC-Challenge 提升 3.7 分,DROP 提升 3.3 分。代碼和數學領域同樣顯著,HumanEval 提升 3.0 分,MATH 提升 2.4 分,GSM8K 提升 2.2 分。


      長文本能力的提升同樣驚人。在 32k 上下文窗口的 RULER 基準測試中,Engram-27B 在多查詢 Needle-in-a-Haystack 任務上的準確率從 84.2% 躍升至 97.0%,變量追蹤任務從 77.0% 提升到 89.0%。這是因為通過查詢處理局部依賴,注意力機制被解放出來專注于全局上下文建模。


      通過對模型內部的「CT 掃描」,研究人員發現:因為 Engram 在淺層就搞定了死記硬背的工作,模型原本被占用的深層網絡被「解放」了。這就像把背書的時間省下來,全拿去刷奧數題,智商能不漲嗎?這與爆料中提到的「V4 回答更有條理、推理更強」不謀而合。

      DeepSeek 的野心不止于「大」

      從 R1 的 86 頁技術報告,到 mHC 架構,再到今天的 Engram 記憶模塊,DeepSeek 的節奏明顯加快。

      如果說 OpenAI 在探索 Scale Law(規模定律)的極限,那么 DeepSeek 似乎正在瘋狂挖掘Architecture Efficiency(架構效率)的金礦。他們希望用更巧妙的結構讓模型「吃得少、干得多」。

      春節將至,DeepSeek V4 是否會帶著這些「硬核技術」再次血洗榜單?

      讓我們拭目以待。至少從這篇論文來看,他們的「軍火庫」里,確實還有不少好東西。

      歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      軍媒發出最強音:臺灣問題不容再拖,戰火絕不能留給下一代!

      軍媒發出最強音:臺灣問題不容再拖,戰火絕不能留給下一代!

      阿紿聊社會
      2026-01-25 05:41:13
      汪小菲寒假帶倆娃回北京!蘭姐大清早去買吃的喝的,迎接玥兒箖箖

      汪小菲寒假帶倆娃回北京!蘭姐大清早去買吃的喝的,迎接玥兒箖箖

      孫镴北漂拍客
      2026-01-24 23:26:31
      經濟下行,2026年、2027年、2028年這三年,六大忠告要記牢!

      經濟下行,2026年、2027年、2028年這三年,六大忠告要記牢!

      深度報
      2026-01-20 22:16:48
      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      勁爆體壇
      2026-01-23 13:18:04
      貴州大方縣滑坡致19人死亡失蹤,調查報告公布

      貴州大方縣滑坡致19人死亡失蹤,調查報告公布

      新快報新聞
      2026-01-24 21:11:03
      失戀2小時發生關系,7天后拉黑對方,8年后找上門:這結局太狗血

      失戀2小時發生關系,7天后拉黑對方,8年后找上門:這結局太狗血

      周哥一影視
      2026-01-25 06:07:07
      杜鋒:比賽贏了但有幾名隊員血灑賽場;休賽期想過引進葛昭寶

      杜鋒:比賽贏了但有幾名隊員血灑賽場;休賽期想過引進葛昭寶

      懂球帝
      2026-01-24 23:45:50
      香菇再次被關注!醫生發現:癌癥患者吃香菇,不過多久或有3變化

      香菇再次被關注!醫生發現:癌癥患者吃香菇,不過多久或有3變化

      牛鍋巴小釩
      2026-01-24 15:42:36
      雙色球再現“順子尾號”?井噴出現32注大獎,彩民:這運氣太假?

      雙色球再現“順子尾號”?井噴出現32注大獎,彩民:這運氣太假?

      復轉這些年
      2026-01-24 23:56:50
      “特朗普全天都在聽簡報”!超級風暴來襲,覆蓋大半個美國,氣溫或低至-46℃,華盛頓進入緊急狀態!民眾狂囤物資,超市貨架被搶空

      “特朗普全天都在聽簡報”!超級風暴來襲,覆蓋大半個美國,氣溫或低至-46℃,華盛頓進入緊急狀態!民眾狂囤物資,超市貨架被搶空

      每日經濟新聞
      2026-01-24 12:14:13
      李昊無緣金手套!6戰33次撲救,492分鐘0失球,決賽連丟4球

      李昊無緣金手套!6戰33次撲救,492分鐘0失球,決賽連丟4球

      奧拜爾
      2026-01-25 01:20:58
      鄭州一26歲女子失聯5日仍未找到,監控顯示她最后出現在賈魯河附近,哥哥:她曾留下一封信

      鄭州一26歲女子失聯5日仍未找到,監控顯示她最后出現在賈魯河附近,哥哥:她曾留下一封信

      極目新聞
      2026-01-24 15:54:19
      楊鶴涉嫌嚴重違紀被立案調查

      楊鶴涉嫌嚴重違紀被立案調查

      能靜居主人
      2025-12-01 10:52:55
      看了國晟科技維權群,終于理解了韭菜的宿命!

      看了國晟科技維權群,終于理解了韭菜的宿命!

      大財可富司機
      2026-01-24 22:21:18
      美國華人直言:中國手機掃碼支付是最不智能的發明!

      美國華人直言:中國手機掃碼支付是最不智能的發明!

      阿傖說事
      2026-01-20 12:53:01
      江蘇一工程延期因挖到“7000年遺址”?相關部門回應

      江蘇一工程延期因挖到“7000年遺址”?相關部門回應

      大象新聞
      2026-01-24 17:37:10
      剛剛!特朗普,重磅宣布!

      剛剛!特朗普,重磅宣布!

      米筐投資
      2026-01-24 07:09:33
      特朗普,會在春天來訪嗎?

      特朗普,會在春天來訪嗎?

      中國新聞周刊
      2026-01-24 10:51:34
      高燒39度、多人流淚!安東尼奧:揭開感人細節,賽后一幕令人動容

      高燒39度、多人流淚!安東尼奧:揭開感人細節,賽后一幕令人動容

      話體壇
      2026-01-25 06:43:00
      罕見!25年來第一次,中國退居全球第三,背后信號很不尋常

      罕見!25年來第一次,中國退居全球第三,背后信號很不尋常

      芳芳歷史燴
      2026-01-23 19:42:45
      2026-01-25 07:20:49
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6033文章數 26745關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      旅游
      教育
      游戲
      本地
      軍事航空

      旅游要聞

      搜索量飆升!巴西免簽,引爆中國游客春節出游熱情

      教育要聞

      電氣工程選科別慌!物理化學是關鍵

      《輪回之獸》的優化不會像《寶可夢》系列那樣差

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      軍事要聞

      俄美烏首次三方會談在阿聯酋舉行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久婷婷五月综合色欧美| 国产成人久久婷婷精品流白浆| 手机看片1024人妻| 国产日韩精品视频无码| 国产精品久久久久久久久久直播| 无码日韩精品一区二区人妻| www.亚洲精品长腿丝袜| 亚洲av成人午夜福利| 无码人妻精品一区二区在线视频| 2021av在线| 好吊妞人成视频在线观看| 成熟丰满熟妇高潮xxxxx视频| 崇州市| 97人妻天天摸天天爽天天| 东京热大乱w姦| 色噜噜AV亚洲色一区二区| 成人AV专区精品无码国产 | 伊人五月久久1区| 国模在线| 无码h片在线观看网站| 97人伦色伦成人免费视频| 48久久国产精品性色aⅴ人妻| 成人精品一区二区三区在线观看| 国产a网站| 日韩在线播放欧美字幕| 国产愉拍精品手机| 国产va在线播放| 亚洲做第3页| 专区国产无码| 成人综合色图| 亚洲网友自拍| 日韩av裸体在线播放| 亚洲123| 久久99精品国产麻豆婷婷| 中文无码人妻有码人妻中文字幕| 亚洲中文字幕无码中文字在线| 国产成人精品一区二三区在线观看| 疏附县| 国产午夜大地久久| 国产精品久久久影院色| 久久精人人妻一区二区三区|