![]()
![]()
用的時候還得重新算一遍,跟咱們考試前熬夜突擊,考場上卻死活想不起公式似的,純屬白瞎力氣。
這次DeepSeek和北大說,他們搞出個“記憶抽屜”,能讓模型該記的記牢、該算的算清,這話聽著就帶勁,咱得好好扒扒。
![]()
要說Engram為啥能解決Transformer的“健忘癥”,得先聊聊老架構的問題。
Transformer靠注意力機制干活,不管是記“戴安娜是威爾士王妃”這種固定知識,還是解“2+2=4”這種簡單題。
![]()
說純注意力模型在知識密集型任務里,參數真正用上的還不到30%,剩下的都在摸魚。
Engram的思路就簡單多了,把“死知識”和“活推理”拆開干。
![]()
![]()
就算重名也不怕找錯這招跟咱們給微信聯系人打“同事”“家人”“損友”多個備注一個道理,就是為了別認錯人。
![]()
Engram讓模型自己判斷,處理“張仲景”這種名人時,門控激活值飆到0.8以上,使勁翻記憶,解數學題這種推理活兒,激活值低于0.2,少動抽屜多動腦。
![]()
這設計挺像咱們考試時的策略,選擇題靠記憶秒答,大題才動筆算把力氣花在刀刃上。
設計聽著再牛,也得拿數據說話。
![]()
DeepSeek這次沒玩虛的,直接拿27B參數量的模型做實驗,跟傳統MoE架構硬碰硬計算量、參數量都一樣,就看誰能耐大,結果挺出人意料。
知識密集型任務里,MMLU分數從58.3提到61.3,CMMLU漲了4分,寫代碼的HumanEval從72.5到75.5,解數學題的GSM8K也漲了2.2分。
![]()
最讓我意外的是推理任務居然也漲了本來以為光顧著記東西,推理會拉胯,沒想到Engram把記東西省下來的算力,反而讓推理模塊更專注了。
就像咱們背單詞省了時間,就能多練幾道閱讀題,總成績自然上去了。
工程上還有個大亮點,顯存占用降了35%。
![]()
傳統大模型之所以難部署,很大原因是參數太占地方,得用貴價GPU扛著。
NVIDIA去年報告說,大模型部署成本里60%花在顯存上,這么一看,Engram這招簡直是給企業“減負”的神操作。
![]()
最好是MoE管動態推理(寫代碼、解邏輯題),Engram管靜態知識(名人、公式),二者配合著來。
這就像咱們團隊分工,有人管策劃,有人管執行,各司其職才能出活兒硬讓一個人干倆活兒,不崩才怪。
![]()
說到底,Engram模塊最牛的不是多了什么黑科技,而是換了個思路,大模型不一定非要堆參數,把“該記的記牢,該算的算清”,效率反而更高。
現在DeepSeekV4據說要集成這模塊,到時候咱們可能真得習慣,AI不再是“大力出奇跡”,而是“巧勁辦大事”。
畢竟,會記筆記的學霸,總比死刷題的學渣考得好,對吧?
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.