網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek技術(shù)：如何通過(guò)注意力機(jī)制提升AI智能？

2025-12-05 00:17:12　來(lái)源: 呂甒極限手工

四川舉報(bào)

分享至

11月27日，DeepSeek的DeepSeekMath-V2模型，在IMO2025測(cè)試中拿到了金牌水平，分?jǐn)?shù)比人類(lèi)歷史最高分還高。

更有意思的是，這模型還是目前唯一開(kāi)源開(kāi)放權(quán)重的IMO金牌級(jí)模型。

能在數(shù)學(xué)推理這種"燒腦"領(lǐng)域超過(guò)人類(lèi)頂尖水平，背后肯定不是拍腦袋搞出來(lái)的，而是攢了一整年的技術(shù)"大招"集中爆發(fā)。

今天咱們就來(lái)聊聊，這個(gè)讓AI在數(shù)學(xué)競(jìng)賽里"封神"的模型，到底藏著哪些不為人知的技術(shù)小心思。

要搞懂DeepSeekMath-V2為啥這么強(qiáng)，得先看看它的"前輩們"都練了哪些"內(nèi)功"。

今年2月，DeepSeek發(fā)過(guò)一篇關(guān)于注意力機(jī)制的論文，叫NativeSparseAttention（NSA）。

傳統(tǒng)的注意力機(jī)制就像撒網(wǎng)捕魚(yú)，不管有用沒(méi)用的信息全兜住，序列越長(zhǎng)計(jì)算量越夸張，簡(jiǎn)直是"吃力不討好"。

NSA就聰明多了，搞了個(gè)"動(dòng)態(tài)分層稀疏"，簡(jiǎn)單說(shuō)就是先粗篩一遍，再精挑細(xì)選，最后用滑動(dòng)窗口盯著最近的信息。

你猜怎么著？在64k長(zhǎng)度的序列上，解碼速度直接快了11倍多，前向傳播快9倍，反向傳播快6倍。

關(guān)鍵是速度快了，效果還沒(méi)降，反而略有提升。

袁境陽(yáng)團(tuán)隊(duì)靠這個(gè)拿了ACL2025最佳論文，他們的目標(biāo)更野，要把上下文長(zhǎng)度擴(kuò)展到100萬(wàn)。

光處理得快還不夠，怎么把這些信息存下來(lái)也是個(gè)大問(wèn)題。

這就輪到10月發(fā)布的OCR技術(shù)登場(chǎng)了，傳統(tǒng)存長(zhǎng)上下文就像往U盤(pán)里硬塞文件，塞多了要么卡要么丟。

DeepSeek的思路有點(diǎn)意思，把文本渲染成圖像，用視覺(jué)encoder壓縮。

實(shí)驗(yàn)結(jié)果挺驚喜，壓縮10倍的時(shí)候，解碼精度還能保持97%，就算壓到20倍，也有60%左右。

MITTechnologyReview評(píng)價(jià)這技術(shù)"可能找到了改善AI記憶的新方法"，確實(shí)沒(méi)夸張。

更絕的是它模擬人類(lèi)記憶衰減的設(shè)計(jì)，歷史圖像分辨率慢慢降低，就像咱們記東西，最近的事記得清，越老的事越模糊。

這種"聰明的忘記"比一股腦全記住實(shí)用多了，這思路比單純堆硬件存數(shù)據(jù)要巧多了。

除了處理和存儲(chǔ)上下文，DeepSeek在多模態(tài)能力上也沒(méi)閑著。

今年1月底，他們發(fā)布了Janus-Pro多模態(tài)模型，正好趕上R1引發(fā)全球關(guān)注那周。

這模型厲害在哪兒？能同時(shí)看懂圖像和生成圖像，就像既能看畫(huà)又能畫(huà)畫(huà)的全能選手。

傳統(tǒng)多模態(tài)模型經(jīng)常"精神分裂"，理解圖像要細(xì)節(jié)，生成圖像要?jiǎng)?chuàng)意，倆需求打架。

Janus-Pro搞了個(gè)"解耦視覺(jué)編碼"，兩條路各管一攤，共用一個(gè)Transformer主干，這下不打架了。

這技術(shù)不光解決了當(dāng)下的問(wèn)題，更重要的是驗(yàn)證了"一個(gè)大腦干多種活"的可行性，給未來(lái)通用智能體打了個(gè)好底子。

這些"內(nèi)功"練好了，終于在數(shù)學(xué)推理這個(gè)"硬仗"上派上了用場(chǎng)，這就是DeepSeekMath-V2的故事。

現(xiàn)在主流數(shù)學(xué)推理模型有點(diǎn)走偏了，被訓(xùn)練得只想著答對(duì)題，不管推理過(guò)程對(duì)不對(duì)。

就像有些學(xué)生考試靠蒙，答案對(duì)了但思路全錯(cuò)，老師一追問(wèn)就露餡。

用強(qiáng)化學(xué)習(xí)死磕最終答案正確率，結(jié)果模型寫(xiě)的推理過(guò)程可能漏洞比篩子還多。

這種模式對(duì)付有標(biāo)準(zhǔn)答案的題還行，遇到開(kāi)放問(wèn)題就抓瞎。

DeepSeekMath-V2換了個(gè)思路，搞了個(gè)"生成器-驗(yàn)證器"雙模型架構(gòu)。

你可以理解成，生成器負(fù)責(zé)寫(xiě)證明過(guò)程，就像學(xué)生做題，驗(yàn)證器負(fù)責(zé)當(dāng)老師，批改這個(gè)證明對(duì)不對(duì)、嚴(yán)不嚴(yán)謹(jǐn)，然后把意見(jiàn)反饋給生成器。

這樣一來(lái)，生成器不光要答對(duì)，還得寫(xiě)清楚"為什么對(duì)"。

不過(guò)這里有個(gè)難題，生成器寫(xiě)的證明有時(shí)候太繞，驗(yàn)證器看不懂，這就是"生成-驗(yàn)證差距"。

DeepSeek的辦法是"動(dòng)態(tài)擴(kuò)展驗(yàn)證計(jì)算"，遇到難驗(yàn)證的證明，就多花點(diǎn)計(jì)算資源仔細(xì)看，實(shí)在看不懂的，就自動(dòng)標(biāo)出來(lái)當(dāng)成新訓(xùn)練數(shù)據(jù)，讓驗(yàn)證器慢慢學(xué)。

就像老師遇到學(xué)生寫(xiě)的怪答案，先多看幾遍，實(shí)在不懂就記下來(lái)當(dāng)教學(xué)案例，下次就會(huì)了。

這種自我驗(yàn)證機(jī)制的價(jià)值可不小，首先，模型能自己發(fā)現(xiàn)推理問(wèn)題并修正，不用老等著人類(lèi)給標(biāo)準(zhǔn)答案。

以前模型學(xué)數(shù)學(xué)像照著答案抄作業(yè)，現(xiàn)在能自己檢查作業(yè)了。

擺脫了對(duì)外部標(biāo)準(zhǔn)答案的依賴(lài)，這對(duì)解決開(kāi)放問(wèn)題太重要了，現(xiàn)實(shí)世界里很多問(wèn)題根本沒(méi)有標(biāo)準(zhǔn)答案，總不能一直等著人來(lái)教吧？這步棋走得比單純提高正確率有遠(yuǎn)見(jiàn)多了。

這些技術(shù)拼到一起，你會(huì)發(fā)現(xiàn)DeepSeek不是在瞎搞。

NSA解決長(zhǎng)上下文處理效率，OCR解決存儲(chǔ)效率，倆技術(shù)湊一塊，指向的是百萬(wàn)級(jí)甚至更長(zhǎng)的上下文窗口，Janus-Pro的多模態(tài)能力是通用智能體的基礎(chǔ)設(shè)施。

各項(xiàng)技術(shù)不是孤立的，而是一套有內(nèi)在聯(lián)系的組合拳。

未來(lái)的大模型會(huì)往哪兒走？在線(xiàn)強(qiáng)化學(xué)習(xí)肯定是個(gè)重要方向。

簡(jiǎn)單說(shuō)就是模型能邊用邊學(xué)，實(shí)時(shí)跟環(huán)境互動(dòng)、獲取反饋、更新策略。

R1靠純強(qiáng)化學(xué)習(xí)突破推理能力，R1-Zero證明了用固定習(xí)題就能練出強(qiáng)模型，這些都在說(shuō)明"邊做邊學(xué)"比"一次性喂飽"更高效。

DeepSeek的各項(xiàng)技術(shù)其實(shí)都在為這個(gè)方向鋪路，自我驗(yàn)證機(jī)制讓模型能自己找錯(cuò)，動(dòng)態(tài)擴(kuò)展計(jì)算讓模型能根據(jù)問(wèn)題難度調(diào)整努力程度，多模態(tài)能力讓模型能跟更復(fù)雜的環(huán)境互動(dòng)。

現(xiàn)在的DeepSeekMath-V2已經(jīng)邁出了第一步，未來(lái)要是把這些技術(shù)全整合好，再加上開(kāi)源這個(gè)大優(yōu)勢(shì)，說(shuō)不定真能讓AI在通用智能的路上走得更穩(wěn)。

畢竟，聰明的AI不光要會(huì)做題，更要學(xué)會(huì)怎么自己變得更聰明，這大概就是DeepSeek想告訴我們的事。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.