![]()
11月27日,DeepSeek的DeepSeekMath-V2模型,在IMO2025測(cè)試中拿到了金牌水平,分?jǐn)?shù)比人類(lèi)歷史最高分還高。
更有意思的是,這模型還是目前唯一開(kāi)源開(kāi)放權(quán)重的IMO金牌級(jí)模型。
能在數(shù)學(xué)推理這種"燒腦"領(lǐng)域超過(guò)人類(lèi)頂尖水平,背后肯定不是拍腦袋搞出來(lái)的,而是攢了一整年的技術(shù)"大招"集中爆發(fā)。
今天咱們就來(lái)聊聊,這個(gè)讓AI在數(shù)學(xué)競(jìng)賽里"封神"的模型,到底藏著哪些不為人知的技術(shù)小心思。
![]()
要搞懂DeepSeekMath-V2為啥這么強(qiáng),得先看看它的"前輩們"都練了哪些"內(nèi)功"。
今年2月,DeepSeek發(fā)過(guò)一篇關(guān)于注意力機(jī)制的論文,叫NativeSparseAttention(NSA)。
傳統(tǒng)的注意力機(jī)制就像撒網(wǎng)捕魚(yú),不管有用沒(méi)用的信息全兜住,序列越長(zhǎng)計(jì)算量越夸張,簡(jiǎn)直是"吃力不討好"。
NSA就聰明多了,搞了個(gè)"動(dòng)態(tài)分層稀疏",簡(jiǎn)單說(shuō)就是先粗篩一遍,再精挑細(xì)選,最后用滑動(dòng)窗口盯著最近的信息。
![]()
你猜怎么著?在64k長(zhǎng)度的序列上,解碼速度直接快了11倍多,前向傳播快9倍,反向傳播快6倍。
關(guān)鍵是速度快了,效果還沒(méi)降,反而略有提升。
袁境陽(yáng)團(tuán)隊(duì)靠這個(gè)拿了ACL2025最佳論文,他們的目標(biāo)更野,要把上下文長(zhǎng)度擴(kuò)展到100萬(wàn)。
光處理得快還不夠,怎么把這些信息存下來(lái)也是個(gè)大問(wèn)題。
這就輪到10月發(fā)布的OCR技術(shù)登場(chǎng)了,傳統(tǒng)存長(zhǎng)上下文就像往U盤(pán)里硬塞文件,塞多了要么卡要么丟。
DeepSeek的思路有點(diǎn)意思,把文本渲染成圖像,用視覺(jué)encoder壓縮。
![]()
實(shí)驗(yàn)結(jié)果挺驚喜,壓縮10倍的時(shí)候,解碼精度還能保持97%,就算壓到20倍,也有60%左右。
MITTechnologyReview評(píng)價(jià)這技術(shù)"可能找到了改善AI記憶的新方法",確實(shí)沒(méi)夸張。
更絕的是它模擬人類(lèi)記憶衰減的設(shè)計(jì),歷史圖像分辨率慢慢降低,就像咱們記東西,最近的事記得清,越老的事越模糊。
這種"聰明的忘記"比一股腦全記住實(shí)用多了,這思路比單純堆硬件存數(shù)據(jù)要巧多了。
除了處理和存儲(chǔ)上下文,DeepSeek在多模態(tài)能力上也沒(méi)閑著。
今年1月底,他們發(fā)布了Janus-Pro多模態(tài)模型,正好趕上R1引發(fā)全球關(guān)注那周。
這模型厲害在哪兒?能同時(shí)看懂圖像和生成圖像,就像既能看畫(huà)又能畫(huà)畫(huà)的全能選手。
![]()
傳統(tǒng)多模態(tài)模型經(jīng)常"精神分裂",理解圖像要細(xì)節(jié),生成圖像要?jiǎng)?chuàng)意,倆需求打架。
Janus-Pro搞了個(gè)"解耦視覺(jué)編碼",兩條路各管一攤,共用一個(gè)Transformer主干,這下不打架了。
這技術(shù)不光解決了當(dāng)下的問(wèn)題,更重要的是驗(yàn)證了"一個(gè)大腦干多種活"的可行性,給未來(lái)通用智能體打了個(gè)好底子。
這些"內(nèi)功"練好了,終于在數(shù)學(xué)推理這個(gè)"硬仗"上派上了用場(chǎng),這就是DeepSeekMath-V2的故事。
![]()
現(xiàn)在主流數(shù)學(xué)推理模型有點(diǎn)走偏了,被訓(xùn)練得只想著答對(duì)題,不管推理過(guò)程對(duì)不對(duì)。
就像有些學(xué)生考試靠蒙,答案對(duì)了但思路全錯(cuò),老師一追問(wèn)就露餡。
用強(qiáng)化學(xué)習(xí)死磕最終答案正確率,結(jié)果模型寫(xiě)的推理過(guò)程可能漏洞比篩子還多。
這種模式對(duì)付有標(biāo)準(zhǔn)答案的題還行,遇到開(kāi)放問(wèn)題就抓瞎。
DeepSeekMath-V2換了個(gè)思路,搞了個(gè)"生成器-驗(yàn)證器"雙模型架構(gòu)。
你可以理解成,生成器負(fù)責(zé)寫(xiě)證明過(guò)程,就像學(xué)生做題,驗(yàn)證器負(fù)責(zé)當(dāng)老師,批改這個(gè)證明對(duì)不對(duì)、嚴(yán)不嚴(yán)謹(jǐn),然后把意見(jiàn)反饋給生成器。
這樣一來(lái),生成器不光要答對(duì),還得寫(xiě)清楚"為什么對(duì)"。
![]()
不過(guò)這里有個(gè)難題,生成器寫(xiě)的證明有時(shí)候太繞,驗(yàn)證器看不懂,這就是"生成-驗(yàn)證差距"。
DeepSeek的辦法是"動(dòng)態(tài)擴(kuò)展驗(yàn)證計(jì)算",遇到難驗(yàn)證的證明,就多花點(diǎn)計(jì)算資源仔細(xì)看,實(shí)在看不懂的,就自動(dòng)標(biāo)出來(lái)當(dāng)成新訓(xùn)練數(shù)據(jù),讓驗(yàn)證器慢慢學(xué)。
就像老師遇到學(xué)生寫(xiě)的怪答案,先多看幾遍,實(shí)在不懂就記下來(lái)當(dāng)教學(xué)案例,下次就會(huì)了。
這種自我驗(yàn)證機(jī)制的價(jià)值可不小,首先,模型能自己發(fā)現(xiàn)推理問(wèn)題并修正,不用老等著人類(lèi)給標(biāo)準(zhǔn)答案。
以前模型學(xué)數(shù)學(xué)像照著答案抄作業(yè),現(xiàn)在能自己檢查作業(yè)了。
![]()
擺脫了對(duì)外部標(biāo)準(zhǔn)答案的依賴(lài),這對(duì)解決開(kāi)放問(wèn)題太重要了,現(xiàn)實(shí)世界里很多問(wèn)題根本沒(méi)有標(biāo)準(zhǔn)答案,總不能一直等著人來(lái)教吧?這步棋走得比單純提高正確率有遠(yuǎn)見(jiàn)多了。
這些技術(shù)拼到一起,你會(huì)發(fā)現(xiàn)DeepSeek不是在瞎搞。
NSA解決長(zhǎng)上下文處理效率,OCR解決存儲(chǔ)效率,倆技術(shù)湊一塊,指向的是百萬(wàn)級(jí)甚至更長(zhǎng)的上下文窗口,Janus-Pro的多模態(tài)能力是通用智能體的基礎(chǔ)設(shè)施。
各項(xiàng)技術(shù)不是孤立的,而是一套有內(nèi)在聯(lián)系的組合拳。
未來(lái)的大模型會(huì)往哪兒走?在線(xiàn)強(qiáng)化學(xué)習(xí)肯定是個(gè)重要方向。
簡(jiǎn)單說(shuō)就是模型能邊用邊學(xué),實(shí)時(shí)跟環(huán)境互動(dòng)、獲取反饋、更新策略。
![]()
R1靠純強(qiáng)化學(xué)習(xí)突破推理能力,R1-Zero證明了用固定習(xí)題就能練出強(qiáng)模型,這些都在說(shuō)明"邊做邊學(xué)"比"一次性喂飽"更高效。
DeepSeek的各項(xiàng)技術(shù)其實(shí)都在為這個(gè)方向鋪路,自我驗(yàn)證機(jī)制讓模型能自己找錯(cuò),動(dòng)態(tài)擴(kuò)展計(jì)算讓模型能根據(jù)問(wèn)題難度調(diào)整努力程度,多模態(tài)能力讓模型能跟更復(fù)雜的環(huán)境互動(dòng)。
現(xiàn)在的DeepSeekMath-V2已經(jīng)邁出了第一步,未來(lái)要是把這些技術(shù)全整合好,再加上開(kāi)源這個(gè)大優(yōu)勢(shì),說(shuō)不定真能讓AI在通用智能的路上走得更穩(wěn)。
![]()
畢竟,聰明的AI不光要會(huì)做題,更要學(xué)會(huì)怎么自己變得更聰明,這大概就是DeepSeek想告訴我們的事。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.