網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek回應(yīng)消失傳聞，發(fā)布DeepSeek V3.2模型

2025-12-02 21:59:08　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

2025年接近尾聲，全球頂尖AI大廠開始上演神仙打架，OpenAI發(fā)布GPT 5.1，Google發(fā)布Gemini 3和Nano Banana 2，阿里發(fā)布千問APP......

上周，X上的一位路人網(wǎng)友突然意識(shí)到，年初的神DeepSeek去哪了？他不經(jīng)意地感嘆：“哥們兒消失得像從來沒有存在過。”，帖子瀏覽量飆升到530萬，看來不止他一個(gè)人這么想。

昨天DeepSeek突然開源DeepSeek-V3.2正式版，終結(jié)了消失流言。DeepSeek-V3.2 模型參數(shù)685B，首次將思考融入工具使用。它的高配版本DeepSeek-V3.2-Speciale，在2025年國際數(shù)學(xué)奧林匹克競(jìng)賽和國際信息學(xué)奧林匹克競(jìng)賽中都達(dá)到了金牌水平。模型文件和技術(shù)報(bào)告已在魔搭社區(qū)和Huggingface開源。

換做是OpenAI，在GPT 5 未發(fā)布期間，Sam Altman長(zhǎng)期多次發(fā)帖暗示GPT 5將要發(fā)布，根本不存在消失的可能。

你更欣賞OpenAI的風(fēng)格，還是DeepSeek的低調(diào)和開源？

下面一起來看看DeepSeek-V3.2技術(shù)報(bào)告有哪些重要發(fā)現(xiàn)。

開源與閉源之爭(zhēng)：一場(chǎng)關(guān)于AI民主化的較量

假如有一場(chǎng)廚神爭(zhēng)霸賽。閉源AI公司就像是那些擁有米其林三星廚房、頂級(jí)食材和專業(yè)團(tuán)隊(duì)的餐廳，而開源社區(qū)則像是一群熱愛烹飪的家庭廚師，他們只能用普通超市的食材和家用廚具。長(zhǎng)期以來，這兩類選手之間的差距一直在擴(kuò)大，專業(yè)餐廳做出的菜品越來越精致，而家庭廚師們雖然努力追趕，但似乎總是差那么一口氣。

DeepSeek團(tuán)隊(duì)的研究人員仔細(xì)分析了這種差距的根源，發(fā)現(xiàn)了三個(gè)關(guān)鍵問題。第一個(gè)問題出在"廚具"上，也就是模型的架構(gòu)。傳統(tǒng)的注意力機(jī)制就像是一口需要同時(shí)加熱所有食材的大鍋，當(dāng)食材（也就是處理的文本）越來越多時(shí)，這口鍋就變得越來越難以駕馭，效率急劇下降。第二個(gè)問題在于"烹飪時(shí)間"，開源模型在訓(xùn)練后期投入的計(jì)算資源遠(yuǎn)遠(yuǎn)不夠，就像一道需要慢火燉煮三小時(shí)的菜，卻只給了三十分鐘。第三個(gè)問題則體現(xiàn)在"廚藝技巧"上，當(dāng)AI需要像人類助手一樣使用各種工具完成復(fù)雜任務(wù)時(shí)，開源模型的表現(xiàn)明顯遜色于閉源對(duì)手。

智能"閃電俠"：讓AI學(xué)會(huì)聰明地選擇關(guān)注點(diǎn)

為了解決第一個(gè)問題，DeepSeek團(tuán)隊(duì)發(fā)明了一種叫做"DeepSeek稀疏注意力"（簡(jiǎn)稱DSA）的新技術(shù)。要理解這項(xiàng)技術(shù)，我們可以想象一個(gè)正在閱讀《紅樓夢(mèng)》的讀者。傳統(tǒng)的AI在處理文本時(shí)，就像一個(gè)強(qiáng)迫癥患者，每讀到一個(gè)新字，都要回頭把前面所有的字都重新看一遍，確認(rèn)它們之間的關(guān)系。當(dāng)文章只有幾百字時(shí)，這種做法還能接受；但當(dāng)面對(duì)一部百萬字的巨著時(shí)，這種方法就變得荒謬至極，每讀一個(gè)新字就要重溫前面所有內(nèi)容，效率低得令人發(fā)指。

DSA的解決方案非常巧妙，它引入了一個(gè)"閃電索引器"。這個(gè)索引器就像是一位經(jīng)驗(yàn)豐富的圖書管理員，當(dāng)你問他某本書的內(nèi)容時(shí)，他不需要把圖書館里所有書都翻一遍，而是憑借多年積累的經(jīng)驗(yàn)，迅速定位到最相關(guān)的幾本書。具體來說，這個(gè)閃電索引器會(huì)快速掃描所有之前的文本內(nèi)容，然后給每一段內(nèi)容打一個(gè)"相關(guān)性分?jǐn)?shù)"。接下來，AI只需要仔細(xì)關(guān)注那些得分最高的內(nèi)容，而不是把所有內(nèi)容都同等對(duì)待。

這種方法的效果立竿見影。打個(gè)比方，如果原來的方法需要把一本書的每一頁都仔細(xì)讀一遍才能回答問題，那么新方法只需要翻到最相關(guān)的幾頁就夠了。在數(shù)學(xué)上，這意味著計(jì)算復(fù)雜度從"文本長(zhǎng)度的平方"變成了"文本長(zhǎng)度乘以一個(gè)固定的小數(shù)字"。對(duì)于128K長(zhǎng)度的文本（大約相當(dāng)于一本中等厚度的小說），這種優(yōu)化帶來的效率提升是驚人的。

為了讓這個(gè)"閃電索引器"真正發(fā)揮作用，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精妙的兩階段訓(xùn)練過程。第一階段叫做"熱身"，就像是讓一個(gè)新來的圖書管理員先熟悉圖書館的布局。在這個(gè)階段，AI保持原來的"全部閱讀"模式不變，但同時(shí)讓閃電索引器在旁邊學(xué)習(xí)：哪些內(nèi)容是真正重要的，哪些可以快速跳過。這個(gè)過程只用了大約20億個(gè)文字符號(hào)的訓(xùn)練量。第二階段則是"實(shí)戰(zhàn)訓(xùn)練"，AI開始真正使用閃電索引器來選擇關(guān)注點(diǎn)，整個(gè)系統(tǒng)一起優(yōu)化磨合。這個(gè)階段使用了將近9440億個(gè)文字符號(hào)的訓(xùn)練數(shù)據(jù)，讓系統(tǒng)徹底適應(yīng)了新的工作方式。

給AI打"雞血"：強(qiáng)化學(xué)習(xí)的藝術(shù)

解決了效率問題后，接下來要攻克的是如何讓AI變得更聰明。DeepSeek團(tuán)隊(duì)采用的核心方法叫做"群體相對(duì)策略優(yōu)化"，簡(jiǎn)稱GRPO。原理可以用一個(gè)簡(jiǎn)單的比喻來理解。

想象你正在訓(xùn)練一群小狗完成特定的任務(wù)，比如找到藏在房間里的玩具。傳統(tǒng)的訓(xùn)練方法是：每次小狗完成任務(wù)后，根據(jù)它的表現(xiàn)給予獎(jiǎng)勵(lì)或懲罰。但問題在于，任務(wù)的難度可能每次都不同，有時(shí)候玩具藏得很隱蔽，有時(shí)候又很明顯。如果只是簡(jiǎn)單地根據(jù)"找到還是沒找到"來獎(jiǎng)懲，小狗可能會(huì)困惑：為什么同樣找到了玩具，有時(shí)候被夸獎(jiǎng)，有時(shí)候卻只是勉強(qiáng)過關(guān)？

GRPO的聰明之處在于，它讓多只小狗同時(shí)嘗試同一個(gè)任務(wù)，然后比較它們的表現(xiàn)。表現(xiàn)最好的那只得到額外獎(jiǎng)勵(lì)，表現(xiàn)最差的則受到批評(píng)，而中間的則根據(jù)相對(duì)位置獲得相應(yīng)的反饋。這樣一來，AI學(xué)到的就不是"做到某個(gè)絕對(duì)標(biāo)準(zhǔn)就好"，而是"要比其他嘗試做得更好"。這種相對(duì)比較的方式更加公平，也更有效。

然而，讓強(qiáng)化學(xué)習(xí)真正大規(guī)模運(yùn)轉(zhuǎn)起來，就像是組織一場(chǎng)幾萬人參加的馬拉松比賽，說起來簡(jiǎn)單，做起來卻有無數(shù)細(xì)節(jié)需要處理。DeepSeek團(tuán)隊(duì)分享了他們?cè)谶@個(gè)過程中踩過的坑和找到的解決方案。

第一個(gè)挑戰(zhàn)是"估算偏差"問題。在強(qiáng)化學(xué)習(xí)中，AI需要不斷估算自己的行為離"理想狀態(tài)"有多遠(yuǎn)。原來的估算方法在某些情況下會(huì)出現(xiàn)嚴(yán)重偏差，就像一把校準(zhǔn)不準(zhǔn)的尺子，量出來的長(zhǎng)度總是差那么一點(diǎn)點(diǎn)。這些小誤差會(huì)不斷累積，最終讓整個(gè)訓(xùn)練過程變得不穩(wěn)定。團(tuán)隊(duì)通過引入一種叫做"無偏KL估計(jì)"的方法修正了這個(gè)問題，就像是重新校準(zhǔn)了那把尺子。

第二個(gè)挑戰(zhàn)來自"過時(shí)樣本"。在實(shí)際訓(xùn)練中，AI需要先生成一大批嘗試，然后再從中學(xué)習(xí)。但問題是，當(dāng)AI開始學(xué)習(xí)這些樣本時(shí)，它自己已經(jīng)發(fā)生了變化，就像你在周一寫了一篇作文，到周五才收到老師的批改，但這幾天里你的寫作水平已經(jīng)提高了，老師的批改建議可能已經(jīng)不那么適用了。更糟糕的是，如果AI從一些"特別糟糕"的過時(shí)樣本中學(xué)習(xí)，可能會(huì)學(xué)到錯(cuò)誤的教訓(xùn)。團(tuán)隊(duì)的解決方案是：對(duì)于那些表現(xiàn)糟糕且已經(jīng)嚴(yán)重過時(shí)的樣本，直接忽略不學(xué)。這就像是告訴AI："這個(gè)建議已經(jīng)過時(shí)了，我們跳過它吧。"

第三個(gè)挑戰(zhàn)與模型架構(gòu)有關(guān)。DeepSeek-V3.2使用了一種叫做"專家混合"的架構(gòu)，這意味著模型內(nèi)部有很多"小專家"，每次只激活其中一部分來處理任務(wù)。問題在于，在生成樣本和學(xué)習(xí)樣本時(shí)，可能會(huì)激活不同的專家組合，導(dǎo)致學(xué)到的東西和實(shí)際應(yīng)用時(shí)的情況不匹配。團(tuán)隊(duì)的解決方案很直接：記住生成每個(gè)樣本時(shí)使用了哪些專家，學(xué)習(xí)時(shí)也使用同樣的專家組合。

教會(huì)AI使用工具：從"書呆子"到"全能助手"

一個(gè)真正有用的AI助手不僅要能回答問題，還要能使用各種工具完成實(shí)際任務(wù)，比如搜索網(wǎng)頁、編寫代碼、操作文件系統(tǒng)等。這就好比一個(gè)學(xué)生，僅僅考試成績(jī)好是不夠的，還要學(xué)會(huì)使用計(jì)算器、查字典、上網(wǎng)檢索資料等實(shí)用技能。

DeepSeek團(tuán)隊(duì)面臨的挑戰(zhàn)是：如何讓AI在使用工具的同時(shí)保持深度思考能力？之前的方法要求AI每次調(diào)用工具后都要"從頭開始思考"，就像一個(gè)人每打一次電話就要忘記之前想好的所有計(jì)劃，然后重新規(guī)劃。這顯然是極大的浪費(fèi)。

團(tuán)隊(duì)設(shè)計(jì)了一套精巧的"思考保留機(jī)制"。核心規(guī)則是：只有當(dāng)用戶發(fā)送新消息時(shí)，才清空之前的思考內(nèi)容；如果只是工具返回了結(jié)果，那么之前的思考應(yīng)該繼續(xù)保留。這就像是你在網(wǎng)上查資料寫論文，每次搜索引擎返回結(jié)果時(shí)，你不需要把之前想好的論文大綱全部忘掉，而是在原有思路的基礎(chǔ)上繼續(xù)完善。

但僅有好的機(jī)制還不夠，AI還需要大量的練習(xí)才能真正學(xué)會(huì)使用工具。這里就出現(xiàn)了一個(gè)雞生蛋蛋生雞的問題：要訓(xùn)練AI使用工具，需要大量的訓(xùn)練數(shù)據(jù)；但這些數(shù)據(jù)又需要AI來生成。團(tuán)隊(duì)采用了一種叫做"冷啟動(dòng)"的策略來打破這個(gè)僵局。他們首先把現(xiàn)有的"思考型AI"和"工具型AI"的能力結(jié)合起來，通過精心設(shè)計(jì)的提示詞，讓AI嘗試在思考過程中調(diào)用工具。雖然一開始的成功率不高，但這些成功的案例可以作為種子，通過強(qiáng)化學(xué)習(xí)不斷改進(jìn)。

打造AI的"訓(xùn)練場(chǎng)"：從合成任務(wù)到真實(shí)世界

訓(xùn)練一個(gè)優(yōu)秀的AI助手，就像是培養(yǎng)一個(gè)全能特工，你需要在各種模擬場(chǎng)景中對(duì)其進(jìn)行訓(xùn)練，才能讓它在真實(shí)世界中游刃有余。DeepSeek團(tuán)隊(duì)構(gòu)建了一個(gè)龐大的訓(xùn)練任務(wù)庫，包含了1827個(gè)獨(dú)特的環(huán)境和85000個(gè)復(fù)雜的任務(wù)提示。

這些任務(wù)分為幾大類：代碼助手任務(wù)、搜索助手任務(wù)、通用助手任務(wù)和代碼解釋器任務(wù)。其中最有意思的是通用助手任務(wù)的生成方式。團(tuán)隊(duì)開發(fā)了一個(gè)"環(huán)境合成代理"，它會(huì)自動(dòng)創(chuàng)建各種挑戰(zhàn)性的任務(wù)場(chǎng)景。舉個(gè)例子，一個(gè)典型的合成任務(wù)可能是這樣的：幫用戶規(guī)劃一個(gè)三天的旅行，從杭州出發(fā)，要求每天不能重復(fù)城市、酒店、餐廳和景點(diǎn)，而且還要根據(jù)酒店的價(jià)格檔次調(diào)整其他開支的預(yù)算限制。這種任務(wù)聽起來簡(jiǎn)單，但實(shí)際上需要AI在龐大的可能性空間中搜索一個(gè)滿足所有約束條件的解決方案，是非常考驗(yàn)?zāi)芰Φ摹?/p>

任務(wù)合成的流程非常巧妙。首先，系統(tǒng)會(huì)根據(jù)任務(wù)類別（比如旅行規(guī)劃）自動(dòng)收集或生成相關(guān)的數(shù)據(jù)，比如各城市的酒店、餐廳和景點(diǎn)信息。然后，系統(tǒng)會(huì)創(chuàng)建一系列專門的工具函數(shù)，比如"查詢某城市所有景點(diǎn)"、"獲取某酒店的價(jià)格"等。接下來是最關(guān)鍵的一步：系統(tǒng)會(huì)先生成一個(gè)簡(jiǎn)單的任務(wù)，配合正確答案和驗(yàn)證函數(shù)，然后逐步增加任務(wù)難度。如果當(dāng)前的工具不足以解決更難的任務(wù)，系統(tǒng)還會(huì)自動(dòng)擴(kuò)展工具集。這個(gè)過程就像是游戲設(shè)計(jì)師在設(shè)計(jì)關(guān)卡，先從簡(jiǎn)單的開始，確保玩家能通關(guān)，然后逐步增加難度。

實(shí)戰(zhàn)檢驗(yàn)：當(dāng)AI遇上國際奧林匹克競(jìng)賽

一個(gè)模型到底有多厲害，最好的檢驗(yàn)方式就是讓它參加真正的考試。DeepSeek團(tuán)隊(duì)選擇了幾個(gè)極具挑戰(zhàn)性的"考場(chǎng)"來測(cè)試他們的模型。

在數(shù)學(xué)領(lǐng)域，DeepSeek-V3.2-Thinking版本在2025年美國數(shù)學(xué)邀請(qǐng)賽（AIME）上達(dá)到了93.1%的準(zhǔn)確率，與GPT-5-High的94.6%和谷歌Gemini 3.0 Pro的95.0%非常接近。在難度更高的哈佛-MIT數(shù)學(xué)競(jìng)賽（HMMT）2025年2月賽上，DeepSeek-V3.2-Speciale更是達(dá)到了99.2%的驚人準(zhǔn)確率，超越了所有對(duì)手。

最令人矚目的是在國際奧林匹克級(jí)別競(jìng)賽上的表現(xiàn)。DeepSeek-V3.2-Speciale在2025年國際數(shù)學(xué)奧林匹克（IMO）上獲得了35分（滿分42分），達(dá)到金牌水平；在國際信息學(xué)奧林匹克（IOI）上獲得了492分（滿分600分），同樣是金牌水平，排名第10位；在ICPC世界總決賽上解決了12道題中的10道，排名第2位，同樣是金牌成績(jī)。這些成績(jī)意味著，一個(gè)開源AI模型已經(jīng)能夠在人類最頂尖的學(xué)術(shù)競(jìng)賽中與最優(yōu)秀的選手同臺(tái)競(jìng)技。

在更貼近實(shí)際應(yīng)用的代碼助手任務(wù)上，DeepSeek-V3.2同樣表現(xiàn)出色。在SWE-Verified基準(zhǔn)測(cè)試中（這個(gè)測(cè)試要求AI解決真實(shí)的軟件問題），DeepSeek-V3.2達(dá)到了73.1%的解決率，雖然略低于Claude-4.5-Sonnet的77.2%，但已經(jīng)是開源模型中的最佳表現(xiàn)。更值得一提的是，在多語言軟件工程任務(wù)上，DeepSeek-V3.2以70.2%的解決率超越了所有競(jìng)爭(zhēng)對(duì)手，包括Claude-4.5-Sonnet的68.0%。

效率與性能的平衡藝術(shù)

細(xì)心的讀者可能已經(jīng)注意到一個(gè)問題：更長(zhǎng)的思考通常意味著更好的結(jié)果，但也意味著更高的成本。DeepSeek團(tuán)隊(duì)在這個(gè)問題上做了大量的權(quán)衡實(shí)驗(yàn)。

他們發(fā)布了兩個(gè)版本的模型：標(biāo)準(zhǔn)版DeepSeek-V3.2和加強(qiáng)版DeepSeek-V3.2-Speciale。兩者的主要區(qū)別在于對(duì)思考長(zhǎng)度的限制不同。標(biāo)準(zhǔn)版在訓(xùn)練時(shí)加入了較強(qiáng)的"長(zhǎng)度懲罰"，鼓勵(lì)A(yù)I用更精煉的思考得出答案；加強(qiáng)版則放寬了這個(gè)限制，允許AI進(jìn)行更深入、更長(zhǎng)時(shí)間的思考。

實(shí)驗(yàn)數(shù)據(jù)清晰地展示了這種權(quán)衡。在AIME 2025測(cè)試中，標(biāo)準(zhǔn)版使用平均16000個(gè)輸出詞元（可以理解為"思考的長(zhǎng)度"），達(dá)到93.1%的準(zhǔn)確率；加強(qiáng)版使用平均23000個(gè)詞元，準(zhǔn)確率提升到96.0%。在更難的IMOAnswerBench測(cè)試中，標(biāo)準(zhǔn)版使用27000詞元達(dá)到78.3%準(zhǔn)確率，加強(qiáng)版使用45000詞元達(dá)到84.5%。可以看出，更多的思考確實(shí)帶來了更好的結(jié)果，但代價(jià)是更高的計(jì)算成本。

有意思的是，當(dāng)與谷歌的Gemini-3.0-Pro相比時(shí)，DeepSeek的模型在"思考效率"上還有提升空間。Gemini-3.0-Pro在AIME 2025上只用了15000詞元就達(dá)到了95.0%的準(zhǔn)確率，而DeepSeek-V3.2-Speciale需要23000詞元才能達(dá)到96.0%。這說明DeepSeek的思考過程還有"注水"的成分，未來可以通過提高"思考密度"來進(jìn)一步優(yōu)化。

合成數(shù)據(jù)的魔力：少即是多的悖論

一個(gè)令人驚訝的發(fā)現(xiàn)來自于對(duì)合成訓(xùn)練數(shù)據(jù)的實(shí)驗(yàn)。研究團(tuán)隊(duì)隨機(jī)抽取了50個(gè)他們合成的通用助手任務(wù)，然后讓各種頂級(jí)AI模型去嘗試解決。結(jié)果顯示，即使是最強(qiáng)大的GPT-5-Thinking也只能解決其中62%的任務(wù)，而DeepSeek-V3.2-Exp只能解決12%。這說明這些合成任務(wù)確實(shí)具有足夠的挑戰(zhàn)性，不是那種AI輕松就能刷分的"水題"。

更關(guān)鍵的是，當(dāng)研究團(tuán)隊(duì)只使用這些合成的通用助手任務(wù)來訓(xùn)練AI時(shí)，模型在完全不同的真實(shí)世界任務(wù)上也表現(xiàn)出了明顯的進(jìn)步。在Tau2Bench（一個(gè)測(cè)試對(duì)話助手能力的基準(zhǔn)）、MCP-Mark和MCP-Universe（測(cè)試工具使用能力的基準(zhǔn)）上，經(jīng)過合成數(shù)據(jù)訓(xùn)練的模型都比基線版本有了顯著提升。這個(gè)發(fā)現(xiàn)非常重要，因?yàn)樗f明：精心設(shè)計(jì)的合成數(shù)據(jù)可以讓AI學(xué)到可遷移的通用能力，而不僅僅是在特定任務(wù)上刷分。

突破上下文長(zhǎng)度限制：讓AI的"工作記憶"更持久

即使是128K的超長(zhǎng)上下文窗口（大約相當(dāng)于一整本小說的長(zhǎng)度），在某些復(fù)雜的搜索任務(wù)中也會(huì)不夠用。研究團(tuán)隊(duì)探索了幾種"上下文管理"策略來突破這個(gè)限制。

第一種策略叫"總結(jié)法"：當(dāng)快要超出長(zhǎng)度限制時(shí)，先總結(jié)之前的工作，然后從頭開始新的嘗試。第二種是"丟棄75%法"：扔掉最早的75%的工具調(diào)用歷史，保留最近的25%繼續(xù)工作。第三種是"全部丟棄法"：清空所有歷史記錄，只保留必要的上下文信息重新開始。

在BrowseComp基準(zhǔn)測(cè)試（一個(gè)非常困難的網(wǎng)頁搜索任務(wù)）上的實(shí)驗(yàn)顯示，這些策略都能顯著提升性能。原本模型的準(zhǔn)確率是53.4%，使用"總結(jié)法"后提升到60.2%，使用"全部丟棄法"后更是達(dá)到了67.6%。有趣的是，最簡(jiǎn)單粗暴的"全部丟棄法"反而效果最好，而且效率也更高。這個(gè)發(fā)現(xiàn)提示我們：有時(shí)候"斷舍離"式的清空重來，可能比試圖保留所有歷史信息更有效。

至頂AI實(shí)驗(yàn)室洞見

DSA技術(shù)帶來的效率提升是實(shí)實(shí)在在的。研究團(tuán)隊(duì)公布了在H800 GPU集群上的實(shí)際運(yùn)營成本數(shù)據(jù)。對(duì)于短文本（比如一般的對(duì)話），DeepSeek-V3.2和前代產(chǎn)品的成本差不多；但隨著文本長(zhǎng)度增加，差距迅速拉大。在處理128K長(zhǎng)度的文本時(shí)，DeepSeek-V3.2的預(yù)填充成本大約是前代產(chǎn)品的三分之一，解碼成本更是降低到了約四分之一。

這種成本優(yōu)勢(shì)的意義不僅僅是省錢。更低的成本意味著更多的人和組織能夠負(fù)擔(dān)得起使用頂級(jí)AI的費(fèi)用，這對(duì)于AI技術(shù)的普及和民主化有著深遠(yuǎn)的影響。

DeepSeek-V3.2的故事是一個(gè)關(guān)于"不信邪"的故事。當(dāng)大部分人都認(rèn)為開源模型在復(fù)雜推理和工具使用上永遠(yuǎn)無法追上閉源大廠時(shí)，DeepSeek團(tuán)隊(duì)用技術(shù)創(chuàng)新證明了另一種可能性。DSA讓長(zhǎng)文本處理變得高效，改進(jìn)的GRPO算法讓大規(guī)模強(qiáng)化學(xué)習(xí)成為可能，而精心設(shè)計(jì)的合成數(shù)據(jù)管道則讓AI學(xué)會(huì)了真正有用的技能。

團(tuán)隊(duì)也承認(rèn)，與谷歌的Gemini-3.0-Pro相比，DeepSeek-V3.2在世界知識(shí)的廣度上還有差距（畢竟訓(xùn)練投入的計(jì)算量不在一個(gè)量級(jí)），在思考效率上也有提升空間。此外，在一些極其復(fù)雜的任務(wù)上，開源模型與頂級(jí)閉源模型之間仍然存在明顯差距。

但這些局限性同時(shí)也指明了未來的方向：更多的預(yù)訓(xùn)練計(jì)算投入、更高密度的推理鏈優(yōu)化、以及更精細(xì)的基礎(chǔ)模型和后訓(xùn)練方法。開源AI的追趕之路還很長(zhǎng)，但DeepSeek-V3.2證明了這條路是走得通的。也許在不久的將來，每個(gè)人都能擁有一個(gè)像DeepSeek-V3.2這樣聰明的AI助手，而不需要為此支付高昂的費(fèi)用。這才是這項(xiàng)研究真正令人興奮的地方。

論文地址：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

本文來自至頂AI實(shí)驗(yàn)室，一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破，挖掘其潛在的應(yīng)用場(chǎng)景，為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。

Q&A

Q1：DeepSeek-V3.2是什么？

A：DeepSeek-V3.2是由DeepSeek-AI團(tuán)隊(duì)在2025年發(fā)布的開源大語言模型，它通過創(chuàng)新的稀疏注意力機(jī)制和強(qiáng)化學(xué)習(xí)方法，在推理能力和工具使用方面達(dá)到了接近頂級(jí)閉源模型（如GPT-5和Gemini-3.0-Pro）的水平，其高配版本甚至在國際數(shù)學(xué)奧林匹克競(jìng)賽中獲得了金牌級(jí)表現(xiàn)。

Q2：DeepSeek-V3.2相比其他AI模型有什么優(yōu)勢(shì)？

A：DeepSeek-V3.2的核心優(yōu)勢(shì)在于它是開源的，同時(shí)性能卻能與頂級(jí)閉源模型相媲美。它采用的DSA技術(shù)大幅降低了長(zhǎng)文本處理的成本，在128K長(zhǎng)度文本上的運(yùn)營成本僅為前代產(chǎn)品的約四分之一，讓更多人能夠負(fù)擔(dān)得起使用頂級(jí)AI的費(fèi)用。

Q3：普通人能用到DeepSeek-V3.2嗎？

A：是的，由于DeepSeek-V3.2是開源模型，研究團(tuán)隊(duì)已經(jīng)在HuggingFace等平臺(tái)上公開了模型代碼和權(quán)重，技術(shù)人員可以自行部署使用，普通用戶也可以通過DeepSeek的官方服務(wù)或第三方應(yīng)用來體驗(yàn)這個(gè)模型的能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.