網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek更新后登上熱搜，實(shí)測(cè)后我覺(jué)得不如……

2025-08-22 09:22:41　來(lái)源: 黑馬公社

四川舉報(bào)

分享至

昨天晚上，DeepSeek因一起“大模型世子之爭(zhēng)”久違的登上了微博熱搜。

有網(wǎng)友問(wèn)D老師，你和豆包刪一個(gè)你刪誰(shuí)？

DeepSeek思考了12秒之后說(shuō)了三個(gè)字：刪豆包。

比起豆包茶茶的說(shuō)，“你刪我吧，需要我的時(shí)候再把我下回來(lái)”，DeepSeek顯得十分直男。

黑馬也去試了一下：

網(wǎng)友說(shuō)的是真的。

其實(shí)DeepSeek從爆火到現(xiàn)在，也是經(jīng)歷了不少風(fēng)風(fēng)雨雨。

今年年初，DeepSeek橫空出世的時(shí)候，黑馬身邊幾乎所有人都在用Deepseek算命、寫(xiě)東西。

但隨著元寶、百度、豆包、夸克紛紛上線了深度思考模型，我就發(fā)現(xiàn)身邊用DeepSeek的人越來(lái)越少了。

一方面DeepSeek在使用體驗(yàn)上確實(shí)不太舒服，整個(gè)系統(tǒng)延遲很高，問(wèn)個(gè)很簡(jiǎn)單的問(wèn)題都要響應(yīng)半天，黑馬幾乎不會(huì)用DeepSeek查資料。

其次它記性也不太好，上下文長(zhǎng)度只支持到64k，你多追問(wèn)幾次，就會(huì)發(fā)現(xiàn)它直接把你的上文忘了，非常腦淤血。

另一方面，DeepSeek自己好像也對(duì)搞這種To C產(chǎn)品不太感興趣，本來(lái)今年5月就跟應(yīng)該迭代的DeepSeek-R2一再跳票，到現(xiàn)在都還沒(méi)有準(zhǔn)確的信息。

反而在給友商開(kāi)放API接口，以及開(kāi)源上面非?？犊?，有數(shù)據(jù)顯示DeepSeek R1和V3在第三方主機(jī)上的總使用量增長(zhǎng)了將近20倍

前段時(shí)間，DeepSeek還被帶了一波節(jié)奏，說(shuō)是使用率從50%跌到了3%，雖然我不知道這個(gè)數(shù)字他們是從哪挖出來(lái)的。

不過(guò)據(jù)黑馬看到的資料顯示，DeepSeek的份額確實(shí)從年初的7%下滑到了四月底的3%，腰斬了。

考慮到DeepSeek本身顯卡資源短缺，也不知道這種情況是否是DeepSeek有意蟄伏。

不過(guò)DeepSeek前幾天倒是終于暗戳戳更新了一個(gè)小版本——DeepSeek V3.1。

黑馬研究了一下DeepSeek這波低調(diào)的迭代，發(fā)現(xiàn)這是真的低調(diào)，誰(shuí)也沒(méi)通知不說(shuō)，連迭代內(nèi)容也很克制：

上下文長(zhǎng)度拓展到128k（大概10萬(wàn)-16萬(wàn)漢字的超長(zhǎng)文本），多語(yǔ)言編程能力大幅度提升，推理和知識(shí)準(zhǔn)確性提升。

黑馬也一直在留意媒體老師們的測(cè)評(píng)，得到的反饋基本上都是挺正面的：

什么“編程測(cè)試確實(shí)有兩把刷子”、“長(zhǎng)文本處理也很精準(zhǔn)”、“邏輯分析很?！薄ⅰ八阉髡闲畔⒑軠?zhǔn)確”……

圖源：APPSO

但黑馬作為一個(gè)文字編輯，我其實(shí)還是更看重大模型的寫(xiě)作能力——當(dāng)年DeepSeek出圈就是因?yàn)閯?chuàng)作力強(qiáng)，這次更新之后AI味兒會(huì)不會(huì)少點(diǎn)？跟聲名在外的Claude比誰(shuí)更好用？

反正都是賽博斗蛐蛐，我把最近幾個(gè)比較火的大模型都拉過(guò)來(lái)一起對(duì)比。

參賽選手包括：Gemini2.5 Pro、ChatGPT-5、Grok 3、Deepseek V3.1、Claude-Sonnet-4。

但這次我沒(méi)準(zhǔn)備讓AI幫我寫(xiě)稿，而是直接讓它們進(jìn)行比較純粹的文字創(chuàng)作，弱化了對(duì)信息搜集整理的需求。

黑馬找來(lái)了一個(gè)很有水平的“恐怖小說(shuō)提示詞”，喂給了幾個(gè)AI。

（36：李繼剛老師的提示詞，感覺(jué)比正文還克蘇魯）

結(jié)合最近的生活經(jīng)歷，我把主題定為了“蚊子”。

先來(lái)看看DeepSeek V3.1的作品：

在提示詞的影響下，DeepSeek創(chuàng)作的文字非常的有那味道，用一些看似正常的細(xì)節(jié)描述，完成了一篇處處詭異的文章，也沒(méi)有太多的場(chǎng)景描寫(xiě)，全篇都是和蚊子的瘋狂拉扯。

但這個(gè)詭異感吧不是很有感覺(jué)，越往后面我越感覺(jué)有一種“我”被蚊子煩了一晚上終于瘋了，還不幸患上了“夏夜被蚊叮的睡不著”P(pán)TSD的感覺(jué)。

對(duì)于文字風(fēng)格我還是比較滿意的，雖然仔細(xì)讀下來(lái)割裂感比較嚴(yán)重，但是這種咯噔感放到恐怖小說(shuō)里，反而渲染了詭異的氛圍。

同樣的提示詞，我也喂給了Claude Sonnet 4:

這是它給我的故事：

Claude不一樣的地方在于，它真的給這個(gè)故事套了個(gè)背景，初讀就給我一種沉浸感。

它給的恐怖來(lái)自于“我”的意識(shí)被蚊子群體意識(shí)侵蝕，是一種比較常見(jiàn)的恐怖流派，Claude在套公式這一塊還是很強(qiáng)的。

至于文字表達(dá)上，黑馬主上覺(jué)得要比DeepSeek要更有可讀性一點(diǎn)，大家可以自行判斷。

然后是ChatGPT-5：

ChatGPT比Claude還要激進(jìn)一點(diǎn)，它直接讓蚊子把“我”寄生了，這個(gè)流派比意識(shí)奪舍流還要大眾。

至于可讀性上個(gè)人感覺(jué)和DeepSeek不相上下。

接下來(lái)是Gemini 2.5 Pro：

故事的恐怖程度和Claude、ChatGPT比要差一點(diǎn)，可能是因?yàn)闆](méi)有套公式的原因，有一種自己嚇自己的感覺(jué)。

但在可讀性上，個(gè)人感覺(jué)Gemini和Claude不相上下，有故事性邏輯也很連貫。

最后是Grok 3：

可能是沒(méi)有用到Grok3.5的原因吧，感覺(jué)Grok的效果是五個(gè)里面最差的，遣詞造句非常大眾，也沒(méi)有營(yíng)造出詭異的氛圍。

這篇大家就自行體會(huì)吧。

總的來(lái)說(shuō)，如果讓我給五個(gè)AI的表現(xiàn)排名，應(yīng)該是：

Claude Sonnet4＞Gemini2.5 Pro＞ChatGPT-5＝Deepseek V3.1＞Grok 3

以上均為純主觀看法，個(gè)人感覺(jué)提示詞加分不少，下次有機(jī)會(huì)再試試普通提示詞的效果。

其實(shí)從迭代版本的編號(hào)能看出，DeepSeek V3.1也沒(méi)邁大步子，但可能是黑馬一直在等DeepSeek更新，期待比較高，所以覺(jué)得這次更新稍顯平淡。

有消息稱，DeepSeek V3.1 可能是融合推理模型與非推理模型的混合模型，但混合模型的精度和質(zhì)量似乎還有待證明。

最后，我就只有一個(gè)問(wèn)題了，R2什么時(shí)候可以端上來(lái)?。?！

撰文：柯然

編輯：小馬哥

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.