有意思的事情是,最近國內(nèi)外開始了一輪deepseek的唱衰論,那么deepseek真的不行了嗎?
最近deepseek似乎有些沉寂,R2模型原定于在2025年5月發(fā)布,但是一直在延后。于是網(wǎng)上就開始了各種,對deepseek的唱空和吐槽的論調(diào)。
一個說法是,說deepseek的市場占有率下降,一家國際機(jī)構(gòu)的統(tǒng)計(jì)報告稱,DeepSeek官網(wǎng)的流量從2025年2月峰值下滑了近30%,用戶使用率從7.5%降到了5月的3%。而且部分媒體,更是宣稱DS“使用率暴跌94%”。
![]()
另外一種說法是,DS由于被投喂了大量粗制濫造的數(shù)據(jù)和信息,所以對于各種問題的回答,內(nèi)容質(zhì)量很差,數(shù)據(jù)不準(zhǔn),一本正經(jīng)的胡說八道,而且對于稍微敏感的問題,拒絕回答。
那我們就來看看這兩個說法,是否屬實(shí)。第一,關(guān)于市場份額下降,該機(jī)構(gòu)統(tǒng)計(jì)的僅僅是官網(wǎng)及官方App訪問量,也就是面向C端用戶端的數(shù)據(jù),這個統(tǒng)計(jì)并不準(zhǔn)確客觀。
因?yàn)閐eepseek是開源模型,所以它的使用者,既有C端用戶,也有大量B端用戶,B端用戶用deepseek進(jìn)行部署后。
比如元寶,微博,百度,微信輸入法,都接入了DS。而且國內(nèi)很多企業(yè)、機(jī)關(guān)單位,事業(yè)單位也都部署了deepseek,這些私有化,定制化的部署,是不會體現(xiàn)在APP的調(diào)用量上的。
那如果我這么說,有人還是不信的話,我給大家看看另外一組數(shù)據(jù),那就是大模型調(diào)用的API排名的情況。這個主要統(tǒng)計(jì)的是API應(yīng)用場景下,大模型Token的使用量。
那個從這個數(shù)據(jù)來看的話,目前Gemini-2.0-Flash排在首位,其次是 Claud4,然后是 Gemini-2.5-0520。而DeepSeek V3 0324 的免費(fèi)版和付費(fèi)版,分別排在第4位和第5 位。
如果把兩者的Token的使用量,加在一起,DeepSeek-V3 的Token使用量,會達(dá)到第二名的水平。所以這個數(shù)據(jù),足以說明DS的市場份額,并沒有嚴(yán)重下滑,依然保持全球領(lǐng)先地位,唱衰DS是沒有依據(jù)的。
![]()
第二,說到DS回答問題的準(zhǔn)確性這個事,這其實(shí)跟它用的學(xué)習(xí)資料,也就是語料庫有很大關(guān)系。
現(xiàn)在AI發(fā)展這么快,好的學(xué)習(xí)資料,對AI來說就像好老師對學(xué)生一樣重要。現(xiàn)在全世界都在搶著建更好的資料庫,所以美國有幾家專門做數(shù)據(jù)標(biāo)識的公司,都已經(jīng)成了獨(dú)角獸企業(yè)。
這方面我不是很專業(yè)啊,我覺得我們現(xiàn)在國內(nèi)語料庫的建設(shè),與國外相比,可能存在幾個問題。
一是中文的好資料,還是相對比較缺的,加上咱們國內(nèi)分享共享資料的風(fēng)氣,還沒完全起來,很多數(shù)據(jù)信息,動不動就要收費(fèi)或者攔截訪問。統(tǒng)計(jì)數(shù)據(jù)顯示,英文資料大概是中文的8倍那么多。找大批量、高質(zhì)量的中文資料,還是比較難找的,而且單數(shù)建設(shè)建資料庫太燒錢了,這是個問題。
二是數(shù)據(jù)的標(biāo)識和清晰,還不夠。有一種說法,是很多別有用心的自媒體,故意制造一些不正確的語料,投喂大模型,最好造成了DS的推理結(jié)果不盡人意。我個人理解,作為開源大模型,這個問題或多或少都存在吧。實(shí)際的問題是,是需要加強(qiáng)對數(shù)據(jù)的清洗與辨識的能力,實(shí)現(xiàn)這一點(diǎn)技術(shù)不難,只要大模型能從出處,也就是源頭上去把握數(shù)據(jù)信息的權(quán)威性,就不怕垃圾信息的干擾。這肯定是下一個階段,大模型需要做的工作,需要時間。
三是關(guān)于敏感信息和價值觀的問題。知識和科學(xué),沒有邊界,但是價值觀的確是有邊界的。中國的大模型,肯定要有能體現(xiàn),符合中國文化和價值觀。
所以,對于一些問的回避,也是大模型價值觀訓(xùn)練的基本原則。國外的大模型,肯定也是宣傳弘揚(yáng)本國的價值觀,這個不會有太大的差別。
從這個角度來說,這不是DS一家面臨的問題,是國內(nèi)大模型面臨的共同問題。在中文語料不夠的情況下,也不可能采用很多外國資料訓(xùn)練,因?yàn)锳I學(xué)什么就像什么,要是用了太多國外的語料庫,在價值觀上也會有偏離。
那么解決的辦法,就是要加快中文語料的建設(shè)、現(xiàn)在國際形勢這么復(fù)雜,AI的發(fā)展,后續(xù)很可能變成輿論戰(zhàn)的工具。
所以我們必須掌握中文資料的話語權(quán),這是需要國家層面和大模型層面,一起要解決問題。第三個問題,就是DS的R2模型推遲發(fā)布的原因。目前市場上,產(chǎn)出的消息,就是兩大問題導(dǎo)致推遲,一個是國內(nèi)高質(zhì)量的訓(xùn)練數(shù)據(jù)不足,專業(yè)領(lǐng)域的幻覺率,也就是回答的不準(zhǔn)確性上升,這個之前已經(jīng)分析過了,可能是個問題。
另外一個原因是說,是美國限制導(dǎo)致高端GPU短缺,前一段英偉達(dá)H20禁運(yùn),影響了模型的升級,這個說法是否準(zhǔn)確,只能看看H20解禁之后,DS的新模型發(fā)布進(jìn)度如何了。
這就是,我對于看空唱衰DS輿論的看法和分析。總的來說,外媒炒作DS衰退,可以理解,因?yàn)楸仨氁w現(xiàn)美國的AI,比中國領(lǐng)先。國內(nèi)的炒作,是什么背景和心態(tài)了?
我覺得一方面,是一種缺乏自信的體現(xiàn),骨子里不自信,總是對DS的成就在質(zhì)疑,到現(xiàn)在也不相信,國人可以搞出這么先進(jìn)的技術(shù)。另外一方面,也有一種牢騷和發(fā)泄的情緒。
當(dāng)前經(jīng)濟(jì)的下行壓力之下,很多人的心態(tài)不好,社會上存在負(fù)面情緒,所以對于技術(shù)創(chuàng)新這樣的宏大敘事,要么不感興趣,要么覺得不能解決現(xiàn)實(shí)的問題,也難免有一些排斥心理,所以也然會跟隨一些唱衰的節(jié)奏走了。
我想,無論當(dāng)前經(jīng)的壓力有多大,但是始終處于復(fù)蘇的進(jìn)程,各種政策見效,需要一個過程。我們一定會走出新的經(jīng)濟(jì)周期的,而重大的技術(shù)創(chuàng)新,DS這樣的科技進(jìn)步,是我們走出經(jīng)濟(jì)周期的重動力和支撐。
所以,保持平和和耐心心態(tài),共度難關(guān),而且要保持對國家各種進(jìn)步的自豪與自信,因?yàn)槟鞘俏覀兾磥淼墓庵凇?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.