網易首頁 > 網易號 > 正文申請入駐

DeepSeek，該卸下掃地僧的枷鎖了

2026-04-12 17:02:45　來源: 愛范兒

廣東舉報

分享至

我每次翻《天龍八部》，翻到少林寺藏經閣那一段，都要停下來。

蕭遠山、蕭峰父子對上慕容博、慕容復父子，鳩摩智再從旁攪局，三十年的血海深恨攪在一處，眼看就要分出生死。就在這當口，一個枯瘦的掃地僧走了出來。

蕭峰的降龍十八掌打在他身上，他雖受內傷吐血，卻以渾厚內力生生受之；他舉手投足間讓慕容博陷入「假死」復又救活，這種生死由心的境界，令在場一眾頂尖高手莫不震懾失語。

這一刻，誰強誰弱，答案不言而喻。

AI 圈最近幾年，流行把 DeepSeek（深度求索）比作這位老僧。在所有人眼里，AI 賽道的格局早已注定，海外有御三家，國內有大廠和彼時風頭正盛的 AI 六小虎，輪不到旁人來置喙。

結果一家做量化交易出身的中國公司，悄沒聲兒地走出來，用一套從天而降的招法，在各項核心評測上與這幫人正面交手，打得有來有回。

只是，掃地僧出場，是《天龍八部》行將收尾的時刻。他的使命是終結紛爭、化解戾氣，然后全書走向尾聲。可大模型的故事，沒有尾聲，也沒有終章，只有下一回，還有下下一回。

把 DeepSeek 比作掃地僧，是對它過去的最高贊譽，但如果這三個字正在慢慢變成困住它的枷鎖，我倒覺得，贊譽和催命符，有時候只在一念之間。

掃地僧是怎么練成的

金庸寫掃地僧，從來不正面寫他的功夫。他寫的是別人的反應，蕭峰愣了，慕容復愣了，旁觀的人也愣了。高手的境界，要從旁人失語的瞬間才能傳遞出來。

DeepSeek 的故事，也暗合這個邏輯。

作為杭州的一家對沖基金，外人提到幻方量化，第一反應是期貨、是算法交易、是數學天才們盯著屏幕上跳動的數字。這和 AI 大模型，八竿子打不著，卻悄悄把一批工程師和研究員聚在一起做大模型。

2023 年 11 月，他們發布首個開源代碼大模型 DeepSeek Coder，后續拿出了一個 67B 的語言模型。在官方給出的多項評測中，67B 超過了 LLaMA2 70B，67B Chat 在部分中文和開放式評測中優于 GPT 3.5。只是，圈內少數幾個消息靈通的人注意到了，大多數人沒注意到。掃地僧還在掃地，少林寺的人都在忙著練少林長拳。

讓其開始嶄露頭角，是 2024 年 5 月 7 日發布的 V2。V2 用的是 MoE（混合專家）架構，總參數 2360 億，但每次推理實際激活的只有 210 億。與此同時，V2 首次采用了 MLA（多頭潛在注意力）機制，大幅壓縮了推理時的顯存占用。

兩相疊加，讓模型在同等效果下，跑得更快，花得更少。用金庸的話來說，這叫以柔克剛，以精妙的內功路數，彌補了真氣總量上的不足。

▲ https://arxiv.org/abs/2405.04434

但砸出最大水花的，是定價。V2 的 API 定價，每百萬 token 輸入 1 元，輸出 2 元。GPT-4 Turbo 當時是它的七十倍，Meta 的 Llama3 70B 是它的七倍。一塊錢，一百萬個 token，大約相當于一本《三國演義》的字數。

這個價格擺出來，讓整個國內大模型市場為之色變。當月，字節、阿里、百度、騰訊、訊飛、智譜，一家接一家跳出來宣布降價，最高降幅 97%，部分輕量級模型直接免費開放。

一場持續了大半年的價格戰，就這么被 DeepSeek 的一句定價點燃了。那時候，業內給 DeepSeek 送了個外號，價格屠夫。

美國的半導體咨詢公司 SemiAnalysis 在那段時間寫了一篇分析，說這家公司有可能成為 OpenAI 的對手，也有可能碾壓其他開源大模型。當時讀到這句話的人，大概有一半覺得是危言聳聽。一年多以后回頭看，沒有人再覺得是危言聳聽了。

2024 年末的 V3 和 2025 年初的 R1，則是連續出手的兩招，把對手打得目瞪口呆。DeepSeek 用極低的投入，打出了旗鼓相當的效果。

更讓人震驚的是參與人數，139 名工程師和研究人員完成了這個項目，而 OpenAI 同期有 1200 名研究人員，Anthropic 有 500 名。Meta 超級智能實驗室負責人亞歷山大·王后來說了一句被廣泛流傳的話，當美國人休息時，他們在工作，而且以更便宜、更快、更強的產品追上我們。

緊接著便是是 R1，主打深度推理，數學、代碼、邏輯，在相當多的測試維度上與 OpenAI o1 不落下風，訓練方法用的是 GRPO 強化學習，靠讓模型自己想清楚來提升推理能力。

最要緊的一步是開源。

R1 的開源，被廣泛解讀為一種慷慨。模型權重、技術論文、訓練細節全部公開，全球開發者共享成果。這套敘事里，DeepSeek 是那個敞開藏經閣大門的人，路不拾遺，人人可進。

武功秘籍直接擺桌上，誰想學誰來拿的這一手，也打破了少數幾家巨頭對前沿模型的壟斷，讓全球數以萬計的中小開發者有了和頂尖模型掰手腕的資格。

金庸寫掃地僧，主要抓住幾樣東西，出身邊緣、多年隱匿、一鳴驚人、技法精絕、胸懷坦蕩。DeepSeek V2 的價格屠刀、V3 的成本奇跡、R1 的開源普惠，也讓人們在 DeepSeek 身上，真真切切地看見了那個老僧的影子。

枷鎖，以及枷鎖之后

但武俠小說是會結束的，AI 賽道不會。

每次我寫 DeepSeek 的文章，底下的評論區都像藏經閣又打了一場架。有人說它安安靜靜做產品，不收費、不立人設，能用就用，這才是正道。有人說它連國產其他巨頭都未必打得過，已經無法攪局。

有人替它抱不平，有人覺得它早就該被淘汰。更有人說，「我們一直以來都沒把 DeepSeek 當作優等生，而是當作掃地僧，真心希望它能如我們所愿」，這句話說得又期待，又帶著一絲說不清楚的悲涼。

意見如此撕裂，本身就說明了一件事。DeepSeek 所受到的關注，早已超出了一家普通 AI 公司應有的體量。捧它的人把它捧上神壇，罵它的人把它踩進泥里，沒有幾家公司能在輿論場里同時承受這兩種極端。

這篇文章大概也逃不過同樣的命運，有人會說這是黑稿，有人會說這是 PR 稿，落個兩頭不討好。但這無所謂，輿論從來都是這樣，藏經閣里打架，不管誰贏，總有人不服。

說回正題，掃地僧出場那一幕，是《天龍八部》收尾的信號。他出手，紛爭平息，故事逐漸走向終章。這個敘事結構，似乎天然就帶著一種大結局的氣息，英雄橫空出世，一招定乾坤，從此江湖太平。

根據《創智記》援引知情人士消息稱，按照創始人梁文鋒在內部透露的時間，DeepSeek V4 將于四月下旬正式發布。
爽文里的主角，每一章都要有突破，讀者翻到下一頁，期待的永遠是更大的驚喜。

V3 和 R1 用四兩撥千斤的邏輯征服了世界，大眾于是開始把它當成 DeepSeek 的固定輸出，每一次出手都必須讓硅谷巨頭血濺千里，都必須讓英偉達的股價抖一抖。V4 也應當如此。

可在這等待一年多的時間里，外界等得有些躁動，各路聲音都出來了，說一拖再拖，是不是黔驢技窮了，掃地僧要不行了？說這話的人認為 DeepSeek 理應每次出手都是奇跡，一旦慢了半拍，便是江郎才盡。

慢，自然有慢的原因。

3 月 29 日，DeepSeek 的服務器崩了將近十三個小時，創下網頁端和 App 平臺上線以來最長中斷紀錄。連續的服務事故暴露了 DeepSeek 在運維監控、應急預案和災備機制上的明顯短板，也給整個 AI 行業敲響警鐘。

當然，綜合各家報道來看，V4 一再推遲的原因，還藏在芯片層面。

V3 和 R1 的成功，一定程度上建立在成熟的英偉達 CUDA 生態上，DeepSeek 的工程師們在工具完備、文檔詳盡、社區活躍的環境里，把算法效率一點一點榨到了極限，每一步都踩得踏實。

V4 要做的事，是把這套功夫移植到國產 AI 芯片上。工具鏈還在快速迭代，底層接口和 CUDA 差異巨大，分布式訓練框架幾乎需要從頭重構。

DeepSeek 交出的答卷，如果是在受限條件下做出來的，這讓它的每一分成績，都帶著額外的含金量。哪怕梁文鋒愿意為這件事多拖幾個月，也是一筆非常劃算的決策。

至于 V4 本身，《創智記》報道稱，技術重心據悉落在了 LTM（長期記憶）能力的突破上，同時將原生多模態從底層融入架構，文字和視覺在預訓練階段就融合在一起。

另一個值得關注的變化，是梁文鋒本人的注意力在悄悄轉移。盡管在過去的一年里，包括 R1 的核心作者郭達雅在內的部分 DeepSeek 核心骨干陸續離職，不過根據《晚點 LatePost》的觀察，DeepSeek 的人才基本盤依然穩固，并未出現大規模的人才流失現象。

進入 2025 年下半年，梁文鋒也愈發看重技術的商業落地與產品化進程，積極招募負責 Agent 領域的策略產品經理。與此同時，他正在為公司啟動估值，給員工的期權一個明確的錨點，讓團隊對未來有更清晰的預期。

綜合上述種種動向不難得出一個結論：曾經心無旁騖盯著 AGI 的 DeepSeek 也得開始面對一家成熟科技公司必須面對的那些現實：商業閉環、生態建設、可持續的收入來源。

掃地僧可以幾十年不問江湖俗事，守著藏經閣一掃到底，一家公司，沒有這個選項。

《笑傲江湖》里的令狐沖憑著獨孤九劍可以破盡天下武功，但當他真正坐鎮恒山派，每天迎來送往，護佑門人，一招鮮遠遠不夠，他需要的是內政、是人心、是香火代代相傳的根基。奇招，解決不了日常的柴米油鹽。

因此，我們應該主動幫 DeepSeek 卸下「掃地僧」這個名號。這三個字是對過去的最高褒獎，卻是對未來的過重負擔。即便 V4 發布時沒有斷崖式的領先，只是一款 LTM 扎實、多模態原生融合、各項指標均衡的水桶機。

從產業的角度看，這依然是巨大的成功，成功在于它或許將證明 DeepSeek 有能力從一個創造奇跡的挑戰者，變成一個穩定交付的基礎設施提供者。

有意思的是，這件事或許本來就是雙向的。《晚點 LatePost》此前的報道里，DeepSeek 對外的溝通姿態明顯比以往克制，既沒有大張旗鼓地預熱，也沒有放出足以吊足胃口的技術信號。

這種低調，很難說是無意為之。

他們比任何人都清楚，掃地僧這三個字背后懸著什么。每一次出手若不能再掀翻整張牌桌，輿論的落差就會被無限放大。這是一種預期管理，也是一種自我解綁——他們同樣不想再背著這個包袱走下去。

▲AI 模型的世界，已經從少數幾家機構的專屬游戲，變成了全球開發者共同參與的基礎設施建設，而且這個趨勢還在加速。 https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

而話說回來，當輿論都在一窩蜂盯著 DeepSeek，卻少有人往旁邊多看一眼。

▲開源模型等級列表，圖片來源：https://www.interconnects.ai/p/2025-open-models-year-in-review

這片江湖里，國內每一家 AI 都在苦修內功，押注多模態、Agent 生態、算力布局，也都在各自的賽道上走出了自己的路數。

DeepSeek 固然是那個最讓人心跳加速的名字，但把眼光只鎖死在它一家身上，未免看窄了這個時代。真正讓天龍八部成為天龍八部的，是那一整代人各有來路，各有絕學，彼此激蕩，才撐起了那個波瀾壯闊的時代。

掃地僧的傳說，止于藏經閣那一戰，藏經閣外，才是真的江湖。

作者：莫崇宇

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.