![]()
(圖片來源:pixabay)
![]()
連日來,隨著DeepSeek持續霸榜熱搜,其創始人梁文峰的許多觀點也熱傳于網絡。
"中國AI和美國有一兩年差距,但真實的gap是原創和模仿之差"“過去三十多年IT浪潮里,我們基本沒有參與到真正的技術創新里” "經驗包袱太重的人,創新動力不足”……他的話語樸實且坦誠,道理講得很白,卻給人耳目一新之感。這一點,與大家在使用DeepSeek時的感受是相當一致的。
在國內輿論場中,梁文峰本人與DeepSeek是深度捆綁的,有人稱他是人工智能上甘嶺的“黃繼光”,有人說他是中國的“馬斯克”,但在筆者看來,更重要的或許在于做好DeepSeek與梁文峰思維的解碼,換言之,大家應當更加清楚地知道,當我們在談論DeepSeek時,到底在談論什么,或者說應該談論什么。
其一:突圍,山重水復疑無路
ChatGPT問世以來,全球AI競賽正式進入“大力出奇跡”時代。巨參數、大數據、強算力成為大模型研發的基礎,規模法則(scaling law)被認為是智能“涌現”的核心:OpenAI的GPT-4參數規模突破1.8萬億,訓練數據集包含13萬億token;微軟、谷歌等一眾科技巨頭均斥巨資囤積算力。而在規模法則的另一面,全球高質量文本數據迅速枯竭;單次訓練成本逐漸失控;美國對芯片采取針對性出口管制,以維護其算力霸權及AI技術優勢。
當美國科技大廠已投入巨資,構建起了一套由他們制定的行業標準、生存法則時,當很多人潛意識中已默許,AI領域未來發展的話語權、主導權和控制權正牢牢掌握在西方手中時,來自中國的DeepSeek卻突然闖了進來。
其用架構算法、訓練方式、工程優化等系統性創新,在千億參數規模下展現出與GPT-o1-1217相當的推理能力,以顯著降低的訓練成本,走出一條震驚世界的差異化技術路徑,實現國產大模型的突圍。
正如有論者指出,DeepSeek讓許多人認識到一個一直存在但被忽視的重要趨勢,那就是中國在生成式AI領域正在快速追趕美國。要知道,拜登政府2022年實施并在此后多次收緊禁止向中國出售最先進芯片及芯片制造設備的禁令,目的就是限制中國獲取尖端技術。DeepSeek團隊正是在美國AI芯片禁運的壓力下,不得不在較低性能的H800 GPU上訓練模型。但正是這樣的“降維”,反而推動了算法優化的突破。
其二:創新,東風夜放花千樹
DeepSeek的成功,挑戰了AI領域“規模至上”的傳統思維。那么從技術角度看,DeepSeek主要創造了哪些核心創新?
首先是模型架構。混合專家模型(MoE)通過將模型分成多個專家,并在每個特定任務中只激活少量合適的專家,從而在推理過程中減少參數量,提升效率。據透露,GPT-4便采用了MoE框架,而DeepSeek-V3對MoE框架進行了重要創新,新框架包含細粒度多數量的專業專家和更通用的共享專家。
就MoE框架而言,其面臨的一個重要難題是如何確定哪個標記(token)會到達哪個專家或子模塊。DeepSeek引入了新的無損負載均衡技術和路由網絡方法,有效降低了通信開銷,突破了傳統方法增加通信開銷換取高效推理的瓶頸,使得新框架更加穩定高效。
其次是算法突破。多頭潛在注意力機制(Multi-Head Latent Attention,MLA)是DeepSeek最關鍵的技術突破,它顯著降低了模型推理成本。在過去,推理能力最大的限制之一即為加載上下文所需的內存: KV緩存是Transformer中的一種內存機制,它將每一步生成的鍵(Key)和值(Value)保存到緩存中,隨著上下文長度的增加,KV緩存顯著增加。而MLA可將每個查詢所需的KV緩存降低90%以上。
第三是訓練方式。DeepSeek-R1-Zero首次證明了基于大規模強化學習(RL)與高質量合成數據(Synthetic Data)結合的技術路徑,可在不依賴標注數據、監督微調(SFT)的情況下,獲得高水平推理能力。在R1-Zero訓練中,DeepSeek應用組相對優化策略(GRPO)和兩個簡單的獎勵函數(回答準確性和思維過程格式準確性獎勵),使得R1-Zero自發形成了評估和優化推理的能力,產生令人驚嘆的“頓悟時刻”(Aha Moment)。
DeepSeek-R1則是在R1-Zero基礎上,進一步利用少量標注數據監督微調作為冷啟動,并結合強化學習進行后訓練,顯著提升了模型生成結果的可讀性及面向開放問題的推理能力。此外,DeepSeek也驗證了模型蒸餾技術在推理能力上的有效性。
第四是數據策略。DeepSeek采用高質量合成數據的數據策略與其訓練方式、推理任務相匹配,極大降低了數據成本。“數據質量優先”的核心原則也已逐漸成為領域共識:比數據規模更重要的是數據質量與知識密度,相應地,DeepSeek采取了拒絕采樣(rejection sampling)等基于驗證的數據篩選與增強方法。
最后是工程技術。除了在架構、算法、技術路徑等方面形成“軟突破”,成功降低訓練成本,提升模型效率,DeepSeek團隊強大的工程優化能力也同樣令人驚嘆。DeepSeek繞過了英偉達的通用編程框架CUDA,使用了更底層也更復雜的PTX(Parallel Thread Execution)匯編語言直接操控GPU指令集,從而實現芯片算力的效用最大化。這一“硬突破”也一定程度上威脅到英偉達生態的護城河,為未來適配國產GPU留下巨大的想象空間。
其三:未來,長風破浪會有時
DeepSeek的橫空出世讓人們重新反思大模型、AGI領域暴力美學式的思維慣性,也重新關注算法、架構、優化等技術創新的巨大潛力。更重要的是,DeepSeek-R1還可以免費使用,而且是開源的。低成本與開放性的強強聯合可能有助于普及AI技術,讓其他國家(尤其是美國以外)的開發者能夠入局。當美國公司在為試圖進入該領域的競爭對手設置盡可能多的障礙時,中國卻在開放這項技術,這確實是一種諷刺。
曾幾何時,硅谷將AI技術塑造為一個珍貴且神奇的成就,將埃隆·馬斯克、薩姆·奧爾特曼等領軍人物描繪成引領人類進入新世界的先知。而DeepSeek撕掉了此前籠罩在AI之上的神秘面紗。
它專注創新,在人工智能全球競爭白熱化的關鍵時期形成突破,為中國的智能生態構建奠定關鍵基礎;它擁抱開源,拒絕“Close AI”,為全世界技術社區做出堅實貢獻。當我們贊嘆DeepSeek產品的巨大成功,也應當關注其團隊的系統性創新能力,這既包含多方面的技術突破,也包括如何聚合“高密度技術人才”、如何為年輕團隊提供高效的創新土壤。
最后,也要指出DeepSeek的關鍵破局點,是在保持推理能力相當的情況下,實現了訓練及計算成本的極大降低。而從數學原理上說,并未跳出大模型浪潮范疇,這也意味著,DeepSeek也無法解決這一技術路線下不可解釋、幻覺等內在問題。因此,關于智能“涌現”的根本奧秘,關于現有模型的智能邊界與潛力,關于模型的解釋性、泛化性、穩定性,尤其是幻覺引發的認知安全風險,仍是值得深入探索的重要議題;長期而言,算力依然是人工智能的基礎設施,我們也期待芯片領域誕生屬于中國的DeepSeek時刻。
(文/王鑫 北京航空航天大學人工智能學院副教授)
歡迎下載“北京青年報”客戶端
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.