近日,DeepSeek在AI大模型領域引發熱議,憑借其驚人的性能表現和低成本訓練模式,迅速吸引了全球關注。雖然市場上幾乎充滿了贊嘆聲,但理性的業內人士已經開始提出質疑,認為這一現象可能并非一蹴而就,值得等待更多的驗證。
DeepSeek究竟為何引發如此廣泛的關注?2024年12月,DeepSeek發布的V3模型突破了多個開源大模型的性能,超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型,并與OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等閉源大模型相抗衡。在此基礎上,2025年1月20日DeepSeek于發布并開源了DeepSeek-R1模型,該模型在數學、編程和自然語言推理等領域表現出色,甚至與OpenAI的O1模型相匹敵。此舉不僅讓DeepSeek在市場中名聲大噪,還使其在蘋果App Store的美國地區免費應用程式下載榜單上登頂,超越了ChatGPT等熱門應用。
然而,DeepSeek的成功并非僅僅憑借其卓越的性能,更多的亮點在于其低成本與高效的訓練模式。簡而言之,DeepSeek通過極低的成本,成功實現了接近GPT等先進模型的性能,這一點引起了業界的廣泛關注。
無法證真,難以證偽的成本惹爭議
提及成本,DeepSeek發表的原始報告中有詳細解釋這筆成本的計算:“在預訓練階段,每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時,也就是說,在我們擁有2048個H800 GPU的叢集上需要3.7天。因此,我們的預訓練階段在不到兩個月的時間內完成,耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓練所需的5K GPU小時,DeepSeek-V3的完整訓練僅需 2.788MGPU小時。假設H800 GPU的租賃價格為每GPU小時2美元,我們的總訓練成本僅為557.6萬美元。”
與此同時,該論文稱:“上述成本僅包括DeepSeek-V3的正式訓練,并不包括與架構、算法或數據方面的先前研究和實驗相關的所有其他成本。”
而說到不包括與架構、算法或數據方面的先前研究和實驗相關的所有其它成本,據媒體報道,2019年,推出DeepSeek的幻方量化成立AI公司,其自研的深度學習訓練平臺“螢火一號”總投資近2億元,搭載了1100張GPU;兩年后,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。
我們不清楚上述這些前期的投資與近日爆火的DeepSeek-V3和R-1(主要是R-1)到底有多少相關性,但從其搭載的為深度學習訓練平臺看,肯定是有,且相關性還不一定低。而這也理應分攤到成本之中。
此外,值得注意的是,上述557.6萬美元僅是DeepSeek-V3的訓練成本,雖然R-1模型的訓練時間仍未有詳盡披露,但“DeepSeek用遠低于ChatGPT的成本達到相同效果”的說法已經開始廣為流傳。
對此,全球咨詢公司DGA Group的合伙人保羅?特里奧洛(Paul Triolo)在Substack上撰文稱:“OpenAI的o1的訓練成本肯定遠超過GPT-4,同樣,(DeepSeek)R1的訓練成本也肯定高于V3。從o3到o4/o5或從R1到R2/R3,訓練計算成本只會增加。”
無獨有偶,近日知名的SemiAnalysis公開發布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost,Closed Model Margin Impacts》的報告中稱:DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本,這只是模型總成本的一小部分,他們在硬件上的花費遠高于5億美元。例如為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,并進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和GPU計算時間。例如深度求索的關鍵創新—多頭潛在注意力機制(Multi-HeadLatent Attention),就耗費了數月時間。
![]()
綜上公開信息和權威機構的公開報告,我們認為,業內流傳的關于DeepSeek用遠低于ChatGPT的成本達到相同效果的說法因漏讀和誤導而頗為值得商榷。
當然,由于商業機密等多重因素,業內,包括我們,事實上無法通過復現來證實557.6萬美元訓練成本是虛假的,即證偽;而基于同樣的因素,推出DeepSeek-V3和R-1的幻方量化也不可能公開透明的向外界或者通過外界證明557.6萬美元就是真實的訓練成本,即證真。所以業內對于其成本爭議的產生也自在情理之中了。
引微軟和OpenAI知識產權疑慮,都是“蒸餾”惹得禍
除了前述的DeepSeek成本之謎,最近,OpenAI和微軟均向媒體證實,已掌握疑似DeepSeek通過“蒸餾”(distillation)技術,利用OpenAI專有模型來訓練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務上達到類似的效果。OpenAI雖未進一步提供證據的細節,但根據其服務條款,用戶不得“復制”任何OpenAI的服務,或“利用輸出結果開發與OpenAI競爭的模型”。
![]()
與此同時,微軟和OpenAI也在調查DeepSeek是否通過未經授權的方式,不當獲取OpenAI技術輸出的信息。例如,微軟早在2024年秋天就注意到,有人通過OpenAI應用程序接口(API)輸出大量數據,懷疑這些行為與DeepSeek有關(注:OpenAI等公司對API調用和行為模式有嚴格監控,任何異常行為都會觸發防護機制)。
除企業外,美國總統川普政府的AI專家大衛?塞克斯(David Sacks)也在福斯新聞訪談中提到“蒸餾”技術,并表示有“大量證據”顯示DeepSeek依賴OpenAI的模型輸出來協助開發其技術,但他并未進一步提供證據。他還提到,未來幾個月,美國領先的人工智能公司將采取措施,防止“蒸餾”技術的濫用。
從目前公開的信息來看,OpenAI、微軟和AI專家的核心關切在于DeepSeek是否采用了“蒸餾”技術,并且是否通過這種方式使用了OpenAI的專有模型。
問題的關鍵在于,DeepSeek是否使用了“蒸餾”技術來訓練其模型;如果使用了,是否獲得了OpenAI的授權,或者是否違反了OpenAI的服務條款?
對于上述兩個核心問題,目前業內人士和媒體的說法紛繁復雜。有的觀點認為DeepSeek(主要是R1模型)根本沒有使用“蒸餾”技術;而有的則稱,DeepSeek的技術文檔顯示,R1模型使用了“蒸餾”技術生成的高質量數據,以提升訓練效率。
在我們看來,由于DeepSeek R-1剛發布不久,且其突破是在DeepSeek-V3的基礎上進行的,而DeepSeek發布的原始報告中以V3為例(例如前文提到的成本),這表明R1與V3之間有著較強的關聯性。因此,我們不妨從V3的角度出發,考察其是否采用了“蒸餾”技術,從而更客觀地推測R1是否采用了“蒸餾”技術。
事實上,關于DeepSeek V3,曾在測試中出現過異常:該模型自稱是OpenAI的ChatGPT,并能提供OpenAI的API使用說明。專家認為,這很可能是由于訓練數據中混入了大量由ChatGPT生成的內容(即“蒸餾”數據),導致模型發生了“身份混淆”。
![]()
這一問題引發了部分網友的“套殼”質疑。不過,也有網友指出,當前數據清洗過程中最基本的原則之一,就是去除類似蒸餾GPT4的痕跡,刪去這類數據是個非常簡單的操作。那么,為什么DeepSeek沒有采取這一操作呢?
對此,存在兩種可能性:一是DeepSeek根本沒有使用OpenAI的API生成數據,但網絡上有不少人貢獻了OpenAI的訪問日志,而DeepSeek可能用了這部分數據;二是DeepSeek在合成數據時選擇了他們認為最有效的方式,并且并不打算掩飾這一過程。
如果這些仍然只是部分網友的爭議觀點,那么,最近由中國科學院深圳先進技術研究院、北京大學、01.AI、南方科技大學、Leibowitz AI等多個知名機構的研究團隊聯合發表的《Distillation Quantification for Large Language Models(大語言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o,且蒸餾程度較高。
該論文提出了一個系統化的框架,量化并評估大模型蒸餾的過程及其影響,采用了“響應相似性評估(RSE)”和“身份一致性評估(ICE)”兩個量化指標。RSE實驗結果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評分為4.102,遠高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實驗中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應數量最多的模型之一。
![]()
![]()
此外,論文還提出過度蒸餾的問題,過度蒸餾可能導致模型同質化,降低獨特性,甚至影響模型的性能。DeepSeek的R1模型也面臨類似問題,可能在蒸餾過程中出現性能下降。
需要補充說明的是,對于DeepSeek爆火之下,馬斯克一直罕見地并未發表評論,卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術,需要借助ChatGPT-4o和o1才能完成訓練。盡管模型蒸餾是一項常見的技術手段,能夠將OpenAI中的大量數據迅速提煉重點并快速理解和應用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。
其實在我們看來,這種“捷徑”方法的影響遠不止技術層面。
首先,方法缺乏透明度,使研究界難以準確評估并借鑒所謂的進展。許多機構可能隱瞞實際方法,卻夸大自身技術能力,導致對領域進展的認知偏差;其次,這種趨勢導致創新停滯,研究人員越來越依賴對現有強大模型進行蒸餾來訓練自己的AI模型,而非開發根本性的新技術和通用大模型(類似于ChatGPT);第三,通過蒸餾提取出來的訓練數據訓練出來的AI模型存在固有局限性,即其能力受限于原有模型(O1),形成難以突破的天花板效應,阻礙真正的AI產業進步。
值得注意的是,近日,根據新聞可靠性評級服務機構NewsGuard的審查,DeepSeek的聊天機器人準確度僅為17%,在測試的11個聊天機器人中排名第10,遠低于OpenAI的ChatGPT-4等。原因何在?是否與上述的過度蒸餾有關?
即使如此,DeepSeek仍然能夠在成本上顯著壓倒其他大模型,這也是其被廣泛關注的原因之一。
因此,關鍵問題是,DeepSeek是否獲得了OpenAI的授權使用其模型進行蒸餾訓練?如果沒有,是否違反了OpenAI的服務條款?鑒于DeepSeek作為國內初創企業,可能并未充分研究OpenAI的服務條款,其可能面臨法律挑戰,尤其是在知識產權方面。
這里,我們可以不妨借用華為創始人任正非的做法,他常將一本名為《美國陷阱》的書放在辦公桌上,并時常閱讀。盡管書中的內容和他為何熱衷于閱讀它的原因并不在此展開,但我們可以借此說明,特別是美國科技公司,往往在其產品中埋設了大量的“地雷”,一不小心便可能誤入雷區。
![]()
具體到DeepSeek,作為一家主要面向國內市場的初創AI企業,它是否會事無巨細地研究OpenAI的服務條款,尤其是其中關于版權、知識產權等敏感內容,實在令人存疑。此外,OpenAI的GPT作為閉源模型,其中可能包含許多知識產權、技術和商業機密。DeepSeek是否能夠深入了解這些隱藏的內容,亦是一個值得考慮的問題。
再者,考慮到歐盟在數據隱私(如GDPR)和AI倫理等方面的嚴格監管,DeepSeek是否已經完全理解這些法律法規?若蒸餾過程中涉及到未經授權的OpenAI數據或受保護的商業模型,DeepSeek可能面臨極其嚴苛的法律挑戰。
最近,意大利隱私監管機構Garante向DeepSeek中國公司發出正式信息請求,要求其說明如何處理意大利用戶的數據。Garante對DeepSeek是否對意大利用戶的數據隱私構成風險表示擔憂,并要求DeepSeek在20天內做出答復。同時,DeepSeek的應用在意大利的蘋果和谷歌應用商店被下架。
除此之外,愛爾蘭數據保護委員會和德國等歐洲國家也可能對DeepSeek展開調查。這些行動表明,DeepSeek的合規性問題在未來可能成為其發展道路上的重大挑戰。
綜上,盡管OpenAI、微軟和AI專家未能提供直接證據,但一旦進入法律訴訟,DeepSeek的勝算仍然令人堪憂。特別是結合美國的國家安全法案等因素,DeepSeek面臨的風險不可小覷。
從工程創新到基礎創新:中國AI“軟”實力幾何?
所謂瑕不掩瑜,當我們暫時拋開上述業內(包括廠商、相關專家等)部分對于DeepSeek成本、知識產權的質疑,僅站在AI(包括AI大模型)技術和產業的視角去看DeepSeek,其確實可圈可點。
有關技術方面,目前網絡及專業媒體報道和分析的很多,我們就不班門弄斧了。只是引用下DeepSeek的說法,其得益于采用了Multi-head LatentAttention (MLA)和DeepSeek MoE架構,實現了高效的推理和經濟高效的訓練。又引入了輔助損失自由負載平衡策略和多token預測訓練目標,提升了模型性能。同時,在14.8萬億個高質量token上進行預訓練時,通過監督微調和強化學習階段充分挖掘了其潛力。
看來DeepSeek-V3通過數據與算法層面的優化,大幅提升算力利用效率,實現了協同效應。簡而言之,DeepSeek更多是贏在了AI“軟”實力和工程創新上。而這也得到國內外眾多業內專家、廠商的認可。
不過我們作為非專業AI媒體,更多還是從技術發展邏輯(非技術本身)、市場事實闡述下我們的看法。
DeepSeek創始人梁文鋒2023年在接受36氪旗下《暗涌》采訪提及中國大模型的差距時曾稱,首先訓練效率存在差距,由于結構和訓練動態方面的差距,中國最好的模型可能需要兩倍的計算能力才能與全球頂尖模型匹敵;數據效率也降低了一半,這意味著我們需要兩倍的數據和計算才能獲得相同的結果。綜合起來,資源是原來的四倍。我們的目標是不斷縮小這些差距。
從2023年至今,一年多的時間,DeepSeek不僅彌補了其所說的我們大模型與國外綜合起來的資源差距,甚至資源的投入僅為國外的不到1/10,且實現了性能比肩,甚至部分的超越,這一技術進步在短短一年多內的發生,確實讓業內人士感到意外,這也引發了對其背后技術路徑和資源配置的更多討論。
接下來我們看看除了對其極致性能的夸贊之外,選取些我們看到的DeepSeek的表現。
廣發證券發布的測試結果顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當,但在邏輯推理和代碼生成領域具有自身特點。
例如,在密文解碼任務中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務中,DeepSeek-V3給出的代碼注釋、算法原理解釋以及開發流程的指引是最為全面的。在文本生成和數學計算能力方面,DeepSeek-V3并未展現出明顯優于其他大模型之處。
![]()
另據國內大模型測評機構SuperCLUE 最新發布的《中文大模型基準測評2024 年度報告》,總體趨勢上,國內外第一梯隊大模型在中文領域的通用能力差距正在擴大。
2023年5月至今,國內外大模型能力持續發展。其中GPT系列模型為代表的海外最好模型經過了從GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多個版本的迭代升級。
國內模型也經歷了波瀾壯闊的1 8個月的迭代周期,從2 0 2 3年5月的30.12%的差距,縮小至2024年8月的1.29%。但隨著o1的發布,差距再次拉大到15.05%。
![]()
看完上述,不知業內作何感想?我們認為無論是DeepSeek自身,還是中國AI大模型的整體,絕非像目前看到某些媒體和業內評價的那么極致和領先。尤其是整體,至少從去年一年的發展周期看,我們AI大模型與國外的差距反而加大了。
更應讓我們不能盲目樂觀的是,站在整個AI產業(包括,但不限于AI大模型)的高度,中國在AI領域仍然面臨一些核心技術上的瓶頸,尤其是在基礎算法和數學模型的創新方面。盡管開源技術,例如現有的深度學習模型和開源框架(如TensorFlow、PyTorch等)為很多應用提供了便利,但它們主要依賴于已有的模型和算法設計,若要應對日益復雜的任務,僅僅依賴這些現成的工具將難以滿足要求。更進一步,依賴國外開源代碼的情況下,可能會被技術壁壘、算法封鎖等所困擾。
基于此,我們AI技術的進一步前行必須依賴于自己原創算法的突破,而不僅僅是現有技術的跟隨,尤其是當前深度學習技術發展到一定階段,遇到“天花板”,需要新的數學工具和算法架構來繼續推動技術進步。未來的AI將不僅僅依賴數據和算力,還需要融入更多的邏輯推理、知識圖譜等元素,這些都需要新的數學和算法理論來支撐。
寫在最后:所謂風物長宜放眼量。不可否認,DeepSeek作為近年來崛起的AI大模型,雖然面臨關于其低成本訓練的具體細節和是否存在未經授權使用OpenAI技術的爭議,但其在工程創新、算力優化等方面仍值得我們高度肯定,盡管如此,縱觀整個中國AI產業,我們依然面臨計算資源與算力受限、架構與算法過度依賴開源,缺乏核心原創AI算法等挑戰待破局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.