<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek火爆引爭議,中國AI“軟、硬”挑戰猶存亟待破局

      0
      分享至

      近日,DeepSeek在AI大模型領域引發熱議,憑借其驚人的性能表現和低成本訓練模式,迅速吸引了全球關注。雖然市場上幾乎充滿了贊嘆聲,但理性的業內人士已經開始提出質疑,認為這一現象可能并非一蹴而就,值得等待更多的驗證。

      DeepSeek究竟為何引發如此廣泛的關注?2024年12月,DeepSeek發布的V3模型突破了多個開源大模型的性能,超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型,并與OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等閉源大模型相抗衡。在此基礎上,2025年1月20日DeepSeek于發布并開源了DeepSeek-R1模型,該模型在數學、編程和自然語言推理等領域表現出色,甚至與OpenAI的O1模型相匹敵。此舉不僅讓DeepSeek在市場中名聲大噪,還使其在蘋果App Store的美國地區免費應用程式下載榜單上登頂,超越了ChatGPT等熱門應用。

      然而,DeepSeek的成功并非僅僅憑借其卓越的性能,更多的亮點在于其低成本與高效的訓練模式。簡而言之,DeepSeek通過極低的成本,成功實現了接近GPT等先進模型的性能,這一點引起了業界的廣泛關注。

      無法證真,難以證偽的成本惹爭議

      提及成本,DeepSeek發表的原始報告中有詳細解釋這筆成本的計算:“在預訓練階段,每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時,也就是說,在我們擁有2048個H800 GPU的叢集上需要3.7天。因此,我們的預訓練階段在不到兩個月的時間內完成,耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓練所需的5K GPU小時,DeepSeek-V3的完整訓練僅需 2.788MGPU小時。假設H800 GPU的租賃價格為每GPU小時2美元,我們的總訓練成本僅為557.6萬美元。”

      與此同時,該論文稱:“上述成本僅包括DeepSeek-V3的正式訓練,并不包括與架構、算法或數據方面的先前研究和實驗相關的所有其他成本。”

      而說到不包括與架構、算法或數據方面的先前研究和實驗相關的所有其它成本,據媒體報道,2019年,推出DeepSeek的幻方量化成立AI公司,其自研的深度學習訓練平臺“螢火一號”總投資近2億元,搭載了1100張GPU;兩年后,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。

      我們不清楚上述這些前期的投資與近日爆火的DeepSeek-V3和R-1(主要是R-1)到底有多少相關性,但從其搭載的為深度學習訓練平臺看,肯定是有,且相關性還不一定低。而這也理應分攤到成本之中。

      此外,值得注意的是,上述557.6萬美元僅是DeepSeek-V3的訓練成本,雖然R-1模型的訓練時間仍未有詳盡披露,但“DeepSeek用遠低于ChatGPT的成本達到相同效果”的說法已經開始廣為流傳。

      對此,全球咨詢公司DGA Group的合伙人保羅?特里奧洛(Paul Triolo)在Substack上撰文稱:“OpenAI的o1的訓練成本肯定遠超過GPT-4,同樣,(DeepSeek)R1的訓練成本也肯定高于V3。從o3到o4/o5或從R1到R2/R3,訓練計算成本只會增加。”

      無獨有偶,近日知名的SemiAnalysis公開發布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost,Closed Model Margin Impacts》的報告中稱:DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本,這只是模型總成本的一小部分,他們在硬件上的花費遠高于5億美元。例如為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,并進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和GPU計算時間。例如深度求索的關鍵創新—多頭潛在注意力機制(Multi-HeadLatent Attention),就耗費了數月時間。



      綜上公開信息和權威機構的公開報告,我們認為,業內流傳的關于DeepSeek用遠低于ChatGPT的成本達到相同效果的說法因漏讀和誤導而頗為值得商榷。

      當然,由于商業機密等多重因素,業內,包括我們,事實上無法通過復現來證實557.6萬美元訓練成本是虛假的,即證偽;而基于同樣的因素,推出DeepSeek-V3和R-1的幻方量化也不可能公開透明的向外界或者通過外界證明557.6萬美元就是真實的訓練成本,即證真。所以業內對于其成本爭議的產生也自在情理之中了。

      引微軟和OpenAI知識產權疑慮,都是“蒸餾”惹得禍

      除了前述的DeepSeek成本之謎,最近,OpenAI和微軟均向媒體證實,已掌握疑似DeepSeek通過“蒸餾”(distillation)技術,利用OpenAI專有模型來訓練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務上達到類似的效果。OpenAI雖未進一步提供證據的細節,但根據其服務條款,用戶不得“復制”任何OpenAI的服務,或“利用輸出結果開發與OpenAI競爭的模型”。



      與此同時,微軟和OpenAI也在調查DeepSeek是否通過未經授權的方式,不當獲取OpenAI技術輸出的信息。例如,微軟早在2024年秋天就注意到,有人通過OpenAI應用程序接口(API)輸出大量數據,懷疑這些行為與DeepSeek有關(注:OpenAI等公司對API調用和行為模式有嚴格監控,任何異常行為都會觸發防護機制)。

      除企業外,美國總統川普政府的AI專家大衛?塞克斯(David Sacks)也在福斯新聞訪談中提到“蒸餾”技術,并表示有“大量證據”顯示DeepSeek依賴OpenAI的模型輸出來協助開發其技術,但他并未進一步提供證據。他還提到,未來幾個月,美國領先的人工智能公司將采取措施,防止“蒸餾”技術的濫用。

      從目前公開的信息來看,OpenAI、微軟和AI專家的核心關切在于DeepSeek是否采用了“蒸餾”技術,并且是否通過這種方式使用了OpenAI的專有模型。

      問題的關鍵在于,DeepSeek是否使用了“蒸餾”技術來訓練其模型;如果使用了,是否獲得了OpenAI的授權,或者是否違反了OpenAI的服務條款?

      對于上述兩個核心問題,目前業內人士和媒體的說法紛繁復雜。有的觀點認為DeepSeek(主要是R1模型)根本沒有使用“蒸餾”技術;而有的則稱,DeepSeek的技術文檔顯示,R1模型使用了“蒸餾”技術生成的高質量數據,以提升訓練效率。

      在我們看來,由于DeepSeek R-1剛發布不久,且其突破是在DeepSeek-V3的基礎上進行的,而DeepSeek發布的原始報告中以V3為例(例如前文提到的成本),這表明R1與V3之間有著較強的關聯性。因此,我們不妨從V3的角度出發,考察其是否采用了“蒸餾”技術,從而更客觀地推測R1是否采用了“蒸餾”技術。

      事實上,關于DeepSeek V3,曾在測試中出現過異常:該模型自稱是OpenAI的ChatGPT,并能提供OpenAI的API使用說明。專家認為,這很可能是由于訓練數據中混入了大量由ChatGPT生成的內容(即“蒸餾”數據),導致模型發生了“身份混淆”。



      這一問題引發了部分網友的“套殼”質疑。不過,也有網友指出,當前數據清洗過程中最基本的原則之一,就是去除類似蒸餾GPT4的痕跡,刪去這類數據是個非常簡單的操作。那么,為什么DeepSeek沒有采取這一操作呢?

      對此,存在兩種可能性:一是DeepSeek根本沒有使用OpenAI的API生成數據,但網絡上有不少人貢獻了OpenAI的訪問日志,而DeepSeek可能用了這部分數據;二是DeepSeek在合成數據時選擇了他們認為最有效的方式,并且并不打算掩飾這一過程。

      如果這些仍然只是部分網友的爭議觀點,那么,最近由中國科學院深圳先進技術研究院、北京大學、01.AI、南方科技大學、Leibowitz AI等多個知名機構的研究團隊聯合發表的《Distillation Quantification for Large Language Models(大語言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o,且蒸餾程度較高。

      該論文提出了一個系統化的框架,量化并評估大模型蒸餾的過程及其影響,采用了“響應相似性評估(RSE)”和“身份一致性評估(ICE)”兩個量化指標。RSE實驗結果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評分為4.102,遠高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實驗中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應數量最多的模型之一。





      此外,論文還提出過度蒸餾的問題,過度蒸餾可能導致模型同質化,降低獨特性,甚至影響模型的性能。DeepSeek的R1模型也面臨類似問題,可能在蒸餾過程中出現性能下降。

      需要補充說明的是,對于DeepSeek爆火之下,馬斯克一直罕見地并未發表評論,卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術,需要借助ChatGPT-4o和o1才能完成訓練。盡管模型蒸餾是一項常見的技術手段,能夠將OpenAI中的大量數據迅速提煉重點并快速理解和應用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。

      其實在我們看來,這種“捷徑”方法的影響遠不止技術層面。

      首先,方法缺乏透明度,使研究界難以準確評估并借鑒所謂的進展。許多機構可能隱瞞實際方法,卻夸大自身技術能力,導致對領域進展的認知偏差;其次,這種趨勢導致創新停滯,研究人員越來越依賴對現有強大模型進行蒸餾來訓練自己的AI模型,而非開發根本性的新技術和通用大模型(類似于ChatGPT);第三,通過蒸餾提取出來的訓練數據訓練出來的AI模型存在固有局限性,即其能力受限于原有模型(O1),形成難以突破的天花板效應,阻礙真正的AI產業進步。

      值得注意的是,近日,根據新聞可靠性評級服務機構NewsGuard的審查,DeepSeek的聊天機器人準確度僅為17%,在測試的11個聊天機器人中排名第10,遠低于OpenAI的ChatGPT-4等。原因何在?是否與上述的過度蒸餾有關?

      即使如此,DeepSeek仍然能夠在成本上顯著壓倒其他大模型,這也是其被廣泛關注的原因之一。

      因此,關鍵問題是,DeepSeek是否獲得了OpenAI的授權使用其模型進行蒸餾訓練?如果沒有,是否違反了OpenAI的服務條款?鑒于DeepSeek作為國內初創企業,可能并未充分研究OpenAI的服務條款,其可能面臨法律挑戰,尤其是在知識產權方面。

      這里,我們可以不妨借用華為創始人任正非的做法,他常將一本名為《美國陷阱》的書放在辦公桌上,并時常閱讀。盡管書中的內容和他為何熱衷于閱讀它的原因并不在此展開,但我們可以借此說明,特別是美國科技公司,往往在其產品中埋設了大量的“地雷”,一不小心便可能誤入雷區。



      具體到DeepSeek,作為一家主要面向國內市場的初創AI企業,它是否會事無巨細地研究OpenAI的服務條款,尤其是其中關于版權、知識產權等敏感內容,實在令人存疑。此外,OpenAI的GPT作為閉源模型,其中可能包含許多知識產權、技術和商業機密。DeepSeek是否能夠深入了解這些隱藏的內容,亦是一個值得考慮的問題。

      再者,考慮到歐盟在數據隱私(如GDPR)和AI倫理等方面的嚴格監管,DeepSeek是否已經完全理解這些法律法規?若蒸餾過程中涉及到未經授權的OpenAI數據或受保護的商業模型,DeepSeek可能面臨極其嚴苛的法律挑戰。

      最近,意大利隱私監管機構Garante向DeepSeek中國公司發出正式信息請求,要求其說明如何處理意大利用戶的數據。Garante對DeepSeek是否對意大利用戶的數據隱私構成風險表示擔憂,并要求DeepSeek在20天內做出答復。同時,DeepSeek的應用在意大利的蘋果和谷歌應用商店被下架。

      除此之外,愛爾蘭數據保護委員會和德國等歐洲國家也可能對DeepSeek展開調查。這些行動表明,DeepSeek的合規性問題在未來可能成為其發展道路上的重大挑戰。

      綜上,盡管OpenAI、微軟和AI專家未能提供直接證據,但一旦進入法律訴訟,DeepSeek的勝算仍然令人堪憂。特別是結合美國的國家安全法案等因素,DeepSeek面臨的風險不可小覷。

      從工程創新到基礎創新:中國AI“軟”實力幾何?

      所謂瑕不掩瑜,當我們暫時拋開上述業內(包括廠商、相關專家等)部分對于DeepSeek成本、知識產權的質疑,僅站在AI(包括AI大模型)技術和產業的視角去看DeepSeek,其確實可圈可點。

      有關技術方面,目前網絡及專業媒體報道和分析的很多,我們就不班門弄斧了。只是引用下DeepSeek的說法,其得益于采用了Multi-head LatentAttention (MLA)和DeepSeek MoE架構,實現了高效的推理和經濟高效的訓練。又引入了輔助損失自由負載平衡策略和多token預測訓練目標,提升了模型性能。同時,在14.8萬億個高質量token上進行預訓練時,通過監督微調和強化學習階段充分挖掘了其潛力。

      看來DeepSeek-V3通過數據與算法層面的優化,大幅提升算力利用效率,實現了協同效應。簡而言之,DeepSeek更多是贏在了AI“軟”實力和工程創新上。而這也得到國內外眾多業內專家、廠商的認可。

      不過我們作為非專業AI媒體,更多還是從技術發展邏輯(非技術本身)、市場事實闡述下我們的看法。

      DeepSeek創始人梁文鋒2023年在接受36氪旗下《暗涌》采訪提及中國大模型的差距時曾稱,首先訓練效率存在差距,由于結構和訓練動態方面的差距,中國最好的模型可能需要兩倍的計算能力才能與全球頂尖模型匹敵;數據效率也降低了一半,這意味著我們需要兩倍的數據和計算才能獲得相同的結果。綜合起來,資源是原來的四倍。我們的目標是不斷縮小這些差距。

      從2023年至今,一年多的時間,DeepSeek不僅彌補了其所說的我們大模型與國外綜合起來的資源差距,甚至資源的投入僅為國外的不到1/10,且實現了性能比肩,甚至部分的超越,這一技術進步在短短一年多內的發生,確實讓業內人士感到意外,這也引發了對其背后技術路徑和資源配置的更多討論。

      接下來我們看看除了對其極致性能的夸贊之外,選取些我們看到的DeepSeek的表現。

      廣發證券發布的測試結果顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當,但在邏輯推理和代碼生成領域具有自身特點。

      例如,在密文解碼任務中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務中,DeepSeek-V3給出的代碼注釋、算法原理解釋以及開發流程的指引是最為全面的。在文本生成和數學計算能力方面,DeepSeek-V3并未展現出明顯優于其他大模型之處。



      另據國內大模型測評機構SuperCLUE 最新發布的《中文大模型基準測評2024 年度報告》,總體趨勢上,國內外第一梯隊大模型在中文領域的通用能力差距正在擴大。

      2023年5月至今,國內外大模型能力持續發展。其中GPT系列模型為代表的海外最好模型經過了從GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多個版本的迭代升級。

      國內模型也經歷了波瀾壯闊的1 8個月的迭代周期,從2 0 2 3年5月的30.12%的差距,縮小至2024年8月的1.29%。但隨著o1的發布,差距再次拉大到15.05%。



      看完上述,不知業內作何感想?我們認為無論是DeepSeek自身,還是中國AI大模型的整體,絕非像目前看到某些媒體和業內評價的那么極致和領先。尤其是整體,至少從去年一年的發展周期看,我們AI大模型與國外的差距反而加大了。

      更應讓我們不能盲目樂觀的是,站在整個AI產業(包括,但不限于AI大模型)的高度,中國在AI領域仍然面臨一些核心技術上的瓶頸,尤其是在基礎算法和數學模型的創新方面。盡管開源技術,例如現有的深度學習模型和開源框架(如TensorFlow、PyTorch等)為很多應用提供了便利,但它們主要依賴于已有的模型和算法設計,若要應對日益復雜的任務,僅僅依賴這些現成的工具將難以滿足要求。更進一步,依賴國外開源代碼的情況下,可能會被技術壁壘、算法封鎖等所困擾。

      基于此,我們AI技術的進一步前行必須依賴于自己原創算法的突破,而不僅僅是現有技術的跟隨,尤其是當前深度學習技術發展到一定階段,遇到“天花板”,需要新的數學工具和算法架構來繼續推動技術進步。未來的AI將不僅僅依賴數據和算力,還需要融入更多的邏輯推理、知識圖譜等元素,這些都需要新的數學和算法理論來支撐。

      寫在最后:所謂風物長宜放眼量。不可否認,DeepSeek作為近年來崛起的AI大模型,雖然面臨關于其低成本訓練的具體細節和是否存在未經授權使用OpenAI技術的爭議,但其在工程創新、算力優化等方面仍值得我們高度肯定,盡管如此,縱觀整個中國AI產業,我們依然面臨計算資源與算力受限、架構與算法過度依賴開源,缺乏核心原創AI算法等挑戰待破局。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      臺海之戰,解放軍可能面臨一個大麻煩:打不掉臺軍的指揮系統

      臺海之戰,解放軍可能面臨一個大麻煩:打不掉臺軍的指揮系統

      東極妙嚴
      2026-02-16 16:54:42
      臥槽,概率飆到第一,騎士穩了

      臥槽,概率飆到第一,騎士穩了

      體育新角度
      2026-02-19 12:27:02
      59歲王祖賢在加拿大過年!豪宅首曝光廚房狹小,和朋友一起包餃子

      59歲王祖賢在加拿大過年!豪宅首曝光廚房狹小,和朋友一起包餃子

      娛樂圈圈圓
      2026-02-16 18:08:54
      李健:不生孩子,不買房,不用微信,討厭早睡早起,一天吃一頓飯

      李健:不生孩子,不買房,不用微信,討厭早睡早起,一天吃一頓飯

      章眽八卦
      2026-01-30 12:52:04
      庫班怒斥:禁止獨行俠擺爛,真相太扎心

      庫班怒斥:禁止獨行俠擺爛,真相太扎心

      體育新角度
      2026-02-19 14:10:37
      2000萬分手費燒光了?Coco回河南老家直播撈金,素顏出鏡回應質疑

      2000萬分手費燒光了?Coco回河南老家直播撈金,素顏出鏡回應質疑

      東方不敗然多多
      2026-02-13 04:25:02
      爆雷!悉尼→香港→肯尼亞跨國作弊黑產曝光:專坑中國留學生,賺數百萬還反手勒索!

      爆雷!悉尼→香港→肯尼亞跨國作弊黑產曝光:專坑中國留學生,賺數百萬還反手勒索!

      澳洲財經見聞
      2026-02-18 04:16:45
      汪峰帶女友三亞過年,和森林北牽手逛街好浪漫!女方兒女很懂事

      汪峰帶女友三亞過年,和森林北牽手逛街好浪漫!女方兒女很懂事

      陳意小可愛
      2026-02-19 03:17:36
      小朋友說過最離譜的話是啥?網友:哈哈哈,這個畫面感也太強了點

      小朋友說過最離譜的話是啥?網友:哈哈哈,這個畫面感也太強了點

      帶你感受人間冷暖
      2026-02-05 02:09:15
      這8個科學院職責重大,級別有正部級/副戰區級、副部級、正廳局級

      這8個科學院職責重大,級別有正部級/副戰區級、副部級、正廳局級

      小圣雜談原創
      2026-02-18 15:11:51
      中美博弈本質?英專家:中國觸碰了西方300年來最大的“禁忌”

      中美博弈本質?英專家:中國觸碰了西方300年來最大的“禁忌”

      琴音繚繞回
      2026-02-14 12:07:27
      天助曼城:2-2大冷門,英超第一遭英超倒數第一逼平,連續2輪不勝

      天助曼城:2-2大冷門,英超第一遭英超倒數第一逼平,連續2輪不勝

      側身凌空斬
      2026-02-19 06:00:01
      摳摳嗖嗖省一年,架不住去長隆玩一次!

      摳摳嗖嗖省一年,架不住去長隆玩一次!

      閑搞機
      2026-02-17 11:22:13
      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      夜深愛雜談
      2026-02-01 18:57:04
      華人女孩服役美國軍艦,還用中文驅逐中國海軍,最終結局令人無奈

      華人女孩服役美國軍艦,還用中文驅逐中國海軍,最終結局令人無奈

      談史論天地
      2026-02-19 15:15:40
      去了趟拉斯維加斯,這輩子再不想去二回,到處是陷阱防不勝防!

      去了趟拉斯維加斯,這輩子再不想去二回,到處是陷阱防不勝防!

      天下霸奇
      2026-01-29 09:07:49
      原來沒見過世面的樣子都很一致!網友:以為檸檬水 硬生生喝了半盆

      原來沒見過世面的樣子都很一致!網友:以為檸檬水 硬生生喝了半盆

      另子維愛讀史
      2025-12-23 16:23:36
      烏軍戰力增強,從2月9日起開始反攻,收復200平方公里,趨勢向好

      烏軍戰力增強,從2月9日起開始反攻,收復200平方公里,趨勢向好

      高博新視野
      2026-02-17 13:47:05
      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      大魚簡科
      2026-02-07 09:52:29
      炸鍋!劇還沒播,劉宇寧先把王子文吻上熱搜,30cm身高差太絕

      炸鍋!劇還沒播,劉宇寧先把王子文吻上熱搜,30cm身高差太絕

      喜歡歷史的阿繁
      2026-02-18 20:10:10
      2026-02-19 16:16:49
      孫永杰的ICT評論 incentive-icons
      孫永杰的ICT評論
      專注獨家、獨立的觀點
      406文章數 6234關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      日本挖到含稀土泥漿 高市稱"下一代、下下代都用不完"

      頭條要聞

      日本挖到含稀土泥漿 高市稱"下一代、下下代都用不完"

      體育要聞

      首金!蘇翊鳴唱國歌落淚 自信比1吶喊

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      健康
      旅游
      本地
      手機
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      雙廊目前已超最大承載量!出行提示→

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      手機要聞

      三星Galaxy S26系列綜合前瞻:2nm芯+隱私屏

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版