<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V3到V3.1,如何走向算力自由

      0
      分享至

      從V3到V3.1,DeepSeek正在探索出一條“算力自由”之路。

      從魔改PTX到使用 UE8M0 FP8 Scale 的參數精度,DeepSeek先榨取英偉達GPU算力,再適配國產芯片,可能會在軟硬件協同方面帶來新的突破,進一步提高訓練效率,最多可以減少 75% 的內存使用,從而在實際應用中減少對進口先進GPU芯片的依賴。

      DeepSeek 正在與下一代國產GPU芯片廠商一起,走向算力自主又邁進一步。正是這樣一種令人激動的前景,激活了科技色彩愈發濃厚的中國資本市場。

      V3.1,邁向Agent時代

      DeepSeek 發布了 V3.1,而不是廣受期待的V4或者R2,連R1也消失了。DeepSeek變成了一個混合推理架構,即一個模型同時支持思考模式和非思考模式。這是一個趨勢,在V3.1發布一周之前,GPT-5發布了,是一個”統一的系統”,包括一個對話模型,一個思考模型,和一個實時路由用來決定如何結合對話與思考。

      這次升級提高了DeepSeek的思考效率,即答對同樣的問題,消耗更少的token,花費更短的時間。這既是經濟上的考慮,也產品和用戶體驗上的考慮,避免了過度思考,讓回答也更簡潔一些。


      V3.1展示出更強的 Agent 能力,通過后訓練的優化,新模型在工具使用與智能體任務中的表現有較大提升。

      V3.1的基礎模型在V3的基礎上重新做了外擴訓練,增加訓練了840B token。它的上下文長度,思考模式和非思考模式均達到了128k。性能提升,價格下降,再次秀出它所擅長的的性價比創新。

      這次升級讓DeepSeek在最近中國AI企業的開源熱潮中奪回領先優勢,但不僅僅是想用來做科研和展示,而是要在企業服務能力上向國際前沿AI企業看齊。

      DeepSeek的API Beta 接口支持了strict模式的Function Calling,以確保輸出的Function 滿足schema 定義。這其實是大模型API在工程化能力上的一個重要升級。OpenAI、Anthropic、Mistral 等都在逐步推出 strict function calling,向企業級生產環境對齊。Strict模式提升了V3.1的工程可靠性和企業易用性,更容易在企業服務中替代GPT/Claude。

      同樣的思路,DeepSeek增加了對Anthropic API格式的支持,“讓大家可以輕松將 DeepSeek-V3.1 的能力接入 Claude Code 框架。”目的是為了讓使用Claude Code的用戶,更容易切換到DeepSeek。這樣可以直接滲透Anthropic已經打開的企業市場。最近Anthropic的企業服務收入,已經超過了OpenAI。

      這次升級,對于DeepSeek來說的里程碑意義,是邁向Agent時代的第一步。

      對中國的AI芯片生態,也具有里程碑意義。

      深度求索的深水炸彈

      DeepSeek在中文官微刻意強調、而在其英文X賬號上沒有提及的是,V3.1使用了 UE8M0 FP8 Scale 的參數精度。它還在留言處置頂:


      這年頭,越是低調話少讓人有點看不懂,信息量越大。

      在Hugginface 的模型卡中,DeepSeek又放出了一點信息:DeepSeek-V3.1 使用 UE8M0 FP8 縮放數據格式進行訓練,以確保與微縮放數據格式兼容。

      簡單解釋下,FP8=8-bit floating point(8位浮點數),是一種超低精度表示方式。可以顯著減少顯存/帶寬需求,大幅提升推理和訓練效率,但需要精心設計縮放(scaling)來避免數值不穩定。

      UE8M0是FP8的一種數字表示格式。U表示沒有符號,E8表示8位指數,M0表示沒有尾數。相比之下,英偉達在 H100、Blackwell GPU 上提供硬件級 FP8 支持,主推E4M3/E5M2格式,也是大多數模型采取的英偉達官方FP8格式。

      所謂“微縮放數據格式”(Microscaling data format),即業界的Microscaling FP8 (MXFP8)標準。英偉達Blackwell GPU支持MXFP8。而V3.1訓練所用的數值體系與MXFP8兼容,模型在推理/部署時,可以直接在任何支持MXFP8 + UE8M0 的硬件(包括英偉達Blackwell、未來的國產GPU)上跑,不需要額外轉換,能降低內存流量、提升矩陣乘法吞吐。

      對比一下E4M3/E5M2,UE8M0是一個變體,全指數,無尾數,能覆蓋極寬的動態范圍,是一種低算力環境下的工程優化。單就UE8M0而言,因為沒有尾數,也沒有精度,只用來存scale。高精度在內部計算中使用,過程是這樣的:輸入FP8,存儲時用scale調整,計算時自動轉換FP16/BF16/FP32,做乘加運算,輸出時再量化回FP8存儲,保證了訓練、推理的穩定性。

      V3.1在訓練中使用UE8M0 FP8,并且兼容MXFP8,通過軟件定義與更多芯片適配,能讓超低精度訓練/推理在在中國自研芯片上更容易實現。

      目前和即將采用FP8精度的國產GPU芯片,有寒武紀、沐曦、燧原、昇騰等,還有更多主動適配DeepSeek的芯片廠商。

      英偉達的低精度之路

      值得一提的是,英偉達多年來一直用低精度數字表示法提升推理和訓練效率。例如在所謂的“”中,過去十年GPU實現的千倍效能提升,新的數字格式起到了最重要的作用。

      英偉達的首席科學家戴利(Bill Dally),曾經把數字表示概括為GPU算力”黃氏定律“的精髓。


      在P100之前,英偉達的GPU使用單精度浮點數表示這些權重。根據IEEE 754標準,這些數字長度為32位,其中23是尾數位,8是指數位,還有一位是符號位。

      但是,機器學習研究人員很快就發現,在許多計算中,其數字可以不必有那么高的精度,而神經網絡仍然可以給出準確的答案。這樣做的明顯優勢在于,執行機器學習的關鍵計算(乘法和累加)的邏輯可以更快、更小、更高效地完成。如果需要,就處理更少的位數(如戴利所解釋的,乘法所需的能量與位數的平方成正比)。因此,使用FP16,英偉達將該數字減少了一半。Google甚至推出了自己的版本,稱為Bfloat16。(兩者的區別在于分數位的相對數量,這影響精度;以及指數位的相對數量,這影響范圍。Bfloat16與FP32具有相同數量的范圍位,因此更容易在這兩種格式之間切換。)

      到了H100這一代,可以使用8位數字執行大規模transformer神經網絡的某些部分,例如ChatGPT和其他大型語言模型。然而,英偉達發現這并不是一種大小適合所有情況的解決方案。例如,英偉達的Hopper GPU架構實際上使用兩種不同的FP8格式進行計算,一種具有更高的精度,另一種具有更大的范圍。英偉達的竅門,在于知道何時使用哪種格式。

      英偉達對超低精度的一項研究

      加州理工教授、英偉達前研究員Anima Anandkumar指出,V3.1在訓練中使用的UE8M0 FP8 scale數據格式,實際上是一種對數數值系統(LNS),來自她當年參與的一個研究項目。

      英偉達和加州理工的研究人員,在2021年時曾經發表過一篇論文《LNS-Madam:在對數數值系統中采用乘法式權重更新的低精度訓練》(LNS-Madam: Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update),探討如何以低精度表示深度神經網絡(DNN),實現高效加速并減少內存占用。

      如果直接用低精度權重進行訓練,會因低精度數值系統與學習算法之間的復雜交互而導致精度下降。為了解決這一問題,研究人員設計了對數數值系統(Logarithmic Number System, LNS)和乘法式權重更新算法(Madam)。他們證明了 LNS-Madam 在權重更新過程中能保持較低的量化誤差,即使在精度受限的情況下也能獲得穩定性能。他們還進一步提出了一種 LNS-Madam 的硬件設計,解決了實現高效 LNS 計算數據通路中的實際挑戰,有效降低了由 LNS-整數轉換和部分和累加(partial sum acculmlation) 帶來的能耗開銷。

      實驗結果表明,在計算機視覺和自然語言等主流任務中,LNS-Madam 僅使用 8 位精度就能實現與全精度相當的準確率。與FP32和FP8相比,LNS-Madam能分別降低超過90% 和 55%的能耗。

      DeepSeek的超低精度創新

      UE8M0實際上等價于 LNS 的一個極簡實現,因此可以說UE8M0是LNS的一種特化(只保留log值的整數部分,沒有小數精度),所以Anandkumar教授才會把UE8M0縮放數據格式稱作一種LNS。

      如果說LNS-Madam 一種學術探索,是重新設計數學體系+算法,是硬件和算法一體化的設計思路,UE8M0+FP8是一種在現有浮點體系上結合縮放的工程技巧。二者低精度訓練的目標一致,但路線完全不同。

      UE8M0并不是用來直接存權重,而是用來存縮放因子(scale factor),幫助其它 FP8(E4M3/E5M2)穩定表示數據,讓 FP8能夠覆蓋更廣的數據分布,從而在硬件上更高效。

      追求算力自由

      回顧一下DeepSeek兩個階段的突破點。

      首先是先榨干現有硬件的潛力。DeepSeek V3直接修改英偉達GPU的虛擬機指令集架構 PTX,繞過英偉達編譯器的保守策略,手工調度寄存器、warp、訪存和Tensor Core指令。把GPU算力利用率提升到極限,降低硬件受限下的訓練/推理成本。在DeepSeek手中,A100/A800等英偉達 GPU上的現有算力都得到最大化利用。

      第二階段降低算力的物理需求。DeepSeek V3.1引入UE8M0 FP8格式,讓中國國產 AI 芯片(帶寬/算力較弱)也能高效運行大模型。采用更緊湊的低精度浮點格式,大幅壓縮內存/帶寬占用,減少計算負擔,可以期待下一代國產GPU芯片能進行前沿大模型訓練推理。

      DeepSeek在工程實踐中走出了一條算力自主之路:先榨取英偉達,再適配國產芯片,最終走向算力自主。長期來看,DeepSeek將沿著軟硬件協同優化的路線,構建一個 “算力無關”的模型生態。

      中國還需要H20/B30嗎

      由于技術與安全等原因,已經傳出英偉達停止生產H20的消息。目前依然存在懸念的,是黃仁勛是否向中國提供B30。

      回顧一下,英偉達定制H20 / B30給中國市場,因為美國出口管制禁止向中國出售H100/H200/B100/B200等高端GPU。黃仁勛的策略,是推出縮水版芯片,為中國定制了H20(基于 Hopper)和B30(基于 Blackwell),在算力、互聯、帶寬上降低配置,但仍保持 CUDA 生態兼容,以保住中國市場,避免中國廠商快速完全轉向國產芯片。同時遵守美國出口管制。

      即使DeepSeek魔改PTX,一時造成了英偉達股價暴跌,也并沒有影響黃仁勛的策略,老黃反而一直想見梁文鋒。因為它心里明白,也公開表達過,以中國的人才,尤其是軟件人才,實現AI芯片與模型生態的自主閉環,只是時間問題。

      沒想到的是UE8M0+ 超低精度的沖擊,以如此低調的方式釋放。它意味著中國廠商對于H20/B30的需求,正在發生微妙的變化。如果國產下一代GPU芯片近期推出,而且支持UE8M0+FP8 跑通大模型,英偉達的縮水卡在中國市場上的競爭力下降。一旦國產芯片生態完善,CUDA 生態的鎖定效應會逐漸削弱。

      中國市場還需不需要B30?有一種業內觀點認為,短期依然需要,因為國產GPU產能、軟件生態還在追趕。大部分企業,尤其是互聯網大廠和科研機構等,仍依賴CUDA工具鏈和現成框架。H20/B30在推理與訓練上仍然比國產芯片更穩健。也許B30本身的相對先進性,即弱于最先進的GPU、但仍強于國產GPU,才能決定它能否得到中美兩國有關部門的接受。

      隨著國產芯片+超低精度訓練將逐漸跑通并規模化部署,中長期來看對于B30們的需求會明顯下降。國產AI軟件棧(昇騰CANN、寒武紀 Neuware、壁仞 BIRENSUPA)逐步成熟,逐漸減少對 CUDA 的依賴。成本敏感的中國企業會更傾向國產方案,同時避免美國找麻煩。

      英偉達的優勢何在

      UE8M0+FP8,好像是DeepSeek接過了英偉達近十年來的低精度數字表示技術的大旗,結合中國的實際進行工程創新,它將加快中國下一代芯片的推出,加快以國產芯片解決中國大規模訓練和推理的需求,從而形成中國AI芯片與模型的技術路線。

      使用UE8M0 FP8 Scale的參數精度,適配國產下一代芯片,兼容MXFP8,并不意味著英偉達失去了優勢主導地位,因為 G200 不只是 FP8,還帶來更大帶寬、更強互聯(NVLink 5)、更大顯存。軟件生態(CUDA、PyTorch 插件)也牢牢綁定 FP8,遷移到 UE8M0 需要額外工程適配。大部分國際大廠(OpenAI、Anthropic、Meta)還是會首選 G200 來追求極致性能。“黃氏定律”已經推進至FP4精度,英偉達還曾親自下場發布了優化版的DeepSeek-R1-FP4,內存需求大幅降低,基準測試成績幾乎不變。

      如果 UE8M0+FP8 在社區和國產硬件上普及,低成本訓練路徑會弱化英偉達的必選性。這對中國廠商尤其重要,即使沒有 G200,也能在國產 GPU 上穩定訓練大模型,形成去英偉達化的路線。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1月25日周日:13家公司發重大利好,8公司集體暴增翻倍 最高超300%

      1月25日周日:13家公司發重大利好,8公司集體暴增翻倍 最高超300%

      股市皆大事
      2026-01-25 08:19:27
      向中國要1250億,中方拒絕西方急了,COP30上我們沒義務當冤大頭

      向中國要1250億,中方拒絕西方急了,COP30上我們沒義務當冤大頭

      愛吃醋的貓咪
      2026-01-03 20:24:16
      俄羅斯沒想到,美國更沒想到,中國幾乎所有“關鍵”技術遙遙領先

      俄羅斯沒想到,美國更沒想到,中國幾乎所有“關鍵”技術遙遙領先

      流史歲月
      2026-01-18 17:20:06
      陳建斌曝李亞鵬大學宿舍趣事!30年前的頂流李亞鵬,曾是盛世美顏

      陳建斌曝李亞鵬大學宿舍趣事!30年前的頂流李亞鵬,曾是盛世美顏

      露珠聊影視
      2026-01-25 12:32:00
      2噸原材料煉出191克黃金!對話當代“煉金客”:只能賺到10克金,普通人沒有資質根本做不了

      2噸原材料煉出191克黃金!對話當代“煉金客”:只能賺到10克金,普通人沒有資質根本做不了

      每日經濟新聞
      2026-01-25 15:11:08
      開始清算!逃英兩年的許家印前妻,迎兩大噩耗,兒子也徹底被牽連

      開始清算!逃英兩年的許家印前妻,迎兩大噩耗,兒子也徹底被牽連

      阿芒娛樂說
      2026-01-25 10:13:17
      壞消息,猛龍隊中鋒珀爾特爾的“持續背傷”仍未見好轉跡象

      壞消息,猛龍隊中鋒珀爾特爾的“持續背傷”仍未見好轉跡象

      好火子
      2026-01-26 01:05:12
      李瑋鋒談王鈺棟:球迷都在捧殺他,日本后衛都扛不住能去德甲和英超踢?

      李瑋鋒談王鈺棟:球迷都在捧殺他,日本后衛都扛不住能去德甲和英超踢?

      懂球帝
      2026-01-26 00:09:46
      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,賣不動了

      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,賣不動了

      毒sir財經
      2025-11-16 23:08:08
      英超三隊全取三分:切爾西進歐冠區,維拉追平曼城

      英超三隊全取三分:切爾西進歐冠區,維拉追平曼城

      格斗聯盟有話說
      2026-01-26 00:50:04
      婚姻里的“哄”,是最高級的浪漫

      婚姻里的“哄”,是最高級的浪漫

      青蘋果sht
      2025-12-27 05:12:18
      廣州一出租車司機機場排隊時提前1小時開始計費,收取乘客車費267元,被立案查處

      廣州一出租車司機機場排隊時提前1小時開始計費,收取乘客車費267元,被立案查處

      極目新聞
      2026-01-24 21:00:48
      口碑反轉!王菲沒想到,負債累累的李亞鵬,如今卻讓自己“難堪”

      口碑反轉!王菲沒想到,負債累累的李亞鵬,如今卻讓自己“難堪”

      白面書誏
      2026-01-19 17:22:22
      韓國人知道自己是個小國家嗎?網友:小小的韓國包含了整個宇宙

      韓國人知道自己是個小國家嗎?網友:小小的韓國包含了整個宇宙

      帶你感受人間冷暖
      2026-01-26 00:15:05
      李賽鳳趁丈夫出差,和體格壯碩的干兒子發生了親密接觸

      李賽鳳趁丈夫出差,和體格壯碩的干兒子發生了親密接觸

      西樓知趣雜談
      2026-01-20 17:11:19
      “一坐高鐵就犯困”?12306回應車廂二氧化碳濃度超標

      “一坐高鐵就犯困”?12306回應車廂二氧化碳濃度超標

      中國日報
      2026-01-24 16:19:19
      毛主席在電視前看莊則棟打球,突然大喊:我的小祖宗,快拿下來吧

      毛主席在電視前看莊則棟打球,突然大喊:我的小祖宗,快拿下來吧

      蔣南強讀歷史
      2026-01-13 06:00:03
      炸裂!利物浦 1 億歐死磕皇馬巨星,熱刺雙線截胡太狠了

      炸裂!利物浦 1 億歐死磕皇馬巨星,熱刺雙線截胡太狠了

      瀾歸序
      2026-01-25 05:20:06
      印度與歐盟達成協議 將汽車進口關稅從最高110%下調至40%

      印度與歐盟達成協議 將汽車進口關稅從最高110%下調至40%

      財聯社
      2026-01-25 20:42:06
      羅云峰已赴安徽省政協任職

      羅云峰已赴安徽省政協任職

      鳳凰網安徽
      2026-01-25 10:14:50
      2026-01-26 01:43:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      292文章數 61關注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      體育要聞

      中國足球不會一夜變強,但他們已經創造歷史

      娛樂要聞

      央八開播 楊紫胡歌主演的40集大劇來了

      財經要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內飾圖曝光 新車將于一季度正式發布

      態度原創

      教育
      家居
      旅游
      親子
      房產

      教育要聞

      孩子為何愛電子游戲

      家居要聞

      在家度假 160平南洋混搭宅

      旅游要聞

      鋼城“后花園”開出振興之花,看聚源橋村如何玩轉“三村聯動”

      親子要聞

      女子腹痛送醫才知道自己懷孕,23分鐘后......生了一個男孩

      房產要聞

      正式官宣!三亞又一所名校要來了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 女人下边被添全过视频的网址| 午夜在线观看免费线无码视频| 激情综合色五月丁香六月亚洲| 国产v自拍| 2022色婷婷综合久久久| 在线观看无码av免费不卡网站 | 一本大道AV伊人久久综合| 少妇高潮毛片免费看| 亚洲色成人网站| 蜜桃av一卡二卡三卡| jizz.jizz| 亚洲一区国色天香| 亚洲a人片在线观看网址| 久久久久久久久免费看无码| 蜜桃精品噜噜噜成人AV| 99精产国品一二三产区| 任我爽精品视频在线观看| 上犹县| 国产精品久久久国产盗摄| 69色堂| 美女扒开奶罩露出奶头视频网站| 亚洲色图另类| 无码综合网| 日韩国产欧美| 精品无码av无码专区| 怡春院久久国语视频免费| 国产午夜精品鲁丝片| 国产精品高潮露脸在线观看| 亚洲成色www久久网站夜月 | 五月综合色婷婷在线观看| www亚洲精品| 国产精品第一区亚洲精品| 日韩av爽爽爽久久久久久| 亚洲日韩中文在线精品第一| 亚洲人成色777777精品音频 | 欧美丰满熟妇xxxx性大屁股| 男人天堂2025| 亚洲人妻中出| 国产视频一区二区三区四区视频| 亚洲国产精品成人久久蜜臀| 性欧美videofree高清精品|