<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      FlagOS完成DeepSeekV4八款芯片Day0 適配,實現三重技術突破

      0
      分享至

      DeepSeek今日發布了DeepSeek-V4-Pro 1.6T 旗艦模型(1.86萬億參數)及DeepSeek-V4-Flash 284B 高效模型(2840億)。由智源研究院牽頭研發的眾智FlagOS第一時間對兩個“巨無霸”模型進行全量適配,已經完成 DeepSeek-V4-Flash在8款以上 AI 芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數、英偉達(FP8)等芯片。FlagOS 同時正在推進 DeepSeek-V4-Pro 模型在多個芯片的遷移適配,后續即將開源。

      首先完成在八款芯片適配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列兩大模型之一,采用混合專家(MoE)架構,總參數量 284B,激活參數僅 13B,支持 100 萬 token上下文長度。該模型在架構上引入了混合注意力機制(結合壓縮稀疏注意力CSA與高度壓縮注意力HCA,大幅提升長上下文效率)、流形約束超連接(mHC,增強跨層 信號傳播穩定性)以及Muon優化器(加速收斂、提升訓練穩定性)。預訓練數據超過32Ttoken,后訓練采用兩階段范式——先通過SFT和GRPO強化學習獨立培養領域專家,再通過在線策略蒸餾將多領域能力統一整合到單一模型中。在最大推理力度模式(Flash-Max)下,給予更大思考預算使其推理能力可接近Pro版本水平;受限于參數規模,在純知識類任務和最復雜的Agent工作流上略遜于 Pro。 整體性能參考如下官方評測結果:



      圍繞DeepSeek-V4-Flash多芯適配,此次FlagOS系統軟件技術棧突破了三大關鍵技術:FlagGems全算子替代(實現多芯片統一適配)為o-group采用獨立張量并行策略解鎖更多低顯存場景、以及“FP4+FP8混合精度”的原生權重到 FP8/BF16 的精度路徑轉換。當下國內出貨的AI芯片,都沒有FP4的支持。英偉達也只有在Blackwell及之后的高端芯片才支持FP4。這三項關鍵技術,使得DeepSeekV4能夠在當前各種廠商的主流AI芯片上穩定運行,而非僅限于支持 FP4 和大顯存的少數高端AI加速卡。

      三大技術突破:為什么對支持多種AI芯片十分重要

      突破一:FlagGems 提供支持8種以上芯片的全算子替代——真正意義上的跨芯方案

      本次DeepSeek-V4-Flash的適配,FlagGems 實現了模型推理鏈路中全部算子的替代。這意味著什么?

      徹底脫離 CUDA 算子依賴:DeepSeek-V4-Flash的 MoE 專家調度、Attention 計算、RMSNorm、TopK 路由等全部核心計算模塊,均由 FlagGems 基于 Triton/Triton-TLE語言重新實現,不調用任何 cuDNN/cuBLAS 等NVIDIA私有庫。

      無需芯片廠商逐一適配:傳統模式下,每款新模型上線,芯片廠商需要投入工程團隊做算子適配。現在通過FlagGems+FlagTree編譯器的組合,新模型的算子可以直接編譯到多款芯片后端,芯片廠商不需要做任何額外工作。

      新算子即時可用:DeepSeek-V4-Flash引入的新計算模式(如 o-group 相關的分組路由機制),FlagGems 已經實現了對應的新算子,并通過 FlagTree 編譯器統一編譯到所有支持的芯片后端。

      FlagGems 作為全球最大的 Triton 單一算子庫,已擁有超過400 個大模型常用算子,并已正式進入 PyTorch 基金會生態合作項目。在 40 個主流模型上,推理任務算子覆蓋度達到 90%~100%,完整支持 DeepSeek-V4-Flash的全部計算需求。

      突破二:為o-group采用獨立并行策略——解除張量并行最多單機8卡限制

      DeepSeek-V4-Flash為了進一步降低計算開銷采用了分組輸出投影技術(Grouped Output Projection),配置為o-group=8,這導致在傳統的張量并行時候,最多切8份。而當前一些主流國產芯片的單卡顯存為 32GB 或 64GB,尤其在BF16格式情況下,需要張量并行大于8份才能放的下。為了解除這個限制,FlagOS專門針對o-groups進行了單獨張量并行策略設計和實現,確保o-groups切分不超過8份的前提下,能夠讓模型其他部分還采用經典的張量并行策略,并且實現超過8份的切分。通過不同的張量并行策略組合,能夠實現多于8臺設備的張量并行運行。

      FlagOS 團隊對o-group張量并行改動有:

      獨立的并行策略:獨立于已有的張量并行通信組之外,為o-group單獨構建所需要的張量并行通信組,確保其他模型結構張量并行切分超過8的情況下,o-group的張量并行在8以內。

      參數轉換調整:對o-group相關的參數,也進行了對應單獨的張量并行切分處理,以確保在新的獨立張量并行策略下,也能夠被正確加載。

      覆蓋面擴展:這一優化能夠將 DeepSeek-V4-Flash在單獨采用張量并行策略下,將可運行芯片范圍從"僅限單機80GB以上顯存的個別高端卡"擴展到"多機64GB/32GB的更多主流國產芯片",包括海光、沐曦、天數智芯等廠商的主力產品線。

      突破三:從“FP4+FP8混合精度” 到 BF16的精度轉換——打通主流芯片的計算路徑

      DeepSeek-V4-Flash模型發布時首次采用 FP4+FP8混合精度,該精度只有在Blackwell及之后的英偉達最新硬件上才有支持,但當前所有國內非英偉達 AI 芯片都未能支持,只有摩爾線程原生支持了FP8,其余依然以BF16為主。

      FlagOS 完成了從 FP4 到 BF16 的完整精度轉換:

      權重反量化:將 FP4 量化權重轉換為 BF16 格式。這不是簡單的類型轉換,而是需要根據 DeepSeek 的量化方案進行逆量化計算,確保數值精度。

      計算路徑重建:FP4 和 BF16 在底層計算上有本質差異——FP4 的動態范圍更窄,累加精度、溢出處理策略均不同。FlagOS 對推理鏈路中的 GEMM、Attention、MoE 路由等關鍵計算節點逐一適配了 BF16 路徑。

      精度對齊驗證:經過標準評測集驗證,BF16 版本與 FP4 原生版本在核心能力指標上保持對齊,確保精度轉換不引入業務層面的效果損失。

      本次,FlagOS推出了FP8和BF16兩種適配版本,讓DeepSeek-V4-Flash不再是"只有最新 NVIDIA 卡才能跑"的模型,而是真正可以部署在 FP8 及 BF16 生態的主流國產芯片上。

      FlagGems開源高性能新算子 全面支持 DeepSeek-V4-Flash

      本次新發布的DeepSeek-V4-Flash共有大約67個算子,FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5個新算子,實現了對DeepSeek-V4-Flash的全面支持,也為跨芯適配打下重要基礎。

      FlagGems 支持 DeepSeek-V4-Flash 新算子的性能對比

      為了支持更多AI芯片的使用,FlagOS對DeepSeek-V4-Flash中使用的新算子使用Triton語言進行重新實現,基于FlagTree統一編譯器,性能全部超過原生性能。



      C++Wrapper技術是FlagOS技術社區專門為提升基于Triton語言的算子內核調用效率而打造的技術。目前已經支持了該技術的芯片包括華為昇騰、寒武紀、摩爾線程、平頭哥真武、及英偉達等。使用了C++ Wrapper技術,在普通的Transformers框架下,可以顯著提升使用了Triton算子的模型的端到端效率,實現跨芯普適、和高效推理的雙重目標。通過端到端效果評測(NV H20,DeepSeek-V4-Flash FP8),C++ Wrapper + Triton 比 TileLang 快11%,比 Python Wrapper 版快 39%。



      開發者極致體驗:"發布即多芯" + "極簡部署"

      1. 核心能力與原生版本對齊

      經 GPQA_Diamond、AIME等權威評測集驗證,FlagOS 適配后的 DeepSeek-V4-Flash,在語言理解、復雜推理、代碼生成、數學計算等核心能力上,與 CUDA 原生版本對齊,可放心應用于金融、教育、政企服務、代碼開發等場景,無需擔心適配導致業務效果折損。

      評測數據:



      注:本測試結果僅用于對遷移前(Nvidia-Origin)和遷移后(-FlagOS)版本的互相對齊驗證,并不代表 DeepSeek 模型的官方性能,DeepSeek 模型的官方性能以 DeepSeek 官方公布數據為準。

      2. 極簡部署:開箱即用,底層優化無感知

      FlagOS將核心算子庫、編譯器等技術組件前置內置到 DeepSeek-V4-Flash代碼框架中,開發者加載模型時,底層優化代碼自動生效,無需手動添加任何 FlagOS 初始化代碼。同時,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本,標準化 Docker 鏡像 + 一鍵加速命令,解決了開發者最頭疼的環境配置、效果對齊、性能優化等問題。

      FlagOS 2.0 技術底座:從大模型到智能體時代的全棧升級

      DeepSeek-V4-Flash的三重突破,依托的是 FlagOS 2.0 統一多芯片系統軟件棧的全鏈路能力。從算子層、編譯層、框架層到工具層,全鏈路為大模型跨芯適配提供技術支撐,將原本數周的適配周期縮短至數天,真正實現極速落地。



      FlagOS:面向多種 AI 芯片的系統軟件棧

      1. 高性能算子庫 FlagGems:核心算子深度適配,釋放硬件算力

      FlagGems 作為 FlagOS核心的高性能通用大模型算子庫,基于 Triton 語言實現,針對 DeepSeek-V4-Flash推理鏈路的核心算子進行了深度適配與優化,包括 MoE 專家調度、Attention 計算、RMSNorm 等關鍵計算模塊,同時原生支持 NVIDIA、摩爾線程、沐曦、清微智能、天數等接近 20 家 AI 芯片。

      2. 統一 AI 編譯器 FlagTree:一次編寫,多芯編譯

      FlagTree 是 FlagOS 面向多 AI 芯片后端的統一編譯器,基于 Triton 深度定制,可將 DeepSeek-V4-Flash的核心算子編譯為英偉達、摩爾線程等十多種不同 AI 芯片后端可識別的指令,徹底解決不同芯片編譯器生態割裂的問題,大幅降低算子跨芯片適配的開發成本。

      3. 模型跨芯遷移發布工具 FlagRelease:半自動實現模型跨芯遷移與版本發布

      依托 FlagOS 全棧技術能力,FlagRelease 已完成 DeepSeek-V4-Flash在多種芯片上的模型遷移、精度對齊與版本發布,覆蓋 HuggingFace、魔搭等開源社區平臺。開發者可直接下載使用,無需自行遷移。截至本文發布,FlagRelease 已發布覆蓋 10+ 家芯片廠商、12+ 款硬件、70+ 個開源模型實例的跨芯適配版本。

      4. 統一多芯片接入插件 vLLM-plugin-FL:無縫兼容原生使用習慣

      vLLM-plugin-FL是 FlagOS 為 vLLM 推理服務框架打造的專屬插件,基于 FlagOS 統一多芯片后端開發,在完全不改變 vLLM 原生接口與用戶使用習慣的前提下,實現多芯片推理部署。目前 vLLM-plugin-FL 已經支持了英偉達、摩爾線程、海光、沐曦、平頭哥真武、天數智芯、昆侖芯、華為等多家芯片。

      開源共建:FlagOS持續做開發者的“跨芯適配后盾”

      當下,"異構算力協同、大模型普惠落地"已成為全球開源開發者社區的核心熱點,打破硬件生態隔離、讓大模型在不同算力平臺高效低成本運行,是無數開發者的核心訴求。FlagOS 從誕生之初就將開源開放、眾智共建刻入技術基因,始終以開發者為中心,通過全棧開源的統一系統軟件棧,把復雜的"M×N"硬件適配問題降維為"M+N",做每一位開發者最可靠的跨芯適配后盾。

      目前,FlagOS 已形成完整的開源技術體系,所有核心組件均已開源在 GitHub,同時開放了數十款最新的主流基礎大模型、十多款 AI 芯片的適配方案與最佳實踐,開發者可自由獲取、深度定制: 四大核心技術庫:FlagGems通用大模型算子庫、FlagTree 統一 AI 編譯器、FlagScale 訓練推理并行框架、FlagCX 統一通信庫,覆蓋算子開發、編譯優化、并行計算、跨芯片通信全鏈路; 三大開源工具平臺:FlagRelease大模型自動遷移發版平臺、KernelGen 算子自動生成工具、FlagPerf 多芯片評測工具,提供從模型適配、性能評測到工程落地的一站式工具鏈; 全場景擴展生態:vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增強組件,以及 FlagOS-Robo 具身智能工具包,覆蓋大模型訓練、推理、應用全場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特魯姆普:我現在配不上世界第一,世錦賽墨菲比趙心童更有望奪冠

      特魯姆普:我現在配不上世界第一,世錦賽墨菲比趙心童更有望奪冠

      楊華評論
      2026-04-28 21:48:25
      12人落馬5輪徹查!張軍失聯第18天,64歲蔡振華成體育界正面教材

      12人落馬5輪徹查!張軍失聯第18天,64歲蔡振華成體育界正面教材

      不寫散文詩
      2026-04-28 14:19:14
      中國遭警告:拒收將面臨供應中斷!

      中國遭警告:拒收將面臨供應中斷!

      共工之錨
      2026-04-28 23:20:50
      今夜,集體暴跌!

      今夜,集體暴跌!

      中國基金報
      2026-04-29 00:16:33
      剛剛,突發大利空!全線跳水!

      剛剛,突發大利空!全線跳水!

      中國基金報
      2026-04-28 21:23:08
      辭任杭州市市長后,姚高員已任浙江省政府黨組成員

      辭任杭州市市長后,姚高員已任浙江省政府黨組成員

      上海法治聲音
      2026-04-28 14:52:08
      江蘇省委、省政府決定,授予“外賣詩人”王計兵等人省勞模稱號

      江蘇省委、省政府決定,授予“外賣詩人”王計兵等人省勞模稱號

      極目新聞
      2026-04-28 16:57:32
      某境外組織大力資助“躺平網紅”,系統性開展“躺平洗腦”,國安部提醒

      某境外組織大力資助“躺平網紅”,系統性開展“躺平洗腦”,國安部提醒

      界面新聞
      2026-04-28 08:10:01
      抗抑郁藥的隱藏賬單:5美元檢測,性生活作廢

      抗抑郁藥的隱藏賬單:5美元檢測,性生活作廢

      時光慢郵啊
      2026-04-28 01:14:48
      斯諾克世錦賽:趙心童打瘋了!單桿57分反敗為勝,墨菲連輸3局!

      斯諾克世錦賽:趙心童打瘋了!單桿57分反敗為勝,墨菲連輸3局!

      劉姚堯的文字城堡
      2026-04-28 18:10:09
      AI速度超快!算法專家郭宇認為Claude Code在6個月內就能淘汰知識工作者

      AI速度超快!算法專家郭宇認為Claude Code在6個月內就能淘汰知識工作者

      知識圈
      2026-04-28 19:09:54
      國家終于出手了!有組織資助“躺平網紅”被披露,網友:堅決抵制

      國家終于出手了!有組織資助“躺平網紅”被披露,網友:堅決抵制

      火山詩話
      2026-04-28 18:53:08
      3-0到3-5!趙心童遭5連鞭落后 世錦賽奪冠難度大 附第二階段時間

      3-0到3-5!趙心童遭5連鞭落后 世錦賽奪冠難度大 附第二階段時間

      侃球熊弟
      2026-04-28 20:41:54
      13年后回歸?63歲穆帥成皇馬新帥首選!老佛爺欽點 解約金300萬歐

      13年后回歸?63歲穆帥成皇馬新帥首選!老佛爺欽點 解約金300萬歐

      我愛英超
      2026-04-28 20:09:16
      2026年5月1日起,民企老板最難的日子來了:成功歸自己 失敗全擔債

      2026年5月1日起,民企老板最難的日子來了:成功歸自己 失敗全擔債

      西莫的藝術宮殿
      2026-04-28 08:57:00
      58歲阿丘近況曝光,住破舊屋子,身材發福,出軌離婚晚年生活凄涼

      58歲阿丘近況曝光,住破舊屋子,身材發福,出軌離婚晚年生活凄涼

      胡一舸南游y
      2026-04-28 14:16:22
      河北一中學教師買賣8支玩具仿真槍獲刑三年,申訴被駁回

      河北一中學教師買賣8支玩具仿真槍獲刑三年,申訴被駁回

      澎湃新聞
      2026-04-28 16:06:27
      阿聯酋宣布退出歐佩克,背后原因有哪些?將產生哪些影響?

      阿聯酋宣布退出歐佩克,背后原因有哪些?將產生哪些影響?

      聞號說經濟
      2026-04-28 21:27:29
      新規落地!5月1日起,飯局、轉賬或被全程監管,別大意!

      新規落地!5月1日起,飯局、轉賬或被全程監管,別大意!

      小談食刻美食
      2026-04-28 07:30:36
      快訊!烏克蘭正式宣布了!

      快訊!烏克蘭正式宣布了!

      達文西看世界
      2026-04-28 09:34:22
      2026-04-29 04:12:49
      前沿在線 incentive-icons
      前沿在線
      前沿在線官方賬號,關注AI、機器人、智能車等前沿領域;
      182文章數 1235關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      體育要聞

      魔術黑八活塞,一步之遙?!

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      中央政治局會議定調,八大看點速覽!

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      房產
      藝術
      教育
      手機
      公開課

      房產要聞

      紅利爆發!海南,沖到全國人口增量第4省!

      藝術要聞

      京東浙江總部公示,99.99米高,中國第一民企落子民營大省!

      教育要聞

      教育部通知,今年9月份開始,上學的規則全變了

      手機要聞

      三星裸眼3D屏來了,廣告牌能“跳”出來

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产成人精品av区按摩| 疏勒县| 无码国产偷倩在线播放| 亚洲乱码中文字幕小综合| 色呦呦九九七七国产精品| 国产l精品国产亚洲区| 久久福利导航| 色吊丝永久访问A| 久久日韩在线观看视频| 在线日本看片免费人成视久网| 极品粉嫩嫩模大尺度无码视频 | 伊人久久大香线蕉AV网 | 嘉兴市| 伊人久久精品久久亚洲一区| 国产熟女真品久| 色婷婷久久| 欧美寡妇xxxx黑人猛交| 日韩一级毛一欧美一国产| 中文有无人妻VS无码人妻激烈| 极品粉嫩小泬无遮挡20p| 亚洲丶国产丶欧美一区二区三区| 宣城市| 野花社区www高清视频| 茄子av| 成人性生交大片免费看中文| 制度丝袜诱惑av| 九九精品视频免费观看| 在线免费观看毛片av| 最新亚洲人成无码WWW| 亚洲av麻豆aⅴ无码电影| 中文有码亚洲制服av片| 日韩欧美激情兽交| 999国产精品| 国产麻豆成人精品av| 鲁鲁AV| 久久免费精品国自产拍网站| 秋霞鲁丝片成人无码国产| 在线综合人妻| 中文字幕亚洲在线观看| 国产九九免费| 四房播色综合久久婷婷|