<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容

      0
      分享至



      編輯|澤南

      近日,剛剛 IPO 的國產 GPU 公司沐曦股份,完成了自上市后的首個重大技術發布。

      該公司旗下的 MXMACA 軟件棧(MACA)正式發布了全新版本 3.3.0.X,沐曦發布了一份 23 頁的技術報告,機器之心圍繞該報告對 MACA 進行解讀。



      在全自主硬件體系的支撐下,沐曦已經構建起「全棧軟件」體系,其對于提升計算引擎的效率起到了關鍵作用。同時,新一代 MACA 宣告了沐曦軟件生態的一次重要跨越,它的核心理念,是如何讓國產 GPU 真正「用起來」。

      GPU 生態適配的「萬能接口」

      MACA(MetaX Accelerated Computing Architecture)被定義為「異構計算軟件棧核心計算平臺、引擎、運維工具和規范化操作范本」,內置了全套自研工具鏈,涵蓋編譯器、性能分析工具、格式轉換組件等,可實現多語言支持、算子自動優化與跨框架平滑適配。

      它面向沐曦的曦云 C 系列、曦思 N 系列 GPU 研發,其定位是連接沐曦自研 GPU 硬件與上層應用生態的關鍵紐帶。



      MACA 承擔著連接硬件算力單元與上層應用生態的紐帶作用。據介紹,它覆蓋了 AI 芯片工作流程的底層驅動、用戶態接口、編譯器、算子適配、訓練框架、推理框架、行業場景優化等全鏈路能力。

      在芯片行業,硬件決定算力基礎,而軟件棧則決定了算力能否被有效釋放。長期以來,國產 GPU 落地面臨的最大挑戰并非純粹的性能,而是生態兼容問題 ——AI 開發者早已習慣在英偉達的 CUDA 生態中開發新技術、構建應用,遷移到新的硬件上意味著高昂的遷移成本。

      MACA 3.3.0.X 直擊這一痛點,它是一套「生態強化版」軟件棧,聚焦場景的深度適配,涵蓋底層基礎能力的迭代與主流 AI 框架、大模型訓練推理、搜索、廣告、推薦、科學計算等多維度生態適配,其核心邏輯是構建一個「萬能接口」,讓現有生態能夠近乎無縫地遷移到沐曦平臺上

      具體有多萬能?技術報告顯示,沐曦團隊對 GitHub 上大量 CUDA 項目進行了適配測試。他們篩選了 4490 個「含 CUDA 關鍵字」的活躍代碼倉庫進行驗證,按應用領域包括 AI 模型 / 應用、高性能并行計算、氣象模擬、計算化學等場景。

      測試結果顯示,4173 個項目可以直接適配運行,成功率高達 92.94%。僅有 260 個項目需要微小調整,占比不足 6%,且修改主要涉及編譯配置優化,而非核心業務邏輯。



      這意味著,幾乎任何現有的 CUDA 項目都可以近乎「開箱即用」地遷移到沐曦平臺上,目前在市面上,還沒有第二家能夠做到

      在 MACA 的這一通適配之后,GitHub 上海量的 AI、數據處理、科學計算應用工具,可以快速適配在國產異構計算平臺上。對于開發者而言,這就意味著面對國產 AI 硬件體系時,學習成本和遷移工作量可以大幅降低。

      框架兼容

      擁抱主流 AI 開發生態

      除了能夠無縫遷移已有的項目工作,新版本 MACA 也強調了對于 AI 框架兼容的特性,它能夠幫助開發者構建和探索新技術。

      在 AI 開發領域,框架兼容能力決定了平臺的可用性。MACA 3.3.0.X 版本完成了對 PyTorch 2.8 的深度適配,覆蓋了全部 2650 個核心算子(其中 GPU 算子 2410 個)。涵蓋從基本算術運算、線性代數操作、卷積 / 池化類算子、規約操作、隨機采樣、索引與切片快速傅里葉變換(FFT)、Attention 等所有關鍵算子類別。它支持多種數據形態,保障了算子能力的完整性與場景適配性。

      除了 PyTorch,MACA 還兼容 TensorFlow、PaddlePaddle、JAX 等主流開源框架,以及 Megatron-LM、DeepSpeed 等大模型訓練框架,在推理端支持 vLLM、SGLang、Transformers、KTransformer 等推理框架。

      在操作系統方面,MACA 兼容了 Ubuntu、CentOS、RHEL、openEuler、Anolis OS 、銀河麒麟等主流 Linux 發行版。它同時完整支持混合精度訓練、分布式訓練、torch.compile 編譯優化與圖模式任務下發的深度集成等關鍵特性。

      簡單來說,這一兼容性列表幾乎涵蓋了當前 AI 開發的所有主流工具鏈。技術報告中還特別強調,這種適配是「無需調整工程構建邏輯,即可實現現有模型的無縫使用」。

      搭配性能分析與優化工具鏈,MACA 配合沐曦 GPU 在核心場景上的性能可以對標主流 GPU 水平

      MACA 不僅僅是一個兼容層,而是一個完整的軟件棧。它包含了開發效率引擎層和垂直場景賦能層兩大核心部分。

      在開發效率引擎層,MACA 提供了一系列高性能算子庫,如針對矩陣計算的 mcBLAS、針對深度神經網絡的 mcDNN、針對注意力機制的 mcFlashAttention 等。



      MACA 套件中開發效率引擎,其旨在降低異構開發門檻。

      這些工具針對沐曦 GPU 的多卡拓撲進行了專門優化,編譯器工具支持 MACA C/C++、Fortran 等語言,能將高級語言轉化為高效的可執行程序。

      在垂直場景賦能層,MACA 針對 AI 與科學計算兩大方向,通過針對性的優化策略與框架適配解決需求。

      其中在 AI 領域,MACA 的訓練優化兼容 PyTorch、BMTrain 等框架,通過硬件流水線并行實現通信與計算重疊,優化分布式并行策略。推理優化則適配 ONNX Runtime、vLLM、SGLang 等框架,采用 INT8 量化、KVCache 跨卡管理提升長序列處理效率。

      在科學計算領域,MACA 通過重構 MPI、BLAS 庫提升內存帶寬,定向移植 OpenFOAM、GROMACS 等科學計算框架,結合容器化部署方案,能夠確保算力能高效支撐流體仿真、分子動力學等垂直場景。



      此外,MACA 的性能分析工具提供了系統級追蹤和核函數指標采集功能,能夠幫助開發者定位計算瓶頸。全棧工具鏈的完整性,使得開發者能夠在沐曦平臺上完成從開發到部署的全流程工作。

      此種能力的背后,是沐曦構建的大模型訓推一體化能力。

      算力到生產力的轉化

      MACA-3.3.0.X 版本為開發者們構建起了一套全流程的一體化算力支撐底座,通過軟硬件協同、核心算子優化以及分布式架構的升級,旨在實現訓推效能的跨越式突破。

      這一底座的基礎是沐曦自研的 GPGPU,其高算力密度與高內存帶寬確保了單卡能夠高效處理千億參數模型。通過自研的 MetaXLink 高速互連技術,沐曦在硬件層面構建了低時延、高帶寬的分布式通信網絡,使得算力供給擴展至萬卡級集群,為 AI 大模型的超大規模分布式訓練與推理奠定了基礎。

      在軟件層面,MACA 構建起端到端的協同體系。其首要特點是極致的生態兼容性,除此之外,MACA 通過拓撲感知的 MCCL 高性能通信庫和自研的編譯器優化模塊,能夠智能地優化多機多卡的數據通信策略,實現算子自動融合、循環展開等編譯級優化,深度挖掘出硬件底層潛力。



      MACA 套件大模型推理優化技術。

      一體化設計的重要優勢,在于打破訓練與推理之間的場景壁壘。MACA 支持模型訓練后的輕量化轉換與直接部署,無需二次適配。通過統一的模型格式與接口規范,它實現了「訓練 - 微調 - 推理 - 部署」全流程鏈路貫通,大幅縮短了大模型從技術研發到業務落地的周期與成本。

      在技術層面上,MACA-3.3.0.X 版本針對幾個關鍵瓶頸進行了深度調優。

      在關鍵算子上,MACA 針對 FlashAttention 優化,大幅減少了向 HBM 顯存的數據搬運開銷;通過對于分布式集合通信庫的優化,MACA 將千卡集群的訓練、推理線性度穩定在 95% 以上,專家并行效率提升了 15%;通過異步通信機制,還有通信 - 計算重疊優化,MACA 將數據傳輸任務與 GPU 計算任務解耦并行,縮短了端到端延遲,提升 GPU 利用率 15%-30%,解決了因等待數據通信而導致的芯片閑置問題。

      在軟件棧上層,沐曦進一步做了面向易用性和部署的優化:其深度支持 PyTorch 2.0 的 torch.compile 動態圖編譯,以最大化硬件利用率;針對推理場景打造輕量化引擎,優化批處理策略以同時降低延遲、提升吞吐;全面兼容容器化與云原生架構,支持企業級的大規模彈性部署與便捷運維。

      MACA 全面兼容當前主流的大模型生態體系,無需代碼修改即可開展訓練、推理;針對大規模大模型訓練場景,其工具鏈可以縮短訓練周期,在分布式訓練中展現出優異線性度,可以長周期無故障穩定運行;在推理時,MACA 針對主流大模型的深度優化降低了延遲,提升了吞吐量;與此同時,MACA 還具備從小規模調試到大規模訓推的全場景平滑擴展能力。

      實測數據表明,沐曦通過 MACA-3.3.0.X 構建的一體化算力底座在曦云 C 系列 GPU 上的訓推效能已經展現了與國際旗艦 GPU 產品 A 正面競爭的實力。



      DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同參數規模(如 7B、13B)及任務類型(SFT、Pretrain)下的訓練 TGS 數據,包含「旗艦 A TGS」(黃色柱)、「C550 TGS」(紫色柱)及兩者效率比值(綠色折線)。

      MACA 不僅是一個技術平臺,更是沐曦「1+6+X」戰略的重要組成部分。在這一戰略中,「1」代表數字算力底座,「6」代表對于六大核心行業的賦能,包括金融、醫療健康、能源、教科研、交通和大文娛等行業的 AI 場景應用及開源生態建設,「X」代表具身智能、低空經濟等新興行業。

      技術報告詳細介紹了 MACA 對于多個垂直場景的優化:

      • 在搜廣推場景,MACA 針對 TensorFlow/JAX 與 XLA 技術棧進行了深度協同適配。在部分模型中,沐曦平臺的性能已達到甚至超過國際旗艦產品。
      • 在傳統小模型支持方面,MACA 提供了多模型格式兼容和底層計算優化,覆蓋計算機視覺、自然語言處理及傳統機器學習等核心場景。
      • 在 AI for Science 領域,MACA 適配了 PaddleScience、WRF 數值模式等科學計算工具。
      • 除此以外在材料、技術科學、天氣模擬、藥物研發等領域,MACA 對領域主流 AI 框架都進行了適配。

      這種場景化優化能力,使得沐曦 GPU 不再僅僅是提供原始的算力,而是能夠針對特定行業需求提供優化方案,實現從算力到生產力的高效轉化。

      構建生態的長遠布局

      作為銜接自主 GPGPU 硬件與全棧軟件體系的核心載體,MACA 3.3.0.X 的推出不僅是產品版本的常規迭代,更是國產芯片廠商在經歷硬件破冰后,試圖通過軟件定義算力、通過標準重塑生態的長遠布局。

      值得肯定的是,沐曦提供的從 AI 芯片到軟件核心平臺的能力,是全棧自研的—— 與部分廠商選擇兼容 CUDA 或基于現有開源 ISA 進行微調的方式不同,沐曦選擇了最具挑戰但也保證了長期安全性的路線:自主指令集。MACA 軟件棧具有自己的編程模型和使用范式,但也深度兼容 CUDA 生態,無需大幅修改即可適配海量 CUDA 項目。另外,沐曦的 GPU 基于全自研 GPGPU 核心 IP 及架構,原生支持全精度計算、MetaXLink 高速互連等特性。

      憑借自研的體系,沐曦保證了算力體系的安全合規、性能針對性以及演進自主權。與此同時,MACA 并沒有將全自研等同于「生態完全推倒重來」,而是通過 MACA 軟件棧構建了高度兼容的體系。

      這種策略,保證了「算力自主」的戰略目標。通過一并兼容已有生態海量的算法模型、軟件資產與開發者技能,讓更多開發者們無需重復造輪子,就可以在自主算力的底座上跑通業務。這種「高門檻自研、低成本遷移」的模式,最大化地保證了用戶的商業效率與效益。

      隨著技術的不斷進步,沐曦正在以最低的遷移成本,將 AI 開發者引入自己的生態軌道。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      毛澤東四渡赤水最奇在于:有一個不能說的真相,他自始至終沒透露

      毛澤東四渡赤水最奇在于:有一個不能說的真相,他自始至終沒透露

      小港哎歷史
      2025-12-20 14:15:03
      成也飯圈敗也飯圈!看到被央視點名的孫穎莎,樊振東的話有人信了

      成也飯圈敗也飯圈!看到被央視點名的孫穎莎,樊振東的話有人信了

      璀璨幻行者
      2025-11-18 10:47:31
      翻倍上漲!上海動遷戶,用房票把郊區新房買爆了!

      翻倍上漲!上海動遷戶,用房票把郊區新房買爆了!

      環線房產咨詢
      2025-12-29 12:05:17
      中國女排里約12人去向:2人留隊,5人任教高校,4人執教

      中國女排里約12人去向:2人留隊,5人任教高校,4人執教

      格斗一點通
      2025-12-28 23:45:30
      從18樓跳下的初中男孩,13天后在ICU醒來的第一句話,讓我破防了

      從18樓跳下的初中男孩,13天后在ICU醒來的第一句話,讓我破防了

      男孩派
      2025-12-27 21:45:41
      微信回應安裝包10多年膨脹數百倍:不會無限增長,安卓版體積在持續下降

      微信回應安裝包10多年膨脹數百倍:不會無限增長,安卓版體積在持續下降

      界面新聞
      2025-12-29 12:11:07
      空降的市長是我爸老部下的兒子,我只是副處長,聚餐時我主動喊大哥

      空降的市長是我爸老部下的兒子,我只是副處長,聚餐時我主動喊大哥

      張道陵秘話
      2025-12-13 22:30:14
      湖北26歲女孩開車墜河身亡:監控曝致命細節,2次活命機會全浪費

      湖北26歲女孩開車墜河身亡:監控曝致命細節,2次活命機會全浪費

      甜檸聊史
      2025-12-29 11:50:34
      闞清子被曝生畸形兒4天,醫院發聲,信息量大,3個疑問解開了

      闞清子被曝生畸形兒4天,醫院發聲,信息量大,3個疑問解開了

      除夕煙火燦爛
      2025-12-29 09:57:50
      亞洲杯戰泰國!中國男足降維打擊,有望創歷史進8強,CCTV5直播

      亞洲杯戰泰國!中國男足降維打擊,有望創歷史進8強,CCTV5直播

      體壇鑒春秋
      2025-12-29 13:26:33
      中方禁止入境后,美聯邦國務院怒了,我使館警告:島內恐成火藥桶

      中方禁止入境后,美聯邦國務院怒了,我使館警告:島內恐成火藥桶

      諦聽骨語本尊
      2025-12-29 17:10:32
      重要賽事!12月29日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      重要賽事!12月29日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2025-12-29 05:27:11
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      蔚來全新ES8百日交付破四萬 刷新40萬級市場紀錄

      蔚來全新ES8百日交付破四萬 刷新40萬級市場紀錄

      皆電
      2025-12-29 17:42:38
      朱棣死在榆木川,榆木川位于現在的哪里?說出來你可能不信

      朱棣死在榆木川,榆木川位于現在的哪里?說出來你可能不信

      孤單是寂寞的毒
      2025-12-28 23:08:43
      央行已出臺數字人民幣行動方案 明年1月1日正式啟動實施

      央行已出臺數字人民幣行動方案 明年1月1日正式啟動實施

      新京報
      2025-12-29 10:12:05
      日本最懼怕的敵人出拳了,日方求見中國,中方的回應“震耳欲聾”

      日本最懼怕的敵人出拳了,日方求見中國,中方的回應“震耳欲聾”

      面包夾知識
      2025-12-29 17:04:21
      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      以茶帶書
      2025-12-09 23:33:58
      小伙自駕西藏,遇徒步女學生搭車,同行2天后,才知自己躲過一劫

      小伙自駕西藏,遇徒步女學生搭車,同行2天后,才知自己躲過一劫

      五元講堂
      2025-10-16 14:41:16
      這個世上最大的威脅就是蠢貨,網友:這不僅蠢,還是個活閻王

      這個世上最大的威脅就是蠢貨,網友:這不僅蠢,還是個活閻王

      另子維愛讀史
      2025-12-29 17:49:49
      2025-12-29 18:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12016文章數 142523關注度
      往期回顧 全部

      科技要聞

      肉搏非洲,傳音不想只當個賣手機的

      頭條要聞

      媒體:鄭麗文盼明年上半年"登陸" 賴清德急了

      頭條要聞

      媒體:鄭麗文盼明年上半年"登陸" 賴清德急了

      體育要聞

      “史上最貴”的世界杯,球迷成了韭菜

      娛樂要聞

      譚松韻扛劇能力被質疑 趙麗穎成女主?

      財經要聞

      翁杰明:宏觀數據與居民微觀感受存在差距

      汽車要聞

      “路”要越走越深,猛士的智能越野時代來了

      態度原創

      本地
      藝術
      旅游
      時尚
      公開課

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      藝術要聞

      克里姆特風格的女性人物畫,太美了!

      旅游要聞

      讀書、賞花、趕集!興寧區旅游專線帶你玩轉十里花廊

      “勃肯鞋”今年冬天爆火!這幾雙怎么搭都好看

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 巢湖市| 日产精品久久久久久久| 无码人妻精品一区二区三区东京热| 成人精品18| 99在线小视频| 鲁鲁鲁鲁鲁鲁鲁777777| 亚洲自拍小说| 女人爽到高潮的免费视频 | 安福县| 国产男女猛烈无遮挡免费视频| 正在播放肥臀熟妇在线视频| 99久久精品费精品国产| 久草青春| 人妻 丝袜美腿 中文字幕| 天堂一区人妻无码| 国产女同疯狂摩擦奶6| 久在草影院| 人妻少妇精品视频一区二区三区| 欧美福利导航| 影音先锋人妻啪啪av资源网站| www.91xxx| 亚洲人人妻| 亚洲人成电影网站色| 国产精品女同一区二区| 亚洲AV无码国产永久播放蜜芽| 欧美怡春院一区二区三区| 国产视频一区二区三区四区视频| 熟女少妇精品一区二区| jizz喷水| 讷河市| 日产国产精品亚洲系列| 久久久久久久久久久国产| 國产AV天堂| 男人天堂国产| 绥芬河市| 激情综合一区二区三区| 人人澡超碰碰97碰碰碰| 国产精品高清一区二区三区| 尹人97| 2025亚洲无码视频| 国产av无码专区亚洲aⅴ|