<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Sand.ai開源MagiCompiler:突破局部編譯界限,定義訓推性能上限

      0
      分享至



      機器之心發布

      大模型開發者常面臨一個兩難選擇:要速度,還是省顯存?

      通常情況下,想要跑得快,顯存會爆;想省點顯存,計算效率又會被頻繁的同步和流水線氣泡大幅拖垮。原生的 torch.compile 雖然好用,但在面對復雜的跨層優化和 FSDP 顯存管理時,依然力不從心。

      為了徹底解決這一痛點,Sand.ai 今天正式開源MagiCompiler—— 一款基于 torch.compile 深度優化的即插即用、訓推一體編譯框架。

      MagiCompiler 徹底突破了傳統局部編譯的界限,實現了推理期整圖捕獲與訓練期 FSDP-Aware 整層編譯。

      更重要的是,研發團隊創新提出Compiler as Manager理念 —— 將編譯器從單純的 “算子優化器” 進階為全局管理器。它全面接管了計算調度與顯存的生命周期,以系統級的底層解法,破解算力與顯存墻難題。



      • 代碼倉庫:https://github.com/SandAI-org/MagiCompiler

      核心技術

      打破邊界的全局調度

      1. 打破編譯邊界:整圖與整層編譯

      傳統編譯常因復雜的 Python 邏輯頻繁觸發 Graph Break。研發團隊徹底改變了這一點:

      • 推理期:捕獲完整的計算圖,最大化 Transformer Block 內的算子融合空間。
      • 訓練期:利用 FSDP 在前向 / 反向傳播中 “單層權重全駐留” 的特性,將 Transformer Layer 作為編譯單元。這使得編譯器可以執行激進的跨算子融合,大幅減少 Kernel Launch 開銷和 Global Memory 讀寫。

      2. 內存魔術:啟發式重計算(Heuristic Recompute)

      在訓練大模型時,開發者通常需要手動插入 torch.utils.checkpoint 來控制顯存,既繁瑣又難以最優。MagiCompiler 引入了智能感知圖分割器:

      • 徹底告別手動打點:框架自動分析計算圖,識別并優先保留 MatMul、Attention 等計算密集型算子的輸出。
      • 極致摳顯存:對于顯存密集型算子,自動在反向傳播時進行重計算,從根本上壓縮顯存峰值而不損失吞吐量。

      3. 榨干帶寬:JIT 極致 Offload 調度

      針對顯存瓶頸,研發團隊實現了一套極其優雅的權衡調度引擎:

      • 性價比常駐:基于 Profiling 數據,將最劃算的權重貪心地常駐在有限的 GPU 顯存中。
      • JIT 最晚預取:調度器逆向推導精確的預取時間表,卡在計算前的 “最后一刻” 完成權重拉取,確保 GPU 不囤積多余權重,徹底消除流水線氣泡。



      MagiCompiler Overview

      性能實測

      真正免費的性能午餐

      憑借底層的全局調度,MagiCompiler 交出了亮眼的答卷:

      • 訓練端表現:在極短時間內,提供高吞吐的保底方案。無需耗時數周死磕 Kernel 或手工魔改底層邏輯,開箱即可解決 Baseline 的 CPU 調度與算子碎片化難題,直接帶來 44.7% 提速與 6.2% 顯存下降,且精度完全對齊。



      MagiCompiler v.s. baseline

      • 推理端表現:在多模態視頻生成場景下,MagiCompiler 展現了極其扎實的硬件泛化能力
      • H100:比最好更好
      • 在單機 NVIDIA H100 上,面對主流視頻生成模型,MagiCompiler 比目前的領跑方案(如 LightX2V)還要快9%~26%



      H100 性能測評

      • RTX 5090:顯存受限,近乎實時
      • 即便在顯存有限的 5090 上,通過 JIT Offload 調度,MagiCompiler 也讓 daVinci-MagiHuman 這種超大模型跑出了近乎實時的速度。



      5090 daVinci-MagiHuman 性能指標

      極簡體驗

      一行代碼,即插即用

      強悍的底層性能并不意味著復雜的接入成本。秉持對開發者友好的設計理念,MagiCompiler 只需兩個裝飾器即可完成接入。

      • 基礎編譯增強
      • 無需修改模型源碼,magi_compile 一鍵裝飾 TransformerBlock:



      • 自定義算子注冊
      • 對于 FlashAttention 或 MoE 等定制化算子,輕松注冊并無縫融入重計算策略:



      此外,我們內置了強大的自省工具鏈:開啟環境變量,所有隱式的編譯產物(反編譯字節碼、Kernel 代碼、Guard 條件等)均會被持久化為人類可讀的 Python 文件與圖表,讓編譯器 Debug 變得簡單直觀。

      結語與未來展望

      MagiCompiler 正在打破傳統編譯器的邊界。它不僅讓我們看到了 torch.compile 邁向全局調度的巨大潛力,更為大模型與多模態架構的規?;涞靥峁┝嘶A設施。

      目前,MagiCompiler 已全面開源。Sand.ai 將持續降低大模型底層的開發門檻,為 AI 社區持續做出貢獻。

      了解更多信息,歡迎訪問 Sand.ai 官網:https://sand.ai

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      再造一條長江!2026年最逆天的超級大基建,突然提速

      再造一條長江!2026年最逆天的超級大基建,突然提速

      前瞻網
      2026-03-24 10:20:39
      沒想到,41歲猝死的張雪峰,讓藍盈瑩口碑暴增,才懂她活得多清醒

      沒想到,41歲猝死的張雪峰,讓藍盈瑩口碑暴增,才懂她活得多清醒

      夢憶之淺
      2026-03-25 16:17:33
      太平天國到底封了多少王?這些王是怎么排位的,有什么權力?

      太平天國到底封了多少王?這些王是怎么排位的,有什么權力?

      掠影后有感
      2026-03-25 10:21:00
      有人反對陳云進政治局,姚依林說:過去八大副主席,只剩下他一人

      有人反對陳云進政治局,姚依林說:過去八大副主席,只剩下他一人

      品點歷史
      2026-03-25 10:40:12
      任長霞離世后丈夫攜子合葬,獨子現狀引關注

      任長霞離世后丈夫攜子合葬,獨子現狀引關注

      孤城落日
      2026-03-24 22:23:59
      1 個信號!美財長卻認栽:攔不住中國,普京竟搶先特朗普訪華

      1 個信號!美財長卻認栽:攔不住中國,普京竟搶先特朗普訪華

      眼界看視野
      2026-03-25 18:03:11
      叔本華:性欲是一切欲望的焦點

      叔本華:性欲是一切欲望的焦點

      聽哲學
      2026-03-24 21:42:04
      上將被查、院士被除名,這背后釋放的信號,比你想的更不簡單

      上將被查、院士被除名,這背后釋放的信號,比你想的更不簡單

      李昕言溫度空間
      2026-03-19 22:56:18
      1986年,葉劍英追悼會舉行,中央邀請其遺孀參加,聶榮臻:我不讓

      1986年,葉劍英追悼會舉行,中央邀請其遺孀參加,聶榮臻:我不讓

      簡史檔案館
      2026-03-25 11:05:03
      特朗普:伊朗送了一份“厚禮”

      特朗普:伊朗送了一份“厚禮”

      極目新聞
      2026-03-25 12:01:26
      大反攻開始!以色列,徹底被打穿了!

      大反攻開始!以色列,徹底被打穿了!

      大嘴說天下
      2026-03-24 22:55:03
      香港再無董建華

      香港再無董建華

      華人星光
      2025-11-25 12:01:27
      召回獲得9分鐘登場,官方:開拓者將楊瀚森下放至混音隊

      召回獲得9分鐘登場,官方:開拓者將楊瀚森下放至混音隊

      懂球帝
      2026-03-25 01:48:04
      普京智囊做出預言:下1個爆發戰爭的地方不是臺海,也不是南海

      普京智囊做出預言:下1個爆發戰爭的地方不是臺海,也不是南海

      悅心知足
      2026-03-12 15:26:09
      國內PS5港版賣4300元啦?玩家也直呼看不懂!

      國內PS5港版賣4300元啦?玩家也直呼看不懂!

      游民星空
      2026-03-25 15:09:24
      CBA官宣:新疆男籃注冊新外援NBA落選秀布伊 裁掉哈里斯

      CBA官宣:新疆男籃注冊新外援NBA落選秀布伊 裁掉哈里斯

      醉臥浮生
      2026-03-25 11:12:02
      張雪峰不是張維為

      張雪峰不是張維為

      林中木白
      2026-03-25 10:31:03
      德轉身價門將前十:多納魯馬排第1 加西亞并列第2 拉門斯排第9

      德轉身價門將前十:多納魯馬排第1 加西亞并列第2 拉門斯排第9

      智道足球
      2026-03-25 09:43:16
      西方突然發現:中國越來越像我們了

      西方突然發現:中國越來越像我們了

      青木在德國
      2026-03-24 20:24:58
      張雪峰離世:全網沒提的 3 個真相,才是他真正不可替代的原因

      張雪峰離世:全網沒提的 3 個真相,才是他真正不可替代的原因

      阿訊說天下
      2026-03-25 14:35:24
      2026-03-25 18:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12598文章數 142592關注度
      往期回顧 全部

      科技要聞

      紅極一時卻草草收場,Sora宣布正式關停

      頭條要聞

      伊朗放話愿意與"主和派"萬斯談 特朗普表態

      頭條要聞

      伊朗放話愿意與"主和派"萬斯談 特朗普表態

      體育要聞

      35歲替補門將,憑什么入選英格蘭隊?

      娛樂要聞

      張雪峰經搶救無效不幸去世 年僅41歲

      財經要聞

      管濤:中東局勢如何影響人民幣匯率走勢?

      汽車要聞

      智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

      態度原創

      時尚
      數碼
      藝術
      健康
      公開課

      告別黑白灰,春天穿“奶油色”真的很好看

      數碼要聞

      小米首款追蹤器!小米Tag UWB防丟器圖賞

      藝術要聞

      《百花譜》,這個春天畫花不用愁!

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版