<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic創始人盛贊Meta:開啟廣告基礎設施「智能體進化」時代

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】支撐Facebook Ads、Instagram Ads、Reels Ads等萬億級推薦系統的技術底座,正在經歷一場由AI智能體驅動的自我重構。面對指數級增長的算力需求與自研芯片MTIA的大規模部署,傳統的工程師調優模式已觸及極限。Meta最新論文揭示了背后的秘密:一種基于樹狀思維鏈搜索的智能體框架,正在以「無人駕駛」的方式,在復雜的異構硬件上暴力重寫Meta廣告系統的底層內核。該論文揭示了如何用自動化代碼生成, 將NVIDIA GPU, AMD和Meta Training and Inference Accelerator (MTIA)內核開發時間從數周壓縮到數小時, 并在生產環境中實現最高17倍的性能提升。

      在Meta的廣告推薦業務中,深度學習推薦模型(DLRM)是支撐數十億用戶日常體驗的核心技術。

      然而, 隨著業務規模的急劇擴張, 一個被稱為「維度詛咒」的系統性難題正在成為制約發展的瓶頸。

      這個難題由三個維度構成:

      1. 模型架構的多樣性:從傳統的檢索模型、粗排、精排模型,到基于Transformer的序列模型和生成式推薦模型,每種架構對計算的需求截然不同。

      2. 算子原語的多樣性:除了傳統的矩陣乘法(GEMM)等密集計算算子, 推薦系統還依賴超過200種數據預處理算子包括特征提取、歸一化、去重、掩碼等操作。這些看似簡單的算子, 在大規模部署中卻至關重要。

      3. 硬件異構性:Meta的基礎設施橫跨多代NVIDIA GPU、AMD GPU, 以及自研的MTIA v1-v3加速器。每種硬件都有獨特的內存層次、編程模型和架構特性, 代碼無法直接移植。


      圖 1 展示了Meta自研的MTIA芯片。從宏觀的數據中心布局到機架部署,再到微觀的電路連接與芯片核心,多維度呈現了MTIA在提升AI負載性能與能效方面的先進設計。


      圖 2 展示了MTIA 2i架構詳情。其核心為8×8的處理單元(PE)陣列,通過片上網絡互聯。每個PE集成了雙RISC-V內核及四大專用硬件引擎:用于數據轉換的MLU、矩陣運算的DPE、聚合計算的RE和向量處理的SIMD,并由命令處理器(CP)統一調度。

      這三個維度相乘, 產生了數千種「模型-算子-硬件」的組合。

      傳統的手工優化方式下,一個經驗豐富的內核工程師需要數周時間才能為單個組合完成高性能實現。這種開發模式在面對快速迭代的業務需求時, 已經難以為繼。

      面對這一挑戰,Meta提出了一個基于智能體的內核代碼生成框架KernelEvolve, 將內核優化過程重新定義為一個圖搜索與進化的過程。


      論文鏈接: https://arxiv.org/abs/2512.23236

      KernelEvolve的設計靈感來自進化算法, 將內核優化建模為一個經典的搜索問題, 包含四個核心組件:

      • 選擇策略(Selection Policy):基于Upper Confidence Bound (UCB) 的樹搜索算法, 智能地選擇最有希望的優化方向。系統會根據歷史執行結果動態調整探索與利用的平衡。

      • 通用算子(Universal Operator):這是KernelEvolve的創新之處。不同于傳統系統使用多個靜態提示模板, KernelEvolve 采用單一的、動態適應的轉換函數。該函數基于運行時上下文包括性能分析結果、錯誤信息、硬件約束和歷史優化記錄, 通過檢索增強的方式動態合成提示, 使得大語言模型能夠對正確性、性能和架構權衡進行整體推理。

      • 適應度函數(Fitness Function):綜合評估內核的正確性和性能。系統不僅驗證數值精度,還通過多層次的性能分析工具(從系統級到指令級)全面評估執行效率。

      • 終止規則(Termination Rule):當計算預算耗盡、優化進展停滯或達到性能閾值時,搜索過程自動終止。

      這一突破性進展不僅震撼了硬件圈,更引起了全球AI權威觀察家的震動。

      Anthropic聯合創始人Jack Clark在其影響深遠的周刊《Import AI》(第 439 期)中,將KernelEvolve放在了頭條位置進行深度剖析,他高度評價Meta正利用GPT、Claude和Llama/CWM等模型混合驅動來實現「萬億級基礎設施的自動化」,并斷言這預示著「LLM 智能體將成為異構AI系統的通用編譯層」,開啟了軟件工程范式的深刻變革。


      文章鏈接:https://jack-clark.net/2026/01/05/import-ai-439-ai-kernels-decentralized-training-and-universal-representations/

      多層次抽象與硬件適配

      KernelEvolve的一個關鍵優勢是其對多層次編程抽象的支持, 從高級 DSL 到底層硬件指令,覆蓋了完整的軟硬件優化棧:

      • TritonDSL: 用于快速原型和跨平臺開發

      • CuTeDSL: 針對NVIDIA GPU的深度優化

      • 硬件診斷語言: 針對MTIA等專有加速器的底層優化


      圖 3 展示了Triton多目標編譯架構。源代碼通過MLIR進行逐層降級:從平臺無關的Triton-MLIR,到針對特定硬件(GPU/AMDGPU/MTIA)的方言,最終生成支持NVIDIA (PTX)、AMD (AMDGCN) 以及MTIA (RISC-V)平臺的原生二進制文件。

      這種多層次設計使得KernelEvolve能夠為每個硬件平臺選擇最合適的抽象層次。

      更重要的是,系統集成了一個持久化的知識庫,編碼了各種硬件的特定約束和優化經驗。這使得即使對于大語言模型訓練語料中不存在的專有加速器,系統也能生成有效的內核代碼。

      智能體架構與自我改進

      KernelEvolve采用了復雜的智能體系統架構, 包含多個專門化的子智能體:

      • 上下文記憶子智能體:分析動態運行時信息(內核實現、性能測量、錯誤診斷), 診斷性能瓶頸并合成優化指令。

      • 深度搜索子智能體:當遇到復雜優化場景時, 執行更深入的搜索和分析。

      • 硬件解釋器:為NVIDIA、AMD和MTIA平臺提供專門的執行環境,確保代碼在真實硬件上的準確評估。

      • LLM合成器:生成動態提示,可以對接外部模型(Claude 4.5、GPT-5) 或Meta內部的Code World Model(CWM)模型。

      系統還維護了一個完整的元數據存儲,記錄搜索樹中每個節點的執行分數和父子關系,支持持續學習和優化策略的迭代改進。


      圖4 展示了KernelEvolve的系統架構(上)與執行工作流(下)。該系統通過具備「自進化」能力的樹搜索(Tree Search)狀態機,協同子智能體、評估工具及AI硬件解釋器(MTIA/GPU/AMD),利用Claude 4.5、GPT-5或Meta內部CWM等大模型后端動態生成Triton內核候選方案,并通過持久化知識庫與元數據存儲,實現內核優化的閉環探索與性能壓榨。

      閉環進化

      端到端評估流水線

      如果說Tree Search是KernelEvolve的「大腦」,那么端到端評估流水線就是它的「神經反射弧」。

      Meta并沒有簡單地將代碼扔給編譯器,而是構建了一套極其嚴密的自動化驗證與性能反饋閉環。KernelEvolve 的完整工作流程體現了其工程化的嚴謹性。整個系統分為三個主要模塊,形成一個閉環的優化過程:


      左側: 樹搜索引擎

      這是整個系統的「大腦」, 維護著一棵動態演進的搜索樹。樹的每個節點代表一個內核候選方案,包含PyTorch基線實現和Triton優化版本的雙重實現。

      系統通過在多組相同輸入下對比兩者的輸出結果,確保AI生成的內核在數學邏輯上與原生代碼100%一致,從根源上解決了大模型生成代碼可能帶來的準確性風險。搜索引擎通過UCB策略在樹中游走, 不斷探索新的優化路徑。當需要生成新的候選方案時, 系統會調用非LLM靜態代碼生成器, 基于模板快速生成標準化的評估框架代碼。



      中間:AI工具鏈代碼生成

      這是系統的「創造力來源」,生成的代碼會被送入專門的工具鏈進行編譯和性能分析。

      值得注意的是, KernelEvolve采用了多層次、多維度的評估策略: TritonBench驗證功能正確性, Torch Profiler提供系統級性能視圖, NVIDIA NCU深入到GPU指令級分析, Triton Proton工具測量內核內部延遲, MTIA Insight則針對 Meta 自研芯片提供專屬診斷。這些性能分析工具產生的反饋會重新輸入搜索引擎, 指導下一輪迭代。


      右側:異構AI硬件平臺

      這是系統的「試驗場」,KernelEvolve為每種硬件平臺配備了專門的解釋器。每個解釋器都能實時采集硬件特定的性能指標,比如GPU顯存吞吐量、L2緩存命中率、計算單元利用率等細粒度數據,甚至還能追蹤到具體的停頓指令。

      這些硬件級洞察為LLM提供了寶貴的優化線索。

      整個流程形成了一個「生成-評估-反饋」的自適應循環: 搜索引擎選擇候選節點 → 代碼生成工具鏈產出實現 → 硬件解釋器執行并采集性能數據 → 多維度分析工具提供診斷反饋 → 搜索引擎根據反饋調整策略。

      這種緊密集成的評估管線, 讓 KernelEvolve 能夠在數小時內完成人類工程師需要數周才能完成的優化探索。


      圖5 展示了端到端評估流水線:系統通過樹搜索(Tree Search)生成具備標準雙實現(PyTorch 基準與 Triton 優化)的候選內核,并在專用的硬件解釋器(GPU、AMD、MTIA)上執行。利用 TritonBench、NCU、MPP 和 MTIA Insight 等工具收集平臺特定的性能剖析指標(Profiling metrics),其反饋結果將直接指導后續的搜索迭代。為了實現跨異構加速器的自動化評估,AlphaKernel 基于 Meta 的 Bento 平臺構建了集成了完整軟件棧、編譯工具鏈和運行時依賴的標準化解釋器環境。

      工業級驗證

      從基準到生產

      KernelEvolve的有效性在多個層面得到了驗證。


      基準測試表現

      在公開的KernelBench測試集上, KernelEvolve 展現了卓越的魯棒性:

      • 在三個難度級別的全部250個問題上達到100%通過率

      • 在三個異構硬件平臺上測試160個PyTorch ATen算子

      • 480個「算子-平臺」配置全部正確,準確率100%



      生產環境部署

      更令人印象深刻的是在Meta真實生產環境中的表現:

      • 性能提升:在多樣化的廣告訓練和推理工作負載中,KernelEvolve生成的內核相比PyTorch基線實現了1.25至17倍的加速。這證明自動化合成的代碼可以超越最先進的編譯器生成代碼。

      • 開發效率:將內核開發時間從數周壓縮到數小時,極大降低了新模型部署和硬件適配的時間成本。

      • 硬件支持:成功為NVIDIA多代GPU、AMD GPU和Meta自研的MTIA v3加速器生成了高質量內核,顯著降低了新硬件的編程門檻。


      圖6 展示了KernelEvolve在異構AI硬件上的卓越性能。相比傳統方案,它在卷積 Transformer、數據預處理算子及推薦系統等Meta核心生產場景中,實現了1.25倍至17倍的加速。


      圖7 展示了在Meta的生產環境場景中,針對Convolutional Transformer的張量形狀,KernelEvolve生成內核與PyTorch原生算子的對比 (atol=10^?4, rtol=5×10^?4)。在 NVIDIA、AMD 和 MTIA 架構上,其生成的內核相比conv1d基準和優化后的conv2d基準,最高實現了6.22倍的加速。


      對于像MTIA這樣的專有加速器,傳統的開發流程面臨更大挑戰,相關的編程范式和優化技巧并未包含在主流大模型的訓練數據中。

      KernelEvolve通過知識庫注入硬件特定約束的方式,成功解決了這一問題,這意味著即使是全新的、文檔稀缺的硬件平臺,也能快速獲得高性能的算子庫支持。


      從單點優化到系統級重構

      KernelEvolve的意義不僅在于提升了單個內核的性能,更在于它改變了整個推薦系統基礎設施的開發范式:

      • 完整的算子覆蓋:通過自動化生成,KernelEvolve能夠快速實現完整的算子矩陣,使得模型可以在單一加速器上整體部署, 避免了分離式架構帶來的系統級開銷。

      • 持續優化循環:系統的搜索樹和知識庫會不斷積累優化經驗, 形成正向循環。每次優化不僅解決當前問題, 還為未來的優化提供了參考。

      • 降低創新門檻:新的模型架構或硬件平臺不再受限于內核開發的瓶頸, 研究人員和工程師可以更快地將創新想法付諸實踐。


      技術啟示與未來展望

      KernelEvolve的成功為AI系統優化領域帶來了幾個重要啟示:

      • 智能體的有效性:將復雜的工程問題建模為搜索和優化過程, 通過智能體進行自動化求解, 在異構硬件(HH)等復雜解空間中可以達到甚至超越人類專家的水平。

      • 知識與推理的結合:通過檢索增強和知識庫注入,有效擴展了大語言模型(LLM)的能力邊界,使其能夠精準處理 MTIA 等專有硬件架構的底層約束。

      • 多層次抽象的價值:支持從高級DSL(如 Triton)到底層指令的多層次優化,使得系統在保持快速迭代的同時,能實現對硬件性能的精細壓榨。

      • 生產部署的挑戰:論文也分享了在生產環境中操作KernelEvolve的實踐經驗,包括失敗模式分析、調試策略、性能驗證方法論和組織整合模式, 為后續研究提供了寶貴參考。

      展望未來,KernelEvolve正在開啟基礎設施演進的新篇章:

      • 邁向Agentic RL:未來的演進方向將引入Online Agentic Reinforcement Learning(在線智能體強化學習)。這意味著系統能根據生產環境中的運行時負載(Live Workloads)和硬件遙測數據,動態調整搜索策略和獎勵函數,實現內核性能的「熱進化」。

      • 適配下一代MTIA架構隨著Meta自研芯片的快速迭代,KernelEvolve將成為下一代MTIA研發中的核心組件。通過硬件與軟件智能體的深度協同(Co-design),在芯片流片前即可通過仿真環境進化出最優算子庫,極大縮短新硬件的TTM(上市時間,time to market)

      • 軟件工程范式的深刻變革自動化代碼優化將從內核編程擴展到更廣泛的系統軟件領域。我們或許正在見證從人工編寫到智能體輔助,再到智能體主導(Agent-Led)的演進路徑。

      對于Meta而言, KernelEvolve不僅是一個技術工具, 更是其在AI基礎設施領域保持競爭優勢的戰略投資。

      在萬億級廣告推薦系統的支撐下,每一個百分點的性能提升都意味著巨大的商業價值,而KernelEvolve所展現的, 正是用AI重構AI基礎設施的無限可能。

      主要作者

      Gang Liao

      Meta研究科學家 (Research Scientist) 馬里蘭大學(UMD)計算機博士,師從數據庫傳奇人物Daniel Abadi。 他是Meta廣告與推理基礎設施領域的底層優化專家,曾在百度、字節跳動及微軟研究院擔任核心角色,致力于推動支撐Meta 98% 年收入處理的底層基礎設施優化。

      Carole-Jean Wu

      Meta FAIR 研究總監 (Director of AI Research) 領導系統和機器學習研究團隊,同時擔任MLCommons創始成員兼副主席。她擁有普林斯頓大學博士學位,曾任亞利桑那州立大學終身教授。她的研究聚焦于計算機體系結構與機器學習的交叉領域,曾獲ACM SIGARCH Maurice Wilkes 獎等頂級榮譽,是 ISCA和HPCA名人堂成員,她同時擔任了MLSys'22和ISCA'26 機器學習系統和體系結構頂級會議聯名主席。

      Gaoxiang Liu

      Meta杰出工程師 (Distinguished Engineer) Meta廣告服務系統和推理引擎的核心掌舵人,畢業于密歇根大學安娜堡分校。他共同領導了Meta 全公司范圍內的現代化推理平臺建設,主導設計了支撐 LLM 規模推薦模型的下一代廣告服務系統。作為商業化 AI 硬件項目的技術負責人,他深度參與了 MTIA 的協同設計,構建了實現異構硬件(Nvidia GPU/AMD GPU/MTIA) 「可互換性」的架構棧。

      這一里程碑的達成離不開Meta內部各團隊的卓越協作, 包括Monetization Infra and Ranking (商業化基礎設施與排序), FAIR (基礎人工智能研究中心), Compiler (編譯器), MTIA, Serverless Compute (無服務器計算) 等團隊。

      參考資料:


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      清空的作品與破碎的公信力:軍事專家李莉預測失靈背后的認知迷思

      清空的作品與破碎的公信力:軍事專家李莉預測失靈背后的認知迷思

      老馬拉車莫少裝
      2026-01-16 18:48:04
      火箭無意莫蘭特保羅!已與半數球隊討論交易 多隊詢價伊森等三人

      火箭無意莫蘭特保羅!已與半數球隊討論交易 多隊詢價伊森等三人

      羅說NBA
      2026-01-17 08:26:38
      中國被公認為世界上最安全的大國

      中國被公認為世界上最安全的大國

      中國日報網
      2026-01-16 17:53:07
      官媒發文,38歲王思聰再破天花板,讓王健林和整個商界沉默了

      官媒發文,38歲王思聰再破天花板,讓王健林和整個商界沉默了

      琨玉秋霜
      2026-01-17 05:51:43
      賀嬌龍鮮為人知的往事:委培中專、服務員、被動走上網紅之路…

      賀嬌龍鮮為人知的往事:委培中專、服務員、被動走上網紅之路…

      仕道
      2026-01-16 09:49:59
      羅永浩談西貝最新發聲:當眾自殘而不自知,誰好意思跟他掰扯;稱對西貝“2次主動收手”,真擔心員工失業就不能胡來

      羅永浩談西貝最新發聲:當眾自殘而不自知,誰好意思跟他掰扯;稱對西貝“2次主動收手”,真擔心員工失業就不能胡來

      大象新聞
      2026-01-17 00:13:10
      上海:入冬以來最強雨雪冰凍將襲!網友:沒見過這么大霧,路口竟看不到紅綠燈!

      上海:入冬以來最強雨雪冰凍將襲!網友:沒見過這么大霧,路口竟看不到紅綠燈!

      魯中晨報
      2026-01-17 09:51:10
      揭露美國斬殺線立下大功的“牢A”,為何嗅到了危險,就立即上演了生死時速?

      揭露美國斬殺線立下大功的“牢A”,為何嗅到了危險,就立即上演了生死時速?

      明人明察
      2026-01-15 20:30:46
      CBA最新消息!北京首鋼更換教練,亨特確定離開遼寧男籃

      CBA最新消息!北京首鋼更換教練,亨特確定離開遼寧男籃

      體壇瞎白話
      2026-01-17 08:16:19
      隨著日本5-3,越南3-2,亞洲杯徹底亂了:西亞球隊已經全軍覆沒

      隨著日本5-3,越南3-2,亞洲杯徹底亂了:西亞球隊已經全軍覆沒

      側身凌空斬
      2026-01-17 02:11:17
      日本隊晉級半決賽!3屆連入4強,逆轉戰勝約旦,點球決戰險勝

      日本隊晉級半決賽!3屆連入4強,逆轉戰勝約旦,點球決戰險勝

      奧拜爾
      2026-01-16 22:21:35
      獸爺丨賈國龍決定同歸于盡

      獸爺丨賈國龍決定同歸于盡

      獸樓處
      2026-01-16 11:15:14
      國家出手,李湘全網賬號被封!知情人曝原因,比閆學晶風波還惡劣

      國家出手,李湘全網賬號被封!知情人曝原因,比閆學晶風波還惡劣

      阿纂看事
      2026-01-16 14:58:49
      善惡有報!高調炫富、國家立場被質疑,50歲李湘終為荒唐買了單

      善惡有報!高調炫富、國家立場被質疑,50歲李湘終為荒唐買了單

      做一個合格的吃瓜群眾
      2026-01-17 07:30:56
      “重大轉變”,加總理直說了:中國確實比美國更可靠

      “重大轉變”,加總理直說了:中國確實比美國更可靠

      觀察者網
      2026-01-16 21:57:04
      美軍一架F-35A戰斗機在日本近海消失,曾發出緊急情況“7700”代碼

      美軍一架F-35A戰斗機在日本近海消失,曾發出緊急情況“7700”代碼

      魯中晨報
      2026-01-16 18:59:03
      三大虎將啃不下黃維兵團,劉鄧向粟裕求救,粟裕再派一員虎將

      三大虎將啃不下黃維兵團,劉鄧向粟裕求救,粟裕再派一員虎將

      顧史
      2025-12-30 10:35:00
      出大事了,印度航天發射失敗,造假事件細節披露,丟人的還在后面

      出大事了,印度航天發射失敗,造假事件細節披露,丟人的還在后面

      天天熱點見聞
      2026-01-15 07:07:20
      錢再多有什么用,聶衛平遺孀現狀,給所有“老少戀”夫妻提了個醒

      錢再多有什么用,聶衛平遺孀現狀,給所有“老少戀”夫妻提了個醒

      小白兔YY
      2026-01-17 03:20:18
      國務院剛剛定了兩件大事,直接關系你的錢袋子!

      國務院剛剛定了兩件大事,直接關系你的錢袋子!

      21世紀經濟報道
      2026-01-16 21:29:29
      2026-01-17 10:36:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14346文章數 66507關注度
      往期回顧 全部

      科技要聞

      8億周活扛不住燒錢 ChatGPT終向廣告"低頭"

      頭條要聞

      最后一刻緊急叫停打伊朗 特朗普:已收到伊朗保證

      頭條要聞

      最后一刻緊急叫停打伊朗 特朗普:已收到伊朗保證

      體育要聞

      全隊身價=登貝萊,他們憑什么領跑法甲?

      娛樂要聞

      李湘翻車,早就有跡可循!

      財經要聞

      賈國龍、羅永浩均被禁言,微博CEO回應

      汽車要聞

      方程豹品牌銷量突破30萬輛 2026年還將推出轎跑系列

      態度原創

      本地
      教育
      健康
      時尚
      公開課

      本地新聞

      云游內蒙|黃沙與碧波撞色,烏海天生會“混搭”

      教育要聞

      一個奇怪的現象:鼓勵孩子參加集體活動的家長,更容易培養出自信大方的孩子

      血常規3項異常,是身體警報!

      今年冬天最時髦保暖的4組搭配,照著穿美出新高度!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精品男人的天堂| 久久综合色之久久综合| 日韩一区日韩二区日韩三区| 99噜噜噜在线播放| 亚洲日韩AV无码专区影院| 成人又黄又爽又色的网站| 夜夜添狠狠添高潮出水| 欧美mv日韩mv国产mv网站| 人妻夜夜爽天天爽| 亚洲av无码一区二区三区网站| 国产精品久久久久久爽爽爽| 美女91美女视频网站| 一本无码人妻在中文字幕免费| 国产无码8页| 亚洲精品在线成人| 国产欧美精品一区aⅴ影院| 九九久久国产精品大片| 亚洲黄色AV| 亚洲欧美伊人久久综合一区二区| 性高朝久久久久久久3小时| 崇信县| 少妇粗大进出白浆嘿嘿视频| 老司机久久影院| 精品人妻无码| 亚洲中文字幕免费| 亚洲国产专区| 综合色一色综合久久网| 午夜成人精品福利网站在线观看| 老鸭窝在钱视频| 亚洲国产精品福利片在线观看| 国产三级精品三级| 青川县| 精品国产三级在线观看| 亚洲人妻系列| 国产97色在线 | 免| 998av资源影音先锋| 无码人妻一区二区三区线花季传件| 亚洲无码人妻| 天天综合网网欲色| 日本视频一两二两三区| 日韩在线视频网|