<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達革了自己的命:智能體進化7天,干掉所有算子工程師、GPU專家

      0
      分享至



      機器之心編輯部

      這應該是今天剛剛出爐的、最炸裂的文章。

      在很多算子開發的微信群組,已經掀起了軒然大波。

      「這或許是超人類智能在軟件領域的真正首次展露?!褂ミ_許冰剛剛在 X 上發出了如此斷言。他所評論的,正是他與 Terry Chen 和 Zhifan Ye 為共同一作的一項英偉達新研究AVO



      在本周四剛剛提交到 arXiv 上的這項研究中,英偉達構建了Agentic Variation Operator(AVO),這是一類新型進化變異算子,它用自主編碼智能體取代了經典進化搜索中固定的變異、交叉和人工設計的啟發式方法,并取得了相當震撼的實際表現。

      許冰表示:「在一些經過高度優化的注意力機制工作負載中,智能體在沒有人工干預的情況下,即可在優化循環中連續搜索 7 天,從而超越幾乎所有人類 GPU 專家。」——AVO 的如此表現可能會讓許多內核/DSL 瑟瑟發抖。



      黃之鵬的 X 推文

      有意思的是,在 X 推文中,許冰還分享說一年半之前他與 Terry Chen 剛開始在英偉達研究智能體編程時,他們還不懂 GPU 編程,「所以從一開始我們就致力于開發完全自動化、無需人工干預的系統。」他們稱之為「盲編程(blind coding)」。

      「在過去一年半的時間里,我們兩人在兩個智能體系統中開發了四代智能體。從第二代開始,這些智能體棧就開始自我演化。現在每個智能體的代碼行數都約為 10 萬行(非空代碼)?!?/p>

      他還重點強調了 AVO 背后的重大意義:「我敢打賭:盲編程是軟件工程的未來。人類認知能力是瓶頸。

      下面我們就來詳細看看這篇或將開啟「盲編程」新時代的論文究竟做出了什么貢獻。



      • 論文標題:AVO: Agentic Variation Operators for Autonomous Evolutionary Search
      • 論文地址:https://arxiv.org/abs/2603.24517v1

      大語言模型已成為進化搜索(Evolutionary Search)中的強大組件,它以學習代碼生成取代了手工設計的變異算子。在這些系統中,LLM 根據選定的父代生成候選解,而通?;趩l式的框架則負責父代采樣、評估和種群管理。這種組合在數學優化和算法發現領域取得了顯著成果,包括 FunSearch 和 AlphaEvolve 等旗艦系統。

      然而,將 LLM 限制在預設流程中的候選解生成功能從根本上限制了其發現能力:每次調用僅產生一個輸出,無法主動查閱參考資料、測試其更改、解讀反饋或在提交候選方案前修正方案。對于那些已經過極致人工調優、需要深度迭代工程才能進一步改進的實現,這種限制尤為突出。

      研究者針對注意力機制背景下的這一問題進行了研究。注意力機制是 Transformer 架構的核心算子,也是優化最密集的 GPU 算子之一。FlashAttention 系列 和英偉達的 cuDNN 庫已將歷代 GPU 的注意力吞吐量推向硬件極限;在最新的 Blackwell 架構上,FlashAttention-4 (FA4) 和 cuDNN 均需要數月的人工優化。若要超越這些實現,需要與開發環境進行持續、迭代的交互:研究硬件文檔、分析分析器(Profiler)輸出以識別瓶頸、實現并測試候選優化方案、診斷正確性故障,并根據積累的經驗修正策略。

      深度智能體(Deep Agents)的最新進展表明,結合了規劃、持久內存和工具使用能力的 LLM 可以自主處理此類多步工程工作流,應用范圍涵蓋從解決復雜的 GitHub 問題到生成關鍵深度學習軟件。這促使 LLM 在演化搜索中扮演一種截然不同的角色:與其將其限制在固定流水線內,不如將深度智能體提升為變異算子本身。

      為此,英偉達提出了智能體式變異算子(Agentic Variation Operators, AVO)。在這種模式下,一個自導向的代碼代理取代了以往基于單輪 LLM 或固定工作流系統中的變異和交叉過程。AVO 智能體擁有訪問所有先前方案、特定領域知識庫和評估工具的權限。它能自主決定查閱內容、修改對象以及評估時機,從而實現在長周期內的持續改進。



      為了驗證其有效性,英偉達將 AVO 應用于NVIDIA Blackwell B200 GPU上的多頭注意力(MHA)內核,并直接與專家優化的 cuDNN 和 FlashAttention-4 內核進行對比。在無需人工干預、長達 7 天的連續自主演化中,智能體探索了超過 500 個優化方向,演化出 40 個內核版本。最終生成的 MHA 內核在 BF16 精度下達到了最高1668 TFLOPS的吞吐量,在測試配置中分別超越 cuDNN 高達3.5%,超越 FlashAttention-4 高達10.5%

      英偉達對智能體發現的優化方案進行分析后發現,這些優化涵蓋了內核設計的多個層面,包括寄存器分配、指令流水線調度和負載分布,反映了真正的硬件級推理。實驗表明,在 MHA 上發現的優化技術能有效遷移至分組查詢注意力(GQA):智能體僅需 30 分鐘的額外自主適配,即可完成演化版 MHA 內核對 GQA 的支持,其性能相比 cuDNN 提升高達 7.0%,相比 FlashAttention-4 提升 9.3%。

      該研究的主要貢獻如下:

      • 提出代理式變異算子(AVO):這是一類新型的演化變異算子,將智能體從單純的候選生成器提升為變異算子。智能體通過與環境的迭代交互,自主探索領域知識、實施修改并驗證結果。
      • 實現 SOTA 性能:在 NVIDIA B200 GPU 上,研究者在基準測試配置中實現了最頂尖的 MHA 吞吐量,達到 1668 TFLOPS,性能超越 cuDNN 高達 3.5%,超越 FlashAttention-4 高達 10.5%。此外,他們證明了這些優化可以輕松遷移至 GQA,僅需 30 分鐘的自主演化即可獲得顯著性能增益。
      • 微架構優化分析:研究者對智能體在基準測試設置下發現的微架構優化進行了詳細分析,表明代理進行的是真正的硬件級推理,而非表層的代碼變換。

      告別流水線

      AI 智能體成為真正的「進化操盤手」

      在傳統的基于 LLM 的進化搜索框架中,模型往往被困在固定的流水線里,僅僅充當候選代碼的生成器。它們每次調用只能輸出一次結果,無法主動查閱參考資料、測試代碼、理解反饋或在最終提交前修正策略。對于需要深度、反復迭代的頂級硬件優化任務來說,這種限制尤為致命。

      AVO 打破了這一局限,將「變異算子」實例化為一個自我驅動的智能體循環。這個 AI 智能體可以自由查閱之前的代碼版本記錄、調用領域專屬的知識庫(如 CUDA 編程指南和 PTX 架構文檔),并根據執行反饋來主動提出、修復、批判和驗證代碼修改。



      簡而言之,AVO 將 AI 從被動的「代碼生成器」提升為了掌握全局的「進化操盤手」。

      7 天自主運轉

      在 Blackwell 架構上擊敗頂尖基準

      研究團隊將 AVO 部署在一項極具挑戰性的任務上:在 NVIDIA Blackwell (B200) GPU 上優化多頭注意力(Multi-head Attention,簡稱 MHA)核心代碼。注意力機制是目前 Transformer 架構的核心,也是 AI 芯片上被優化得最極致的計算目標之一。

      在完全沒有人類干預的情況下,AVO 智能體連續自主運行了 7 天

      在這 7 天里,智能體在后臺探索了超過 500 個優化方向,并最終提交了 40 個有效迭代版本。最終,它生成的 MHA 核心在 BF16 精度下實現了高達 1668 TFLOPS 的吞吐量。



      在基準測試中,AVO 交出的答卷令人驚嘆:

      • 相比英偉達官方為 Blackwell 定制的閉源 cuDNN 庫,吞吐量提升了最高3.5%
      • 相比目前最前沿的開源基準 FlashAttention-4,吞吐量提升了最高10.5%

      強大的泛化能力

      30 分鐘遷移至分組查詢注意力

      更令人印象深刻的是,這些由智能體發現的底層微架構優化,并非只針對特定場景的過度擬合。當研究人員要求 AVO 將優化好的 MHA 核心適配到如今大模型常用的分組查詢注意力(Grouped-query Attention,簡稱 GQA)時,智能體僅用了約 30 分鐘的自主調整就完成了任務。



      在 GQA 的測試中,AVO 依然保持了絕對的領先優勢,性能比 cuDNN 高出最高 7.0%,比 FlashAttention-4 高出最高 9.3%。這表明,智能體在 MHA 進化過程中發現的計算和內存訪問優化模式,能夠有效泛化到具有不同計算特征的 GQA 任務中。

      深入底層的微架構推理

      分析 AVO 提交的代碼變更可以看出,AI 智能體并非在做表面功夫,而是進行了真正深入硬件底層的邏輯推理 :

      • 無分支累加器重縮放:通過消除條件分支,智能體排除了 warp 同步的開銷,并替換了更輕量級的內存屏障,使得非因果注意力的吞吐量一次性提升了 8.1%。
      • 糾錯與張量核心(MMA)流水線重疊:智能體重新組織了執行流水線,將原本順序執行的依賴關系轉化為交疊的流水線執行,大幅減少了硬件的空閑等待時間。
      • 跨 warp 組的寄存器重新平衡:智能體通過分析性能分析器的數據,發現某些運算組因為寄存器不足而導致數據溢出至慢速本地內存。它果斷對 Blackwell 的 2048 個寄存器預算進行了重新分配,進一步壓榨出 2.1% 的性能提升。

      英偉達的這項研究證明,AI 智能體已經具備了處理多硬件子系統(如同步、內存排序、流水線調度和寄存器分配)聯合推理的能力。AVO 作為一種不局限于特定領域的進化變異算子,為未來的自動化軟件系統優化指出了一條明路。它不僅能用于 AI 芯片和深度學習底層生態的開發,未來更有望在所有對算力有著極致苛求的科學和工程領域中大展拳腳。

      AI 智能體的自我進化能夠達到這種水平,你怕了嗎?

      https://x.com/bingxu_/status/2036983004200149460?s=46

      https://x.com/nopainkiller/status/2036986666410532972

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      過分!一大V諷刺張雪峰:稱少一個鼓吹戰爭的瘋子,對世界更美好

      過分!一大V諷刺張雪峰:稱少一個鼓吹戰爭的瘋子,對世界更美好

      談史論天地
      2026-03-26 07:56:52
      大伯突然給我發消息,讓我趕緊賣掉房子,錢全部給堂弟,我問為啥

      大伯突然給我發消息,讓我趕緊賣掉房子,錢全部給堂弟,我問為啥

      小秋情感說
      2026-03-26 09:21:52
      全球首次!俄軍10倍音速鋯石高超音速導彈發射車:最后一刻被摧毀

      全球首次!俄軍10倍音速鋯石高超音速導彈發射車:最后一刻被摧毀

      Ck的蜜糖
      2026-03-26 12:30:25
      歐爾班的好日子到頭了

      歐爾班的好日子到頭了

      民間胡扯老哥
      2026-03-25 05:22:48
      張雪峰去世,他留下的30個金句,涵蓋志愿填報、成長與認知

      張雪峰去世,他留下的30個金句,涵蓋志愿填報、成長與認知

      光影新天地
      2026-03-24 22:25:14
      美軍合作商CEO急眼,竟狂言“終將破解并癱瘓北斗信號”

      美軍合作商CEO急眼,竟狂言“終將破解并癱瘓北斗信號”

      觀察者網
      2026-03-25 14:58:54
      鄭裕彤家族危機爆發,或賣祖業自救,為何沒有香港豪門出手相助?

      鄭裕彤家族危機爆發,或賣祖業自救,為何沒有香港豪門出手相助?

      林小明商業評說
      2026-03-25 14:18:52
      斯洛伐克總理:澤連斯基覺得想要什么就必須得到,歐洲已厭倦他了

      斯洛伐克總理:澤連斯基覺得想要什么就必須得到,歐洲已厭倦他了

      浩舞纆畫
      2026-03-26 11:15:44
      何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

      何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

      扒點半吃瓜
      2026-03-10 07:00:13
      第六險來了!一文讀懂“長護險”

      第六險來了!一文讀懂“長護險”

      極目新聞
      2026-03-26 07:21:00
      騙貸6.6億余元 潛逃境外涉金融領域犯罪嫌疑人張某被押解回國

      騙貸6.6億余元 潛逃境外涉金融領域犯罪嫌疑人張某被押解回國

      新京報
      2026-03-26 12:58:08
      洛克希德·馬丁:將精確打擊導彈產量提升四倍

      洛克希德·馬?。簩⒕_打擊導彈產量提升四倍

      財聯社
      2026-03-25 19:18:36
      拉里賈尼繼任者不到一天被殺,川普加派82空降師開赴中東

      拉里賈尼繼任者不到一天被殺,川普加派82空降師開赴中東

      移光幻影
      2026-03-26 09:56:37
      以色列全境被打穿,防空也攔不住,海灣國家耐心耗盡,或下場打仗

      以色列全境被打穿,防空也攔不住,海灣國家耐心耗盡,或下場打仗

      老男孩兒
      2026-03-26 10:50:14
      別想再回國!中國體壇 4 大叛徒,奪冠后否認是國人,如今遭報應

      別想再回國!中國體壇 4 大叛徒,奪冠后否認是國人,如今遭報應

      動物奇奇怪怪
      2026-03-25 14:18:48
      勇士逆轉險勝!波杰22+6全隊第一,桑托斯31+3格林立功,庫里開心

      勇士逆轉險勝!波杰22+6全隊第一,桑托斯31+3格林立功,庫里開心

      魚崖大話籃球
      2026-03-26 13:04:06
      岳云鵬現身上海,氣場跟以前完全不一樣了,助理當街抽煙也不避諱

      岳云鵬現身上海,氣場跟以前完全不一樣了,助理當街抽煙也不避諱

      仙味少女心
      2026-03-24 16:47:29
      騎士兩大敗因出爐,哈登賽季新高!阿特金森直言不諱,米切爾無奈

      騎士兩大敗因出爐,哈登賽季新高!阿特金森直言不諱,米切爾無奈

      魚崖大話籃球
      2026-03-26 11:49:12
      火箭創造歷史!杜蘭特30+3+8賽后阿杜走入通道,愛德華茲激情慶祝

      火箭創造歷史!杜蘭特30+3+8賽后阿杜走入通道,愛德華茲激情慶祝

      擔酒
      2026-03-26 12:41:20
      中東戰場外的大贏家:俄羅斯拿下越南核電和液化天然氣大單

      中東戰場外的大贏家:俄羅斯拿下越南核電和液化天然氣大單

      澎湃新聞
      2026-03-25 19:52:29
      2026-03-26 13:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12601文章數 142593關注度
      往期回顧 全部

      科技要聞

      Meta高管狂分百億期權,700名員工卻下崗

      頭條要聞

      伊朗議長和外長暫被移出美以清除名單 時限4到5天

      頭條要聞

      伊朗議長和外長暫被移出美以清除名單 時限4到5天

      體育要聞

      35歲替補門將,憑什么入選英格蘭隊?

      娛樂要聞

      張雪峰家人首發聲 不設追思會喪事從簡

      財經要聞

      黃仁勛:芯片公司的時代已經結束了

      汽車要聞

      一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

      態度原創

      健康
      教育
      時尚
      親子
      手機

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      太管用了!高考俄語二輪復習聽力模塊得分要點!

      2026年了,最好看的還是“這件針織”!

      親子要聞

      躺平的孩子意外覺醒了,在父母學會當“烏龜”!

      手機要聞

      華為全面回歸官宣!產品全覆蓋、麒麟全搭載,國產手機重回巔峰

      無障礙瀏覽 進入關懷版