<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源模型首超Opus4.6!智譜GLM-5.1登場,14小時后CUDA專家被沖了

      0
      分享至

      金磊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      優化CUDA Kernel這件事,剛剛被AI狠狠地沖擊了一波。

      因為現在,給AI十四個小時,它就能幫你把CUDA Kernel優化,加速比從2.6×推至35.7×!

      什么概念?

      以前人類資深CUDA工程師要完成這個任務,需要數月反復測試、調優、推翻重來才行;但現在,AI在你睡覺的時候就能解決掉。

      而且AI在這個過程中還展現出了專家級的直覺

      例如在優化初期,它嘗試在現有高層框架內尋找解法,但很快通過自主跑測試發現性能觸及了天花板,然后它便做出了人類專家才有的決策——

      自主判斷放棄高層框架,直接轉向底層C++進行硬核重寫。

      整整14個小時里,這個AI主打一個全自動:AI自己發現瓶頸,自己改變技術棧,自己重新編譯,自己測試。

      那這到底是何許AI是也?

      不賣關子,正是大家熟悉的,來自智譜的開源模型——GLM-5.1



      隨著這次長程任務(Long Horizon Task)能力的提升,智譜官方也宣布了一個重要的突破:

      首次解鎖了開源模型與當前全球最頂尖閉源模型Claude Opus 4.6的全面對齊!

      嗯,是妥妥穩坐全球最強開源模型寶座的感覺了。

      而且,從更多的權威評測榜單中來看,也是印證了這一點。

      在被稱為“軟件工程能力試金石”的SWE-bench Pro基準測試中,GLM-5.1刷新了全球最佳成績,直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型,拿下全球第一:



      甚至在海外網友們的圈子中,已經吹起了棄用Claude Max的風了:

      它的手感和Opus一模一樣,使用額度是Claude Code的3倍,成本卻只有1/3。



      HuggingFace CEO也出面站臺,稱SWE-Bench Pro中性能最強的模型開源了:



      而這一切成績的背后,正是智譜面向小時級的長程任務能力。

      給AI幾個小時,一切都不一樣了

      當前主流的大模型,可以說大多數還是處于“分鐘級交互”的階段。

      但到了GLM-5.1這邊,它的交付單位就不同了——一個完整的項目

      接下來,我們就通過實測的方式,來看下GLM-5.1的實力到底幾何。

      調用工具1000輪,優化真實機器學習模型負載

      第一個實測,我們順著前面的CUDA的例子,繼續讓GLM-5.1進行一場考驗:

      KernelBench Level 3優化基準,這一基準涵蓋50個真實機器學習計算負載,主打一個還原真實工業場景,考驗的是端到端的完整優化能力而非單一算子調試。

      在超過24小時的不間斷迭代中,GLM-5.1全程自主發力,無需人類專家干預,一遍遍完成“編譯—測試—分析—重寫”的閉環循環,最終交出了這樣的結果——

      3.6倍幾何平均加速比,而作為對比,torch.compile max-autotune模式僅能達到1.49倍,差距直接翻倍不止!



      從這個過程中可以看到,GLM-5.1能夠自主編寫定制Triton Kernel和CUDA Kernel,運用cuBLASLt epilogue融合并實施shared memory tiling與CUDA Graph優化。

      這些優化策略覆蓋了從高層算子融合到微架構級調優的完整技術棧,每一步都是模型的自主決策。

      結果再次表明,在GPU內核優化這一傳統上高度依賴專家經驗的領域,AI模型已經展現出從問題分析、方案設計到迭代調優的端到端自主工作能力。

      1小時從零構建MacOS桌面環境

      在這個實測中,我們給GLM-5.1扔了一份3000字的PRD,核心要求只有一個:

      從0開始復刻MacOS核心UI與交互,不僅要前端殼子,還必須包含窗口管理器、Dock欄調度、以及模擬的底層文件系統。



      這是一個標準的前端工程團隊至少需要數天才能打磨出原型的任務,但在GLM-5.1這里,時間被壓縮到了小時級別。

      瞧,待它分析完任務之后,自己就開始唰唰地編程了:



      1個小時之后,在沒有任何人工參與的情況下,一個MacOS的桌面環境,就這么水靈靈地誕生了!



      視頻地址:
      https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

      可以看到,更改桌面背景、放大縮小Docker、終端命令執行、系統自帶的截圖功能等,統統都能實現。

      而在智譜官方的demo中,展示了GLM-5.1耗時8小時實現的更加復雜的Linux系統:



      視頻地址:
      https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

      執行了1200多步,完整的桌面、窗口管理器、狀態欄、應用程序、VPN管理器、中文字體支持、游戲庫等……相當于一個4人團隊一周的開發工作量。

      不得不說,現在GLM-5.1的每一次提交,都是具有實質意義的系統級演進。

      全自動重寫屎山代碼

      寫代碼的人都知道,比從零寫一個新項目更痛苦的,是重構別人留下的屎山代碼

      但現在有了GLM-5.1,我們可以把這個任務交給它來處理了。

      例如這段代碼就堪稱是屎山中的經典:變量名完全無意義、五層嵌套if、重復計算總和三遍、全局變量到處亂改、函數幾百行不拆分……



      能運行嗎?能運行;惡心嗎?也是真惡心。

      而在GLM-5.1只需半小時的自動重寫之后,一份注釋清晰、符合標準的代碼就誕生了:



      655次迭代,打破向量數據庫性能瓶頸

      如果說重構代碼還只是把已有的東西做好,那向量數據庫優化,考驗的就是AI自主迭代、持續突破的能力。

      這也或許正是人類資深工程師最核心的價值。

      在這項測試中,GLM-5.1的需求是優化現有向量數據庫的查詢性能,盡可能提升QPS。

      隨后,它開啟了完全自主的“測試-分析-優化-再測試”閉環。

      每一輪優化后,它都會主動跑完整的Benchmark,獲取QPS、延遲、內存占用等核心數據,自主分析性能瓶頸。



      視頻地址:
      https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

      最終,在655輪迭代之后,GLM-5.1把向量數據庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS,提升到初始正式版本的6.9倍。

      AI能獨立工作多久,成了新標準

      之所以GLM-5.1這次能夠炸場,本質上是它踩中了AI行業的下一個核心賽點:長程任務(Long Horizon Task)能力

      2025年3月,全球頂尖的AI安全研究機構METR(Model Evaluation and Threat Research)便提出了一個徹底改變行業認知的新指標,叫做Task-Completion Time Horizon(任務完成時間線)。

      這個指標的核心思想是,不再用做題的準確率來衡量模型有多聰明,而是用時間來衡量它能獨立完成多長時間的人類專家任務

      研究顯示,前沿模型的時間線每7個月就會翻一倍,這條指數曲線,被MIT Technology Review稱為“AI領域最重要的一張圖”。紅杉資本更是在2026年初直接宣告:“這就是AGI的核心方向”,并直言:2023-2024年的AI,是只會對話的“talker”,而2026-2027年的AI,將成為能真正落地做事的“doer”。

      而GLM-5.1,是全球第一個在真實工程任務中,驗證了8小時持續工作能力的開源模型。

      它能在單次任務中,持續、自主地工作長達8小時,過程中自主規劃、自主執行、自主測試,碰壁時主動切換策略,出錯后自行修復,最終交付完整的工程級成果。

      GLM-5.1之所以能做到這一點,核心源于三個維度的系統性技術突破:

      第一,更強的長程規劃與目標保持能力。

      它能把一個復雜的大目標,拆解為可執行的多階段計劃,并且在長達十幾小時、上千步的執行鏈路中,始終圍繞最終交付目標推進。簡單來說,就是干到第十步,還記得第二步定的規矩。

      第二,更穩的自適應糾錯與持續執行能力。

      它實現了代碼編寫、工具調用、環境調試、API對接等多個環節的穩定銜接,中途出錯時,不會停下來等人工介入,而是會自主查看錯誤日志、定位問題根源、修復bug,甚至自己寫回歸測試用例驗證修復效果。

      第三,更好的狀態延續與上下文整合能力。

      面對長時間跨度、多輪反饋和百萬級token的上下文信息,它能穩定追蹤已完成的工作、當前所處的階段和下一步的核心動作,持續整合新的信息,保持整個執行鏈路的一致性。

      開源模型看中國,更得看智譜

      GLM-5.1的出現,不僅是模型能力的升級,更改寫了全球大模型行業的敘事邏輯。

      長久以來,中國開源模型始終帶著追趕者的標簽,與美國頂尖閉源模型存在差距,而GLM-5.1徹底打破這一局面:

      它在權威榜單上對齊Claude Opus 4.6,在SWE-bench Pro等核心工程指標上實現反超,讓中國開源AI在核心工程能力上與全球前沿并駕齊驅。

      更重要的是,它的變革遠超模型本身,正重構萬億級IT服務市場的底層邏輯。

      AI Coding的進化有清晰路徑:從程序員提效工具,到降低代碼門檻,再到能自主做事的初級工程師,而GLM-5.1的Long Horizon能力,直接將AI推向能持續工作數小時、交付完整項目的新階段。

      當AI的交付單位從一行代碼變為一個完整項目,便沖擊了整個軟件工程的生產關系——4人團隊一周的工作量、資深工程師數月的優化任務,它數小時就能完成,這將重構多個行業的定價與人力配置邏輯。

      當然,我們不必陷入AI會替代程序員的無謂焦慮。就像當年計算機的普及,沒有淘汰會計這個職業,只是淘汰了不會用計算機的會計;AI的到來,也不會淘汰開發者,只會淘汰不會駕馭AI的開發者。

      GLM-5.1的出現,真正給整個行業拋出的核心問題是:當AI已經能自主完成長達數小時的復雜長程任務,實現從規劃、執行、糾錯到完整項目交付的全閉環時,人類的不可替代性到底在哪里?

      答案或許就是定義問題、創造價值、做出核心決策的能力,畢竟這是AI暫時無法替代的核心護城河。

      而對中國AI行業而言,GLM-5.1只是開始,當開源模型達到全球頂尖工程能力、AI從對話者變為執行者,行業必將迎來更徹底、更深刻的變革。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男人開口問你要這樣東西,證明他多半是有坑的

      男人開口問你要這樣東西,證明他多半是有坑的

      冷愛
      2026-04-09 15:22:19
      “祖先給的特權”,河南網友稱祖墳在景區祭祖免票,景區回應:沒過檢票口,一般是附近住戶的祖墳

      “祖先給的特權”,河南網友稱祖墳在景區祭祖免票,景區回應:沒過檢票口,一般是附近住戶的祖墳

      大風新聞
      2026-04-06 15:06:12
      突發大利好!A股爆拉、創業板指年內新高,中際旭創市值破8000億

      突發大利好!A股爆拉、創業板指年內新高,中際旭創市值破8000億

      看財經show
      2026-04-10 16:53:24
      “合巹之歡”的“合巹”不讀 hé qǐn,含義讓人沖動!

      “合巹之歡”的“合巹”不讀 hé qǐn,含義讓人沖動!

      未央看點
      2026-04-09 00:49:14
      張雪這老板真會玩!慶功宴直接在食堂和投資人開整

      張雪這老板真會玩!慶功宴直接在食堂和投資人開整

      阿廢冷眼觀察所
      2026-04-10 12:03:29
      一戰定乾坤!U20女足亞洲杯8強:中國vs烏茲別克斯坦 贏家晉級世青賽

      一戰定乾坤!U20女足亞洲杯8強:中國vs烏茲別克斯坦 贏家晉級世青賽

      愛奇藝體育
      2026-04-11 09:08:04
      百億遺產說扔就扔?73歲遲重瑞現身寺廟,白巖松一語道破小心思

      百億遺產說扔就扔?73歲遲重瑞現身寺廟,白巖松一語道破小心思

      動物奇奇怪怪
      2026-04-11 09:51:59
      第二個李登輝出現?恐是民進黨臥底,要繼承王金平衣缽害殘國民黨

      第二個李登輝出現?恐是民進黨臥底,要繼承王金平衣缽害殘國民黨

      遁走的兩輪
      2026-02-19 14:27:38
      鄭麗文書法爭議:她的字真的不是自己寫的嗎?

      鄭麗文書法爭議:她的字真的不是自己寫的嗎?

      書畫相約
      2026-04-08 08:19:04
      “最佳血壓” 是多少?提醒:過64歲以后,血壓最好控制這范圍

      “最佳血壓” 是多少?提醒:過64歲以后,血壓最好控制這范圍

      任醫生聊健康
      2026-04-11 08:33:12
      張雪峰去世15天后,雙豐園餃子鋪臨時閉店,老板透露已經身心俱疲

      張雪峰去世15天后,雙豐園餃子鋪臨時閉店,老板透露已經身心俱疲

      手工制作阿殲
      2026-04-10 18:01:18
      曼聯舊將離世一年,妻子用冷凍胚胎神奇懷孕:他早有預言!

      曼聯舊將離世一年,妻子用冷凍胚胎神奇懷孕:他早有預言!

      仰臥撐FTUer
      2026-04-10 22:26:05
      戰爭有多燒錢,網友說我講一下我家里的局部戰爭你就明白

      戰爭有多燒錢,網友說我講一下我家里的局部戰爭你就明白

      侃神評故事
      2026-04-06 11:45:08
      首輪預演?活塞暴揍黃蜂打碎黑八夢!4號秀啞火三球真要搶三分王

      首輪預演?活塞暴揍黃蜂打碎黑八夢!4號秀啞火三球真要搶三分王

      鍋子籃球
      2026-04-11 10:39:46
      全球矚目!伊朗迎來強援,戰機已經升空,新賬舊賬一起算!

      全球矚目!伊朗迎來強援,戰機已經升空,新賬舊賬一起算!

      共工之錨
      2026-04-10 19:31:27
      壞消息,他空降日本執教,天價薪資全面曝光,國乒迎來生死強敵

      壞消息,他空降日本執教,天價薪資全面曝光,國乒迎來生死強敵

      小徐講八卦
      2026-04-10 10:04:30
      陳麗華葬禮現場,孫子罕見露面,遲重瑞與長子并肩,戳穿真實處境

      陳麗華葬禮現場,孫子罕見露面,遲重瑞與長子并肩,戳穿真實處境

      青杉依舊啊啊
      2026-04-10 22:05:32
      《浪姐》趙子琪被淘汰后連發多文,心理真強大,態度真剛

      《浪姐》趙子琪被淘汰后連發多文,心理真強大,態度真剛

      老吳教育課堂
      2026-04-11 08:26:30
      美國被氣死,中國高超導彈用水泥造: 想了100種可能都沒試過水泥

      美國被氣死,中國高超導彈用水泥造: 想了100種可能都沒試過水泥

      探源歷史
      2026-04-09 14:48:59
      體壇:國足將于6月9日在黃龍與泰國熱身,對方新歸化大將或馳援

      體壇:國足將于6月9日在黃龍與泰國熱身,對方新歸化大將或馳援

      懂球帝
      2026-04-11 10:03:06
      2026-04-11 12:47:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12457文章數 176449關注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發文反思

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      浪姐7淘汰 該走的沒走,不該走的走了

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      健康
      藝術
      親子
      游戲
      房產

      干細胞抗衰4大誤區,90%的人都中招

      藝術要聞

      17位當代青年畫家油畫欣賞

      親子要聞

      童趣與春的浪漫共舞,兩只小精靈在花瓣堆里奔跑

      《幻想生活i》銷量突破150萬套之后開始進軍手游平臺

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      無障礙瀏覽 進入關懷版