4月8日,GLM-5.1模型正式發布。據悉,該模型在代碼能力和長程任務(Long-Horizon Task)執行方面取得進展,與此前分鐘級交互的模型不同,其能夠在一次任務中獨立、持續工作超過8小時,期間可進行自主規劃、執行與交付工程級成果。
![]()
![]()
據介紹,在SWE-Bench Pro、Terminal-Bench 2.0及NL2Repo等代碼評測基準測試中,GLM-5.1均取得了前列的排名。據了解,該模型能夠參與專業軟件開發工作,并在真實GitHub倉庫中定位并修復工程Bug。研發團隊認為,下一階段的衡量標準將關注模型在長程任務中的表現,即能獨立完成多長時間的人類任務,形成“實驗、分析、優化”的閉環。
智譜表示,過去兩年,行業用Benchmark衡量模型有多智能。而他們認為,下一階段的衡量標準應該是“能工作多久”,即模型在Long-Horizon Task中的表現,能獨立完成多長時間的人類任務。
據悉,在實際應用場景中,GLM-5.1在8小時持續工作中可完成多項復雜任務。例如,在8小時內從零構建包含完整桌面、窗口管理器、狀態欄及應用程序的Linux桌面系統,全程執行超1200步操作,包括:完整的桌面、窗口管理器、狀態欄、應用程序、VPN管理器、中文字體支持、游戲庫等,4.8MB的配套文件,此前這相當于一個4人團隊一周的開發工作量。
![]()
此外,據了解,在向量數據庫優化場景中,GLM-5.1經過655次迭代,自主完成從全庫掃描到提前剪枝的整套優化鏈條,將查詢吞吐量從初次交付的3108 QPS提升至21472 QPS。在機器學習模型負載優化方面,該模型在超過24小時的迭代中,通過1000輪工具調用,自主完成多輪編譯、測試、分析與重寫循環,取得3.6倍的幾何平均加速比。
智譜表示,延長模型的"有效工作時長"是提升智能體能力的一個基礎維度。同時其也指出,在這條路上仍然有顯著的技術挑戰:如何克服模型面對復雜任務的上下文焦慮、如何在數千次工具調用后保持執行的一致性、如何更早地跳出局部最優,以及更重要的是如何在沒有確定數值指標的任務上建立可靠的自我評估機制。(袁寧)
