金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
當看到GLM-5正式發布后的能力,才驚覺前幾天神秘模型Pony Alpha的熱度還是有點保守了。
因為這一次,GLM-5直接把開源AI也拽進了長任務時代。
瞧,GLM-5直接身兼數職,自己連續跑代碼超過24小時,700次工具調用、800次上下文切換之后……
它直接用JavaScript,從零手搓了一個Game Boy Advance(GBA)模擬器!
外觀渲染畫面是這樣的:
![]()
屏幕里是這樣的:
![]()
在沒有渲染情況下的動態效果如下:
![]()
視頻地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ
要知道,這對于AI來說,是一個絕對無法取巧的工程任務。
因為GBA模擬器涉及到了500多條CPU指令集、內存分頁機制、音頻子系統和圖形渲染時序等任務。
哪怕一條指令遵循出錯,或者一次文件寫入偏差,整個項目就會在幾個小時后崩盤。
并且GLM-5面對的還是無并行、無任何參考代碼、關閉網絡搜索的那種。
即便如此,從視頻給出的結果中我們也不難發現,GLM-5確實是發揮非常穩定:
- 工具調用穩定:第700次和第一次在語法、格式、準確度上沒有差異;
- 指令遵循持久:上下文即使切換了800次,依舊遵守Meta-Prompt的規范、約定和流程;
- 工作判斷穩定:GLM-5知道自己什么時候該測試、信息記錄、切換策略等;
- 上下文夠可靠:每次上下文清空后,GLM-5能從筆記和文件中準確恢復工作狀態。
這也難怪不少網友在看完之后直呼:
- 它(GLM-5)可以制作精美的CAD模型!
![]()
并且目前GLM-5的評測結果也已出爐,在權威榜單Artificial Analysis中,直接到了與Claude Opus 4.5比肩的水平。
![]()
在業內公認的主流基準測試中,GLM-5的編程能力也是實現了與Claude Opus 4.5對齊:
![]()
并且在衡量模型經營能力的Vending Bench 2中,GLM-5取得了開源第一的成績:
![]()
但畢竟Claude Opus是閉源,護城河一下子被GLM-5這個開源模型給端掉,也是引得不少網友歡呼:
- 感謝開源!
![]()
那么GLM-5這位開源界的第一位“全棧架構師”,還有什么樣的實力?
接下來,一波深度實測開源版Opus級別的模型,走起~
已經有人申請上架App Store了
我們的測試將在Claude Code中調用GLM-5 API的方式展開。
因此,我們第一個測試就是做最考驗模型的邏輯閉環能力的游戲——要求GLM-5從零生成一個3D版大富翁:
![]()
接下來,我們直接來看下效果:
![]()
視頻地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ
可以看到,面對如此復雜的需求,GLM-5穩穩地把所有功能都實現了出來。
若是Prompt更加精細,我們就可以得到一個OpenClaw對戰的《龍蝦版3D大富翁》:
![]()
視頻地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ
而且已經有用戶使用GLM-5做了個學術版“抖音”,并且提交上架蘋果App Store!
![]()
視頻地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ
10余款APP都要上架了(showcase.z.ai):
![]()
實測繼續。
這一次,我們要測試GLM-5對復雜物理規律描述的理解能力,請聽Prompt:
- 創建一個玻璃十二面體,每個面是一個遮罩,顯示中央相同旋轉基底環結的不同設計(看起來像拼貼/濾鏡)。應用一些細微的泛光效果。在它外面再加一層大約兩倍大小的第二層(透明)玻璃殼,并讓每個面透過時改變內部玻璃的外觀成不同類型,比如透過外層的某一面,整個內殼看起來像是染色玻璃、彩繪玻璃或線框等,僅供參考。使用 three.js,……
![]()
視頻地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ
GLM-5依舊是精準地捕捉到了Prompt中的關鍵詞,生成的HTML文件打開后,一個光影交錯的十二面體懸浮在空中。
除此之外,包括像全棧類型任務,例如制作一個完整、有設計感的電商網站,GLM-5也是可以拿捏。
以及有人也用GLM-5手搓了個3D版可交互的《我的世界》!
![]()
開源,Win Again
GLM-5的出現,不論是從實測還是網友們的反響來看,都在標志一件事情:
開源大模型完成了一次從助手到獨立工程師的質變。
以前,我們用AI是寫一句Prompt,但需要不斷地去做調試的工作;但現在,用GLM-5可以是給它一個目標,然后去喝咖啡,偶爾回來看看它有沒有跑偏。
更宏觀地來看,這對于SaaS行業來說,也可能是一場風暴。
畢竟就在前幾天,隨著Claude Opus等具備長任務能力的閉源模型展現威力,國外市場已經出現了恐慌。
例如當時金融數據服務商FactSet最慘盤中暴跌10%,S&P Global、穆迪、納斯達克公司紛紛下跌,各大指數全線跳水。
Fortune和CNBC報道稱,SaaS軟件類股票遭到拋售,投資者擔心,如果AI能現場手搓一個CRM系統,誰還去買年費軟件。
雖然黃仁勛安撫說AI會增強現有工具,但GLM-5的實測表現告訴我們:重塑或許已經在發生。
更重要的是,之前這種能力是閉源巨頭的特權。現在,GLM-5把這把鑰匙交到了所有開發者手里。
或許這次開源模型24小時不間斷自己跑代碼只是一個起點,未來會更長、更快、更好、更強。
Two More Things:
GLM其實從4.5版本開始就死磕AI編程這件事,現在這個國產AI的coding套餐在國內外也是相當火爆;這次智譜一上來就限售,外國網友們都是在“求”的狀態。
以及,智譜公司的大樓,現在也是成了個打卡點:
![]()
開頭我們提到的GBA模擬器,由于GLM-5一直在跑,程序員小哥哥下班打車是這樣的:Agent乘客。
![]()
GitHub:
https://github.com/zai-org/GLM-5
Hugging Face:
https://huggingface.co/zai-org/GLM-5
ModelScope:
https://modelscope.cn/models/ZhipuAI/GLM-5
GameBoy Advance體驗:
https://e01.ai/gba
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.