<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從GLM-4.5到GLM-5,我見證了一個模型從碼農晉升為架構師

      0
      分享至

      上周發了一篇關于OpenRouter上神秘模型Pony的文章,還給大家留了個搶紅包的競猜問題:Pony到底是誰?

      現在答案終于揭曉了,那就是智譜的GLM-5。

      「Pony」是小馬,2026農歷馬年,生肖彩蛋。智譜以匿名方式把GLM-5放到OpenRouter上做了一次公測。


      這事還挺有意思的。一個沒署名的模型,首日跑了400億token、20.6萬次請求。絕大多數用它的開發者都覺得「這水平不像GLM-4.7,太像Opus了」。


      但Pony是誰,不是這篇文章的重點。

      重點是我用它做了什么、感受到了什么。以及,這件事放在行業大背景下意味著什么。

      節前國內AI公司是真卷。2月6號智譜匿名放出Pony Alpha,2月7號字節就發了Seedance 2.0,AI視頻生成直接拉到了全球第一梯隊。一個卷編程,一個卷視頻,前后腳發布。 我這覺得我寫不過來了...

      我從GLM-4.5開始,每一代都寫了評測文章。

      每次寫完都覺得「開源模型又進了一步」。但這次GLM-5給我的感受完全不一樣。不是進了一步,是換了個身份。

      以前GLM系列在我的工作流里是「執行者」——Opus當大腦做規劃,GLM做具體的編碼工作。便宜、聽話、夠用。

      GLM-5讓我第一次覺得:它也能當大腦了。

      Vibe Coding過時了?

      寫GLM-5之前,得先聊一個剛發生的事。

      2月8號,Karpathy發了個帖子。就是那個提出「Vibe Coding」概念的人——去年這個詞火得一塌糊涂,基本成了AI編程的代名詞。對著AI說一句話,代碼就出來了,不用管細節,跟著感覺走。

      但他自己說,Vibe Coding正在過時。取而代之的是一個新概念:Agentic Engineering。


      什么意思?

      Vibe Coding是你告訴AI「幫我寫這個功能」,AI寫完你看看行不行。本質上還是人在驅動,AI在執行。

      Agentic Engineering不一樣。你給AI一個目標,它自己拆任務、自己規劃步驟、自己寫代碼、自己測試、遇到bug自己修、遇到方向不對自己調整??赡芘軒仔r甚至幾天。人類變成了架構師和監督者,AI變成了真正干活的工程團隊。

      這不是Karpathy一個人的判斷??纯醋罱鼉芍馨l生了什么:

      Anthropic發布Opus 4.6的時候,官方案例是什么?16個Claude實例并行工作兩周,寫了10萬行Rust代碼的C編譯器,能編譯Linux內核。花了2萬美元。

      OpenAI發布GPT-5.3 Codex的時候,強調的是什么?AI參與了自己的訓練過程。不是寫個貪吃蛇,是調試訓練流程、管理部署、診斷測試結果。

      兩家都不再說「一句話生成網頁」了。都在說Agent、長任務、系統工程。

      Anthropic甚至在1月21號發了一份「2026 Agentic Coding趨勢報告」,總結了8大趨勢。其中一個發現挺扎心的:AI出現在60%的開發工作中,但開發者能完全委托給AI的任務只有0-20%。

      差距就在于「系統工程能力」——不是寫單個函數的能力,而是理解整個系統、規劃架構、處理模塊間依賴、在出錯時自我糾正的能力。

      說白了,AI編程正在分成兩條路:

      一條是「審美編程」,以Gemini 3.0 Pro為代表。截圖轉代碼、一句話出漂亮頁面、視覺驅動。它做出來的前端確實好看,這沒什么好否認的。

      另一條是「系統工程」,以Opus和Codex為代表。后端架構、編譯器、微服務、長時間運行的Agent任務。不好看,但能用。

      這兩條路都有價值。但行業重心正在從前者轉向后者。

      在這個背景下,GLM-5選了后者。

      快速回顧:GLM怎么一步步走到這的

      給沒看過之前文章的讀者補個課。

      GLM-4.5(2025年7月):智譜的第一個真正能打的開源模型。當時我的評價是「能用的開源平替」。編程能力和Sonnet有差距,但日常任務夠用,關鍵是便宜。

      GLM-4.6(2025年10月):提升了不少,上下文窗口從128K擴到200K。我寫過一篇「Claude Code賬號被封?試試GLM-4.6完美平替」,當時確實幫很多人解決了問題。

      GLM-4.7(2025年12月):這代變化挺大。SWE-bench Verified達到73.8%,直逼一線。我測了5個案例,感受是審美、Coding和Agentic能力都達到了Claude Sonnet 4.5無差的水平。當時我的結論是「開源模型的新標桿」。

      每次寫完評測我都覺得「應該到頂了吧」。然后下一代又讓我改口。

      但從4.5到4.7,質的變化不大。每代都是在同一個維度上做增量——代碼寫得更好、bug更少、審美更好看。像一個程序員從初級升到高級,活干得越來越漂亮,但還是在執行層面。

      GLM-5不一樣。

      GLM-5:換了個身份

      先看規格。

      744B參數,MoE(混合專家)架構,每次推理激活40B參數。相比GLM-4.7(355B/激活32B),規模翻了一倍,預訓練數據從23T增加到28.5T。

      再看成績。


      在Artificial Analysis綜合榜單上,GLM-5排名全球第四、開源第一。

      編程能力:SWE-bench Verified拿了77.8%(Opus 4.5是80.9%,差3個百分點),Terminal-Bench 2.0拿了56.2%(Opus 4.5是59.3%,差距也不大)。這兩個榜都是開源最高。

      但更讓我意外的是Agent能力。8個榜單里,GLM-5有兩個拿了全場第一——不是開源第一,是包括Opus、Gemini、GPT在內的所有模型里的第一:BrowseComp(聯網檢索與信息理解)75.9分,比Opus 4.5的67.8高出一截;Humanity's Last Exam帶工具調用版本50.4分,同樣是全場最高。


      MCP-Atlas(工具調用與多步驟任務)、τ2-Bench(復雜多工具場景)也都是開源第一,和閉源模型幾乎打平。

      還有個挺有意思的Vending Bench 2——讓模型經營一年虛擬自動售貨機生意。GLM-5最終賬戶余額4432美元,超過了GPT-5.2的3591美元,和Opus 4.5的4967美元差距不大。

      但benchmark說到底只是考試成績。真正讓我改變看法的,是用Pony Alpha那幾天的體感。

      實測:從那個紅白機項目說起

      上周我發那篇Pony文章的時候,做了一個測試——把之前用Opus 4.6做的紅白機游戲廳網站(4700多行代碼),丟給Pony(也就是GLM-5),讓它重構成iPhone App。


      為什么說這個任務難?因為網站和App是完全不同的技術體系。網頁版跑在瀏覽器里,App跑在手機上,底層語言不一樣、界面框架不一樣、游戲模擬器的實現方式也不一樣。133款游戲的ROM文件(就是游戲卡帶的數據)和封面圖,要從網絡加載改成本地管理。整個東西等于推倒重來。

      不是翻譯代碼,是重新設計。

      GLM-5跑了2個多小時。我中途插手不到10次。

      跑完我去看了生成的代碼,說實話有點吃驚。

      最終產出6500多行代碼,比原來的網頁版還多了將近2000行。

      但代碼量不是重點,重點是它做的幾個關鍵決策。

      第一個決策:模擬器核心怎么做。紅白機游戲能在手機上跑,靠的是「模擬器」——用軟件模擬出一臺1983年的游戲機。網頁版直接用了別人寫好的模擬器庫,拿來就能用。最偷懶的做法是在iOS上也找一個現成的替代品。GLM-5沒這么干。它選了一個更難但更對的方案:用C語言從零寫了一個模擬器。CPU計算、圖像渲染、聲音處理,全部自己實現。


      第二個決策:畫面怎么渲染。它沒有用最簡單的CPU逐像素畫圖,而是選了Metal(蘋果的GPU加速方案),性能好得多。還額外寫了一個CRT復古濾鏡——加了老電視機的弧面效果、掃描線和邊緣暗角,讓游戲畫面看起來就像接在一臺老電視上。

      第三個決策:觸控手柄怎么做。手機上沒有實體手柄,得做虛擬的。它做了精確的方向識別——手指在十字鍵上滑動時能同時識別上和右(對角線輸入),中間區域設了「死區」防止誤觸。




      整個項目沒有用任何第三方庫,全部從零搭建。

      當然它也有明顯的「AI風格」問題——133款游戲的信息全部寫死在代碼里(1600多行),正常人會用配置文件來管理。收藏功能只有界面沒有存儲。這些是產品打磨的問題,不是設計能力的問題。

      這個任務讓我印象深刻的不是速度,是它做決策的方式。

      先理解整個系統的依賴關系,再決定從零搭建模擬器而不是找現成庫,再選GPU加速而不是最簡單的方案,再把代碼按職責分層組織。這是一個「架構師」的思路,不是一個「碼農」的思路。

      上次寫GLM-4.7的時候,我的原話是「審美、Coding和Agentic能力都達到了Claude Sonnet 4.5無差的水平」。注意,對標的是Sonnet。

      這次GLM-5,對標的是Opus。

      實測案例二:一句話觸發13步寫作工作流

      紅白機項目是編程任務。我想看看GLM-5在非編程場景下的Agent能力怎么樣。

      關注我的老粉應該都知道,我平時用Claude Code寫公眾號文章,有一套完整的自動化工作流——13個步驟,從信息搜索、競品掃描、選題討論、風格學習、初稿創作、三遍審校、標題矩陣、傳播力審查,一直到配圖生成。整套流程寫在一個1000多字的CLAUDE.md里,每一步都有明確的規則和工具調用要求。

      我只輸入了一句話:「幫我寫一篇介紹Seedance 2.0的公眾號文章」。

      然后我就看著它自己跑。


      GLM-5做的第一件事不是開始寫。它讀完CLAUDE.md之后,第一反應是:「根據公眾號寫作流程,我需要先搜索seedance 2.0的相關信息,然后進行選題討論,不能直接寫文章。」

      這個細節很重要。以前的模型收到「幫我寫一篇文章」,默認動作就是開始寫。GLM-5讀懂了規則,知道這套流程的第一步是搜索,不是動筆。

      接下來它搜索信息的時候,WebFetch請求失敗了(連不上火山引擎的頁面)。它沒卡住,自動轉向本地知識庫,用Grep和Glob找到了之前存的Seedance 2.0調研簡報。然后去36kr和Hacker News做了競品掃描。

      信息搜索完,它進入選題討論——提供了4個方向,每個都有標題、核心角度、工作量評估、大綱和優劣勢分析。我選了「實戰體驗型」。

      選完之后它也沒急著寫。先去讀了SHARED-RULES.md(審校規則),又讀了兩篇歷史文章學風格,還搜了個人素材庫。然后才開始寫初稿,寫完保存到草稿文件夾。


      初稿寫完,它自動開始三遍審校。我看著它一段一段地改——刪了15行加了14行、刪了19行加了9行。改完之后生成了12個標題變體供我選擇。

      然后做傳播力審查:轉發動機檢查打了4個勾(讓我顯得懂行、對朋友有用、驗證我的觀點、情緒共鳴),第一讀者模擬標記了一處「可能想劃走」的位置(競品對比部分稍長)。

      我選完標題,它又自動調用了wechat-image配圖技能,規劃了封面圖+4張正文配圖的方案,調用Gemini API生成圖片、上傳ImgBB圖床——光這一步就跑了12分鐘、20多次工具調用。

      最終交付了一篇約2000字的完整文章,5張配圖(封面+4張正文圖),所有圖片都是網絡鏈接,可以直接復制到飛書用。從我輸入那句話到拿到成品,總共大概28分鐘。13步流程,一步沒跳。


      這個測試讓我想起一個比喻。以前的AI編程是「你說一步,它做一步」,像導航軟件——每到一個路口告訴你左轉右轉。GLM-5更像一個經驗豐富的司機,你說「去機場」,它自己知道走哪條路、哪里該拐彎、遇到堵車怎么繞。

      兩個案例加在一起,我覺得GLM-5和之前幾代最大的不同就一個詞:持久力。

      之前用GLM-4.7接Claude Code,還是會出現上下文丟失、指令遵循變差的問題。這是很多agentic模型都有的通病,跑著跑著就「忘了自己在干什么」。GLM-5在這方面的改進我覺得是最關鍵的——2小時重構6500行代碼、28分鐘走完13步寫作流程,全程沒有丟失上下文,沒有跳步。

      這意味著你可以給它一個大任務,讓它跑半小時、一小時甚至更久。不是那種「你盯著它干完一個函數」的用法,是真正的自動化工程。Anthropic那個16個Claude寫編譯器的案例,換成GLM-5,理論上也能做類似的事情。區別是——GLM-5是開源的,不需要付Opus的錢。

      不只是「平替」了

      從GLM-4.5開始寫評測,我一直用的詞是「平替」。性價比高、夠用、便宜。隱含的意思是:不如Opus,但能湊合。

      GLM-5讓我覺得這個詞不太準確了。它和Opus還有差距,但已經不是「湊合用」的水平。

      綜合榜全球第四、開源第一。編程榜單和Opus差3個百分點,Agent榜單有兩個拿了全場第一。官方的說法是「使用體感逼近Opus 4.5」——注意,是逼近,不是追平。整體上Opus仍然更強,但差距已經肉眼可見地縮小了。

      但在我最常用的場景——接入Claude Code做項目級開發——GLM-5的表現已經讓我覺得「很多任務不用每次都切回Opus了」。

      價格差距就更明顯了。Opus每百萬token輸入$5、輸出$25。GLM編程訂閱最低20元/月。

      之前我的工作流是「Opus當大腦規劃,GLM當手腳執行」。現在很多場景下,GLM-5自己也能規劃、也能執行。不是所有場景,但比以前多多了。

      從GLM-4.5到GLM-5,大概一年半的時間。

      4.5是能用的初級程序員。4.6是靠譜的中級程序員。4.7是讓人驚喜的高級程序員。

      GLM-5不再是程序員了。它是架構師。

      不是說它寫的每一行代碼都完美,沒有模型能做到。但它思考問題的方式變了。以前你得告訴它「寫一個函數,輸入是什么,輸出是什么」。現在你可以說「我要解決這個問題」,它自己來設計怎么解。

      這正好呼應了整個行業的趨勢。Karpathy說Vibe Coding過時了,AI編程正在進入Agentic Engineering時代。Opus和Codex選了這條路。GLM-5是開源界最早一批跟上來的。

      如果你需要的是一句話生成漂亮網頁,選別的也行。如果你需要一個能接入Claude Code/OpenClaw/OpenCode幫你做工程的模型,20元/月,GLM-5值得試試。

      Agentic Engineering時代,開源陣營終于有了自己的架構師。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      歷史總在押韻
      2026-02-12 23:53:10
      李亞鵬突然提到十年前最難時給黃曉明發短信,不到一分鐘收到回復

      李亞鵬突然提到十年前最難時給黃曉明發短信,不到一分鐘收到回復

      百態人間
      2026-02-10 15:25:10
      浙江省稅務局黨委書記、局長孟軍:堅定扛起經濟大省挑大梁的稅務擔當

      浙江省稅務局黨委書記、局長孟軍:堅定扛起經濟大省挑大梁的稅務擔當

      新浪財經
      2026-02-13 11:11:38
      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節目表

      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節目表

      林子說事
      2026-02-13 14:54:46
      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      安安說
      2026-01-29 09:33:17
      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      江江食研社
      2026-02-12 18:30:07
      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      TVB劇評社
      2026-02-13 16:22:16
      金融戰已經打響

      金融戰已經打響

      白淺娛樂聊
      2026-02-12 19:39:55
      退休14年被查!中國人壽原總裁楊超案:投資領域腐敗典型,退休非安全港

      退休14年被查!中國人壽原總裁楊超案:投資領域腐敗典型,退休非安全港

      聽楓觀瀾
      2025-12-28 23:13:23
      霍勒迪31分9板7助開拓者戰勝爵士,克林根23分18板楊瀚森2分

      霍勒迪31分9板7助開拓者戰勝爵士,克林根23分18板楊瀚森2分

      湖人崛起
      2026-02-13 12:33:42
      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      大嘴爵爺侃球
      2026-02-13 18:21:14
      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      史之銘
      2026-02-10 15:35:39
      媽媽嫁給爸爸的理由有多簡單粗暴?網友:我爹圖我姥爺是縣委書記

      媽媽嫁給爸爸的理由有多簡單粗暴?網友:我爹圖我姥爺是縣委書記

      帶你感受人間冷暖
      2026-02-11 12:27:35
      當第一次帶對象回山里老家時!我要笑死在評論區

      當第一次帶對象回山里老家時!我要笑死在評論區

      另子維愛讀史
      2026-02-13 19:35:51
      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      有書
      2026-02-12 21:00:08
      Coco直播自曝經濟不好,謝賢沒給她2000萬分手費,遺憾沒能結婚

      Coco直播自曝經濟不好,謝賢沒給她2000萬分手費,遺憾沒能結婚

      離離言幾許
      2026-02-11 12:44:06
      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      卿子書
      2026-02-12 08:15:51
      《生命樹》大結局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      《生命樹》大結局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      小娛樂悠悠
      2026-02-13 13:22:35
      男子辭北京公務員,照顧非親非故老太太9年,網友:報恩還是犯傻

      男子辭北京公務員,照顧非親非故老太太9年,網友:報恩還是犯傻

      一絲不茍的法律人
      2026-02-13 13:29:56
      印度2nm成功流片!

      印度2nm成功流片!

      中國半導體論壇
      2026-02-11 22:26:02
      2026-02-13 22:23:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      140文章數 61關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態度原創

      親子
      教育
      藝術
      本地
      軍事航空

      親子要聞

      看看后媽是怎么做的

      教育要聞

      希望這位寶媽想明白后,可以再回來找我!

      藝術要聞

      投資152億!江蘇省在建最大高鐵站,躍出地面!

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      軍事要聞

      多次成功應對外艦、外機挑釁 太原艦展示052D硬核實力

      無障礙瀏覽 進入關懷版