智譜的GLM-4.7,這兩天在海外討論度不低。
GLM-4.7 和 MiniMax-M2.1,這兩款開源、可用權重模型,已經在多個核心基準上,貼近甚至追平了閉源頂級實驗室的水平。
Reddit上還看到一個好玩的,GLM-4.7上了AMA(Ask Me Anything),可以自由向研究員們提問交流。
![]()
![]()
看到有海外用戶評價 “the gap is shrinking fast”,還有的說法更直接:“China’s play is simple”。
夠強的開源基礎模型,非常平權地放出來,剩下的事情,就交給創業者、研究者和產品團隊。
![]()
提出的很多問題,也非常具體真實,比如關于成本測算、關于低成本調用:
![]()
也有很忠實的GLM開發者,一向認同GLM的開源理念,也提出了實際開發中的問題:
![]()
“如何大幅提升前端輸出”,也是我特別好奇的問題,因為能感覺到GLM做前端的效果,明顯提高了。
![]()
得到的回答也很具體,從數據流水線到前端輸出都做了說明。
感覺GLM是真的很開發者友好,很有平等互動的社區交流感,新鮮熱乎的反饋、疑問、建議,就這么AMA一問一答聊出來了。
還記得年初DeepSeek帶來的是驚喜,到現在已經是自信,我也開始感覺,GLM-4.7 在榜單上贏了誰、超了誰,已經沒有那么那么重要了。
關鍵是,它代表了中國開源模型持續迭代發展的力量:
像前段時間 AutoGLM 開源,對手機Agent、對端到端的應用落地,都往前推了一步。
再到這次的4.7,可以本地部署、可以深度微調、可以被塞進任何一個真實產品里,不是永遠停留在 API 調用額度和使用條款里。
當模型能力逼近 SOTA,差異就不再只存在于參數量,開始轉移到,能不能真正把模型能力變成自己的能力,而不是調用API來的的能力。
這,也是開源模型正在日漸放大的優勢。
![]()
在當前的大模型競爭環境中,開源早就不只是開放權重的問題,更關乎模型是否具備在真實世界被反復拆解、調用、放大的能力。
智譜這次選擇 MIT 協議,相當于主動接受來自研究、工程、商業三個層面的交叉檢驗。
能感覺到,智譜有自信——模型好不好,就讓最嚴格的開發者環境來檢驗。
看發布節奏,GLM-4.7也沒搞高密度宣傳。
深夜悄悄上線,之后在好幾個平臺同步開放用,國外的聲音評價和國內的差不多都有。
像智譜MaaS平臺、z.ai、智譜清言,還有海外的OpenRouter接口,都能找到它。
很多時候不用多說,把模型直接丟進真實使用環境,讓開發者和用戶自己去驗證,能直觀感受到模型的實際表現。
現在行業競爭重點,從功能效果轉向工程落地穩定性。
GLM-4.7直接死磕【編程】這個硬核場景,目標很明確——做國內最強、開源里最強的Coding模型。
它的成績也確實亮眼。
全球百萬開發者參與的Code Arena盲測榜里,它是開源第一、國產第一,甚至超過了GPT-5.2。
![]()
在需要修復真實GitHub問題的SWE-bench Verified基準上,它以73.8%的通過率刷新了開源模型紀錄。
實際用下來,編程體感快趕上Claude Sonnet 4.5了,完全能當它的平替。
對用戶來說,用起來都很簡單:
國內B端與C端用戶:可以通過 智譜官方MaaS平臺(bigmodel.cn) 的API、z.ai 的全棧開發模式以及 智譜清言 應用立即體驗;TRAE、CodeBuddy等主流開發者工具也能調用。
海外開發者:可以通過 z.ai 或 OpenRouter 平臺使用其API服務。
企業與深度用戶:企業客戶可直接在 bigmodel.cn 購買專屬的Coding Plan企業版套餐;而已訂閱GLM Coding Plan包月套餐的個人用戶,系統已自動為其升級至GLM-4.7,無需任何額外操作。
開源愛好者與研究者:模型即將以MIT協議在Hugging Face和ModelScope社區發布,支持自由商用與研究。
在實際用的時候,我發現Coding能力特別像模型的放大鏡。
代碼生成要管好多事:理解需求、搭結構、拆邏輯、調用工具、記上下文。
每個環節出點偏差,最后結果里都會看得很明顯。
文本生成還能靠潤色遮遮問題,代碼執行可沒這種模糊空間。
所以過去好長時間,Claude Sonnet系列在開發者里口碑很穩。
我研究了一下,它的優勢不只是單輪生成質量,更在連續任務里的一致性、能穩住上下文,還能遵守復雜的工程約束。
國產模型追這個賽道,本質是攢長期工程能力。
要優化訓練數據結構、推理策略、工具鏈配合,還有模型行為穩定性,沒法靠單個指標就跨過去。
看公開評測結果,我認為GLM-4.7在開源模型里算領先的。
比如LiveCodeBench V6、LMArena Code Arena這些測試。這些榜單不考單一題型,從算法實現、修工程bug到抽象真實項目問題都覆蓋了。
![]()
比起某一項拿高分,我感覺模型在不同測試里的穩定性更值得參考。
這說明它沒盯著某類題“死記硬背”,在各種任務里表現都比較穩——做實際開發,這點特別重要。
從使用體驗來說,這種穩定性會直接體現在輸出的結構完整度和邏輯連貫性上。
Agentic Coding 能力的實際體現
在GLM-4.7的設計里,Agentic Coding是絕對的核心。
![]()
我研究了下,它能有這么穩的提升,根源是推理內核做了工程化改造。它加了個“慢思考”機制,會先好好規劃,不著急立刻回應。
更突破的是“保留式思考”。我發現以前多輪對話,模型容易忘復雜推理。但GLM-4.7不一樣,它會像管項目文檔那樣,自動存關鍵思考,后面接著用。
它能自己拆任務、做規劃、去執行、還會修正——這才是它的關鍵能力。
具體用的時候,細節里都能體現。
面對長需求,它會先搭整體結構,再填細節,很有工程化思路。
執行中碰到沖突或邏輯漏了,它會主動補說明、給替代方案。
做后端開發,它能提升接口完整度、異常處理覆蓋;做前端,能優化組件拆分、狀態管理和頁面可維護性。
這樣一來,花幾小時調代碼、開發功能都能實現。信息丟得少,邏輯不容易斷,用著更像和人類工程師協作。
![]()
我認為它這強內核,在嚴測試里也得到了驗證。
除了Code Arena和SWE-bench的好成績,其他評測也是開源領先:
- 終端操作:Terminal Bench 2.0通過率41%
- 網頁任務:BrowseComp評測拿67.5分
- 交互式工具調用:τ2-Bench測到87.4分,超過Claude Sonnet 4.5
- 復雜推理:HLE測試得42.8%,比前代高41%,還超過GPT-5.1
![]()
看這些數據,“國內最強編程模型”這個定位很靠譜。開發者用它,也能更有底氣。
Coding Plan 與工具鏈協同的變化
協同能力強,用起來就順手。
比如說借助GLM-4.7模型,可以自己完成瀏覽器的搜索、檢索、閱讀,跟最后的總結。信息處理效率就高多了。
除了模型本身,GLM-4.7在Coding Plan體系里的整合方式,也是這次升級的重點。
我發現,它和Claude Code這類主流編程工具配合時,對思考模式的支持更靈活了。
可以在不同輪次里選要不要開推理過程,這對長任務的性能控制、結果穩定性影響很直接。
工具調用這塊它針對Skills、Subagent、Claude.md這些能力做了定向優化。
現在工具鏈路更簡潔,中間狀態的不確定因素少了很多。
![]()
還有智譜專屬的MCP,不用安裝就能集成。
視覺理解、搜索、網頁讀取這些能力,在同一個工作流里就能完成。你試試就知道,從找信息到寫代碼,中間的麻煩少多了。
這些變化不是靠某一個功能體現的。我感覺用的時候能慢慢發現,最實在的是任務完成率上去了,返工的成本也降了。
非技術場景中的能力外溢
這次升級,GLM-4.7有個“隱形”進步——生成內容的美感和對話情商提上來了。以前它像只懂邏輯的理科生,現在更像有審美、會聊天的搭檔。
它的功能不只是給開發者用。辦公、做創意時,變化也很明顯。比如 Vibe Coding(審美編碼)能力強多了。生成的網頁結構干凈,組件層級清楚,配色、樣式也更現代;做的PPT結構合理,很多能直接用。
我在實際測試里,它對16:9寬屏的適配率高了,頁面差不多能直接用。
結合圖片搜索和模板選,生成結果風格更統一,看著也整齊,不像以前AI做PPT總有拼貼感。
做海報、宣傳物料時,它對排版、留白、色彩的把控更穩,符合常規設計規范。非設計背景的朋友,用起來會更順手。
比如這里我輸入ppt的內容和模版。
![]()
生成的PPT從內容到設計都做到了極致。
![]()
![]()
與此同時,GLM-4.7的通用對話能力也有顯著提升。官方說它回復更簡潔智能,還帶人情味,我覺得這點很明顯。
寫東西、玩角色扮演,文采和沉浸感都更好了。跟小白聊需求,或者寫創意文案,它給的回應更自然,也更貼需求。你試試就知道。
除了文本和視覺輸出,我認為它在語言表達上成熟多了。遇到要判斷情境、多方權衡的任務,它會給結構化回應,不隨便簡化問題,也不只給一個結論。這種變化不是多了情緒,而是語氣和信息組織更像實際溝通。
往大了看,GLM-4.7發布,說明國產大模型在Coding這個高門檻領域又往前邁了一步。這步不是靠某一項指標領先,而是整體工程能力、工具協同和穩定性一起提上來了。
現在模型能力越來越像,我感覺真正的競爭在“長期能用”上。復雜任務里能穩定輸出、少讓人插手的模型,才能進核心生產環節。GLM-4.7的能力組合,說明國產模型已經有基礎在這方面長期競爭了。
最關鍵的是,它不只是個孤立的代碼生成器了。更像全棧技能調度中心。在z.ai平臺,用新的Skills模塊,能統一規劃、調用家族里的視覺、語音、文本能力。
你提個復雜需求試試,比如“給產品寫介紹文案,配圖做成PPT”。它不光會規劃流程,還會自己調合適的專家模型一起做。
從理解需求到落地,初步能打通全流程了。感覺已經成為了一個專門的職場技能專家。
生態整合與開源信號:為何是現在?
GLM-4.7這時候以最強狀態開源,還推出很有競爭力的訂閱方案,給我的感覺是,智譜的戰略,更清晰了。
能開箱即用,能力還拔尖,能當Claude Code等最強AI編程工具的最佳平替。
直接嵌進全球開發者現有的工作流里,還能大幅降低使用高性能AI模型的門檻。
如果GLM-4.7能憑借開源和高性價比,快速扎進全球開發者的工作流,成為大家搭下一代AI應用時,最信得過、最依賴的基礎設施之一,也許也能構建強的用戶壁壘。
我只覺得,有了扎實的工程基礎,國產大模型正變得兼具邏輯和審美,還能協同合作。
不再只是實驗室里分數高的紙面第一,是懂項目壓力、懂審美需求、還考慮長期維護成本的“靠譜搭子”。
當然,差距也依然存在。
不管是模型側還是產品側,Gemini、ChatGPT等同樣沒有減速,相比之下,智譜的有些細節完成度還顯不足。
單說AI編程的工業級效果,Gemini和Claude在一些具體功能實現上,仍然有稍優于GLM-4.7的表現。
在AGI這場世紀級的豪賭里,中國公司在迅速發展迭代,也暴露出不少問題。
每一個問題的解決,每一次模型的升級,都是在向前。
也許在2026,在國產開源大模型領域,我們可以有更多自信。
更多的開發者和創業者,也能站在智譜等公司的肩膀上,做出更多好產品、好作品。
最后還發現有個小彩蛋。
用戶在調用
GLM-4.7編程時,會彈出一個對話,
滬上阿姨新品奶茶免費送。
Bigmodel.cn上,正在訂閱Coding Plan的用戶,在Claude Code等編程工具中,輸入口令「阿姨助我!」,即刻領取一張滬上阿姨新品「QQ美莓奶茶」兌換券。
來試試
GLM-4.7
吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.