魚羊 henry 發(fā)自 麥蒿寺
量子位 | 公眾號(hào) QbitAI
2025倒計(jì)時(shí),新SOTA模型涌現(xiàn)沒有放緩跡象。
一夜之間,編程SOTA模型易主,而且上線即開源,依然來自中國(guó)大模型公司——
智譜AI,GLM-4.7。
![]()
這波更新,技術(shù)報(bào)告里滿眼都是Coding,Coding,還是Coding。
而能力的提升,帶來的最直觀效果是:
AIME 25和人類最后考試(HLE)等基準(zhǔn)中,GLM-4.7分?jǐn)?shù)超GPT-5.1;
SWE-Bench分?jǐn)?shù)達(dá)(73.8%,+5.8%),創(chuàng)開源新高。
官方Demo顯示,寫個(gè)植物大戰(zhàn)僵尸不費(fèi)勁:

總而言之,模型這么一發(fā),雙旦的節(jié)慶氛圍一下到位了(doge)。
![]()
官網(wǎng)Chatbot和API均已就位,現(xiàn)在就能在線開玩。
Demo來吧,展示
在前端生成質(zhì)量上,GLM-4.7展現(xiàn)出明顯升級(jí):頁面結(jié)構(gòu)更干凈、組件層級(jí)更清晰。

相比GLM-4.6,更像是現(xiàn)代的Web UI,網(wǎng)友元素中更加美觀。


在PPT與視覺物料生成方面,GLM-4.7標(biāo)題層級(jí)明確、元素尺寸更合理。

在復(fù)雜幾何結(jié)構(gòu)與空間關(guān)系的表達(dá)上,GLM-4.7模型能夠保持較好的結(jié)構(gòu)一致性與細(xì)節(jié)穩(wěn)定性。


3D資產(chǎn)的生成質(zhì)量也有顯著提升。


刷新開源SOTA
這次最新的模型主打編程,相較前代GLM-4.6,GLM-4.7在編碼能力、交互體驗(yàn)與復(fù)雜推理等多個(gè)維度實(shí)現(xiàn)了系統(tǒng)性升級(jí)。
![]()
- 復(fù)雜推理能力(Reasoning):全面提升,HLE(含工具)42.8(+12.4 vs GLM-4.6),MMUL-Pro 84.3,GPQA-Diamond 85.7,數(shù)學(xué)與推理能力更穩(wěn)更強(qiáng)。
- 核心編碼能力(Code Agent):多語言與終端任務(wù)顯著增強(qiáng),SWE-bench Verified 73.8(+5.8)、SWE-bench Multilingual 66.7(+12.9)、Terminal Bench 2.0 41.0(+16.5),支持“先思考、再行動(dòng)”模式。
- 工具使用能力(General Agent):工具調(diào)用更高效,BrowseComp 52.0(+6.9)、BrowseComp w/ Context Management 67.5(+10.0)、τ2-Bench 87.4(+12.2),網(wǎng)頁瀏覽與工具鏈管理表現(xiàn)更優(yōu)。
此外,GLM-4.7在對(duì)話、創(chuàng)意寫作、角色扮演等場(chǎng)景中同樣有提升,系統(tǒng)性增強(qiáng)了編碼、推理與工具使用能力。
![]()
交錯(cuò)式思考和保留式思考
技術(shù)方面,GLM-4.7強(qiáng)化了自GLM-4.5起引入的交錯(cuò)式思考(Interleaved Thinking),并進(jìn)一步引入了保留式思考(Preserved thinking)和輪級(jí)思考(Turn-level Thinking)。
交錯(cuò)式思考
GLM在工具調(diào)用之間、收到工具結(jié)果之后繼續(xù)思考。
這讓模型能夠進(jìn)行更復(fù)雜的分布推理,提升了指令遵從和生成質(zhì)量:
在決定下一步行動(dòng)前先解讀每次的工具輸出,把多次工具調(diào)用和推理步驟串聯(lián)起來,并根據(jù)中間結(jié)果做出更細(xì)粒度的決策。
![]()
保留式思考
在編碼場(chǎng)景中,GLM-4.7引入了一種新的思考模式:
模型會(huì)自動(dòng)在多回合對(duì)話中保留所有思考快,復(fù)用已有推理而不是從頭重新推理。這減少了信息丟失和不一致性,使得模型更適用于長(zhǎng)程、復(fù)雜任務(wù)。還能在真實(shí)任務(wù)中節(jié)省更多tokens。
![]()
輪級(jí)思考
輪級(jí)思考是一種按輪控制推理計(jì)算的能力,即在同一個(gè)會(huì)話中,每一輪請(qǐng)求都可以獨(dú)立選擇開啟/關(guān)閉思考。
這使得GLM-4.7具備以下優(yōu)勢(shì):
- 更靈活的成本/時(shí)延控制:對(duì)“問個(gè)事實(shí)/改個(gè)措辭”等輕量輪次可關(guān)閉思考,追求快速響應(yīng);對(duì)“復(fù)雜規(guī)劃/多約束推理/代碼調(diào)試”等重任務(wù)輪次可開啟思考,提升正確率與穩(wěn)定性。
- 更順滑的多輪體驗(yàn):思考開關(guān)在會(huì)話內(nèi)可隨時(shí)切換,模型能在不同輪次間保持對(duì)話連貫與輸出風(fēng)格一致,讓用戶感覺“聰明時(shí)更聰明、簡(jiǎn)單時(shí)更快”。
- 更適合Agent/工具調(diào)用場(chǎng)景:在需要快速執(zhí)行的工具輪次可降低推理開銷,在需要綜合工具結(jié)果做決策的輪次再開啟深度思考,實(shí)現(xiàn)效率與質(zhì)量的動(dòng)態(tài)平衡。
![]()
更多技術(shù)詳情,智譜官方也附上了詳細(xì)技術(shù)報(bào)告。
BTW,智譜這個(gè)月還真上了“節(jié)日限定優(yōu)惠”。
![]()
每月最低20元即可暢享GLM-4.7,用上Claude Pro套餐3倍用量。
![]()
又是一位好價(jià)格屠夫呀。
![]()
而且GLM-4.7的深夜炸場(chǎng),也算是已經(jīng)沖刺IPO上市的智譜,帶來的最新技術(shù)證明。
目前智譜已經(jīng)通過了港交所上市聆訊,IPO敲鐘僅剩下最后100米。
而GLM-4.7可能也是智譜上市之前,最重要的模型更新了……吧?
[1]https://z.ai/blog/glm-4.7
[2]https://x.com/Zai_org/status/2003156119087382683
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.