網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智譜IPO敲鐘前，連夜把開源編程大模型SOTA了

2025-12-23 08:18:31　來源: 量子位

北京舉報(bào)

分享至

魚羊 henry 發(fā)自麥蒿寺
量子位 | 公眾號(hào) QbitAI

2025倒計(jì)時(shí)，新SOTA模型涌現(xiàn)沒有放緩跡象。

一夜之間，編程SOTA模型易主，而且上線即開源，依然來自中國(guó)大模型公司——

智譜AI，GLM-4.7。

這波更新，技術(shù)報(bào)告里滿眼都是Coding，Coding，還是Coding。

而能力的提升，帶來的最直觀效果是：

AIME 25和人類最后考試（HLE）等基準(zhǔn)中，GLM-4.7分?jǐn)?shù)超GPT-5.1；

SWE-Bench分?jǐn)?shù)達(dá)（73.8%，+5.8%），創(chuàng)開源新高。

官方Demo顯示，寫個(gè)植物大戰(zhàn)僵尸不費(fèi)勁：

總而言之，模型這么一發(fā)，雙旦的節(jié)慶氛圍一下到位了（doge）。

官網(wǎng)Chatbot和API均已就位，現(xiàn)在就能在線開玩。

Demo來吧，展示

在前端生成質(zhì)量上，GLM-4.7展現(xiàn)出明顯升級(jí)：頁面結(jié)構(gòu)更干凈、組件層級(jí)更清晰。

相比GLM-4.6，更像是現(xiàn)代的Web UI，網(wǎng)友元素中更加美觀。

在PPT與視覺物料生成方面，GLM-4.7標(biāo)題層級(jí)明確、元素尺寸更合理。

在復(fù)雜幾何結(jié)構(gòu)與空間關(guān)系的表達(dá)上，GLM-4.7模型能夠保持較好的結(jié)構(gòu)一致性與細(xì)節(jié)穩(wěn)定性。

3D資產(chǎn)的生成質(zhì)量也有顯著提升。

刷新開源SOTA

這次最新的模型主打編程，相較前代GLM-4.6，GLM-4.7在編碼能力、交互體驗(yàn)與復(fù)雜推理等多個(gè)維度實(shí)現(xiàn)了系統(tǒng)性升級(jí)。

復(fù)雜推理能力（Reasoning）：全面提升，HLE（含工具）42.8（+12.4 vs GLM-4.6），MMUL-Pro 84.3，GPQA-Diamond 85.7，數(shù)學(xué)與推理能力更穩(wěn)更強(qiáng)。
核心編碼能力（Code Agent）：多語言與終端任務(wù)顯著增強(qiáng)，SWE-bench Verified 73.8（+5.8）、SWE-bench Multilingual 66.7（+12.9）、Terminal Bench 2.0 41.0（+16.5），支持“先思考、再行動(dòng)”模式。
工具使用能力（General Agent）：工具調(diào)用更高效，BrowseComp 52.0（+6.9）、BrowseComp w/ Context Management 67.5（+10.0）、τ2-Bench 87.4（+12.2），網(wǎng)頁瀏覽與工具鏈管理表現(xiàn)更優(yōu)。

此外，GLM-4.7在對(duì)話、創(chuàng)意寫作、角色扮演等場(chǎng)景中同樣有提升，系統(tǒng)性增強(qiáng)了編碼、推理與工具使用能力。

交錯(cuò)式思考和保留式思考

技術(shù)方面，GLM-4.7強(qiáng)化了自GLM-4.5起引入的交錯(cuò)式思考（Interleaved Thinking），并進(jìn)一步引入了保留式思考（Preserved thinking）和輪級(jí)思考（Turn-level Thinking）。

交錯(cuò)式思考

GLM在工具調(diào)用之間、收到工具結(jié)果之后繼續(xù)思考。

這讓模型能夠進(jìn)行更復(fù)雜的分布推理，提升了指令遵從和生成質(zhì)量：

在決定下一步行動(dòng)前先解讀每次的工具輸出，把多次工具調(diào)用和推理步驟串聯(lián)起來，并根據(jù)中間結(jié)果做出更細(xì)粒度的決策。

保留式思考

在編碼場(chǎng)景中，GLM-4.7引入了一種新的思考模式：

模型會(huì)自動(dòng)在多回合對(duì)話中保留所有思考快，復(fù)用已有推理而不是從頭重新推理。這減少了信息丟失和不一致性，使得模型更適用于長(zhǎng)程、復(fù)雜任務(wù)。還能在真實(shí)任務(wù)中節(jié)省更多tokens。

輪級(jí)思考

輪級(jí)思考是一種按輪控制推理計(jì)算的能力，即在同一個(gè)會(huì)話中，每一輪請(qǐng)求都可以獨(dú)立選擇開啟/關(guān)閉思考。

這使得GLM-4.7具備以下優(yōu)勢(shì)：

更靈活的成本/時(shí)延控制：對(duì)“問個(gè)事實(shí)/改個(gè)措辭”等輕量輪次可關(guān)閉思考，追求快速響應(yīng)；對(duì)“復(fù)雜規(guī)劃/多約束推理/代碼調(diào)試”等重任務(wù)輪次可開啟思考，提升正確率與穩(wěn)定性。
更順滑的多輪體驗(yàn)：思考開關(guān)在會(huì)話內(nèi)可隨時(shí)切換，模型能在不同輪次間保持對(duì)話連貫與輸出風(fēng)格一致，讓用戶感覺“聰明時(shí)更聰明、簡(jiǎn)單時(shí)更快”。
更適合Agent/工具調(diào)用場(chǎng)景：在需要快速執(zhí)行的工具輪次可降低推理開銷，在需要綜合工具結(jié)果做決策的輪次再開啟深度思考，實(shí)現(xiàn)效率與質(zhì)量的動(dòng)態(tài)平衡。

更多技術(shù)詳情，智譜官方也附上了詳細(xì)技術(shù)報(bào)告。

BTW，智譜這個(gè)月還真上了“節(jié)日限定優(yōu)惠”。

每月最低20元即可暢享GLM-4.7，用上Claude Pro套餐3倍用量。

又是一位好價(jià)格屠夫呀。

而且GLM-4.7的深夜炸場(chǎng)，也算是已經(jīng)沖刺IPO上市的智譜，帶來的最新技術(shù)證明。

目前智譜已經(jīng)通過了港交所上市聆訊，IPO敲鐘僅剩下最后100米。

而GLM-4.7可能也是智譜上市之前，最重要的模型更新了……吧？

[1]https://z.ai/blog/glm-4.7

[2]https://x.com/Zai_org/status/2003156119087382683

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.