夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
智譜AI上市后,再發(fā)新成果。
開源輕量級大語言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,API免費(fèi)開放調(diào)用。
![]()
這是一個30B總參數(shù)、僅3B激活參數(shù)的混合專家(MoE)架構(gòu)模型,官方給它的定位是“本地編程與智能體助手”。
在SWE-bench Verified代碼修復(fù)測試中,GLM-4.7-Flash拿下59.2分,“人類最后的考試”等評測中也顯著超越同規(guī)模的Qwen3-30B和GPT-OSS-20B。
![]()
作為去年12月發(fā)布的旗艦?zāi)P虶LM-4.7的輕量化版本,GLM-4.7-Flash繼承了GLM-4系列在編碼和推理上的核心能力,同時針對效率做了專門優(yōu)化。
除了編程,官方還推薦將這個模型用于創(chuàng)意寫作、翻譯、長上下文任務(wù),甚至角色扮演場景。
30B參數(shù)只激活3B,MLA架構(gòu)首次上線
GLM-4.7-Flash沿用了該系列的”混合思考模型”的設(shè)計。
總參數(shù)量300億,但實際推理時僅激活約30億參數(shù),使模型在保持能力的同時大幅降低計算開銷。
上下文窗口支持到200K,既可以云端API調(diào)用,也支持本地部署。
目前官方還沒有給出技術(shù)報告,更多細(xì)節(jié)還要從配置文件自己挖掘。
![]()
有開發(fā)者注意到一個重要細(xì)節(jié):GLM團(tuán)隊這次首次采用了MLA(Multi-head Latent Attention)架構(gòu)。這一架構(gòu)此前由DeepSeek-v2率先使用并驗證有效,如今智譜也跟進(jìn)了。
從具體結(jié)構(gòu)來看,GLM-4.7-Flash的深度與GLM-4.5 Air和Qwen3-30B-A3B接近,但專家數(shù)量有所不同——它采用64個專家而非128個,激活時只調(diào)用5個(算上共享專家)。
![]()
目前發(fā)布不到12小時,HuggingFace、vLLM等主流平臺就提供了day0支持。
![]()
![]()
官方也在第一時間提供了對華為昇騰NPU的支持。
![]()
本地部署方面,經(jīng)開發(fā)者實測在32GB統(tǒng)一內(nèi)存、M5芯片的蘋果筆記本上能跑到43 token/s的速度。
![]()
官方API平臺上基礎(chǔ)版GLM-4.7-Flash完全免費(fèi)(限1個并發(fā)),高速版GLM-4.7-FlashX價格也相當(dāng)白菜。
![]()
對比同類模型,在上下文長度支持和輸出token價格上有優(yōu)勢,但目前延遲和吞吐量還有待優(yōu)化。
![]()
HuggingFace:
https://huggingface.co/zai-org/GLM-4.7-Flash
[1]https://x.com/Zai_org/status/2013261304060866758智譜新模型也用DeepSeek的MLA,蘋果M5就能跑
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.