長話短說
GLM-4.6V 系列,128k 上下文,今天開源
支持識圖、推理、工具調(diào)用
能處理 150 頁文檔或 1 小時視頻
兩個版本:
?
GLM-4.6V(106B-A12B)?
GLM-4.6V-Flash(9B)
當然,也支持 API 調(diào)用,并且降價 50%
輸入1 元、輸出3元(每百萬 token)
![]()
價格對比
以及,這次的更新里,有個東西要劃重點
GLM-4.6V,支持了 Function Call
之前,GLM 的視覺模型,并不支持工具調(diào)用
評測數(shù)據(jù)
簡單來說,就是
?
9B版本,整體超過Qwen3-VL-8B?
106B-A12B版本,比肩 2 倍參數(shù)量的Qwen3-VL-235B
遺下內(nèi)容,均來自官方 demo
圖文混排:輸入論文或主題,輸出帶配圖的內(nèi)容,模型自己調(diào)搜索找圖,自己做視覺審核過濾
識圖購物:上傳街拍圖,模型調(diào) image_search,清洗多平臺數(shù)據(jù),輸出導購表格
前端復刻:上傳設(shè)計稿,生成 HTML/CSS/JS,支持在截圖上圈選區(qū)域發(fā)指令改代碼
視頻理解:一次輸入 4 家上市公司財報,跨文檔抽取指標生成對比表
開源信息
模型支持 SGLang、vLLM、transformers、xLLM(Ascend NPU),并已于 GitHub、HuggingFace 和 魔搭進行開源
GitHubhttps://github.com/zai-org/GLM-V
Hugging Facehttps://huggingface.co/collections/zai-org/glm-46v
魔搭https://modelscope.cn/collections/GLM-46V-37fabc27818446
![]()
GitHub
在線體驗的話,也可以
z.ai 選 GLM-4.6V 模型,或者智譜清言 APP
![]()
z.ai
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.