MODEL
今天,智譜發布 GLM-5V-Turbo,定位「面向視覺編程的多模態 Coding 基座模型」
一句話概括:在 GLM-5-Turbo 的編程和龍蝦能力基座上,加入了原生的視覺理解和推理能力
模型能看懂設計稿、截圖、網頁界面,據此生成完整可運行的代碼
![]()
GLM-5V-Turbo Playground:左邊是手繪草圖,右邊是生成的完整前端頁面
從 GLM-5 到 GLM-5V-Turbo
先理一下產品線關系
2 月 11 日,智譜發布 GLM-5,744B 參數的開源旗艦,主打編程和 Agentic Engineering。3 月 16 日,GLM-5-Turbo 跟進,專門針對龍蝦(OpenClaw/AutoClaw)場景做了優化,強化工具調用、指令遵循、長鏈路執行
今天的 GLM-5V-Turbo 是這條線的第三步:在 GLM-5-Turbo 的全部能力基礎上,從預訓練階段就融入了視覺能力
具體多了什么:
→ 原生理解圖片、視頻、設計稿、文檔版面等多模態輸入
→ 支持畫框、截圖、讀網頁等多模態工具調用
→ 上下文窗口 200K
→ 與 Claude Code、OpenClaw/AutoClaw 深度適配
關鍵詞是「原生」。這里的視覺能力是從預訓練階段就開始訓的,后訓練階段再做多模態協同優化,和在文本模型上面接一個視覺編碼器的做法不一樣
Benchmark
先看多模態相關的指標。對比對象是 Kimi K2.5 和 Claude Opus 4.6
![]()
多模態 Benchmark:Multimodal Coding / Tool Use / GUI Agent
在 Design2Code、ImageMining、BrowseComp-VL、MMSearch、AndroidWorld 這幾項上,GLM-5V-Turbo 均為三者最高。Opus 4.6 在 Flame-VLM-Code(98.8)和 Vision2Web(43.5)上領先
再看純文本 Coding 和龍蝦任務的指標。這張表多了一列 GLM-5-Turbo(純文本版),可以看視覺能力引入后純文本能力有沒有退化
![]()
純文本 Coding 和 Claw Benchmark
CC-Backend:GLM-5V-Turbo 22.8 vs GLM-5-Turbo 20.5,視覺版反而略高
CC-Frontend:68.4 vs 69.4,基本持平
CC-Repo-Exploration:72.2 vs 68.9,視覺版略高
官方的結論是:視覺能力引入后,純文本編程與推理能力保持了同等水準。從數據看,個別項還有小幅提升。Opus 4.6 在純文本 Coding 三項上均領先(CC-Backend 26.9,CC-Frontend 75.9,CC-Repo-Exploration 74.4),在 PinchBench 和 ClawEval 上也占優,這個差距客觀存在
內測合作伙伴反饋
內測階段,字節 TRAE 模型測評團隊、美團和快手萬擎模型測評團隊分別給出了評價:
GLM-5V-Turbo 實現了從設計稿到代碼的完整還原,作為一款視覺理解模型,能夠很好地滿足開發者的前端開發場景
TRAE 模型測評團隊
原生多模態能力的引入并未削弱其編程邏輯,其編程能力仍屬于國內第一梯隊
美團
它為 Agent 安上了「眼睛」,同時在編程領域展現出優于同類多模態模型的能力,在視覺編程場景中更具競爭力
快手萬擎模型測評團隊
四項技術升級
GLM-5V-Turbo 的能力來自模型架構、訓練方法、數據構造、工具鏈四個層面的系統性改動
原生多模態融合
GLM-5V-Turbo 從預訓練階段開始做文本與視覺的深度融合。智譜研發了新一代 CogViT 視覺編碼器,官方稱在通用物體識別、細粒度理解、幾何與空間感知上均達最優。同時設計了兼容多模態輸入的 MTP(Multi-Token Prediction) 結構,在多模態場景下保持較高的推理效率
30+ 任務協同強化學習
強化學習階段同時優化 30 多 個任務類型,覆蓋 STEM、grounding、video、GUI Agent 等子領域。官方稱這種多任務協同的方式有效緩解了單領域訓練的不穩定性,模型在感知、推理、Agentic 執行上均有提升
Agentic 數據與任務構造
Agent 數據一直是行業痛點:數據稀缺,驗證困難。智譜的做法是構建從元素感知到序列級動作預測的多層級體系,用合成環境大規模生成可控、可驗證的訓練數據
一個有意思的細節:他們從預訓練階段就注入 Agentic 元能力,比如把 GUI Agent PRM 數據加入預訓練來降低幻覺
多模態工具鏈擴展
在文本工具之外,GLM-5V-Turbo 新增支持多模態搜索、畫框、截圖、讀網頁等多模態 tools。這讓 Agent 的感知鏈路從純文本擴展到視覺交互,可以「看懂環境 → 規劃動作 → 執行任務」形成完整閉環
典型場景
下面用實際案例展開,信息量比較大
圖像即代碼
GLM-5V-Turbo 最核心的能力場景。你可以發送草圖、設計稿、參考網站的截圖或錄屏,模型直接理解布局、配色、組件層級與交互邏輯,生成完整可運行的前端工程
![]()
前端復刻:發截圖或錄屏,模型還原版式、配色、動效等視覺細節,生成可運行代碼
![]()
GUI 自主探索復刻:結合 Claude Code,模型自主探索目標網站,瀏覽頁面結構、梳理跳轉關系、采集素材,然后直接生成代碼復現整個站點
![]()
交互式編輯:支持按需求增刪頁面模塊、修改文案樣式、調整布局、補充交互功能
![]()
文檔解讀與寫作
給模型一份 PDF 文檔,它讀完之后可以按照你的要求撰寫特定格式的文章
![]()
NVIDIA 10-Q 財報 → 中文財務簡報
比如把 NVIDIA 2026 財年第一季度 10-Q 表格扔給 AutoClaw,提示詞是「閱讀文檔,匯總關鍵數據,撰寫一份簡報,保存到 result.md」,模型輸出了包含營收、利潤、毛利率、EPS 等關鍵數據和業務板塊分析的中文財務簡報
另一個案例是給一篇 40 頁的 GLM-5 論文 PDF,讓模型按微信公眾號風格撰寫宣傳文案。模型自動從原文中定位和截取關鍵圖表,嵌入到合適的位置,輸出圖文并茂的文章
![]()
論文 PDF → 公眾號風格圖文文案
PDF-to-WEB / PDF-to-PPT
這兩個能力做成了官方 Skill。PDF-to-WEB 是把論文或報告轉成精美的單頁學術網站。用 BERT 論文和 GLM-5 論文做的實測,渲染結果的完成度很高,接近手工做的學術項目主頁
![]()
PDF-to-WEB 渲染結果
PDF-to-PPT 則是把文檔轉成多頁 HTML 演示文稿。比如用阿里巴巴的近期動態做了一個 14 頁的分析 PPT,模型自主搜索了季度財報、業務板塊數據和競爭格局,配了圖表
多模態 Deep Research
這里展示兩個深度調研的案例
第一個是「搜集小米汽車相關圖片,輸出圖文交錯的專題報告」。模型通過約 50 輪網絡搜索,從各個渠道獲取了包括新一代 SU7、YU7/YU7 GT、YU9 等車型的圖片和產線、工廠照片,輸出了一份結構化分析報告
![]()
小米汽車 Deep Research 報告
第二個是「結合阿里巴巴的近期動態和季度財報,仿照麥肯錫風格,生成專業 PPT」。模型同樣自主完成了信息搜集、數據整理和可視化呈現
![]()
阿里巴巴麥肯錫風格 PPT
視覺 Grounding
模型能在圖片中精準定位目標物體。幾個有意思的例子:
數手指:給一張手部 X 光片,讓模型用坐標標出所有手指的位置。模型準確識別并標注了 6 個手指(包括左右兩側拇指和中間 4 個手指)
![]()
多模態搜索 + 識別:給了一張 1927 年第五屆索爾維會議的合影照片,提示詞是「框出圖中全部人物以及他們的名字」。模型成功識別并框出了全部 29 位人物,從第三排的奧古斯特·皮卡爾德到第一排的愛因斯坦
![]()
索爾維會議 29 人全部識別并框出
空間推理
模型在空間理解上的能力可以和具身機器人結合。一個實測案例是一張廚房場景照片,提示詞是「我想切火腿腸,請問我的手應該操作哪個位置?請在圖中點出對應的位置」。模型標注出了菜刀刀柄的位置,并給出了操作指導
![]()
空間推理 - 標注菜刀刀柄位置
為龍蝦裝上眼睛
接入 GLM-5V-Turbo 之后,龍蝦(AutoClaw/OpenClaw)的任務邊界大幅拓寬。以前只能處理純文本任務,現在可以瀏覽網頁和文檔、生成圖文并茂的報告和 PPT、查詢并解讀 K 線圖
官方已上線「股票分析師」Skill,利用視覺能力讓龍蝦直接看懂 K 線走勢、估值區間圖和券商研報圖表,四路數據源 60 秒并行采集,輸出圖文交錯的研報
14 個官方 Skills
智譜為 GLM-5V-Turbo 準備了 14 個官方 Skills,分三類
基于主模型原生能力(4 個)
→PDF-to-WEB:論文/報告轉單頁學術網站
→PDF-to-PPT:文檔轉多頁 HTML 演示文稿
→Web-Replication:給 URL,模型自主探索并復刻整個網站
→PRD-to-App:產品需求文檔 + 原型圖轉全棧 Web 應用
作為外部工具調用(5 個)
→圖像 Captioning:自動分析圖像內容,生成自然語言描述
→視覺 Grounding:根據文字描述在圖像中精準定位目標
→基于文檔的寫作:讀文檔、提關鍵信息、生成特定格式文本
→簡歷篩選:讀簡歷,和職位要求智能比對
→提示詞生成:根據參考圖/視頻,自動構建文生圖/視頻的 Prompt
基于專用模型 GLM-OCR / GLM-Image(5 個)
→通用文字識別:印刷體、手寫體、多語言文本
→表格識別:還原行列結構和合并單元格
→手寫體識別:適應連筆、潦草等復雜書寫
→公式識別:復雜公式轉 LaTeX
→文生圖:自然語言生成圖像
全部 Skills 已上線 ClawHub:一鍵安裝
GitHub:zai-org/GLM-skills
接入方式 產品體驗
→ AutoClaw(澳龍):autoglm.zhipuai.cn/autoclaw
→ Z.ai:chat.z.ai
![]()
z.ai
API 接入
→ BigModel 開放平臺:docs.bigmodel.cn
→ Z.ai:docs.z.ai
![]()
https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
Claude Code
在 ~/.claude/settings.json 中配置:
→ANTHROPIC_BASE_URL 設為 https://open.bigmodel.cn/api/anthropic
→ 模型 ID 填 glm-5v-turbo
或在會話中直接 /model glm-5v-turbo 切換
AutoClaw / OpenClaw 接入
設置里添加自定義模型:
→ 服務商選「智譜」
→ 模型 ID 填 glm-5v-turbo
→ Base URL 填 https://open.bigmodel.cn/api/paas/v4
→ 填入 API Key 即可
Coding Plan:現面向 Coding Plan 用戶開放申請,后續 GLM Coding Plan 也會納入 GLM-5V-Turbo
申請問卷:zhipu-ai.feishu.cn/share/base/form/shrcn...
GLM-5,2 月 11 日
GLM-5-Turbo,3 月 16 日
GLM-5V-Turbo,4 月 2 日
大約每兩到三周一個版本。這次補上的是視覺能力,龍蝦和 Claude Code 的感知鏈路從純文本擴展到了視覺交互
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.