網易首頁 > 網易號 > 正文申請入駐

全解讀｜智譜 GLM-5V-Turbo 發布，多模態 Coding 基模

2026-04-02 10:32:01　來源: 賽博禪心

北京舉報

分享至

MODEL

今天，智譜發布 GLM-5V-Turbo，定位「面向視覺編程的多模態 Coding 基座模型」

一句話概括：在 GLM-5-Turbo 的編程和龍蝦能力基座上，加入了原生的視覺理解和推理能力

模型能看懂設計稿、截圖、網頁界面，據此生成完整可運行的代碼

GLM-5V-Turbo Playground：左邊是手繪草圖，右邊是生成的完整前端頁面

從 GLM-5 到 GLM-5V-Turbo

先理一下產品線關系

2 月 11 日，智譜發布 GLM-5，744B 參數的開源旗艦，主打編程和 Agentic Engineering。3 月 16 日，GLM-5-Turbo 跟進，專門針對龍蝦（OpenClaw/AutoClaw）場景做了優化，強化工具調用、指令遵循、長鏈路執行

今天的 GLM-5V-Turbo 是這條線的第三步：在 GLM-5-Turbo 的全部能力基礎上，從預訓練階段就融入了視覺能力

具體多了什么：

→ 原生理解圖片、視頻、設計稿、文檔版面等多模態輸入

→ 支持畫框、截圖、讀網頁等多模態工具調用

→ 上下文窗口 200K

→ 與 Claude Code、OpenClaw/AutoClaw 深度適配

關鍵詞是「原生」。這里的視覺能力是從預訓練階段就開始訓的，后訓練階段再做多模態協同優化，和在文本模型上面接一個視覺編碼器的做法不一樣

Benchmark

先看多模態相關的指標。對比對象是 Kimi K2.5 和 Claude Opus 4.6

多模態 Benchmark：Multimodal Coding / Tool Use / GUI Agent

在 Design2Code、ImageMining、BrowseComp-VL、MMSearch、AndroidWorld 這幾項上，GLM-5V-Turbo 均為三者最高。Opus 4.6 在 Flame-VLM-Code（98.8）和 Vision2Web（43.5）上領先

再看純文本 Coding 和龍蝦任務的指標。這張表多了一列 GLM-5-Turbo（純文本版），可以看視覺能力引入后純文本能力有沒有退化

純文本 Coding 和 Claw Benchmark

CC-Backend：GLM-5V-Turbo 22.8 vs GLM-5-Turbo 20.5，視覺版反而略高

CC-Frontend：68.4 vs 69.4，基本持平

CC-Repo-Exploration：72.2 vs 68.9，視覺版略高

官方的結論是：視覺能力引入后，純文本編程與推理能力保持了同等水準。從數據看，個別項還有小幅提升。Opus 4.6 在純文本 Coding 三項上均領先（CC-Backend 26.9，CC-Frontend 75.9，CC-Repo-Exploration 74.4），在 PinchBench 和 ClawEval 上也占優，這個差距客觀存在

內測合作伙伴反饋

內測階段，字節 TRAE 模型測評團隊、美團和快手萬擎模型測評團隊分別給出了評價：

GLM-5V-Turbo 實現了從設計稿到代碼的完整還原，作為一款視覺理解模型，能夠很好地滿足開發者的前端開發場景

TRAE 模型測評團隊

原生多模態能力的引入并未削弱其編程邏輯，其編程能力仍屬于國內第一梯隊

美團

它為 Agent 安上了「眼睛」，同時在編程領域展現出優于同類多模態模型的能力，在視覺編程場景中更具競爭力

快手萬擎模型測評團隊

四項技術升級

GLM-5V-Turbo 的能力來自模型架構、訓練方法、數據構造、工具鏈四個層面的系統性改動

原生多模態融合

GLM-5V-Turbo 從預訓練階段開始做文本與視覺的深度融合。智譜研發了新一代 CogViT 視覺編碼器，官方稱在通用物體識別、細粒度理解、幾何與空間感知上均達最優。同時設計了兼容多模態輸入的 MTP（Multi-Token Prediction） 結構，在多模態場景下保持較高的推理效率

30+ 任務協同強化學習

強化學習階段同時優化 30 多 個任務類型，覆蓋 STEM、grounding、video、GUI Agent 等子領域。官方稱這種多任務協同的方式有效緩解了單領域訓練的不穩定性，模型在感知、推理、Agentic 執行上均有提升

Agentic 數據與任務構造

Agent 數據一直是行業痛點：數據稀缺，驗證困難。智譜的做法是構建從元素感知到序列級動作預測的多層級體系，用合成環境大規模生成可控、可驗證的訓練數據

一個有意思的細節：他們從預訓練階段就注入 Agentic 元能力，比如把 GUI Agent PRM 數據加入預訓練來降低幻覺

多模態工具鏈擴展

在文本工具之外，GLM-5V-Turbo 新增支持多模態搜索、畫框、截圖、讀網頁等多模態 tools。這讓 Agent 的感知鏈路從純文本擴展到視覺交互，可以「看懂環境 → 規劃動作 → 執行任務」形成完整閉環

典型場景

下面用實際案例展開，信息量比較大

圖像即代碼

GLM-5V-Turbo 最核心的能力場景。你可以發送草圖、設計稿、參考網站的截圖或錄屏，模型直接理解布局、配色、組件層級與交互邏輯，生成完整可運行的前端工程

前端復刻：發截圖或錄屏，模型還原版式、配色、動效等視覺細節，生成可運行代碼

GUI 自主探索復刻：結合 Claude Code，模型自主探索目標網站，瀏覽頁面結構、梳理跳轉關系、采集素材，然后直接生成代碼復現整個站點

交互式編輯：支持按需求增刪頁面模塊、修改文案樣式、調整布局、補充交互功能

文檔解讀與寫作

給模型一份 PDF 文檔，它讀完之后可以按照你的要求撰寫特定格式的文章

NVIDIA 10-Q 財報 → 中文財務簡報

比如把 NVIDIA 2026 財年第一季度 10-Q 表格扔給 AutoClaw，提示詞是「閱讀文檔，匯總關鍵數據，撰寫一份簡報，保存到 result.md」，模型輸出了包含營收、利潤、毛利率、EPS 等關鍵數據和業務板塊分析的中文財務簡報

另一個案例是給一篇 40 頁的 GLM-5 論文 PDF，讓模型按微信公眾號風格撰寫宣傳文案。模型自動從原文中定位和截取關鍵圖表，嵌入到合適的位置，輸出圖文并茂的文章

論文 PDF → 公眾號風格圖文文案

PDF-to-WEB / PDF-to-PPT

這兩個能力做成了官方 Skill。PDF-to-WEB 是把論文或報告轉成精美的單頁學術網站。用 BERT 論文和 GLM-5 論文做的實測，渲染結果的完成度很高，接近手工做的學術項目主頁

PDF-to-WEB 渲染結果

PDF-to-PPT 則是把文檔轉成多頁 HTML 演示文稿。比如用阿里巴巴的近期動態做了一個 14 頁的分析 PPT，模型自主搜索了季度財報、業務板塊數據和競爭格局，配了圖表

多模態 Deep Research

這里展示兩個深度調研的案例

第一個是「搜集小米汽車相關圖片，輸出圖文交錯的專題報告」。模型通過約 50 輪網絡搜索，從各個渠道獲取了包括新一代 SU7、YU7/YU7 GT、YU9 等車型的圖片和產線、工廠照片，輸出了一份結構化分析報告

小米汽車 Deep Research 報告

第二個是「結合阿里巴巴的近期動態和季度財報，仿照麥肯錫風格，生成專業 PPT」。模型同樣自主完成了信息搜集、數據整理和可視化呈現

阿里巴巴麥肯錫風格 PPT

視覺 Grounding

模型能在圖片中精準定位目標物體。幾個有意思的例子：

數手指：給一張手部 X 光片，讓模型用坐標標出所有手指的位置。模型準確識別并標注了 6 個手指（包括左右兩側拇指和中間 4 個手指）

多模態搜索 + 識別：給了一張 1927 年第五屆索爾維會議的合影照片，提示詞是「框出圖中全部人物以及他們的名字」。模型成功識別并框出了全部 29 位人物，從第三排的奧古斯特·皮卡爾德到第一排的愛因斯坦

索爾維會議 29 人全部識別并框出

空間推理

模型在空間理解上的能力可以和具身機器人結合。一個實測案例是一張廚房場景照片，提示詞是「我想切火腿腸，請問我的手應該操作哪個位置？請在圖中點出對應的位置」。模型標注出了菜刀刀柄的位置，并給出了操作指導

空間推理 - 標注菜刀刀柄位置

為龍蝦裝上眼睛

接入 GLM-5V-Turbo 之后，龍蝦（AutoClaw/OpenClaw）的任務邊界大幅拓寬。以前只能處理純文本任務，現在可以瀏覽網頁和文檔、生成圖文并茂的報告和 PPT、查詢并解讀 K 線圖

官方已上線「股票分析師」Skill，利用視覺能力讓龍蝦直接看懂 K 線走勢、估值區間圖和券商研報圖表，四路數據源 60 秒并行采集，輸出圖文交錯的研報

14 個官方 Skills

智譜為 GLM-5V-Turbo 準備了 14 個官方 Skills，分三類

基于主模型原生能力（4 個）

→PDF-to-WEB：論文/報告轉單頁學術網站

→PDF-to-PPT：文檔轉多頁 HTML 演示文稿

→Web-Replication：給 URL，模型自主探索并復刻整個網站

→PRD-to-App：產品需求文檔 + 原型圖轉全棧 Web 應用

作為外部工具調用（5 個）

→圖像 Captioning：自動分析圖像內容，生成自然語言描述

→視覺 Grounding：根據文字描述在圖像中精準定位目標

→基于文檔的寫作：讀文檔、提關鍵信息、生成特定格式文本

→簡歷篩選：讀簡歷，和職位要求智能比對

→提示詞生成：根據參考圖/視頻，自動構建文生圖/視頻的 Prompt

基于專用模型 GLM-OCR / GLM-Image（5 個）

→通用文字識別：印刷體、手寫體、多語言文本

→表格識別：還原行列結構和合并單元格

→手寫體識別：適應連筆、潦草等復雜書寫

→公式識別：復雜公式轉 LaTeX

→文生圖：自然語言生成圖像

全部 Skills 已上線 ClawHub：一鍵安裝

GitHub：zai-org/GLM-skills

接入方式產品體驗

→ AutoClaw（澳龍）：autoglm.zhipuai.cn/autoclaw

→ Z.ai：chat.z.ai

z.ai

API 接入

→ BigModel 開放平臺：docs.bigmodel.cn

→ Z.ai：docs.z.ai

https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

Claude Code

在 ~/.claude/settings.json 中配置：

→ANTHROPIC_BASE_URL 設為 https://open.bigmodel.cn/api/anthropic

→ 模型 ID 填 glm-5v-turbo

或在會話中直接 /model glm-5v-turbo 切換

AutoClaw / OpenClaw 接入

設置里添加自定義模型：

→ 服務商選「智譜」

→ 模型 ID 填 glm-5v-turbo

→ Base URL 填 https://open.bigmodel.cn/api/paas/v4

→ 填入 API Key 即可

Coding Plan：現面向 Coding Plan 用戶開放申請，后續 GLM Coding Plan 也會納入 GLM-5V-Turbo

申請問卷：zhipu-ai.feishu.cn/share/base/form/shrcn...

GLM-5，2 月 11 日

GLM-5-Turbo，3 月 16 日

GLM-5V-Turbo，4 月 2 日

大約每兩到三周一個版本。這次補上的是視覺能力，龍蝦和 Claude Code 的感知鏈路從純文本擴展到了視覺交互

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.