<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全解讀|智譜 GLM-5V-Turbo 發布,多模態 Coding 基模

      0
      分享至

      MODEL

      今天,智譜發布 GLM-5V-Turbo,定位「面向視覺編程的多模態 Coding 基座模型」

      一句話概括:在 GLM-5-Turbo 的編程和龍蝦能力基座上,加入了原生的視覺理解和推理能力

      模型能看懂設計稿、截圖、網頁界面,據此生成完整可運行的代碼


      GLM-5V-Turbo Playground:左邊是手繪草圖,右邊是生成的完整前端頁面

      從 GLM-5 到 GLM-5V-Turbo

      先理一下產品線關系

      2 月 11 日,智譜發布 GLM-5,744B 參數的開源旗艦,主打編程和 Agentic Engineering。3 月 16 日,GLM-5-Turbo 跟進,專門針對龍蝦(OpenClaw/AutoClaw)場景做了優化,強化工具調用、指令遵循、長鏈路執行

      今天的 GLM-5V-Turbo 是這條線的第三步:在 GLM-5-Turbo 的全部能力基礎上,從預訓練階段就融入了視覺能力

      具體多了什么:

      → 原生理解圖片、視頻、設計稿、文檔版面等多模態輸入

      → 支持畫框、截圖、讀網頁等多模態工具調用

      → 上下文窗口 200K

      → 與 Claude Code、OpenClaw/AutoClaw 深度適配

      關鍵詞是「原生」。這里的視覺能力是從預訓練階段就開始訓的,后訓練階段再做多模態協同優化,和在文本模型上面接一個視覺編碼器的做法不一樣

      Benchmark

      先看多模態相關的指標。對比對象是 Kimi K2.5 和 Claude Opus 4.6


      多模態 Benchmark:Multimodal Coding / Tool Use / GUI Agent

      在 Design2Code、ImageMining、BrowseComp-VL、MMSearch、AndroidWorld 這幾項上,GLM-5V-Turbo 均為三者最高。Opus 4.6 在 Flame-VLM-Code(98.8)和 Vision2Web(43.5)上領先

      再看純文本 Coding 和龍蝦任務的指標。這張表多了一列 GLM-5-Turbo(純文本版),可以看視覺能力引入后純文本能力有沒有退化


      純文本 Coding 和 Claw Benchmark

      CC-Backend:GLM-5V-Turbo 22.8 vs GLM-5-Turbo 20.5,視覺版反而略高

      CC-Frontend:68.4 vs 69.4,基本持平

      CC-Repo-Exploration:72.2 vs 68.9,視覺版略高

      官方的結論是:視覺能力引入后,純文本編程與推理能力保持了同等水準。從數據看,個別項還有小幅提升。Opus 4.6 在純文本 Coding 三項上均領先(CC-Backend 26.9,CC-Frontend 75.9,CC-Repo-Exploration 74.4),在 PinchBench 和 ClawEval 上也占優,這個差距客觀存在

      內測合作伙伴反饋

      內測階段,字節 TRAE 模型測評團隊、美團和快手萬擎模型測評團隊分別給出了評價:

      GLM-5V-Turbo 實現了從設計稿到代碼的完整還原,作為一款視覺理解模型,能夠很好地滿足開發者的前端開發場景

      TRAE 模型測評團隊

      原生多模態能力的引入并未削弱其編程邏輯,其編程能力仍屬于國內第一梯隊

      美團

      它為 Agent 安上了「眼睛」,同時在編程領域展現出優于同類多模態模型的能力,在視覺編程場景中更具競爭力

      快手萬擎模型測評團隊

      四項技術升級

      GLM-5V-Turbo 的能力來自模型架構、訓練方法、數據構造、工具鏈四個層面的系統性改動

      原生多模態融合

      GLM-5V-Turbo 從預訓練階段開始做文本與視覺的深度融合。智譜研發了新一代 CogViT 視覺編碼器,官方稱在通用物體識別、細粒度理解、幾何與空間感知上均達最優。同時設計了兼容多模態輸入的 MTP(Multi-Token Prediction) 結構,在多模態場景下保持較高的推理效率

      30+ 任務協同強化學習

      強化學習階段同時優化 30 多 個任務類型,覆蓋 STEM、grounding、video、GUI Agent 等子領域。官方稱這種多任務協同的方式有效緩解了單領域訓練的不穩定性,模型在感知、推理、Agentic 執行上均有提升

      Agentic 數據與任務構造

      Agent 數據一直是行業痛點:數據稀缺,驗證困難。智譜的做法是構建從元素感知到序列級動作預測的多層級體系,用合成環境大規模生成可控、可驗證的訓練數據

      一個有意思的細節:他們從預訓練階段就注入 Agentic 元能力,比如把 GUI Agent PRM 數據加入預訓練來降低幻覺

      多模態工具鏈擴展

      在文本工具之外,GLM-5V-Turbo 新增支持多模態搜索、畫框、截圖、讀網頁等多模態 tools。這讓 Agent 的感知鏈路從純文本擴展到視覺交互,可以「看懂環境 → 規劃動作 → 執行任務」形成完整閉環

      典型場景

      下面用實際案例展開,信息量比較大

      圖像即代碼

      GLM-5V-Turbo 最核心的能力場景。你可以發送草圖、設計稿、參考網站的截圖或錄屏,模型直接理解布局、配色、組件層級與交互邏輯,生成完整可運行的前端工程


      前端復刻:發截圖或錄屏,模型還原版式、配色、動效等視覺細節,生成可運行代碼


      GUI 自主探索復刻:結合 Claude Code,模型自主探索目標網站,瀏覽頁面結構、梳理跳轉關系、采集素材,然后直接生成代碼復現整個站點


      交互式編輯:支持按需求增刪頁面模塊、修改文案樣式、調整布局、補充交互功能


      文檔解讀與寫作

      給模型一份 PDF 文檔,它讀完之后可以按照你的要求撰寫特定格式的文章


      NVIDIA 10-Q 財報 → 中文財務簡報

      比如把 NVIDIA 2026 財年第一季度 10-Q 表格扔給 AutoClaw,提示詞是「閱讀文檔,匯總關鍵數據,撰寫一份簡報,保存到 result.md」,模型輸出了包含營收、利潤、毛利率、EPS 等關鍵數據和業務板塊分析的中文財務簡報

      另一個案例是給一篇 40 頁的 GLM-5 論文 PDF,讓模型按微信公眾號風格撰寫宣傳文案。模型自動從原文中定位和截取關鍵圖表,嵌入到合適的位置,輸出圖文并茂的文章


      論文 PDF → 公眾號風格圖文文案

      PDF-to-WEB / PDF-to-PPT

      這兩個能力做成了官方 Skill。PDF-to-WEB 是把論文或報告轉成精美的單頁學術網站。用 BERT 論文和 GLM-5 論文做的實測,渲染結果的完成度很高,接近手工做的學術項目主頁


      PDF-to-WEB 渲染結果

      PDF-to-PPT 則是把文檔轉成多頁 HTML 演示文稿。比如用阿里巴巴的近期動態做了一個 14 頁的分析 PPT,模型自主搜索了季度財報、業務板塊數據和競爭格局,配了圖表

      多模態 Deep Research

      這里展示兩個深度調研的案例

      第一個是「搜集小米汽車相關圖片,輸出圖文交錯的專題報告」。模型通過約 50 輪網絡搜索,從各個渠道獲取了包括新一代 SU7、YU7/YU7 GT、YU9 等車型的圖片和產線、工廠照片,輸出了一份結構化分析報告


      小米汽車 Deep Research 報告

      第二個是「結合阿里巴巴的近期動態和季度財報,仿照麥肯錫風格,生成專業 PPT」。模型同樣自主完成了信息搜集、數據整理和可視化呈現


      阿里巴巴麥肯錫風格 PPT

      視覺 Grounding

      模型能在圖片中精準定位目標物體。幾個有意思的例子:

      數手指:給一張手部 X 光片,讓模型用坐標標出所有手指的位置。模型準確識別并標注了 6 個手指(包括左右兩側拇指和中間 4 個手指)


      多模態搜索 + 識別:給了一張 1927 年第五屆索爾維會議的合影照片,提示詞是「框出圖中全部人物以及他們的名字」。模型成功識別并框出了全部 29 位人物,從第三排的奧古斯特·皮卡爾德到第一排的愛因斯坦


      索爾維會議 29 人全部識別并框出

      空間推理

      模型在空間理解上的能力可以和具身機器人結合。一個實測案例是一張廚房場景照片,提示詞是「我想切火腿腸,請問我的手應該操作哪個位置?請在圖中點出對應的位置」。模型標注出了菜刀刀柄的位置,并給出了操作指導


      空間推理 - 標注菜刀刀柄位置

      為龍蝦裝上眼睛

      接入 GLM-5V-Turbo 之后,龍蝦(AutoClaw/OpenClaw)的任務邊界大幅拓寬。以前只能處理純文本任務,現在可以瀏覽網頁和文檔、生成圖文并茂的報告和 PPT、查詢并解讀 K 線圖

      官方已上線「股票分析師」Skill,利用視覺能力讓龍蝦直接看懂 K 線走勢、估值區間圖和券商研報圖表,四路數據源 60 秒并行采集,輸出圖文交錯的研報

      14 個官方 Skills

      智譜為 GLM-5V-Turbo 準備了 14 個官方 Skills,分三類

      基于主模型原生能力(4 個)

      PDF-to-WEB:論文/報告轉單頁學術網站

      PDF-to-PPT:文檔轉多頁 HTML 演示文稿

      Web-Replication:給 URL,模型自主探索并復刻整個網站

      PRD-to-App:產品需求文檔 + 原型圖轉全棧 Web 應用

      作為外部工具調用(5 個)

      圖像 Captioning:自動分析圖像內容,生成自然語言描述

      視覺 Grounding:根據文字描述在圖像中精準定位目標

      基于文檔的寫作:讀文檔、提關鍵信息、生成特定格式文本

      簡歷篩選:讀簡歷,和職位要求智能比對

      提示詞生成:根據參考圖/視頻,自動構建文生圖/視頻的 Prompt

      基于專用模型 GLM-OCR / GLM-Image(5 個)

      通用文字識別:印刷體、手寫體、多語言文本

      表格識別:還原行列結構和合并單元格

      手寫體識別:適應連筆、潦草等復雜書寫

      公式識別:復雜公式轉 LaTeX

      文生圖:自然語言生成圖像

      全部 Skills 已上線 ClawHub:一鍵安裝

      GitHub:zai-org/GLM-skills

      接入方式 產品體驗

      → AutoClaw(澳龍):autoglm.zhipuai.cn/autoclaw

      → Z.ai:chat.z.ai


      z.ai

      API 接入

      → BigModel 開放平臺:docs.bigmodel.cn

      → Z.ai:docs.z.ai


      https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

      Claude Code

      ~/.claude/settings.json 中配置:

      ANTHROPIC_BASE_URL 設為 https://open.bigmodel.cn/api/anthropic

      → 模型 ID 填 glm-5v-turbo

      或在會話中直接 /model glm-5v-turbo 切換

      AutoClaw / OpenClaw 接入

      設置里添加自定義模型:

      → 服務商選「智譜」

      → 模型 ID 填 glm-5v-turbo

      → Base URL 填 https://open.bigmodel.cn/api/paas/v4

      → 填入 API Key 即可

      Coding Plan:現面向 Coding Plan 用戶開放申請,后續 GLM Coding Plan 也會納入 GLM-5V-Turbo

      申請問卷:zhipu-ai.feishu.cn/share/base/form/shrcn...

      GLM-5,2 月 11 日

      GLM-5-Turbo,3 月 16 日

      GLM-5V-Turbo,4 月 2 日

      大約每兩到三周一個版本。這次補上的是視覺能力,龍蝦和 Claude Code 的感知鏈路從純文本擴展到了視覺交互

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      清明墓園“采花大盜”落網 律師:盜賣行為缺德,更涉嫌違法犯罪

      清明墓園“采花大盜”落網 律師:盜賣行為缺德,更涉嫌違法犯罪

      極目新聞
      2026-04-02 11:09:21
      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      素衣讀史
      2026-03-31 15:11:31
      我媽老說大姐孝順,我斷了每月5000元生活費后,大姐打來電話!

      我媽老說大姐孝順,我斷了每月5000元生活費后,大姐打來電話!

      藝鑒在線
      2026-04-03 17:48:19
      伊朗伊斯蘭革命衛隊確認其海軍情報局高官身亡

      伊朗伊斯蘭革命衛隊確認其海軍情報局高官身亡

      國際在線
      2026-04-03 18:41:13
      哈佛研究:讓孩子“瘋跑”,才是對大腦頂級的投資

      哈佛研究:讓孩子“瘋跑”,才是對大腦頂級的投資

      枕邊聊育兒
      2026-04-02 10:57:59
      傷缺34天復出!41歲C羅沖擊沙特雙冠,奪冠條件出爐,劍指1000球

      傷缺34天復出!41歲C羅沖擊沙特雙冠,奪冠條件出爐,劍指1000球

      小火箭愛體育
      2026-04-03 16:07:58
      浙江義烏一校花太漂亮了,五官精致, 身高169,美得讓人移不開眼

      浙江義烏一校花太漂亮了,五官精致, 身高169,美得讓人移不開眼

      小椰的奶奶
      2026-04-03 14:01:09
      A股三大指數集體高開,滬指漲0.21%,創業板指漲0.79%

      A股三大指數集體高開,滬指漲0.21%,創業板指漲0.79%

      每日經濟新聞
      2026-04-03 09:30:30
      李大釗犧牲后,妻子籌措安葬費,魯迅捐了五十,汪精衛捐了一千

      李大釗犧牲后,妻子籌措安葬費,魯迅捐了五十,汪精衛捐了一千

      云霄紀史觀
      2026-03-29 20:30:22
      全網炸鍋! Anthropic萬字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

      全網炸鍋! Anthropic萬字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

      新智元
      2026-04-03 17:14:35
      商務部回應 Meta收購Manus

      商務部回應 Meta收購Manus

      每日經濟新聞
      2026-04-02 15:34:28
      伊朗強烈譴責導彈襲擊體育館事件

      伊朗強烈譴責導彈襲擊體育館事件

      財聯社
      2026-04-02 20:20:11
      西貝起訴西貝百家姓索賠60萬元,被告抖音賬號稱旗下一“茜貝百家姓轉轉小火鍋”已更名

      西貝起訴西貝百家姓索賠60萬元,被告抖音賬號稱旗下一“茜貝百家姓轉轉小火鍋”已更名

      紅星資本局
      2026-04-03 12:21:06
      特朗普“速勝大法”敗給伊朗“地道戰”?美情報評估:伊朗一半導彈發射器仍完好

      特朗普“速勝大法”敗給伊朗“地道戰”?美情報評估:伊朗一半導彈發射器仍完好

      紅星新聞
      2026-04-03 11:50:13
      特朗普擬對北約實施“付費參與模式”

      特朗普擬對北約實施“付費參與模式”

      參考消息
      2026-04-02 16:57:06
      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      王勵勤下最后通牒!國乒硬剛國際乒聯:6個月內必須解決王楚欽“球拍門”

      王勵勤下最后通牒!國乒硬剛國際乒聯:6個月內必須解決王楚欽“球拍門”

      生活新鮮市
      2026-04-03 14:46:51
      4月1日,伊朗的“真實承諾”砸醒了誰呢

      4月1日,伊朗的“真實承諾”砸醒了誰呢

      民間胡扯老哥
      2026-04-02 07:30:53
      馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

      馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

      南冥那只貓
      2025-03-05 21:11:34
      山東老板周新峰去世,年僅40歲,因腰疼確診晚期,后悔做了三件事

      山東老板周新峰去世,年僅40歲,因腰疼確診晚期,后悔做了三件事

      法老不說教
      2026-04-03 16:30:42
      2026-04-03 19:16:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      記者問阿富汗和巴基斯坦是否在烏魯木齊和談 中方回應

      頭條要聞

      記者問阿富汗和巴基斯坦是否在烏魯木齊和談 中方回應

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      本地
      時尚
      藝術
      公開課
      軍事航空

      本地新聞

      跟著歌聲游安徽,聽古村回響

      怎么她們都穿成18世紀的粉彩畫?

      藝術要聞

      吳昌碩『扇畫』老辣古拙

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      中方:不認同伊朗對海合會國家的攻擊

      無障礙瀏覽 進入關懷版