聽(tīng)雨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
國(guó)產(chǎn)大模型,開(kāi)卷視覺(jué)編程,主打一個(gè)AI看著草圖就能vibe coding。
前腳千問(wèn)剛發(fā)完Qwen3.5-Omni,后腳智譜就上新了多模態(tài)Coding基座模型——GLM-5V-Turbo
給它一個(gè)鏈接,它能直接復(fù)刻整個(gè)網(wǎng)頁(yè)前端,還是能理解頁(yè)面結(jié)構(gòu)和背后交互邏輯的內(nèi)種:
![]()
或者給它一個(gè)草圖、設(shè)計(jì)稿或者網(wǎng)站截圖,它也能立刻生成完整可運(yùn)行的前端工程,還準(zhǔn)確還原版式和配色:
![]()
這波產(chǎn)品經(jīng)理狂喜,完全可以自己零門檻做出demo,再拿去跟開(kāi)發(fā)討論。
要不Vibe Coding換個(gè)詞,以后改叫Vision Coding?(doge)
GLM-5V-Turbo還讓龍蝦長(zhǎng)出了眼睛,可以解讀復(fù)雜圖表。
配合AutoClaw已上線的“股票分析師”Skill,龍蝦能直接看懂K線走勢(shì)、估值區(qū)間圖和券商研報(bào)圖表,還能生成圖文并茂的報(bào)告。
跑分上,GLM-5V-Turbo也是表現(xiàn)突出,在多模態(tài)Coding、Agentic任務(wù)以及純文本Coding上都實(shí)現(xiàn)了對(duì)Claude Opus 4.6的超越。
![]()
在設(shè)計(jì)稿還原、視覺(jué)代碼生成、多模態(tài)檢索與問(wèn)答、視覺(jué)探查等基準(zhǔn)上,GLM-5V-Turbo都相當(dāng)領(lǐng)先。
而在衡量真實(shí)GUI環(huán)境操控能力的AndroidWorld、WebVoyager等基準(zhǔn)上,同樣表現(xiàn)突出。
![]()
在純文本Coding能力方面,GLM-5V-Turbo的表現(xiàn)同樣保持穩(wěn)定。這說(shuō)明視覺(jué)能力引入后,純文本編程與推理能力保持了同等水準(zhǔn)
重點(diǎn)是,價(jià)格也很可觀。
![]()
也難怪有網(wǎng)友銳評(píng):Claude Code的時(shí)代結(jié)束了。
![]()
一張草圖畫(huà)出前端
話不多說(shuō),上一手實(shí)測(cè)。
先來(lái)考考GLM-5V-Turbo的Vision Coding能力:給它一張草圖,讓它畫(huà)出產(chǎn)品前端。
![]()
圖,是真的隨手畫(huà)的,非常簡(jiǎn)單。不過(guò)看不懂沒(méi)關(guān)系,我們?cè)偌由咸崾驹~:
- 根據(jù)草圖設(shè)計(jì)一個(gè)音樂(lè)播放器的前端界面,左側(cè)是音樂(lè)播放頁(yè)面,右側(cè)是好歌推薦和音樂(lè)播放列表,深色背景,古典風(fēng)格。
![]()
GLM-5V-Turbo的反應(yīng)很快,大概十幾秒的時(shí)間,它已經(jīng)給我寫(xiě)出了HTML和CSS代碼。
在vision coding的過(guò)程中,你也可以不斷與它交互,讓它按你的要求修改。比如一開(kāi)始它做出的效果我不太滿意,又讓它修改了兩三次。
![]()
最后得到了這樣一個(gè)前端頁(yè)面:
![]()
左側(cè)是音樂(lè)播放器,點(diǎn)擊“播放”鍵會(huì)有唱片播放或停止的效果,左右也可以切歌。
右側(cè)上方是好歌推薦,下方是播放列表,和我畫(huà)的草圖基本一致。
點(diǎn)擊播放列表的每一首歌,左側(cè)的播放頁(yè)面也會(huì)相應(yīng)切換,基本的交互功能已經(jīng)有了,頁(yè)面色調(diào)和風(fēng)格也比較符合提示詞要求。
美中不足的是,左下角不起眼的“順序/隨機(jī)”播放按鈕,點(diǎn)擊后不會(huì)真的按照邏輯切歌,還處于擺設(shè)的狀態(tài)。
接下來(lái)如果想優(yōu)化,可以進(jìn)一步給模型提需求。
我們?cè)賮?lái)看看另一個(gè)case——讓GLM-5V-Turbo解讀論文。
![]()
這是一篇來(lái)自馬薩諸塞大學(xué)的經(jīng)濟(jì)學(xué)實(shí)證研究論文,里面復(fù)雜的公式和圖表很多。
但是GLM-5V-Turbo的優(yōu)勢(shì)就在于——可視化
它直接幫我們拆解了整篇論文的結(jié)構(gòu),把核心發(fā)現(xiàn)、主要結(jié)論和相應(yīng)圖表都提煉了出來(lái),還生成了一個(gè)圖文并茂的報(bào)告。
![]()
這對(duì)于外行來(lái)說(shuō)太友好了,掃一眼就能大概看懂這篇研究在做什么,每個(gè)圖表對(duì)應(yīng)的含義是怎樣的。
轉(zhuǎn)念一想,這其實(shí)也相當(dāng)于另一個(gè)形式的ppt?學(xué)生黨做論文pre都可以直接拿來(lái)用了。
給龍蝦安上“眼睛”
智譜這次還特別拓展了龍蝦的任務(wù)邊界,給自家澳龍安上了“眼睛”。
在AutoClaw中選擇GLM-5V-Turbo模型,你就可以讓它瀏覽網(wǎng)頁(yè)和文檔,做報(bào)告和PPT,還可以解讀復(fù)雜圖表。
澳龍已經(jīng)上線了“股票分析師”skill,完美適配GLM-5V-Turbo解讀復(fù)雜圖表的能力。
我在飛書(shū)上給它截圖了一張英偉達(dá)股票圖,讓它幫我分析一下。
![]()
沒(méi)過(guò)多久,它就給我生成了一份圖文并茂的分析報(bào)告:
![]()
整體內(nèi)容還是挺詳細(xì)的,還給出了基本面分析和操作建議,簡(jiǎn)單作為一個(gè)參考是足夠了的。
這么強(qiáng),咋做到的?
據(jù)官方介紹,GLM-5V-Turbo在模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)構(gòu)造、工具鏈四個(gè)層面都做了升級(jí):
第一,原生多模態(tài)融合。
GLM-5V-Turbo從預(yù)訓(xùn)練階段就把文本和圖像能力一起訓(xùn)練,后面再通過(guò)進(jìn)一步優(yōu)化,讓兩者配合更默契。
同時(shí),他們做了一個(gè)新的視覺(jué)編碼器(CogViT),在識(shí)別物體、理解細(xì)節(jié)、空間關(guān)系這些能力上都更強(qiáng)。
再加上一個(gè)更適合多模態(tài)推理的結(jié)構(gòu)(MTP),整體推理效率也更高。
第二,30+ 任務(wù)協(xié)同強(qiáng)化學(xué)習(xí)。
在強(qiáng)化學(xué)習(xí)階段,模型同時(shí)訓(xùn)練了30多個(gè)任務(wù),覆蓋STEM推理、圖像定位(grounding)、視頻理解、GUI操作等多個(gè)方向。
這樣帶來(lái)的好處是:模型不只是某一項(xiàng)能力強(qiáng),而是感知、推理、執(zhí)行整體更均衡,也更穩(wěn)定,避免了只在單一領(lǐng)域“偏科”。
第三,專門為Agent能力設(shè)計(jì)數(shù)據(jù)。
Agent最大的難點(diǎn)是:數(shù)據(jù)少、而且很難驗(yàn)證對(duì)不對(duì)。
智譜的做法是:
- 搭了一套從“看懂元素”到“預(yù)測(cè)一連串動(dòng)作”的訓(xùn)練體系;
- 用合成環(huán)境大規(guī)模生成可控、可驗(yàn)證的數(shù)據(jù);
- 甚至在預(yù)訓(xùn)練階段就提前加入Agent相關(guān)能力(比如GUI操作數(shù)據(jù)),減少模型幻覺(jué)。
另外,還用了類似“以評(píng)估反推能力”的方法,用多模態(tài)任務(wù)去倒逼模型變得更像一個(gè)能干活的Agent。
第四,把工具鏈從“純文本”升級(jí)到“能看能操作”。
除了原有的文本工具,GLM-5V-Turbo新增支持多模態(tài)搜索、畫(huà)框、截圖、讀網(wǎng)頁(yè)等多模態(tài)tools。
這意味著模型能真正做到一整套閉環(huán):看懂環(huán)境 → 規(guī)劃步驟 → 動(dòng)手執(zhí)行。
而且它和Claude Code、AutoClaw這些工具的配合也更好了,整體更接近一個(gè)能實(shí)際完成任務(wù)的智能體。
目前,新模型在Z.ai和AutoClaw上都可以體驗(yàn),也支持API調(diào)用,感興趣的朋友快去試試吧~
體驗(yàn)地址:
AutoClaw(澳龍):https://autoglm.zhipuai.cn/autoclaw/
Z.ai:https://chat.z.ai
API接入:
https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.