01
一個(gè)把后端逼瘋的需求
我有個(gè)朋友,特別喜歡寵物,有一天他找到我,神秘兮兮地說:“我想到了一個(gè)絕妙的點(diǎn)子,你能不能幫我實(shí)現(xiàn)了?”
我說:“什么點(diǎn)子?”
他說:“我想弄一個(gè)寵物領(lǐng)養(yǎng)平臺(tái).....”
我一聽就打斷他:“得了吧,這樣的平臺(tái)太多了,你再做一個(gè)也沒啥意義......”
可他就是喜歡,執(zhí)意要做,說什么“也不想賺大錢,就在寵物圈里用。”
我被纏得沒辦法,又想到了最近AI Coding工具比較火,也許我很快就能給他鼓搗一個(gè)網(wǎng)站出來,就答應(yīng)了。
真正做的時(shí)候,我就后悔了,我是做后端開發(fā)的,當(dāng)年選擇后端,一個(gè)重大的原因就是害怕做界面,我做的界面一點(diǎn)兒美感都沒有。
但是既然答應(yīng)了,也只能硬著頭皮上了,在AI Coding工具的輔助下,迅速就生成了第一版:
![]()
我把界面截圖發(fā)給他看,他說:“哥,你這界面設(shè)計(jì)得也太‘素凈’了吧,感覺還是20年前的風(fēng)格......”
我說:“這已經(jīng)達(dá)到我的美學(xué)極限了,你看看那邊框還有陰影呢!”
他半天沒吭聲,然后給我甩過來一張圖:“就照著這個(gè)做!”
![]()
我一看就傻眼了,這哪里是我一個(gè)后端程序員能干的事兒? 這得找專業(yè)設(shè)計(jì)師和前端啊。
正在發(fā)愁期間,我突然想到了最近智譜開源的GLM-4.6V,我看介紹說有非常大的突破,不再僅僅是一個(gè)“視覺問答”模型,而是具備了“視覺執(zhí)行”能力——能夠根據(jù)視覺輸入直接調(diào)用工具(Function Call),打通從感知到行動(dòng)的閉環(huán)。
而且我之前還購買過智譜的Coding Plan,他們可以通過MCP讀取圖片,然后生成對(duì)應(yīng)的代碼。
![]()
GLM-4.6V 在 MMBench、MathVista 等 30+ 評(píng)測中表現(xiàn)優(yōu)異。106B 版本比肩 2 倍參數(shù)量的 Qwen3-VL-235B;9B 的 Flash 版本性能超過 Qwen3-VL-8B。
![]()
它還有超長的128k 上下文(約等于 150 頁文檔或 1 小時(shí)視頻),支持“過目不忘”的長視頻理解和多文檔分析。
既然如此,那我就可以把朋友的圖發(fā)給GLM-4.6V,讓它直接給我生成HTML頁面,然后我再和后端集成一下不就行了?
02
截圖直接變網(wǎng)頁
說干就干,立刻打開chat.z.ai ,選擇GLM-4.6V 模型。
選擇“網(wǎng)頁復(fù)刻”,把圖片傳上去,要求它生成html代碼。
![]()
值得注意的是,朋友給的截圖中是有圖片素材的,我要求它把圖片也生成,不要弄個(gè)占位符在那里,很難看。
但這對(duì)GLM-4.6V就提出了新的要求,它必須得能精確地理解截圖的內(nèi)容,從中找出對(duì)應(yīng)的圖片,然后還得去網(wǎng)上搜索,然后放到指定位置。
很快,GLM-4.6V就把網(wǎng)頁給復(fù)刻了出來:
![]()
雖然不能說是100%一樣,但也八九不離十了,尤其是它找到了正確的圖片,放到了正確的位置,這一點(diǎn)確實(shí)是很驚艷。
我也試了一些其他的工具,它們做出的效果就差不少了,布局一般不說,關(guān)鍵是那大面積的圖片空白,看著非常難受。
![]()
我把新頁面發(fā)給了朋友,他看了下又提了個(gè)要求:“紫色不好看,改一下。”
這難不住我,我只需要告訴GLM-4.6V改個(gè)顏色就行,只要朋友能忍受我這直男的審美。
![]()
新顏色很快出爐:
![]()
朋友看到后,又提出了新需求:
“那個(gè)Meet Them的框太大了,弄小一些”,
“哥,英文的怎么行,得改成中文啊”
我被折騰得不勝其煩,最后干脆讓他自己去用GLM-4.6V去設(shè)計(jì)了,反正也是自然語言交互,不用什么專業(yè)程序員的能力。
等朋友弄好了,我把它集成起來就行。
我把注意力轉(zhuǎn)向了智譜GLM-4.6V提供的MCP Server,程序員肯定要在IDE中使用嘛。
智譜的視覺MCP Server 支持Claude Code,Cline等多種AI Coding客戶端,我用VS Code的插件Cline,配置起來也非常簡單:
![]()
}API Key需要到智譜AI開放平臺(tái)(https://bigmodel.cn/)上去申請(qǐng)一下,這里不再詳述。
在Cline中用起來也非常簡單,只需要@一個(gè)圖片,然后就可以讓它工作了。
![]()
生成的效果如下:
![]()
03
視覺執(zhí)行大師
看到這里,你可能覺得,這個(gè)GLM-4.6V是不是只能編程啊? 這種看法就太狹隘了,GLM-4.6V是具備“原生視覺執(zhí)行能力”,各種視覺相關(guān)的任務(wù)都可以干。
GLM-4.6V能自主規(guī)劃、調(diào)用搜索/清洗工具,并處理返回的圖表或截圖,實(shí)現(xiàn)真正的 Agent 閉環(huán)。
比如,你上傳一幅一幅的圖片,它就可以獨(dú)立完成從「看圖」、「比價(jià)」、「生成導(dǎo)購清單」的完整鏈路。
你給它發(fā)一個(gè)足球比賽的視頻,它就能自動(dòng)找到哪個(gè)隊(duì)在什么時(shí)候進(jìn)的球,形成一個(gè)比分時(shí)間軸總結(jié)。
至于復(fù)雜圖文理解,多模態(tài)工具調(diào)用跟是不在話下,比如,我發(fā)給它一個(gè)PDF,要求它轉(zhuǎn)換成一個(gè)圖文并茂的文章:
![]()
可以看出,GLM-4.6V不單是從PDF中總結(jié)了文字內(nèi)容,更是把相關(guān)的圖片也提取了出來,組織成了一篇圖文并茂的文章。
![]()
04
值得親自嘗試
GLM-4.6V展示的效果,簡直就是后端程序員處理UI需求的救星,看到它的效果,恐怕你也想試試了吧?
現(xiàn)在該模型已全面接入智譜 GLM Coding Plan,通過 MCP 協(xié)議大幅提升前端復(fù)刻與可視化調(diào)試效率。
我去官網(wǎng)看了下,現(xiàn)在智譜正在進(jìn)行跨年特惠限時(shí)促銷,Coding Plan非常誘人,目前首月最低僅需20元!有邀請(qǐng)券還可享9折優(yōu)惠,擁有 Claude Code 三倍用量!
同時(shí)還贈(zèng)送智譜AI輸入法,用語音的方式直接調(diào)用大模型的能力,連打字都不用了。
![]()
季付和年付還有額外折扣,這波羊毛不薅的話實(shí)在是可惜了!
強(qiáng)烈建議大家來試一試,體驗(yàn)一下GLM-4.6V的便捷和強(qiáng)大:
https://bigmodel.cn/glm-coding
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.