網易首頁 > 網易號 > 正文申請入駐

從網頁截圖到精準復刻只需30秒：這個新模型刷新了我的認知

2025-12-08 22:35:29　來源: AI進化論花生

北京舉報

分享至

今天，智譜AI正式發布了GLM-4.6V系列模型。

這次發布挺有意思的，我估計很多人都知道GLM前幾個月就發布過視覺理解模型4.5V，而4.6V聽起來只是4.5V的小性能提升版本。但別被騙了，他們其實搞了個大的——整出了首個支持工具調用的視覺模型。

簡單說就是，以前的視覺模型只能「看」和「說」，現在GLM-4.6V不僅能看，還能調用工具去搜索、去截圖、去畫圖。這個能力聽起來有點抽象，我測完之后發現，確實有點東西。

他們這次發布了兩個版本：GLM-4.6V（106B參數）和GLM-4.6V-Flash（9B參數）。前者是旗艦版，后者是輕量版，都是MIT License開源的。官方說在同等參數規模下，這個模型在20多個多模態評測基準上拿到了SOTA成績。

但我更關心的是，這玩意兒在實際場景里到底好不好用。所以我找了7件日常會遇到的事情，一個一個測了一遍。

對了，說一下測試環境：我用的是官方開放平臺的GLM-4.6V（106B版本），所有測試都是直接在他們的官網z.ai完成的。

測試1：識別澳洲街頭的鳥

先說第一個測試，識別澳洲街頭的鳥。看我發布這篇文章的IP你就能看出，我最近在澳洲旅居。最近在街上總能看到一種長嘴的白鳥，跟鴿子似的喜歡找人要吃的，但我一直不知道它叫啥，以前在別的國家也從未見過。把照片扔給GLM-4.6V，它很快就告訴我這是澳大利亞白鹮（Australian White Ibis）。

更驚喜的是，它不僅給出了名字，還詳細介紹了這種鳥的外觀特征、生活習性、分布區域，甚至提到了一個有趣的俚語——澳洲人叫它"bin chickens"（垃圾桶雞），因為它們特別喜歡在城市垃圾桶里找吃的。這個細節我之前完全不知道，但確實很符合我在街頭看到的場景。

測試2：分析趕海地點

第二個測試是分析趕海地點。可能是B站OK哥視頻看多了，我最近挺想去趕海抓海膽和螺的，據說悉尼附近有不少海灘能撿到好東西。所以在小紅書搜了搜，倒是有不少人分享照片，但很多人都不愿意說具體在哪。我就找了一張趕海照片，問GLM-4.6V能不能推測出可能的地點。

它先分析了圖片里的細節：植被類型、巖石特征、地形結構，然后給出了推測——可能是悉尼附近的Bare Island（裸島）。推理邏輯還挺詳細的，比如巖石的形態、海岸線的特征、植被的分布，都和Bare Island的特點吻合。

最讓我意外的是，它還自動去搜索了Bare Island的照片，做了對比驗證。我肉眼確認了下，確實是這個地方沒錯了，會推理，還會自己主動做驗證，這個過程還挺聰明的。

測試3：OCR識別繁體豎版文字

第三個測試是OCR識別繁體豎版文字。這個需求其實挺常見的，比如看一些繁體書籍或者古籍，排版都是從上到下、從右到左的。傳統的OCR工具要么識別不出來，要么順序全亂了。

我上傳了一張繁體豎版文字的圖片，要求GLM-4.6V識別并轉換成簡體中文。結果還不錯，它準確識別了文字內容，也正確轉換成了簡體，而且保持了原文的段落結構。雖然有個別字可能有點小錯誤，但整體準確率還是挺高的。

測試4：股票技術分析

第四個測試是股票技術分析。我上傳了英偉達（NVDA）的K線圖，包括MACD、MA10、MA20等技術指標，讓GLM-4.6V分析一下技術面情況。

它給出的分析還挺專業的：趨勢判斷、關鍵支撐位和阻力位、技術指標分析，還有短期操作建議。比如它指出當前股價在MA5和MA10均線附近，MACD的DIF和DEA在0軸下方，顯示空頭市場，建議觀望或者設好止損點。

雖然分析的深度可能不如專業分析師，但對于普通投資者來說，這個水平的技術分析已經夠用了。至少能快速了解當前的趨勢和關鍵位置，不用自己慢慢看圖琢磨。

（注：這個測試只是為了用來做測試演示，這個分析結果不代表任何投資建議哈...）

測試5：長文檔PDF分析（圖文混排驚喜）

第五個測試是長文檔PDF分析，這個是最讓我驚喜的。我上傳了OpenRouter剛發布的《State of AI》報告，這是一份基于100萬億token的實證研究報告，有36頁，包含幾十個圖表。我問了一個挺有針對性的問題："這份報告的哪個圖表提到了GLM？里面是怎么描述的，我們從中能看到什么趨勢？"

結果出來之后我直接震驚了。GLM-4.6V不僅在36頁報告里準確定位到了提到GLM的兩個圖表，還做了圖文混排！它從PDF里截取了Figure 3和Figure 13這兩個圖表，直接嵌入到回答里，并且詳細分析了GLM在開源模型市場份額和工具調用能力方面的表現。

這個功能太實用了。一方面，你能清楚地知道數據從哪來，有圖有真相，可信度高。另一方面，這種圖文排版的輸出，完全可以直接拿來發公眾號文章或者做研報，省了大量的復制粘貼和排版時間。

更關鍵的是，面對這種幾十頁、幾十個圖表的長文檔，傳統方式是你得自己翻完整份報告，找到相關內容，再截圖整理。現在GLM-4.6V能自動定位、提取、排版，這效率提升太明顯了。

這個圖文混排功能真的大大拓寬了模型的使用場景，不僅僅是回答問題，而是能直接生產出可用的內容。

測試6：水果攤圖片識別+精準定位

第六個測試是水果攤圖片識別。我上傳了一張水果攤的照片，要求GLM-4.6V識別圖片中的水果，并返回每個水果的英文名在圖片中的精準位置坐標（bbox格式）。

它返回了一個JSON格式的結果，包括orange、apple、pineapple等，每個都有對應的坐標。我拿到這個結果之后，又讓AI根據這些坐標生成一張帶標注框的圖片。

結果完全準確！每個水果的標注框都精準地框住了對應的位置，沒有錯位或者漏標。這個Grounding能力真的太實用了，比如我之前做的拍照學單詞App，原來只能識別圖片的氛圍和場景，去產生相關單詞，但不知道具體位置，所以效果大致如下

現在有了這個能力，可以精準標注每個單詞的位置，看來我完全可以再升級一般app了。

測試7：前端復刻+多輪調整（國產工具終于能打了）

最后一個測試是前端復刻，這個對我來說太有共鳴了。

說實話，Claude Code、Cursor這些工具早就支持截圖生成代碼了，我之前也經常用。但問題是，國產模型雖然在純代碼生成能力上追得不錯，圖像理解能力一直比較偏科。所以在復刻網站這個場景下，國產工具一直沒有好的選擇，只能繼續用國外的工具。

而且對于大多數開發者來說，表達自己想要的設計風格其實挺難的。對于大多數缺乏產品和設計經驗的工程師或者vibe coder來說，你很難用文字精確描述自己的需求。

傳統的vibe coding（看著設計稿寫代碼）痛點也很明顯：你得仔細看每個元素的位置、顏色、字體、間距，在腦子里轉換成CSS代碼，寫完之后發現和設計稿不一樣，又得慢慢調。

之前雖然有一些AI工具能截圖生成代碼，但效果參差不齊。有的生成的代碼一堆占位符，圖片全是灰色方塊，根本沒法用。有的布局還原度不高，生成出來和原圖差距很大。更別提多輪交互修改了，基本上每次改動都要重新生成，前后不一致。

我用GLM-4.6V測了一下YouTube首頁的復刻。第一步，我上傳了YouTube首頁的截圖，要求生成完整的HTML代碼，并且特別強調"圖片區域請用真實圖片替代，不要用任何占位符"。

結果讓我很驚喜。生成的代碼不僅布局還原度很高，而且真的沒用占位符，所有圖片都是真實的網絡圖片鏈接。打開瀏覽器一看，雖然不是100%像素級還原（畢竟YouTube的UI很復雜），但整體結構、配色、排版都非常接近原版。

更厲害的是多輪交互調整。我接著提了第二個要求："請將網站設計調整為夜間主題"。它直接在之前生成的代碼基礎上做了修改，把背景色、文字顏色、卡片顏色都調整成了深色主題，而且保持了整體布局不變。

這個能力對于快速原型開發、設計稿驗證、甚至是日常的網頁搭建，都非常實用。以后看到喜歡的網頁設計，截個圖就能快速復刻出來，省了大量的手寫代碼時間。

更重要的是，國產工具終于有了一個在圖像理解+代碼生成這個場景下相當能打的選擇。在基礎的網頁復刻和多輪調整上，GLM-4.6V已經能滿足日常需求了。對于更傾向用國產工具的開發者來說，這是個不錯的消息。

測完這7件事，我的整體感受是：GLM-4.6V確實有點東西。

先說優點。速度真的快，比我之前用的GPT-5和Gemini 3 Pro都快不少。尤其是處理長文檔的時候，128k的上下文窗口確實給力，不用擔心文檔太長被截斷。前端復刻的能力也挺驚喜的，雖然不是100%還原，但生成的前端代碼質量比我預期的高。

最讓我印象深刻的是Grounding能力，也就是精準定位物體位置。這個能力在實際應用中太有用了，比如我之前做的拍照學單詞App，原來只能識別圖片里的所有單詞，但單詞在圖片上的位置是亂的。現在有了Grounding，可以精準標注每個單詞的位置，用戶體驗能提升一大截。

工具調用這個能力也確實解決了不少問題。以前用多模態模型，如果需要搜索或者生成圖片，得自己寫代碼去調API，現在模型能自己調工具，省了不少事。

和GPT-5、Gemini 3對比的話，我覺得各有優劣。GPT-5在理解復雜邏輯和生成長文本方面還是更強，Gemini 3的多模態融合做得更自然。但GLM-4.6V的優勢在于速度快、開源、工具調用能力強，而且國內訪問更穩定。

但也有槽點，比如偶爾會遇見「回復內容為空」的情況，可能是我測試的時候還處在內測階段，有些不穩定吧，我相信一些細節體驗的問題應該能挺快解決的。

如果你是開發者，想做一些多模態應用，GLM-4.6V確實是個不錯的選擇。尤其是需要處理長文檔、做前端復刻、或者需要精準定位物體的場景，這個模型的表現會超出預期。

如果你只是普通用戶，想用來處理日常工作，比如分析財報、識別文字、復刻網頁，GLM-4.6V也夠用，而且速度快體驗好。

最后說一下試用方式。官方提供了開放平臺（bigmodel.cn），可以直接在線試用。如果想本地部署，GitHub上也有開源代碼，支持vLLM、SGLang等推理框架。

對了，智譜在產品設計上還挺用心的。他們在界面上加了一排場景標簽，比如「萬能識搜」「圖文掃描」「文檔智讀」「視頻理解」「智能比價」「數理解題」。一方面是提醒你這個視覺模型到底能幫你做什么，另一方面也能看出他們針對這些主流場景做了專門優化。比如你要讀論文、讀財報，希望AI幫你寫圖文混排的分析，選中「文檔智讀」會有更好的體驗。這種產品細節做到位的感覺，還是挺難得的。

如果你有這幾個場景的需求的話，現在就可以去他們官網免費試試看-> https://chat.z.ai/

以及，我覺得很好的一點是，如果你是個專業的開發者，或者Vibe Coder，都可以直接通過他們的Coding Plan套餐直接使用他們這次新發布的GLM-4.6V模型，不需要額外付費（順便說一句，花叔自己是花了真金白銀訂閱了100元/月的Coding Plan Pro套餐的）。

我之前寫過文章介紹他們的Coding Plan，甚至還開發了個讓你更方便使用GLM模型去提到Claude的GLM Code，感興趣的可以去看看我之前的教程：

AI是一門實踐的藝術，實際上手的每一次體驗都勝過看10篇文章，做100次解讀的。

都看到這了，如果覺得內容對你有幫助的話，歡迎點贊、在看、關注，以及轉發給你需要的朋友。哦對了，你也可以通過點擊「閱讀原文」去看看上面提到的GLM Coding Plan套餐。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.