<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從網頁截圖到精準復刻只需30秒:這個新模型刷新了我的認知

      0
      分享至

      今天,智譜AI正式發布了GLM-4.6V系列模型。

      這次發布挺有意思的,我估計很多人都知道GLM前幾個月就發布過視覺理解模型4.5V,而4.6V聽起來只是4.5V的小性能提升版本。但別被騙了,他們其實搞了個大的——整出了首個支持工具調用的視覺模型。

      簡單說就是,以前的視覺模型只能「看」和「說」,現在GLM-4.6V不僅能看,還能調用工具去搜索、去截圖、去畫圖。這個能力聽起來有點抽象,我測完之后發現,確實有點東西。

      他們這次發布了兩個版本:GLM-4.6V(106B參數)和GLM-4.6V-Flash(9B參數)。前者是旗艦版,后者是輕量版,都是MIT License開源的。官方說在同等參數規模下,這個模型在20多個多模態評測基準上拿到了SOTA成績。


      但我更關心的是,這玩意兒在實際場景里到底好不好用。所以我找了7件日常會遇到的事情,一個一個測了一遍。

      對了,說一下測試環境:我用的是官方開放平臺的GLM-4.6V(106B版本),所有測試都是直接在他們的官網z.ai完成的。

      測試1:識別澳洲街頭的鳥


      先說第一個測試,識別澳洲街頭的鳥。看我發布這篇文章的IP你就能看出,我最近在澳洲旅居。最近在街上總能看到一種長嘴的白鳥,跟鴿子似的喜歡找人要吃的,但我一直不知道它叫啥,以前在別的國家也從未見過。把照片扔給GLM-4.6V,它很快就告訴我這是澳大利亞白鹮(Australian White Ibis)。


      更驚喜的是,它不僅給出了名字,還詳細介紹了這種鳥的外觀特征、生活習性、分布區域,甚至提到了一個有趣的俚語——澳洲人叫它"bin chickens"(垃圾桶雞),因為它們特別喜歡在城市垃圾桶里找吃的。這個細節我之前完全不知道,但確實很符合我在街頭看到的場景。

      測試2:分析趕海地點


      第二個測試是分析趕海地點。可能是B站OK哥視頻看多了,我最近挺想去趕海抓海膽和螺的,據說悉尼附近有不少海灘能撿到好東西。所以在小紅書搜了搜,倒是有不少人分享照片,但很多人都不愿意說具體在哪。我就找了一張趕海照片,問GLM-4.6V能不能推測出可能的地點。

      它先分析了圖片里的細節:植被類型、巖石特征、地形結構,然后給出了推測——可能是悉尼附近的Bare Island(裸島)。推理邏輯還挺詳細的,比如巖石的形態、海岸線的特征、植被的分布,都和Bare Island的特點吻合。


      最讓我意外的是,它還自動去搜索了Bare Island的照片,做了對比驗證。我肉眼確認了下,確實是這個地方沒錯了,會推理,還會自己主動做驗證,這個過程還挺聰明的。

      測試3:OCR識別繁體豎版文字


      第三個測試是OCR識別繁體豎版文字。這個需求其實挺常見的,比如看一些繁體書籍或者古籍,排版都是從上到下、從右到左的。傳統的OCR工具要么識別不出來,要么順序全亂了。


      我上傳了一張繁體豎版文字的圖片,要求GLM-4.6V識別并轉換成簡體中文。結果還不錯,它準確識別了文字內容,也正確轉換成了簡體,而且保持了原文的段落結構。雖然有個別字可能有點小錯誤,但整體準確率還是挺高的。

      測試4:股票技術分析


      第四個測試是股票技術分析。我上傳了英偉達(NVDA)的K線圖,包括MACD、MA10、MA20等技術指標,讓GLM-4.6V分析一下技術面情況。


      它給出的分析還挺專業的:趨勢判斷、關鍵支撐位和阻力位、技術指標分析,還有短期操作建議。比如它指出當前股價在MA5和MA10均線附近,MACD的DIF和DEA在0軸下方,顯示空頭市場,建議觀望或者設好止損點。

      雖然分析的深度可能不如專業分析師,但對于普通投資者來說,這個水平的技術分析已經夠用了。至少能快速了解當前的趨勢和關鍵位置,不用自己慢慢看圖琢磨。

      (注:這個測試只是為了用來做測試演示,這個分析結果不代表任何投資建議哈...)

      測試5:長文檔PDF分析(圖文混排驚喜)


      第五個測試是長文檔PDF分析,這個是最讓我驚喜的。我上傳了OpenRouter剛發布的《State of AI》報告,這是一份基于100萬億token的實證研究報告,有36頁,包含幾十個圖表。我問了一個挺有針對性的問題:"這份報告的哪個圖表提到了GLM?里面是怎么描述的,我們從中能看到什么趨勢?"


      結果出來之后我直接震驚了。GLM-4.6V不僅在36頁報告里準確定位到了提到GLM的兩個圖表,還做了圖文混排!它從PDF里截取了Figure 3和Figure 13這兩個圖表,直接嵌入到回答里,并且詳細分析了GLM在開源模型市場份額和工具調用能力方面的表現。


      這個功能太實用了。一方面,你能清楚地知道數據從哪來,有圖有真相,可信度高。另一方面,這種圖文排版的輸出,完全可以直接拿來發公眾號文章或者做研報,省了大量的復制粘貼和排版時間。

      更關鍵的是,面對這種幾十頁、幾十個圖表的長文檔,傳統方式是你得自己翻完整份報告,找到相關內容,再截圖整理。現在GLM-4.6V能自動定位、提取、排版,這效率提升太明顯了。

      這個圖文混排功能真的大大拓寬了模型的使用場景,不僅僅是回答問題,而是能直接生產出可用的內容。

      測試6:水果攤圖片識別+精準定位


      第六個測試是水果攤圖片識別。我上傳了一張水果攤的照片,要求GLM-4.6V識別圖片中的水果,并返回每個水果的英文名在圖片中的精準位置坐標(bbox格式)。


      它返回了一個JSON格式的結果,包括orange、apple、pineapple等,每個都有對應的坐標。我拿到這個結果之后,又讓AI根據這些坐標生成一張帶標注框的圖片。


      結果完全準確!每個水果的標注框都精準地框住了對應的位置,沒有錯位或者漏標。這個Grounding能力真的太實用了,比如我之前做的拍照學單詞App,原來只能識別圖片的氛圍和場景,去產生相關單詞,但不知道具體位置,所以效果大致如下


      現在有了這個能力,可以精準標注每個單詞的位置,看來我完全可以再升級一般app了。

      測試7:前端復刻+多輪調整(國產工具終于能打了)


      最后一個測試是前端復刻,這個對我來說太有共鳴了。

      說實話,Claude Code、Cursor這些工具早就支持截圖生成代碼了,我之前也經常用。但問題是,國產模型雖然在純代碼生成能力上追得不錯,圖像理解能力一直比較偏科。所以在復刻網站這個場景下,國產工具一直沒有好的選擇,只能繼續用國外的工具。

      而且對于大多數開發者來說,表達自己想要的設計風格其實挺難的。對于大多數缺乏產品和設計經驗的工程師或者vibe coder來說,你很難用文字精確描述自己的需求。

      傳統的vibe coding(看著設計稿寫代碼)痛點也很明顯:你得仔細看每個元素的位置、顏色、字體、間距,在腦子里轉換成CSS代碼,寫完之后發現和設計稿不一樣,又得慢慢調。

      之前雖然有一些AI工具能截圖生成代碼,但效果參差不齊。有的生成的代碼一堆占位符,圖片全是灰色方塊,根本沒法用。有的布局還原度不高,生成出來和原圖差距很大。更別提多輪交互修改了,基本上每次改動都要重新生成,前后不一致。

      我用GLM-4.6V測了一下YouTube首頁的復刻。第一步,我上傳了YouTube首頁的截圖,要求生成完整的HTML代碼,并且特別強調"圖片區域請用真實圖片替代,不要用任何占位符"。


      結果讓我很驚喜。生成的代碼不僅布局還原度很高,而且真的沒用占位符,所有圖片都是真實的網絡圖片鏈接。打開瀏覽器一看,雖然不是100%像素級還原(畢竟YouTube的UI很復雜),但整體結構、配色、排版都非常接近原版。


      更厲害的是多輪交互調整。我接著提了第二個要求:"請將網站設計調整為夜間主題"。它直接在之前生成的代碼基礎上做了修改,把背景色、文字顏色、卡片顏色都調整成了深色主題,而且保持了整體布局不變。


      這個能力對于快速原型開發、設計稿驗證、甚至是日常的網頁搭建,都非常實用。以后看到喜歡的網頁設計,截個圖就能快速復刻出來,省了大量的手寫代碼時間。

      更重要的是,國產工具終于有了一個在圖像理解+代碼生成這個場景下相當能打的選擇。在基礎的網頁復刻和多輪調整上,GLM-4.6V已經能滿足日常需求了。對于更傾向用國產工具的開發者來說,這是個不錯的消息。

      測完這7件事,我的整體感受是:GLM-4.6V確實有點東西。

      先說優點。速度真的快,比我之前用的GPT-5和Gemini 3 Pro都快不少。尤其是處理長文檔的時候,128k的上下文窗口確實給力,不用擔心文檔太長被截斷。前端復刻的能力也挺驚喜的,雖然不是100%還原,但生成的前端代碼質量比我預期的高。

      最讓我印象深刻的是Grounding能力,也就是精準定位物體位置。這個能力在實際應用中太有用了,比如我之前做的拍照學單詞App,原來只能識別圖片里的所有單詞,但單詞在圖片上的位置是亂的。現在有了Grounding,可以精準標注每個單詞的位置,用戶體驗能提升一大截。

      工具調用這個能力也確實解決了不少問題。以前用多模態模型,如果需要搜索或者生成圖片,得自己寫代碼去調API,現在模型能自己調工具,省了不少事。

      和GPT-5、Gemini 3對比的話,我覺得各有優劣。GPT-5在理解復雜邏輯和生成長文本方面還是更強,Gemini 3的多模態融合做得更自然。但GLM-4.6V的優勢在于速度快、開源、工具調用能力強,而且國內訪問更穩定。

      但也有槽點,比如偶爾會遇見「回復內容為空」的情況,可能是我測試的時候還處在內測階段,有些不穩定吧,我相信一些細節體驗的問題應該能挺快解決的。


      如果你是開發者,想做一些多模態應用,GLM-4.6V確實是個不錯的選擇。尤其是需要處理長文檔、做前端復刻、或者需要精準定位物體的場景,這個模型的表現會超出預期。

      如果你只是普通用戶,想用來處理日常工作,比如分析財報、識別文字、復刻網頁,GLM-4.6V也夠用,而且速度快體驗好。

      最后說一下試用方式。官方提供了開放平臺(bigmodel.cn),可以直接在線試用。如果想本地部署,GitHub上也有開源代碼,支持vLLM、SGLang等推理框架。

      對了,智譜在產品設計上還挺用心的。他們在界面上加了一排場景標簽,比如「萬能識搜」「圖文掃描」「文檔智讀」「視頻理解」「智能比價」「數理解題」。一方面是提醒你這個視覺模型到底能幫你做什么,另一方面也能看出他們針對這些主流場景做了專門優化。比如你要讀論文、讀財報,希望AI幫你寫圖文混排的分析,選中「文檔智讀」會有更好的體驗。這種產品細節做到位的感覺,還是挺難得的。


      如果你有這幾個場景的需求的話,現在就可以去他們官網免費試試看-> https://chat.z.ai/

      以及,我覺得很好的一點是,如果你是個專業的開發者,或者Vibe Coder,都可以直接通過他們的Coding Plan套餐直接使用他們這次新發布的GLM-4.6V模型,不需要額外付費(順便說一句,花叔自己是花了真金白銀訂閱了100元/月的Coding Plan Pro套餐的)。


      我之前寫過文章介紹他們的Coding Plan,甚至還開發了個讓你更方便使用GLM模型去提到Claude的GLM Code,感興趣的可以去看看我之前的教程:

      AI是一門實踐的藝術,實際上手的每一次體驗都勝過看10篇文章,做100次解讀的。

      都看到這了,如果覺得內容對你有幫助的話,歡迎點贊、在看、關注,以及轉發給你需要的朋友。哦對了,你也可以通過點擊「閱讀原文」去看看上面提到的GLM Coding Plan套餐。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      羅馬諾:圖多爾已告知熱刺,愿接受一份至6月到期的短期合同

      羅馬諾:圖多爾已告知熱刺,愿接受一份至6月到期的短期合同

      懂球帝
      2026-02-13 22:06:05
      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      漢史趣聞
      2025-11-08 09:27:32
      白邊:隨著偰李永煒愈發出色 我出場時間更多了盧偉指導非常信任我

      白邊:隨著偰李永煒愈發出色 我出場時間更多了盧偉指導非常信任我

      狼叔評論
      2026-02-13 02:30:05
      白色健身套裝上市,連體與分款各具特色,青春活力無限!

      白色健身套裝上市,連體與分款各具特色,青春活力無限!

      獨角showing
      2026-02-12 16:49:15
      挪動一米就鎖死?國產五軸破局“電子手銬”,讓美日高傲變成廢鐵

      挪動一米就鎖死?國產五軸破局“電子手銬”,讓美日高傲變成廢鐵

      通鑒史智
      2026-02-02 16:14:26
      國家為什么要在當下這個節點提出共同富裕?

      國家為什么要在當下這個節點提出共同富裕?

      流蘇晚晴
      2026-01-28 18:25:23
      中央明確!退休新規實施后,公務員及事業編制,不能延遲退休嗎?

      中央明確!退休新規實施后,公務員及事業編制,不能延遲退休嗎?

      另子維愛讀史
      2026-02-08 21:13:03
      咖啡再次被關注!醫生提醒:高血脂患者常喝咖啡,或出現4個變化

      咖啡再次被關注!醫生提醒:高血脂患者常喝咖啡,或出現4個變化

      蜉蝣說
      2026-02-10 15:26:37
      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      喜歡歷史的阿繁
      2026-02-07 14:21:17
      92年,4歲男童被拐賣至河北,20年后尋親,養父:養條狗都比你強

      92年,4歲男童被拐賣至河北,20年后尋親,養父:養條狗都比你強

      小女子不簡單
      2024-04-09 14:09:40
      北大才子楊舒春,不顧父母跪求拒進外交部,癡迷種地,后來怎樣了

      北大才子楊舒春,不顧父母跪求拒進外交部,癡迷種地,后來怎樣了

      珺瑤婉史
      2025-12-25 19:45:03
      特朗普發最后通牒,日專家發現,中國耐心已耗盡,對臺打出明牌

      特朗普發最后通牒,日專家發現,中國耐心已耗盡,對臺打出明牌

      混沌錄
      2026-02-13 21:44:44
      春運將至,比亞迪不講車、不勸買,卻在廣告里藏著真誠的祝福!

      春運將至,比亞迪不講車、不勸買,卻在廣告里藏著真誠的祝福!

      講者普拉斯
      2026-02-13 21:33:34
      大連重工印度項目踩雷,直接被阿三黑1.4個億,吃足了啞巴虧

      大連重工印度項目踩雷,直接被阿三黑1.4個億,吃足了啞巴虧

      我心縱橫天地間
      2026-02-13 13:06:21
      已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

      已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

      藍貓說劇
      2026-02-10 20:59:41
      “大傻”去世15年后,兒子入獄孫子身亡,王晶曝他舊事:是狠角色

      “大傻”去世15年后,兒子入獄孫子身亡,王晶曝他舊事:是狠角色

      妙知
      2026-01-22 16:41:19
      四川多名干部履新副廳級領導職務

      四川多名干部履新副廳級領導職務

      金臺資訊
      2026-02-13 12:02:57
      詹皇霸氣回應41歲砍三雙:我仍能高水平打多個賽季

      詹皇霸氣回應41歲砍三雙:我仍能高水平打多個賽季

      體壇周報
      2026-02-13 14:49:15
      輸球又丟人!張本智和再傳噩耗:親妹竟被打哭,遮羞布徹底被撕碎

      輸球又丟人!張本智和再傳噩耗:親妹竟被打哭,遮羞布徹底被撕碎

      晨光蘇醒a
      2026-02-11 01:44:48
      要不是黃局長拿100萬支票賄賂邵云飛,白菊永不知,林培生有多壞

      要不是黃局長拿100萬支票賄賂邵云飛,白菊永不知,林培生有多壞

      慢半拍sir
      2026-02-13 17:24:52
      2026-02-13 22:27:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      140文章數 61關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態度原創

      本地
      親子
      時尚
      數碼
      公開課

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      親子要聞

      看看后媽是怎么做的

      穿上這些鞋擁抱春天

      數碼要聞

      IDC:2025年中國平板出貨量增13.1%,華為全年領跑,聯想逆勢增長

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版