作者|子川
來源|AI先鋒官
智譜又開源了!
兩周前,智譜把 GLM-4.5 系列砸向開源圈。
時隔不久,就在兩天前,智譜再次宣布開源其最新一代的視覺理解模型——GLM-4.5V。
這是一個視覺能力強悍的多模態推理模型。
根據官方介紹,該模型基于 GLM-4.5-Air 訓練,擁有 1060 億參數和 120 億激活參數。
先來看一下它的紙面實力。
根據官方發布的技術細節,在 41 個公開的視覺多模態榜單上,GLM-4.5V 的表現在同尺寸模型中最佳,超越了 Step-3、Qwen2.5-VL 等模型。
![]()
同時,GLM-4.5V還參與了拍圖猜地點積分賽,最終GLM-4.5V的積分排到了該賽事網站的第66名,超越了99%的人類用戶。
![]()
那它的實際效果到底如何?有介紹的那么厲害嗎?老規矩,我們來測一測。
實測一:復現前端頁面
發布會上有提到,GLM-4.5V 可以根據網頁錄屏或截圖來復現前端代碼。
我們上傳一張抖音的截圖,讓它 1:1 復刻一個一模一樣的頁面。
![]()
生成的效果是這樣式的。
![]()
一眼看過去,頁面上幾乎所有的功能,如登錄、點贊、收藏等按鈕,都被復制粘”過來了。
但缺點也很明顯:每個功能模塊之間的距離沒有把控好,更多 UI 細節沒能還原,看起來有點丑(當然,這已經很強了)。
為了測試 GLM-4.5V 的極限,我們還讓它 1:1 復刻一個功能入口極其繁多的淘寶首頁。
![]()
從結果來看,這似乎是把它難住了。
這次它沒能把所有的文本信息都復制過來,缺失了一部分功能,比如“淘寶直播”、“88VIP”等模塊就沒有看到。
![]()
實測二:文字識別
接下來,我們測試了它的文字識別能力。我們上傳了一張發票,并要求它提取所有關鍵信息。
提示詞:請提取這張照片的內容,其中內容格式‘機器編號’、‘發票代碼’、‘發票號碼’、‘開票日期’、‘校 驗 碼’、‘購買方名稱’、‘購買方納稅人識別號’、‘購買方地 址、電 話’、‘開戶行及賬號’、‘貨物或應稅勞務、服務名稱’、‘規格型號’、‘單 位’、‘數 量’、‘單 價’、‘金 額’、‘稅率’、‘稅 額’、‘價稅合計(大寫)’、‘價稅合計(小寫)’、‘銷售方名稱’、‘銷售方納稅人識別號’、‘銷售方地 址、電 話’、‘銷售方地 址、電 話’、‘開戶行及賬號’、‘備注’、‘收款人’、‘復核’、‘開票人’ 字段返回信息,返回的結果信息以json格式返回
![]()
這一次,GLM-4.5V 表現堪稱完美,準確識別并提取出所有的文字信息。
![]()
實測三:圖像識別與查找
為了測試 GLM-4.5V 的圖像識別能力,我們讓它玩起了“找東西”游戲。
比如讓它找尋圖片中有幾個“3”。
![]()
GLM-4.5V很快答案,并且準確地在圖中標注了出來。
![]()
升級一下難度,讓它在一堆熊貓中尋找一個足球。
說實話,如果不是提前知道答案,小編也很難快速找到。
![]()
盡管比較復雜,但還是很快就找到了。
![]()
實測4:地理定位
這個測試怎么能少的得了看圖識位置呢。
上傳一張小編之前去玩時拍的照片,讓它猜猜這是哪兒。
![]()
回答正確!它很快就識別出這是深圳的“灣區之光”摩天輪。
![]()
不過,考慮到這個摩天輪還算比較出名,可能沒什么挑戰性。再換一張小眾點的風景照試試。
![]()
這次 GLM-4.5V 就沒能準確識別了,它推測這里可能是日本岡山縣牛窗地區的某個海濱。
而正確答案其實是:深圳。
![]()
目前該模型可以直接在z.ai或智譜清言體驗。
同時GitHub、Hugging Face、魔搭社區均已上架,甚至貼心地提供了FP8量化版,大家感興趣,可以去試玩一番。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.