文章來源:我愛計算機視覺(ID:aicvml)
最近,來自牛津大學、中國科學技術大學、中南大學和微軟研究院的研究者們聯手,帶來了一項非常有意思的工作:VCode。簡單來說,他們不再讓AI模型僅僅“看懂”圖片,而是要求模型將圖片“翻譯”成一種名為SVG的代碼。這種做法,就像是讓AI學習用簡筆畫和符號來復刻一幅畫,不僅要畫得像,更要抓住畫里的精髓。
這項研究的核心思想是,通過生成精確、可執行的代碼,我們可以更深入地檢驗和提升AI對視覺世界的理解能力。
![]()
論文標題 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation
作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang
機構 : 牛津大學、中國科學技術大學、中南大學、微軟研究院
論文地址 : https://arxiv.org/abs/2511.02778
項目主頁 : https://csu-jpg.github.io/VCode
代碼倉庫 : https://github.com/CSU-JPG/VCode
我們知道,現在的大模型(VLMs)在處理語言任務上已經非常強大,但在理解視覺信息方面,它們大多還停留在像素層面。也就是說,模型看到的是一堆RGB值,雖然能識別出物體,但很難像人類一樣,提煉出物體之間的結構、關系和符號意義。
舉個例子,人類看到一張畫,可能會隨手畫個草圖,勾勒出主要輪廓和布局。這個草圖就是一種符號化的表示,它緊湊、易于理解,并且抓住了核心信息。受到這個啟發,研究者們想,能不能讓AI也學會這種“打草稿”的能力呢?
他們選擇了SVG(可縮放矢量圖形)作為這種“草圖”的載體。SVG是一種用代碼來描述圖形的格式,具有緊湊、可解釋和可執行的優點。于是,一個全新的任務誕生了:將圖片(像素表示)轉化為SVG代碼(符號表示)。
![]()
VCode基準:三大領域考驗AI的“畫功”
為了系統地評估模型將圖像轉化為SVG代碼的能力,研究團隊構建了 VCode 基準。這個基準并非從零開始,而是巧妙地“再利用”了現有的三個經典多模態評測集,覆蓋了不同難度和維度的挑戰:
通用常識 (MM-Vet) : 考察模型對日常場景和空間關系的理解。
專業學科 (MMMU) : 涉及大學水平的專業知識,需要模型具備更深層次的推理能力。
視覺感知 (CV-Bench) : 專注于更純粹的視覺任務,如物體計數、距離估計和三維關系判斷。
通過這三個維度的考驗,VCode能夠全面地衡量一個模型是否真正“理解”了圖像的符號意義。
CodeVQA:一種新穎的評估范式
那么,如何判斷模型生成的SVG代碼好不好呢?傳統的像素級對比顯然不合適,因為我們追求的是“神似”而非“形似”。
為此,論文提出了一個名為 CodeVQA 的創新評估方法。它的流程是:
模型根據原圖生成SVG代碼。
將SVG代碼渲染成一張新的圖片。
讓一個策略模型(Policy Model)看著這張渲染出來的圖片,回答關于原圖的問題。
如果策略模型能夠正確回答,就說明SVG代碼成功地保留了原圖的關鍵符號信息。反之,則說明轉化過程中信息丟失了。CV君認為,這種評估方式非常巧妙,它繞開了像素比較的難題,直擊“符號保真度”這一核心。
![]()
VCoder:兩大“法寶”提升模型表現
實驗發現,即便是當前最強的多模態大模型(如GPT-4o, Claude 3 Opus),在VCode基準上的表現也差強人意。這暴露了它們在視覺中心編碼能力上的短板。
為了解決這個問題,研究者們提出了一個名為 VCoder 的代理框架,它從兩個方面來增強現有VLM的能力:
思考與修正 (Thinking with Revision) : 這是一個迭代優化的過程。模型首先生成一個初始版本的SVG,然后自己對比渲染圖和原圖的差異,并“寫下”評論,最后根據這些評論來修改代碼。這個過程循環往復,不斷提升SVG的保真度。
行動與視覺工具 (Acting with Visual Tools) : 允許模型調用外部的“視覺工具箱”,比如物體檢測器、分割模型、OCR工具等。這些工具可以提供關于物體類別、位置、形狀、顏色和文本的結構化信息,作為代碼生成的“輔助線”,彌補模型自身在底層感知上的不足。
搭載了VCoder框架后,模型性能得到了巨大提升。
![]()
從上表的主實驗結果可以看出:
現有模型仍有差距 :即使是像GPT-5這樣的頂級模型,在CodeVQA上的得分(46.8)也遠低于直接在原圖上進行問答的上限(61.7),說明從圖像到符號代碼的轉換仍然是一個巨大的挑戰。
VCoder提升巨大 :基于Claude-4-Opus,VCoder框架帶來了 12.3個點 的驚人總體性能提升,證明了“思考與修正”和“行動與視覺工具”這兩大法寶的有效性。
知識和3D是難點 :所有模型在需要專業知識和3D空間推理的子任務上表現普遍不佳,這指明了未來研究需要攻克的方向。
下面的定性結果更直觀地展示了VCoder的威力。無論是網絡迷因圖,還是涉及藝術理論和3D場景的復雜圖像,VCoder生成的SVG都更加忠實于原作的結構和語義。
![]()
消融實驗進一步證明,無論是引入視覺工具(特別是形狀和文本信息),還是增加修正的輪次,都能穩定地提升模型性能。
![]()
總結
總的來說,VCode不僅為多模態領域提供了一個全新的、富有挑戰性的視角,也通過VCoder框架展示了提升模型符號推理能力的有效路徑。這項工作讓我們離真正能像人一樣思考和理解視覺世界的AI又近了一步。
你覺得這個技術未來會用在哪些場景?一起來聊聊吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.