網易首頁 > 網易號 > 正文申請入駐

牛津大學、中國科大聯合中南大學等提出VCode：將圖像轉為代碼，多模態理解性能飆升12.3點！

2025-11-06 16:36:09　來源: 算法與數學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

最近，來自牛津大學、中國科學技術大學、中南大學和微軟研究院的研究者們聯手，帶來了一項非常有意思的工作：VCode。簡單來說，他們不再讓AI模型僅僅“看懂”圖片，而是要求模型將圖片“翻譯”成一種名為SVG的代碼。這種做法，就像是讓AI學習用簡筆畫和符號來復刻一幅畫，不僅要畫得像，更要抓住畫里的精髓。

這項研究的核心思想是，通過生成精確、可執行的代碼，我們可以更深入地檢驗和提升AI對視覺世界的理解能力。

論文標題 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation
作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang
機構 : 牛津大學、中國科學技術大學、中南大學、微軟研究院
論文地址 : https://arxiv.org/abs/2511.02778
項目主頁 : https://csu-jpg.github.io/VCode
代碼倉庫 : https://github.com/CSU-JPG/VCode

背景：從像素到符號，AI視覺的進階之路

我們知道，現在的大模型（VLMs）在處理語言任務上已經非常強大，但在理解視覺信息方面，它們大多還停留在像素層面。也就是說，模型看到的是一堆RGB值，雖然能識別出物體，但很難像人類一樣，提煉出物體之間的結構、關系和符號意義。

舉個例子，人類看到一張畫，可能會隨手畫個草圖，勾勒出主要輪廓和布局。這個草圖就是一種符號化的表示，它緊湊、易于理解，并且抓住了核心信息。受到這個啟發，研究者們想，能不能讓AI也學會這種“打草稿”的能力呢？

他們選擇了SVG（可縮放矢量圖形）作為這種“草圖”的載體。SVG是一種用代碼來描述圖形的格式，具有緊湊、可解釋和可執行的優點。于是，一個全新的任務誕生了：將圖片（像素表示）轉化為SVG代碼（符號表示）。

VCode基準：三大領域考驗AI的“畫功”

為了系統地評估模型將圖像轉化為SVG代碼的能力，研究團隊構建了 VCode 基準。這個基準并非從零開始，而是巧妙地“再利用”了現有的三個經典多模態評測集，覆蓋了不同難度和維度的挑戰：

通用常識 (MM-Vet) : 考察模型對日常場景和空間關系的理解。
專業學科 (MMMU) : 涉及大學水平的專業知識，需要模型具備更深層次的推理能力。
視覺感知 (CV-Bench) : 專注于更純粹的視覺任務，如物體計數、距離估計和三維關系判斷。

通過這三個維度的考驗，VCode能夠全面地衡量一個模型是否真正“理解”了圖像的符號意義。

CodeVQA：一種新穎的評估范式

那么，如何判斷模型生成的SVG代碼好不好呢？傳統的像素級對比顯然不合適，因為我們追求的是“神似”而非“形似”。

為此，論文提出了一個名為 CodeVQA 的創新評估方法。它的流程是：

模型根據原圖生成SVG代碼。
將SVG代碼渲染成一張新的圖片。
讓一個策略模型（Policy Model）看著這張渲染出來的圖片，回答關于原圖的問題。

如果策略模型能夠正確回答，就說明SVG代碼成功地保留了原圖的關鍵符號信息。反之，則說明轉化過程中信息丟失了。CV君認為，這種評估方式非常巧妙，它繞開了像素比較的難題，直擊“符號保真度”這一核心。

VCoder：兩大“法寶”提升模型表現

實驗發現，即便是當前最強的多模態大模型（如GPT-4o, Claude 3 Opus），在VCode基準上的表現也差強人意。這暴露了它們在視覺中心編碼能力上的短板。

為了解決這個問題，研究者們提出了一個名為 VCoder 的代理框架，它從兩個方面來增強現有VLM的能力：

思考與修正 (Thinking with Revision) : 這是一個迭代優化的過程。模型首先生成一個初始版本的SVG，然后自己對比渲染圖和原圖的差異，并“寫下”評論，最后根據這些評論來修改代碼。這個過程循環往復，不斷提升SVG的保真度。
行動與視覺工具 (Acting with Visual Tools) : 允許模型調用外部的“視覺工具箱”，比如物體檢測器、分割模型、OCR工具等。這些工具可以提供關于物體類別、位置、形狀、顏色和文本的結構化信息，作為代碼生成的“輔助線”，彌補模型自身在底層感知上的不足。

實驗結果：效果顯著，但前路漫漫

搭載了VCoder框架后，模型性能得到了巨大提升。

從上表的主實驗結果可以看出：

現有模型仍有差距 ：即使是像GPT-5這樣的頂級模型，在CodeVQA上的得分（46.8）也遠低于直接在原圖上進行問答的上限（61.7），說明從圖像到符號代碼的轉換仍然是一個巨大的挑戰。
VCoder提升巨大 ：基于Claude-4-Opus，VCoder框架帶來了 12.3個點 的驚人總體性能提升，證明了“思考與修正”和“行動與視覺工具”這兩大法寶的有效性。
知識和3D是難點 ：所有模型在需要專業知識和3D空間推理的子任務上表現普遍不佳，這指明了未來研究需要攻克的方向。

下面的定性結果更直觀地展示了VCoder的威力。無論是網絡迷因圖，還是涉及藝術理論和3D場景的復雜圖像，VCoder生成的SVG都更加忠實于原作的結構和語義。

消融實驗進一步證明，無論是引入視覺工具（特別是形狀和文本信息），還是增加修正的輪次，都能穩定地提升模型性能。

總結

總的來說，VCode不僅為多模態領域提供了一個全新的、富有挑戰性的視角，也通過VCoder框架展示了提升模型符號推理能力的有效路徑。這項工作讓我們離真正能像人一樣思考和理解視覺世界的AI又近了一步。

你覺得這個技術未來會用在哪些場景？一起來聊聊吧！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.