<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      牛津大學、中國科大聯合中南大學等提出VCode:將圖像轉為代碼,多模態理解性能飆升12.3點!

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      最近,來自牛津大學、中國科學技術大學、中南大學和微軟研究院的研究者們聯手,帶來了一項非常有意思的工作:VCode。簡單來說,他們不再讓AI模型僅僅“看懂”圖片,而是要求模型將圖片“翻譯”成一種名為SVG的代碼。這種做法,就像是讓AI學習用簡筆畫和符號來復刻一幅畫,不僅要畫得像,更要抓住畫里的精髓。

      這項研究的核心思想是,通過生成精確、可執行的代碼,我們可以更深入地檢驗和提升AI對視覺世界的理解能力。



      • 論文標題 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

      • 作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

      • 機構 : 牛津大學、中國科學技術大學、中南大學、微軟研究院

      • 論文地址 : https://arxiv.org/abs/2511.02778

      • 項目主頁 : https://csu-jpg.github.io/VCode

      • 代碼倉庫 : https://github.com/CSU-JPG/VCode

      背景:從像素到符號,AI視覺的進階之路

      我們知道,現在的大模型(VLMs)在處理語言任務上已經非常強大,但在理解視覺信息方面,它們大多還停留在像素層面。也就是說,模型看到的是一堆RGB值,雖然能識別出物體,但很難像人類一樣,提煉出物體之間的結構、關系和符號意義。

      舉個例子,人類看到一張畫,可能會隨手畫個草圖,勾勒出主要輪廓和布局。這個草圖就是一種符號化的表示,它緊湊、易于理解,并且抓住了核心信息。受到這個啟發,研究者們想,能不能讓AI也學會這種“打草稿”的能力呢?

      他們選擇了SVG(可縮放矢量圖形)作為這種“草圖”的載體。SVG是一種用代碼來描述圖形的格式,具有緊湊、可解釋和可執行的優點。于是,一個全新的任務誕生了:將圖片(像素表示)轉化為SVG代碼(符號表示)。


      VCode基準:三大領域考驗AI的“畫功”

      為了系統地評估模型將圖像轉化為SVG代碼的能力,研究團隊構建了 VCode 基準。這個基準并非從零開始,而是巧妙地“再利用”了現有的三個經典多模態評測集,覆蓋了不同難度和維度的挑戰:

      • 通用常識 (MM-Vet) : 考察模型對日常場景和空間關系的理解。

      • 專業學科 (MMMU) : 涉及大學水平的專業知識,需要模型具備更深層次的推理能力。

      • 視覺感知 (CV-Bench) : 專注于更純粹的視覺任務,如物體計數、距離估計和三維關系判斷。

      通過這三個維度的考驗,VCode能夠全面地衡量一個模型是否真正“理解”了圖像的符號意義。

      CodeVQA:一種新穎的評估范式

      那么,如何判斷模型生成的SVG代碼好不好呢?傳統的像素級對比顯然不合適,因為我們追求的是“神似”而非“形似”。

      為此,論文提出了一個名為 CodeVQA 的創新評估方法。它的流程是:

      1. 模型根據原圖生成SVG代碼。

      2. 將SVG代碼渲染成一張新的圖片。

      3. 讓一個策略模型(Policy Model)看著這張渲染出來的圖片,回答關于原圖的問題。

      如果策略模型能夠正確回答,就說明SVG代碼成功地保留了原圖的關鍵符號信息。反之,則說明轉化過程中信息丟失了。CV君認為,這種評估方式非常巧妙,它繞開了像素比較的難題,直擊“符號保真度”這一核心。


      VCoder:兩大“法寶”提升模型表現

      實驗發現,即便是當前最強的多模態大模型(如GPT-4o, Claude 3 Opus),在VCode基準上的表現也差強人意。這暴露了它們在視覺中心編碼能力上的短板。

      為了解決這個問題,研究者們提出了一個名為 VCoder 的代理框架,它從兩個方面來增強現有VLM的能力:

      1. 思考與修正 (Thinking with Revision) : 這是一個迭代優化的過程。模型首先生成一個初始版本的SVG,然后自己對比渲染圖和原圖的差異,并“寫下”評論,最后根據這些評論來修改代碼。這個過程循環往復,不斷提升SVG的保真度。

      2. 行動與視覺工具 (Acting with Visual Tools) : 允許模型調用外部的“視覺工具箱”,比如物體檢測器、分割模型、OCR工具等。這些工具可以提供關于物體類別、位置、形狀、顏色和文本的結構化信息,作為代碼生成的“輔助線”,彌補模型自身在底層感知上的不足。

      實驗結果:效果顯著,但前路漫漫

      搭載了VCoder框架后,模型性能得到了巨大提升。


      從上表的主實驗結果可以看出:

      • 現有模型仍有差距 :即使是像GPT-5這樣的頂級模型,在CodeVQA上的得分(46.8)也遠低于直接在原圖上進行問答的上限(61.7),說明從圖像到符號代碼的轉換仍然是一個巨大的挑戰。

      • VCoder提升巨大 :基于Claude-4-Opus,VCoder框架帶來了 12.3個點 的驚人總體性能提升,證明了“思考與修正”和“行動與視覺工具”這兩大法寶的有效性。

      • 知識和3D是難點 :所有模型在需要專業知識和3D空間推理的子任務上表現普遍不佳,這指明了未來研究需要攻克的方向。

      下面的定性結果更直觀地展示了VCoder的威力。無論是網絡迷因圖,還是涉及藝術理論和3D場景的復雜圖像,VCoder生成的SVG都更加忠實于原作的結構和語義。


      消融實驗進一步證明,無論是引入視覺工具(特別是形狀和文本信息),還是增加修正的輪次,都能穩定地提升模型性能。


      總結

      總的來說,VCode不僅為多模態領域提供了一個全新的、富有挑戰性的視角,也通過VCoder框架展示了提升模型符號推理能力的有效路徑。這項工作讓我們離真正能像人一樣思考和理解視覺世界的AI又近了一步。

      你覺得這個技術未來會用在哪些場景?一起來聊聊吧!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發!澤連斯基,妥協了!一切結束了!

      突發!澤連斯基,妥協了!一切結束了!

      財經要參
      2025-12-15 13:18:38
      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      黃河新流域
      2025-09-28 13:34:43
      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      泠泠說史
      2025-12-15 18:05:17
      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      夢想的現實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:43:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5267文章數 64595關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      游戲
      本地
      時尚
      健康
      公開課

      當手機能自動清每日任務,玩家天天上線是為了什么?

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      外套+半身裙封神穿搭!6款顯瘦神器保暖不臃腫,冬天美得出彩

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻超碰在线| 好男人在在线社区www在线影院| 蜜桃麻豆www久久囤产精品| 免青青草免费观看视频在线| 给我播放片在线观看| 久久国产99| 中文字幕欧美人妻精品| 久久精品国产久精国产| 女子spa高潮呻吟抽搐| 精品91在线| 99伊人网| 疯狂三人交性欧美| 精品无码av一区二区三区不卡 | 亚洲av中文| 在线播放a| 中国AV第一站| 亚洲日韩国产二区无码| www插插插无码免费视频网站| 熟女荡漾在线| 欧美大胆自慰| 黄瓜视频在线观看| 欧美日韩另类国产| 制度丝袜诱惑av| 天天人人精品| 亚洲精品字幕| 亚洲精品久荜中文字幕| 博白县| 国产欧美日韩综合精品二区 | 久色资源| 天天色欲网| 日韩中文字幕区一区有砖一区| 性色在线视频精品| 亚洲成人天堂网| 肥女五十路| 日韩欧美亚洲国产精品字幕久久久| 国产精品99久久免费| 色性AV| 亚洲欧美日韩愉拍自拍| 国产日产欧产系列| 久久99精品视频| 人妻偷人精品|