<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      VinciCoder:多模態(tài)統(tǒng)一代碼生成框架和視覺反饋強(qiáng)化學(xué)習(xí)

      0
      分享至



      長期以來,多模態(tài)代碼生成(Multimodal Code Generation)的訓(xùn)練嚴(yán)重依賴于特定任務(wù)的監(jiān)督微調(diào)(SFT)。盡管這種范式在 Chart-to-code 等單一任務(wù)上取得了顯著成功 ,但其 “狹隘的訓(xùn)練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發(fā)展 。同時,「SFT-only」的范式在確保代碼可執(zhí)行性和高視覺保真度方面存在顯著瓶頸 。

      在此背景下,中科院 & 美團(tuán)研究團(tuán)隊推出了 VinciCoder,一個旨在打破 SFT 瓶頸的統(tǒng)一多模態(tài)代碼生成模型。VinciCoder首次將強(qiáng)化學(xué)習(xí)的獎勵機(jī)制從文本域轉(zhuǎn)向視覺域,提出視覺強(qiáng)化學(xué)習(xí)(ViRL),專攻 SFT 無法解決的視覺保真度難題。

      本文提出的系統(tǒng)性框架VinciCoder,通過 “大規(guī)模 SFT + 粗細(xì)粒度 ViRL” 的兩階段策略,有效統(tǒng)一了從圖表、網(wǎng)頁、SVG 到科學(xué)繪圖(LaTeX、化學(xué)分子)等多樣化代碼生成任務(wù) 。



      • 論文標(biāo)題:VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2511.00391
      • Github 鏈接:https://github.com/DocTron-hub/VinciCoder

      數(shù)據(jù)代碼模型權(quán)重已開源。

      核心創(chuàng)新與技術(shù)突破

      該論文同樣對傳統(tǒng) SFT 范式的局限性進(jìn)行了深入分析,發(fā)現(xiàn)其關(guān)鍵問題在于訓(xùn)練目標(biāo)與最終任務(wù)之間存在 “視覺鴻溝”:

      • 目標(biāo)是局部的:SFT 采用自回歸的 “下一詞元預(yù)測” 目標(biāo) ,這本質(zhì)上是局部的,無法為代碼 “可執(zhí)行性” 等全局屬性提供監(jiān)督信號 。
      • 缺乏視覺反饋:模型在訓(xùn)練時完全看不到代碼的渲染結(jié)果 。這是一個致命缺陷,因為在代碼中 “微小的修改就可能導(dǎo)致渲染圖像發(fā)生巨大變化” 。

      這種 “視覺 - 代碼” 監(jiān)督的缺失,直接導(dǎo)致了兩個關(guān)鍵問題:

      • 保真度低且不可靠:模型僅在詞元層面(token-level)進(jìn)行優(yōu)化 ,無法保證渲染出的圖像在視覺上與輸入對齊,也無法保證代碼可以成功執(zhí)行 。
      • 泛化能力差:依賴特定任務(wù)的數(shù)據(jù)集進(jìn)行 SFT,難以形成一個統(tǒng)一的多模態(tài)代碼生成框架 。

      考慮到 SFT 的根本局限性,研究者認(rèn)為必須引入一個能夠提供全局視覺反饋的機(jī)制。然而,傳統(tǒng)的 RL 方法依賴難以泛化的 “基于規(guī)則的文本獎勵” 。VinciCoder 的破局點在于 ——將獎勵機(jī)制從文本域徹底轉(zhuǎn)向視覺域

      VinciCoder 的核心思路是:用大規(guī)模、多樣化的 SFT 構(gòu)建強(qiáng)大的代碼基礎(chǔ)能力 ,再通過創(chuàng)新的 ViRL 策略專門優(yōu)化 SFT 無法觸及的視覺保真度和可執(zhí)行性 。訓(xùn)練框架由「1.6M 大規(guī)模 SFT 階段」和「42k 粗細(xì)粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協(xié)作,同時實現(xiàn)強(qiáng)大的代碼理解與高保真的視覺對齊。

      1. 大規(guī)模 SFT 語料庫與代碼優(yōu)化任務(wù)



      研究團(tuán)隊首先構(gòu)建了一個包含1.6M 圖像 - 代碼對的大規(guī)模監(jiān)督微調(diào)(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務(wù),還引入 “視覺代碼優(yōu)化” 的新任務(wù) 。在這項任務(wù)中,模型會接收到一個目標(biāo)圖像和一個 “有缺陷” 的代碼片段(包含邏輯錯誤或只能部分渲染)。模型的目標(biāo)是修正這段代碼,使其視覺輸出與目標(biāo)圖像精確對齊 。這一設(shè)計極大地提升了模型在代碼層面的糾錯和優(yōu)化能力,為后續(xù)的強(qiáng)化學(xué)習(xí)階段奠定了堅實基礎(chǔ) 。

      2. 從 “文本獎勵” 到 “視覺獎勵”:粗細(xì)粒度 ViRL 框架



      傳統(tǒng) SFT 訓(xùn)練在多模態(tài)代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環(huán)反饋 ,且無法保證代碼的全局可執(zhí)行性 。

      為解決此問題,VinciCoder 引入了視覺強(qiáng)化學(xué)習(xí) (ViRL) 框架。該框架摒棄了傳統(tǒng)強(qiáng)化學(xué)習(xí)中脆弱的、基于規(guī)則的 “文本獎勵” ,轉(zhuǎn)而從視覺直接獲取獎勵信號 。

      其核心突破在于一套粗 - 細(xì)粒度(Coarse-to-fine)視覺獎勵機(jī)制:

      • 渲染與編碼:模型生成的代碼被實時渲染成圖像 。
      • 粗粒度(全局):通過下采樣生成縮略圖,評估整體結(jié)構(gòu)的相似性 。
      • 細(xì)粒度(局部):將高分辨率圖像分割為多個局部圖塊(patches),精確計算局部細(xì)節(jié)的保真度 。
      • ViT 獎勵模型:使用 DINOv2-L 計算渲染圖像與目標(biāo)圖像在兩個粒度上的視覺相似度,作為獎勵信號。
      • 對齊獎勵:引入一個輔助的語言對齊獎勵,用于懲罰生成了錯誤代碼語言(如要求 Python 卻生成了 LaTeX 的行為)
      • 策略優(yōu)化:采用群組相對策略優(yōu)化 (GRPO) 算法 對模型進(jìn)行微調(diào),顯著提升視覺對齊度和代碼可執(zhí)行性。

      據(jù)我們所知,VinciCoder 是第一個應(yīng)用強(qiáng)化學(xué)習(xí)(RL)來實現(xiàn)統(tǒng)一視覺代碼生成領(lǐng)域中 “跨領(lǐng)域視覺保真度” 提升的視覺語言模型

      實驗結(jié)果與性能表現(xiàn)

      論文在五大多模態(tài)代碼生成基準(zhǔn)上進(jìn)行了全面實驗,對比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結(jié)果如下:



      實驗結(jié)果令人矚目:VinciCoder 在多個主流多模態(tài)代碼生成基準(zhǔn)上均取得了卓越表現(xiàn)。

      • SOTA 性能:VinciCoder 在開源模型對比中樹立了新的 SOTA 標(biāo)準(zhǔn) ,其性能顯著優(yōu)于所有同等規(guī)模的競爭對手 。
      • 媲美閉源模型:在如 Image-to-SVG 和化學(xué)分子式生等高難度任務(wù)上,VinciCoder 展現(xiàn)出超越頂尖閉源模型的卓越性能 。
      • 策略有效性:消融實驗證明,僅 SFT 階段的 VinciCoder-SFT 就已建立起強(qiáng)大的基線 ;而 ViRL 階段的引入,則成功將模型性能提升至 SOTA 水平 ,充分驗證了 SFT-ViRL 兩階段策略的壓倒性優(yōu)勢。



      研究意義與應(yīng)用前景

      VinciCoder 的研究不僅在技術(shù)上取得了重大突破,也為多模態(tài)代碼生成領(lǐng)域提供了全新的研究范式:

      • 驗證 RL 新路徑:證明了 “視覺強(qiáng)化學(xué)習(xí)” 是突破 SFT 瓶頸、提升代碼視覺保真度的有效途徑,將獎勵機(jī)制從文本域成功擴(kuò)展到視覺域 。
      • 統(tǒng)一框架的實現(xiàn):打破了過去模型 “各自為戰(zhàn)” 的狹隘范式 ,提供了一個強(qiáng)大的統(tǒng)一框架,能夠處理包括 Python、HTML、SVG、LaTeX 乃至化學(xué) SMILES 在內(nèi)的多樣化代碼生成任務(wù) 。
      • 高保真度獎勵機(jī)制:“粗 - 細(xì)粒度” 獎勵設(shè)計為處理高分辨率、高復(fù)雜度視覺輸入的 RL 任務(wù)提供了健壯且可擴(kuò)展的解決方案 。

      結(jié)論

      VinciCoder 的核心價值并非單純地堆砌 SFT 數(shù)據(jù),而是通過 “SFT + 粗細(xì)粒度 ViRL” 的組合,證明了 “以視覺反饋指導(dǎo)代碼生成” 的可行性與優(yōu)越性。這一思路不僅解決了傳統(tǒng) SFT 范式在可執(zhí)行性與視覺保真度上的痛點,也為后續(xù)通用多模態(tài)智能體的研發(fā)提供了新的思路。

      在總體思路上,該論文的思路與 R1-Style 方法高度相關(guān),都驗證了強(qiáng)化學(xué)習(xí)在提升基礎(chǔ)模型高級能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優(yōu)化數(shù)學(xué)推理等文本任務(wù),更可以作為連接 “視覺” 與 “代碼” 兩大模態(tài)的橋梁,解決 SFT 無法企及的跨模態(tài)對齊難題。

      更多細(xì)節(jié)請參閱原論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      2026春晚大變革!流量演員遭遇重?fù)簦w本山的建議終獲認(rèn)可!

      2026春晚大變革!流量演員遭遇重?fù)簦w本山的建議終獲認(rèn)可!

      復(fù)轉(zhuǎn)這些年
      2025-12-07 23:29:17
      黃循財強(qiáng)踩歷史雷區(qū)后,新加坡三線崩盤:內(nèi)政、外交與輿情全面失控

      黃循財強(qiáng)踩歷史雷區(qū)后,新加坡三線崩盤:內(nèi)政、外交與輿情全面失控

      阿離家居
      2025-12-08 12:06:28
      汪小菲又回臺灣省陪孩子!小玥兒長高了,和后媽喝下午茶像名媛

      汪小菲又回臺灣省陪孩子!小玥兒長高了,和后媽喝下午茶像名媛

      娛樂圈圈圓
      2025-12-07 22:14:02
      C羅躺槍!薩拉赫跟利物浦撕破臉皮后!ESPN對比他和C羅!

      C羅躺槍!薩拉赫跟利物浦撕破臉皮后!ESPN對比他和C羅!

      氧氣是個地鐵
      2025-12-08 17:56:34
      河北最美婆婆火了,嫵媚中帶著霸氣成全場焦點,網(wǎng)友:少婦天花板

      河北最美婆婆火了,嫵媚中帶著霸氣成全場焦點,網(wǎng)友:少婦天花板

      梅子的小情緒
      2025-12-03 09:04:25
      汪小菲回灣灣陪玥兒逛街,馬筱梅和玥兒各走各的,對方太像大S

      汪小菲回灣灣陪玥兒逛街,馬筱梅和玥兒各走各的,對方太像大S

      甜檸聊史
      2025-12-08 14:55:49
      別低估了30年房貸的威力!貸200萬還了5年,結(jié)果本金竟然一分沒還

      別低估了30年房貸的威力!貸200萬還了5年,結(jié)果本金竟然一分沒還

      裝修秀
      2025-12-08 10:30:03
      在股票市場上,90%的人根本不是在投資,甚至連投機(jī)都算不上

      在股票市場上,90%的人根本不是在投資,甚至連投機(jī)都算不上

      流蘇晚晴
      2025-12-07 16:55:20
      陳震被約談畫面曝光!官宣停更保團(tuán)隊,復(fù)出徹底沒戲了!

      陳震被約談畫面曝光!官宣停更保團(tuán)隊,復(fù)出徹底沒戲了!

      雷科技
      2025-12-08 15:20:10
      雷軍:明明是人,偏要裝神

      雷軍:明明是人,偏要裝神

      麥大人
      2025-12-08 15:29:12
      1958年,江青前夫去世,臨終前嘴里不斷喊著:江青是什么人?

      1958年,江青前夫去世,臨終前嘴里不斷喊著:江青是什么人?

      海佑講史
      2025-12-07 19:20:04
      成都虹吸西藏的好日子,快要到頭了

      成都虹吸西藏的好日子,快要到頭了

      云石
      2025-12-07 21:31:11
      4換1!打劫式交易!灰熊中鋒點評楊瀚森

      4換1!打劫式交易!灰熊中鋒點評楊瀚森

      籃球?qū)崙?zhàn)寶典
      2025-12-07 22:01:44
      山東100-93青島4利好!高詩巖游刃有余,謝智杰蛻變,陳林堅好使

      山東100-93青島4利好!高詩巖游刃有余,謝智杰蛻變,陳林堅好使

      籃球資訊達(dá)人
      2025-12-08 17:43:58
      湖北嘉魚縣公安局發(fā)公告尋找190萬枚USDT持有人,價值1300余萬元,警方回應(yīng)

      湖北嘉魚縣公安局發(fā)公告尋找190萬枚USDT持有人,價值1300余萬元,警方回應(yīng)

      瀟湘晨報
      2025-12-08 15:35:17
      六臺記者:不知道皇馬在打什么,不如明天就請回穆里尼奧

      六臺記者:不知道皇馬在打什么,不如明天就請回穆里尼奧

      懂球帝
      2025-12-08 09:00:35
      德外長“艱難”開啟訪華行程,專家:對其此行需“聽其言觀其行”

      德外長“艱難”開啟訪華行程,專家:對其此行需“聽其言觀其行”

      環(huán)球網(wǎng)資訊
      2025-12-08 06:56:12
      雍正都不知道!年羹堯被殺后,年家靠45萬畝地在民國當(dāng)起包租公

      雍正都不知道!年羹堯被殺后,年家靠45萬畝地在民國當(dāng)起包租公

      掠影后有感
      2025-12-07 11:16:22
      女教師因病請假25年,退休時發(fā)現(xiàn)編制已取消

      女教師因病請假25年,退休時發(fā)現(xiàn)編制已取消

      王誙自駕
      2025-12-08 10:13:10
      封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭烽_了花!

      封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭烽_了花!

      石辰搞笑日常
      2025-12-03 08:50:12
      2025-12-08 19:48:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11873文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學(xué)者:殲-15開射控雷達(dá)照射F-15 反而是日本撿到寶

      頭條要聞

      臺學(xué)者:殲-15開射控雷達(dá)照射F-15 反而是日本撿到寶

      體育要聞

      一位大學(xué)美術(shù)生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經(jīng)要聞

      重磅!政治局會議定調(diào)明年經(jīng)濟(jì)工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態(tài)度原創(chuàng)

      親子
      教育
      時尚
      數(shù)碼
      房產(chǎn)

      親子要聞

      小滿第一次看到大雪 今年韓國的第一場雪

      教育要聞

      小學(xué)必考易錯題,聽說很多大學(xué)生都做錯了

      除了大衣,今年最火的外套一定就是它了!

      數(shù)碼要聞

      華為Mate 80 RS率先實現(xiàn)BT.2020色域 李小龍:過于先進(jìn)!

      房產(chǎn)要聞

      碧桂園,開始甩賣海口家底!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 免费人成在线观看网站| 国产真实露脸乱子伦原著| 69亚洲精品| 久久久999| 国产又爽又黄又无遮挡的激情视频 | 亚洲日本乱码在线观看| 久久这里只有精品首页| 国产黄大片在线观看画质优化| 无码午夜| 伊人综合夜夜操| 欧美成人h精品网站| 日日噜噜夜夜狠狠视频| 强奷乱码中文字幕| 99精品中文| 国产成人高清亚洲综合| 爱啪啪av导航| AV色色色| 林周县| 亚洲熟女网| 99在线国内在线视频22| 亚洲国产福利成人一区二区| 国产日韩精品欧美一区喷水| 果冻传媒色av国产在线播放| 夜夜春视频| 国产精品伦子伦露脸| 国产一区二区在线影院| 亚洲成年网站| 日日干夜夜撸| 亚洲精品中文字幕尤物综合| 最新亚洲人成无码网站| 亚洲免费观看在线视频| 69天堂| 清徐县| 91成人在线播放| 久久精品夜色噜噜亚洲A∨| 妺妺窝人体色WWW看人体| 亚洲丶国产丶欧美一区二区三区| 大丰市| 亚洲图片视频丝袜| 国产无码高清视频不卡| 色色97|