<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      浙大&騰訊打破圖像編輯「規模-質量」魔咒:1000萬數據+統一驗證框架,讓開源模型追上閉源SOTA | CVPR 2026

      0
      分享至


      他們用一套"質檢+改題"雙系統,造出了AI圖像編輯領域的第一套標準化教材。

      不知你有沒有發現,用ChatGPT里的圖像編輯挺順,但換幾個開源工具就頻頻翻車?這不是錯覺——頂尖閉源模型(如GPT-Image-1)和開源模型之間的差距,正在被越拉越大。 根源在于:開源陣營手里沒有兩樣東西——足夠多且足夠好的訓練素材,以及一套能全面體檢模型能力的'診斷系統'。

      更麻煩的是,做數據就像走鋼絲:純手工打造的精品數據集,質量過硬但根本攢不夠量;全自動流水線倒是能批量生產,但環節一多,前面的小錯會一路放大成災難——比如第一步識別錯了物體,后面所有編輯都跟著跑偏。

      具體來說,現在的數據生產有三個漏銅:

      ? '傳話游戲'式誤差:一個編輯任務要過N個工具(識別→分割→生成→融合),前面一步歪一點,后面步步歪;

      ? '安檢'走過場:要么只查'有沒有出圖'而不管文本指令對不對,要么花大價錢調API改文字描述,卻不管圖本身質量;

      ? '考試范圍'太窄:現有測試只考'換顏色'、'加物體'這種基礎題,不考'從空中俯瞰這個建筑'這種空間理解題,也不考'將咖啡壺變為煮沸狀態'這種需要常識推理的題。而且評分標準還有bug——背景被偷偷改了看不出來,風格一變就扣冤枉分。


      圖1: UnicEdit-10M 涵蓋了跨越基礎與復雜編輯的 22 種編輯任務。該數據集采用統一的后置驗證階段,通過過濾失敗樣本并精煉指令,從而產出高質量的三元組數據。此外,我們還推出了配套的 UnicBench,利用細粒度指標進行全面評估。

      針對這個痛點,浙江大學和騰訊聯合搞了個大動作:他們不僅造出了1000萬組高質量的"圖像編輯練習題"(UnicEdit-10M),還配了一套22類難度遞進的"全真模擬考卷"(UnicBench)。簡單來說,就是給AI圖像編輯領域提供了標準化的教材+考試系統。除此之外,他們還配置了一名"嚴格判官"(Qwen-Verify),對生成的圖像編輯數據進行嚴格的篩選和優化,保證最終得到的"練習題"的答案都是正確且高質量的。


      論文標題:UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

      論文地址:https://arxiv.org/pdf/2512.02790

      代碼倉庫:https://github.com/WeChatCV/UnicBench

      項目主頁:https://hongsexiaotanhua.github.io/UnicEdit-10M/

      數據集:https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M

      Benchmark:https://huggingface.co/datasets/xiaotanhua/UnicBench

      01


      核心亮點

      1. 大規模高質量數據集 UnicEdit-10M:構建了包含 10M 樣本的高質量圖像編輯數據集,覆蓋 22 種編輯任務,不僅包含基礎的屬性和對象編輯,還涵蓋幾何空間變化和基于推理知識的編輯任務,同時,該數據集的圖像美學得分也超越其他數據集。

      2. Qwen-Verify 后校驗專家模型:訓練了一個 7B 規模的雙任務專家模型,能夠同時進行細粒度的失敗檢測和指令重寫,在計算成本和經濟成本遠低于 Qwen2.5-VL-72B 的情況下,實現了更優的性能。

      3. UnicBench 綜合評估基準:提出了覆蓋基礎編輯、幾何空間變化以及基于推理知識編輯任務的綜合基準,引入了非編輯一致性和推理準確性等新穎評估指標,能夠全面診斷模型的編輯能力,為未來研究提供了清晰的方向。


      圖2: UnicEdit-10M 中所有子任務的代表性編輯樣例。

      02


      UnicEdit-10M數據集構建

      UnicEdit-10M 的構建采用了三階段的高效自動化流水線:

      1. 指令生成階段:使用 Qwen2.5-VL-72B 模型,基于預定義的編輯分類體系,為每張圖像生成 3-7 個不同的、符合內容的編輯指令,確保任務分布均衡,無需人工標注。

      2. 圖像編輯階段:使用 FLUX.1-Kontext 和 Qwen-Image-Edit 兩款領先的開源編輯模型,對每一對〈原始圖像,指令〉進行處理,生成編輯后的圖像,形成初始的三元組。同時對源圖像進行中心裁剪和縮放預處理,并進行質量檢查,丟棄需要超過 20% 裁剪的圖像,避免內容丟失。

      3. 后校驗階段:所有合成的三元組都經過統一的后校驗環節,不僅過濾掉失敗的樣本,還會優化對應的指令,增強其與視覺編輯的語義對齊。

      最終生成的 UnicEdit-10M 數據集包含約 10M 個三元組,分為 4 大編輯類型:場景編輯(3.063M 樣本)、屬性編輯(3.529M 樣本)、對象編輯(3.242M 樣本)和推理編輯(1.746M 樣本),其中 50% 的圖像為 1024×1024 的高分辨率圖像。


      圖3: 包含三個階段的數據構建流水線:(1) 數據準備;(2) 圖像編輯;(3) 后校驗,用于過濾失敗的編輯樣本并進行指令重寫(Recaption)。

      03


      后校驗專家模型

      在后校驗階段,為了實現更為準確和高效的質量控制,作者訓練了7B的雙任務后校驗專家模型Qwen-Verify,通過使用人類標注的偏好數據進行偏好對齊,實現更為準確的數據篩選。該專家模型能夠同時執行如下兩個關鍵任務::

      1. 編輯失敗檢測:能夠細粒度地識別出編輯失敗的樣本,包括無編輯、幻覺等情況,相比傳統的 SSIM 等像素級指標,Qwen-Verify 具備語義理解能力,能夠準確識別出語義上有變化但視覺上細微的編輯,同時忽略生成過程中微小的像素級噪聲。

      2. 編輯指令重寫:能夠對與編輯結果語義對齊不足的指令進行重寫,確保指令與實際的視覺變換精確匹配。

      對比實驗顯示,Qwen-Verify 在正常編輯、無編輯和幻覺檢測的準確率上均顯著優于 Qwen2.5-VL-7B、Qwen2.5-VL-72B 等基線模型,在人臉一致性等關鍵指標上,UnicEdit-10M 的一致性得分達到 0.89,遠優于 GPT-Image-Edit-1.5M 的 0.3025,展現出在保持關鍵主體細節上的卓越能力。


      圖4: 專家模型后校驗樣例。其中:Base 表示 Qwen2.5-VL-7B 模型;SFT 表示經過第一階段指令微調后的基礎模型;Ours 表示我們提出的雙任務專家模型 Qwen-Verify。

      04


      UnicBench:綜合編輯能力評測

      UnicBench 是一個覆蓋基礎編輯、幾何空間變化以及基于推理知識編輯任務的綜合基準,其構建過程采用了 VLM 與人工結合的工作流:首先由 Qwen2.5-VL 生成候選指令,再由人類專家進行審核,移除模糊或語義不一致的提示,并進行重寫以匹配特定的編輯任務類別,每個類別包含 50 個測試用例。

      為了實現更精準的評估,UnicBench 引入了四個專門的評估指標:

      1. 指令遵循度(IF):通過基于 VLM 的跨模態對齊分數,衡量編輯圖像滿足指令的程度。

      2. 非編輯一致性(NC):評估非目標區域的保留情況,對編輯區域外的意外變化進行懲罰。

      3. 視覺質量(VQ):基于指令的自然度、連貫性和視覺風格一致性的評估。

      4. 推理準確性(RA):針對基于推理知識的編輯任務,VLM會利用所提供的reasoning points 列表,針對實際編輯變化進行對比打分,該列表均經過人工進行核驗優化。

      對主流模型的評估結果顯示,閉源模型在整體能力上顯著優于開源模型,GPT-Image-1 在英文和中文任務上均取得了最高的綜合得分,展現出最優的通用編輯能力。開源模型中,Qwen-Image-Edit 表現最佳,開始縮小與閉源模型的差距。但所有模型在推理準確性(RA)指標上均出現了顯著的性能下降,這表明當前模型在執行需要復雜邏輯推理或世界知識的編輯任務時存在普遍的局限性,為未來的研究指明了方向。


      圖5: 各模型在 UnicBench 子任務上的綜合評分,左側為英文(EN)指令結果,右側為中文(CN)指令結果。所有結果均由 GPT-4o 進行評估。


      表1: 不同模型在 UnicBench 上的綜合性能表現。開源模型與閉源模型的結果分別標注,其中最優性能以加粗表示,次優性能以下劃線表示。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      王曼昱看到估計會難過!張雪峰曾言:我早晚請你做我們公司代言人

      王曼昱看到估計會難過!張雪峰曾言:我早晚請你做我們公司代言人

      觀察鑒娛
      2026-03-27 09:35:55
      69集諜戰劇來襲,才播3集,收視全國第一,全員高顏值演技派

      69集諜戰劇來襲,才播3集,收視全國第一,全員高顏值演技派

      樂楓電影
      2026-03-27 14:22:36
      勢不可擋!薩巴倫卡兩盤橫掃萊巴金娜,陽光雙賽背靠背晉級決賽

      勢不可擋!薩巴倫卡兩盤橫掃萊巴金娜,陽光雙賽背靠背晉級決賽

      全景體育V
      2026-03-27 10:03:58
      男性長期禁欲,精子只產不排,最后會怎樣?醫生:或有4大后果

      男性長期禁欲,精子只產不排,最后會怎樣?醫生:或有4大后果

      健康之光
      2026-03-06 13:11:59
      女性私處都有哪些形狀?關于女性生理結構的這些秘密,你知道嗎?

      女性私處都有哪些形狀?關于女性生理結構的這些秘密,你知道嗎?

      熊貓醫學社
      2026-03-27 14:07:44
      晚年大忌,別把這三個人當親人,來往越多,晚年越凄涼

      晚年大忌,別把這三個人當親人,來往越多,晚年越凄涼

      阿凱銷售場
      2026-03-06 01:00:19
      清明將至,俗話說:“墳頭三不動,一動窮三代”今年應如何祭祖?

      清明將至,俗話說:“墳頭三不動,一動窮三代”今年應如何祭祖?

      磊子講史
      2026-03-20 16:07:07
      3月全國充電樁服務費集體暴漲:最高漲幅300%?

      3月全國充電樁服務費集體暴漲:最高漲幅300%?

      侃故事的阿慶
      2026-03-26 13:54:23
      救護車側翻5人被困!過路小伙踹破車窗 救完人才發現手上都是血

      救護車側翻5人被困!過路小伙踹破車窗 救完人才發現手上都是血

      閃電新聞
      2026-03-26 16:31:53
      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      星星沒有你亮
      2026-03-22 08:48:35
      中國股市:如果接下來迎來牛市,堅持只買一種股票,賺到懷疑人生

      中國股市:如果接下來迎來牛市,堅持只買一種股票,賺到懷疑人生

      股經縱橫談
      2026-03-27 11:24:21
      伊朗,曾經是中東最發達的國家,如今為何淪落成“爛泥扶不上墻”

      伊朗,曾經是中東最發達的國家,如今為何淪落成“爛泥扶不上墻”

      文史達觀
      2025-06-24 06:45:04
      泰國征兵海報用《逐玉》張凌赫畫面打廣告,“想像他一樣帥氣騎馬嗎?來當騎兵”

      泰國征兵海報用《逐玉》張凌赫畫面打廣告,“想像他一樣帥氣騎馬嗎?來當騎兵”

      都市快報橙柿互動
      2026-03-27 16:52:39
      焦泊喬申請暫時離隊,球迷:實在無法忍受,就跟徐昕學,換支球隊

      焦泊喬申請暫時離隊,球迷:實在無法忍受,就跟徐昕學,換支球隊

      小樓侃體育
      2026-03-27 16:27:40
      涉嫌嚴重違紀違法!江油市交通運輸局黨組成員、副局長王毅被查

      涉嫌嚴重違紀違法!江油市交通運輸局黨組成員、副局長王毅被查

      瀟湘晨報
      2026-03-27 17:02:49
      美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

      美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

      徐云流浪中國
      2026-03-04 15:30:07
      張雪峰去世僅1天,辦公室內景曝光,寫真照被指像遺照,擺設奇怪

      張雪峰去世僅1天,辦公室內景曝光,寫真照被指像遺照,擺設奇怪

      180視角
      2026-03-26 08:43:01
      59歲黎明演唱會生圖翻車,頭禿腹凸臉腫,昔日男神被群嘲像酒保

      59歲黎明演唱會生圖翻車,頭禿腹凸臉腫,昔日男神被群嘲像酒保

      一娛三分地
      2026-03-24 18:14:53
      全世界沒料到,美國動作真快,沒踩中東坑,反而一招洗空30萬億債

      全世界沒料到,美國動作真快,沒踩中東坑,反而一招洗空30萬億債

      瀲滟晴方DAY
      2026-03-26 22:46:22
      見證歷史,中國讓Open AI絕望了!

      見證歷史,中國讓Open AI絕望了!

      君臨財富
      2026-03-25 23:36:26
      2026-03-27 19:00:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7151文章數 20742關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      張雪峰靈堂內景曝光,四周擺滿了鮮花

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      家居
      教育
      健康
      數碼
      軍事航空

      家居要聞

      曲線華爾茲 現代簡約

      教育要聞

      重拳出擊,整治教育內卷,中考徹底變天了

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      華碩ROG幻世神Cronox機箱開啟預約:配備9.2"副屏,2399元

      軍事要聞

      伊朗:已組織超100萬人為地面戰斗做準備

      無障礙瀏覽 進入關懷版