<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Seedream4.0大戰(zhàn)NanoBanana、GPT-4o?EdiVal-Agent 終結(jié)編輯評測

      0
      分享至



      在 AIGC 的下一個(gè)階段,圖像編輯(Image Editing)正逐漸取代一次性生成,成為檢驗(yàn)多模態(tài)模型理解、生成與推理能力的關(guān)鍵場景。我們該如何科學(xué)、公正地評測這些圖像編輯模型?

      為了解決這一難題,來自得克薩斯大學(xué)奧斯汀分校、UCLA、微軟等機(jī)構(gòu)的研究者們共同提出了EdiVal-Agent,一個(gè)以對象為中心自動(dòng)化細(xì)粒度多輪編輯(Multi-Turn Editing)評估框架。

      EdiVal-Agent的名字巧妙地融合了“Editing”(編輯)和“Evaluation”(評估),并以“Agent”(智能體)的形式呈現(xiàn),寓意它是一個(gè)能夠自主執(zhí)行復(fù)雜評估任務(wù)智能系統(tǒng)。它不僅能自動(dòng)化生成多樣化的編輯指令,還能從指令遵循,內(nèi)容一致性,視覺質(zhì)量多維度對編輯結(jié)果進(jìn)行精細(xì)評估,其評估結(jié)果與人類判斷的一致性顯著優(yōu)于現(xiàn)有方法。



      • 論文題目:
      • EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
      • 論文鏈接:
      • https://arxiv.org/abs/2509.13399
      • 項(xiàng)目主頁:
      • https://tianyucodings.github.io/EdiVAL-page/

      評測:如何定義“好”的編輯?

      當(dāng)前主流評測分為兩類:

      1、基于參考圖像(Reference-based):依賴成對的參考圖像,覆蓋面有限,還容易繼承舊模型的偏差。

      2、基于大模型打分(VLM-based):用視覺語言模型(VLM)通過提示語打分,看似方便卻問題重重:空間理解差,常誤判物體位置關(guān)系;細(xì)節(jié)不敏感,難察覺局部微小修改;審美失準(zhǔn),對生成瑕疵(artifacts)缺乏感知。結(jié)果是,VLM 單評雖“方便”,卻難以精確可靠地衡量編輯質(zhì)量。

      EdiVal-Agent :圖像編輯界的“評測裁判”

      EdiVal-Agent是一個(gè)面向?qū)ο?/strong>的自動(dòng)評測智能體。它能像人類一樣,識(shí)別圖像中的每個(gè)對象,理解編輯語義,并在多輪編輯動(dòng)態(tài)追蹤變化。

      在講工作流之前,我們先來看一組直觀的測試結(jié)果。

      Base Image:兩匹馬

      • Turn 1:添加文字 “HORSES
      • Turn 2:棕色的馬換成一只鹿
      • Turn 3:白馬的毛色改成棕色



      聽起來很簡單,對吧?但當(dāng)我們讓各家頂尖模型來完成這三步時(shí),結(jié)果卻大不相同。

      GPT-Image-1(OpenAI) 指令執(zhí)行得不錯(cuò),但背景和細(xì)節(jié)越來越不一致。

      Qwen-Image-Edit(阿里)視覺質(zhì)量和一致性上雙雙失手,第三輪后出現(xiàn)明顯“過曝感”。

      FLUX.1-Kontext-dev(Black Forest Labs) 基本能保留背景,但理解指令有偏差,比如第三輪“白馬的毛色改成棕色”執(zhí)行失敗。

      Nano Banana(Google Gemini 2.5 Flash) 表現(xiàn)最平衡——穩(wěn)、準(zhǔn)、無明顯短板

      在剛才的對比中,我們看到不同模型在多輪編輯下表現(xiàn)差異明顯。那 EdiVal-Agent 是如何實(shí)現(xiàn)自動(dòng)評測、做到“既懂圖又懂語義”的呢?答案來自它精心設(shè)計(jì)的三步工作流。



      1、圖像分解(Decomposition)

      第一步,EdiVal-Agent 會(huì)讓大模型(如 GPT-4o)先“看懂”一張圖片。它會(huì)自動(dòng)識(shí)別出圖中所有可見對象,并為每個(gè)對象生成結(jié)構(gòu)化的描述——包括顏色(color)、材質(zhì)(material)、物體上是否存在文字(text)、數(shù)量(count) 和前景屬性 (foreground)。

      這些對象被匯總成一個(gè)對象池(Object Pool),并通過物體檢測器進(jìn)行驗(yàn)證過濾,為后續(xù)指令生成和評測打下基礎(chǔ)。

      2、指令生成(Instruction Generation)

      第二步,EdiVal-Agent 根據(jù)場景自動(dòng)生成多輪編輯指令。 它擁有覆蓋9 種編輯類型、6 個(gè)語義類別的指令體系,包括:

      添加(add)、刪除(remove)、替換(replace)、 改顏色(color alter)、改材質(zhì)(material alter)、改文字(text change)、移動(dòng)位置(position change)、改數(shù)量(count change)、換背景(background change)。

      EdiVal-Agent 會(huì)動(dòng)態(tài)維護(hù)三個(gè)對象池:

      • All Objects Pool(所有出現(xiàn)過的對象)
      • Available Objects Pool(當(dāng)前可編輯的對象)
      • Unchanged Objects Pool(尚未被修改的對象)

      在每一輪編輯中,智能體都會(huì):

      • 隨機(jī)選取指令類型;
      • 挑選合適對象;
      • 生成自然語言編輯指令;
      • 更新對象池狀態(tài)。

      默認(rèn)設(shè)置為三輪(Turn 1 – Turn 3),也可以擴(kuò)展到更長鏈條,實(shí)現(xiàn)更多輪可組合編輯。

      3、 自動(dòng)評測(Evaluation)

      最后一步,EdiVal-Agent 從三個(gè)維度評估模型表現(xiàn):

      • EdiVal-IF(Instruction Following)判斷模型是否準(zhǔn)確執(zhí)行指令——例如“把白馬換成鹿”是否真的完成。 對于符號任務(wù)(如位置或數(shù)量變化),使用 Grounding-DINO 等開放詞匯檢測器進(jìn)行幾何驗(yàn)證; 對于語義任務(wù)(如顏色或背景變化),則結(jié)合物體檢測器和VLM進(jìn)行語義核對。
      • EdiVal-CC(Content Consistency)測量未被編輯的部分是否保持一致。 它計(jì)算背景區(qū)域(排除 All Objects Pool 中的所有物體)與未修改對象(屬于 Unchanged Objects Pool 的物體)之間的語義相似度,以確保模型不會(huì)“誤傷”無關(guān)區(qū)域。比如,下圖中GPT-Image-1編輯后的STOP 標(biāo)志發(fā)生了明顯變化,而Nano Banana則更真實(shí)地保持了內(nèi)容一致性
      • EdiVal-VQ(Visual Quality)使用 Human Preference Score v3 評估整體視覺質(zhì)量,量化生成結(jié)果的美觀度自然度

      最終綜合指標(biāo)EdiVal-O通過幾何平均融合EdiVal-IFEdiVal-CC,平衡“是否聽話”與“是否穩(wěn)定”。



      為什么不把 EdiVal-VQ 納入總體分?jǐn)?shù)?

      在評估中,我們發(fā)現(xiàn)“視覺質(zhì)量(EdiVal-VQ)”雖然重要,但并不適合直接計(jì)入綜合得分。以指令“將背景換成圖書館”為例:

      • GPT-Image-1會(huì)傾向于“美化”圖像,讓整體更光亮、更清晰,從而提升審美得分
      • FLUX.1-Kontext-max則選擇“保真”策略,盡量保持原始風(fēng)格,只替換必要區(qū)域。



      這說明不同模型在面對同一任務(wù)時(shí),有的更追求視覺美感(beautification),有的更注重和保真(preservation)。由于在圖像編輯中,是否應(yīng)追求“美化”仍存在爭議,因此我們未將 EdiVal-VQ 納入最終評測指標(biāo)。

      EdiVal-Agent 的人類一致性驗(yàn)證

      EdiVal-Agent評測結(jié)果能否“想法與人一致”?

      我們設(shè)計(jì)了一項(xiàng)人類一致性實(shí)驗(yàn)(Human Agreement Study),來檢驗(yàn) EdiVal-Agent 的評測結(jié)果,是否真正符合人類判斷。結(jié)果如下:



      EdiVal-Agent 的指標(biāo)EdiVal-IF與人類判斷的平均一致率高達(dá)81.3%。相比之下,傳統(tǒng)評測方法的表現(xiàn)明顯更低:

      • VLM-only(Qwen-2.5-VL):75.2%
      • CLIP-dir(CLIP-directional similarity):68.9%

      換句話說,EdiVal-Agent 不僅能“算得對”,更能“想得像人”。此外,人工之間的一致率為85.5%,這意味著——EdiVal-Agent 的表現(xiàn)已接近人類評測的上限

      為什么 EdiVal-IF 與人類判斷更為一致?

      符號任務(wù)更精準(zhǔn)。對于“添加 / 刪除 / 替換 / 移動(dòng) / 改數(shù)量”等符號(symbolic)任務(wù),EdiVal-IF使用Grounding-DINO精確檢測目標(biāo)是否真的出現(xiàn)、移動(dòng)或消失,幾乎沒有歧義。相比之下,VLM模型則容易受到幻覺(Hallucination)空間推理(Spatial Reasoning)的限制。

      語義任務(wù)更智能。 對于“改顏色 / 改材質(zhì) / 改文字 / 換背景”等語義(semantic)任務(wù),EdiVal-IFVLM(Qwen-2.5-VL)對象檢測(Object Detection)相結(jié)合,先定位,再推理,讓模型真正做到“對著圖回答問題”。

      結(jié)果表明,這種檢測 + 推理融合的方式,比單純讓大模型“看圖說話”更加穩(wěn)定、可靠。

      誰才是最強(qiáng)圖像編輯模型?

      在本文提出的多輪圖像編輯EdiVal-Bench上,EdiVal-Agent系統(tǒng)對比了13 個(gè)代表性模型,涵蓋閉源與開源、in-context和context-free,F(xiàn)low Matching與Diffusion等不同范式。結(jié)果如下:



      其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型內(nèi)容一致性的能力。EdiVal-O是兩者的幾何平均值,為最終評分。可以看到:

      • Seedream 4.0 在指令遵循能力上遙遙領(lǐng)先,并且在最終評分上全面超越國際閉源模型,排名第一;
      • Nano Banana在速度(Latency)與質(zhì)量上達(dá)成完美平衡,在內(nèi)容一致性上尤為出色,排名第二;
      • GPT-Image-1指令遵循能力上出色,因追求美觀(見上文)而犧牲一致性,位列第三;
      • Qwen-Image-Edit出現(xiàn)典型“曝光偏差(exposure bias)”:在編輯次數(shù)變多時(shí)越改越偏,其在開源模型中排名第一,總排名第六。

      評測結(jié)果也解釋了為什么ChatGPT-4o在吉卜力風(fēng)格遷移指令遵循美化效果出圈,而Nano Banana在OOTD這些背景/物體一致性要求比較高的任務(wù)上出圈。

      更多實(shí)驗(yàn)結(jié)果與詳細(xì)分析(比如關(guān)于in-context和complex editing),歡迎閱讀原文。

      關(guān)于作者

      論文作者成員來自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,兩位共同一作分別是陳天鈺,張雅思。

      陳天鈺,得克薩斯大學(xué)奧斯汀分校(UT-Austin)統(tǒng)計(jì)系博士生(三年級),導(dǎo)師為周名遠(yuǎn)教授。碩士畢業(yè)于芝加哥大學(xué),本科畢業(yè)于復(fù)旦大學(xué)統(tǒng)計(jì)系。研究方向涵蓋生成模型、強(qiáng)化學(xué)習(xí)、因果推斷與表示學(xué)習(xí)等,目前與Microsoft GenAI開展長期合作研究。

      張雅思,加州大學(xué)洛杉磯分校(UCLA)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系博士生(四年級),師從吳英年教授與 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模態(tài)學(xué)習(xí)、大模型后訓(xùn)練與計(jì)算機(jī)視覺,曾在Amazon AWS AI LabsGoogle Research從事相關(guān)研究工作。

      值得一提的是,兩位共一本科均畢業(yè)于復(fù)旦大學(xué)。



      陳天鈺



      張雅思

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      注意!公職人員再做這些事,將被開除!

      注意!公職人員再做這些事,將被開除!

      微法官
      2026-03-18 00:03:02
      伊朗外長:伊朗有意允許與日本相關(guān)的船只通行霍爾木茲海峽

      伊朗外長:伊朗有意允許與日本相關(guān)的船只通行霍爾木茲海峽

      財(cái)聯(lián)社
      2026-03-21 10:45:04
      與特朗普聊完了,高市笑容已消失,美國通告日本:中方反制還沒完

      與特朗普聊完了,高市笑容已消失,美國通告日本:中方反制還沒完

      策略述
      2026-03-20 19:22:26
      兩場餐敘均未出席,徐巧芯不裝了!高金素梅后續(xù),20藍(lán)委被列名單

      兩場餐敘均未出席,徐巧芯不裝了!高金素梅后續(xù),20藍(lán)委被列名單

      李博世財(cái)經(jīng)
      2026-03-21 13:25:21
      生育大局已定!不出意外的話,2026年起中國人口將迎來4大變化

      生育大局已定!不出意外的話,2026年起中國人口將迎來4大變化

      知鑒明史
      2026-03-13 18:34:50
      TA:波切蒂諾在美國隊(duì)年薪超400萬美元,總收入可達(dá)600萬美元

      TA:波切蒂諾在美國隊(duì)年薪超400萬美元,總收入可達(dá)600萬美元

      懂球帝
      2026-03-21 15:58:05
      無聊熱議!"token"應(yīng)該翻譯成哪個(gè)中文詞?

      無聊熱議!"token"應(yīng)該翻譯成哪個(gè)中文詞?

      AI先鋒官
      2026-03-19 16:13:18
      一夜雙冠!谷愛凌冬奧后首秀,奪萊克斯站冠軍+雪盟首位世界冠軍

      一夜雙冠!谷愛凌冬奧后首秀,奪萊克斯站冠軍+雪盟首位世界冠軍

      全景體育V
      2026-03-21 06:49:12
      賈靜雯的內(nèi)衣大片太頂了!適合一個(gè)人靜靜欣賞!

      賈靜雯的內(nèi)衣大片太頂了!適合一個(gè)人靜靜欣賞!

      小椰的奶奶
      2026-03-21 09:35:12
      美伊大戰(zhàn)還沒完,中國家門口又起沖突,電話打到北京,請中國出山

      美伊大戰(zhàn)還沒完,中國家門口又起沖突,電話打到北京,請中國出山

      軒逸阿II
      2026-03-18 00:24:41
      來了,樓市最猛的一劑藥

      來了,樓市最猛的一劑藥

      大川東山再起
      2026-03-19 18:22:54
      75年毛主席見兒女,江青提出讓李訥擔(dān)任北京市委書記,結(jié)果如何?

      75年毛主席見兒女,江青提出讓李訥擔(dān)任北京市委書記,結(jié)果如何?

      小妹講史
      2026-03-20 14:26:35
      世界上三個(gè)超級大國開戰(zhàn),給中國的啟示,至關(guān)重要!

      世界上三個(gè)超級大國開戰(zhàn),給中國的啟示,至關(guān)重要!

      正經(jīng)說個(gè)事兒
      2026-03-19 22:00:05
      現(xiàn)貨黃金價(jià)格跌破4500美元,本周暴跌超10%至七周低位,創(chuàng)43年最大單周跌幅

      現(xiàn)貨黃金價(jià)格跌破4500美元,本周暴跌超10%至七周低位,創(chuàng)43年最大單周跌幅

      每日經(jīng)濟(jì)新聞
      2026-03-21 14:24:38
      含劇毒,無解藥,這種東西不能吃,加熱120也沒用,已有人中招!

      含劇毒,無解藥,這種東西不能吃,加熱120也沒用,已有人中招!

      丁丁鯉史紀(jì)
      2026-03-21 09:59:06
      維尼修斯-托比亞斯:因戰(zhàn)爭離開礦工,沒想到皇馬竟有意簽下我

      維尼修斯-托比亞斯:因戰(zhàn)爭離開礦工,沒想到皇馬竟有意簽下我

      懂球帝
      2026-03-20 17:48:10
      我黨官方首次認(rèn)定“開國元?jiǎng)住眱H6位,他們的卓越貢獻(xiàn)你了解嗎?

      我黨官方首次認(rèn)定“開國元?jiǎng)住眱H6位,他們的卓越貢獻(xiàn)你了解嗎?

      小豫講故事
      2026-03-14 06:00:10
      為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

      為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

      情感藝術(shù)家
      2026-03-08 22:07:38
       黃仁勛:年薪50萬的工程師沒用掉25萬美元的token,我會(huì)極度恐慌

      黃仁勛:年薪50萬的工程師沒用掉25萬美元的token,我會(huì)極度恐慌

      頂級大佬思維
      2026-03-20 11:40:46
      結(jié)束訪美行程,高市早苗笑里藏刀,她對華最瘋狂的豪賭,終于開始

      結(jié)束訪美行程,高市早苗笑里藏刀,她對華最瘋狂的豪賭,終于開始

      阿褲趣聞君
      2026-03-21 14:16:21
      2026-03-21 16:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12555文章數(shù) 142588關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機(jī)器人出貨量第一!

      頭條要聞

      媒體:美稱"將不再守衛(wèi)霍爾木茲海峽" 或逼迫盟友接手

      頭條要聞

      媒體:美稱"將不再守衛(wèi)霍爾木茲海峽" 或逼迫盟友接手

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      CMG盛典獲獎(jiǎng)名單:章子怡高葉同獲影后

      財(cái)經(jīng)要聞

      通脹警報(bào)拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

      態(tài)度原創(chuàng)

      健康
      數(shù)碼
      親子
      本地
      公開課

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      數(shù)碼要聞

      解碼智慧臥室范式新品發(fā)布:慕思成為全屋智能“睡眠中樞”

      親子要聞

      這味道不對啊

      本地新聞

      春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版