<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Seedream4.0大戰(zhàn)NanoBanana、GPT-4o?EdiVal-Agent 終結(jié)編輯評測

      0
      分享至



      在 AIGC 的下一個階段,圖像編輯(Image Editing)正逐漸取代一次性生成,成為檢驗多模態(tài)模型理解、生成與推理能力的關(guān)鍵場景。我們該如何科學(xué)、公正地評測這些圖像編輯模型?

      為了解決這一難題,來自得克薩斯大學(xué)奧斯汀分校、UCLA、微軟等機構(gòu)的研究者們共同提出了EdiVal-Agent,一個以對象為中心自動化細粒度多輪編輯(Multi-Turn Editing)評估框架。

      EdiVal-Agent的名字巧妙地融合了“Editing”(編輯)和“Evaluation”(評估),并以“Agent”(智能體)的形式呈現(xiàn),寓意它是一個能夠自主執(zhí)行復(fù)雜評估任務(wù)智能系統(tǒng)。它不僅能自動化生成多樣化的編輯指令,還能從指令遵循,內(nèi)容一致性,視覺質(zhì)量多維度對編輯結(jié)果進行精細評估,其評估結(jié)果與人類判斷的一致性顯著優(yōu)于現(xiàn)有方法。



      • 論文題目:
      • EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
      • 論文鏈接:
      • https://arxiv.org/abs/2509.13399
      • 項目主頁:
      • https://tianyucodings.github.io/EdiVAL-page/

      評測:如何定義“好”的編輯?

      當(dāng)前主流評測分為兩類:

      1、基于參考圖像(Reference-based):依賴成對的參考圖像,覆蓋面有限,還容易繼承舊模型的偏差。

      2、基于大模型打分(VLM-based):用視覺語言模型(VLM)通過提示語打分,看似方便卻問題重重:空間理解差,常誤判物體位置關(guān)系;細節(jié)不敏感,難察覺局部微小修改;審美失準,對生成瑕疵(artifacts)缺乏感知。結(jié)果是,VLM 單評雖“方便”,卻難以精確可靠地衡量編輯質(zhì)量。

      EdiVal-Agent :圖像編輯界的“評測裁判”

      EdiVal-Agent是一個面向?qū)ο?/strong>的自動評測智能體。它能像人類一樣,識別圖像中的每個對象,理解編輯語義,并在多輪編輯動態(tài)追蹤變化。

      在講工作流之前,我們先來看一組直觀的測試結(jié)果。

      Base Image:兩匹馬

      • Turn 1:添加文字 “HORSES
      • Turn 2:棕色的馬換成一只鹿
      • Turn 3:白馬的毛色改成棕色



      聽起來很簡單,對吧?但當(dāng)我們讓各家頂尖模型來完成這三步時,結(jié)果卻大不相同。

      GPT-Image-1(OpenAI) 指令執(zhí)行得不錯,但背景和細節(jié)越來越不一致。

      Qwen-Image-Edit(阿里)視覺質(zhì)量和一致性上雙雙失手,第三輪后出現(xiàn)明顯“過曝感”。

      FLUX.1-Kontext-dev(Black Forest Labs) 基本能保留背景,但理解指令有偏差,比如第三輪“白馬的毛色改成棕色”執(zhí)行失敗。

      Nano Banana(Google Gemini 2.5 Flash) 表現(xiàn)最平衡——穩(wěn)、準、無明顯短板

      在剛才的對比中,我們看到不同模型在多輪編輯下表現(xiàn)差異明顯。那 EdiVal-Agent 是如何實現(xiàn)自動評測、做到“既懂圖又懂語義”的呢?答案來自它精心設(shè)計的三步工作流。



      1、圖像分解(Decomposition)

      第一步,EdiVal-Agent 會讓大模型(如 GPT-4o)先“看懂”一張圖片。它會自動識別出圖中所有可見對象,并為每個對象生成結(jié)構(gòu)化的描述——包括顏色(color)、材質(zhì)(material)、物體上是否存在文字(text)、數(shù)量(count) 和前景屬性 (foreground)。

      這些對象被匯總成一個對象池(Object Pool),并通過物體檢測器進行驗證過濾,為后續(xù)指令生成和評測打下基礎(chǔ)。

      2、指令生成(Instruction Generation)

      第二步,EdiVal-Agent 根據(jù)場景自動生成多輪編輯指令。 它擁有覆蓋9 種編輯類型、6 個語義類別的指令體系,包括:

      添加(add)、刪除(remove)、替換(replace)、 改顏色(color alter)、改材質(zhì)(material alter)、改文字(text change)、移動位置(position change)、改數(shù)量(count change)、換背景(background change)。

      EdiVal-Agent 會動態(tài)維護三個對象池:

      • All Objects Pool(所有出現(xiàn)過的對象)
      • Available Objects Pool(當(dāng)前可編輯的對象)
      • Unchanged Objects Pool(尚未被修改的對象)

      在每一輪編輯中,智能體都會:

      • 隨機選取指令類型;
      • 挑選合適對象;
      • 生成自然語言編輯指令;
      • 更新對象池狀態(tài)。

      默認設(shè)置為三輪(Turn 1 – Turn 3),也可以擴展到更長鏈條,實現(xiàn)更多輪可組合編輯。

      3、 自動評測(Evaluation)

      最后一步,EdiVal-Agent 從三個維度評估模型表現(xiàn):

      • EdiVal-IF(Instruction Following)判斷模型是否準確執(zhí)行指令——例如“把白馬換成鹿”是否真的完成。 對于符號任務(wù)(如位置或數(shù)量變化),使用 Grounding-DINO 等開放詞匯檢測器進行幾何驗證; 對于語義任務(wù)(如顏色或背景變化),則結(jié)合物體檢測器和VLM進行語義核對。
      • EdiVal-CC(Content Consistency)測量未被編輯的部分是否保持一致。 它計算背景區(qū)域(排除 All Objects Pool 中的所有物體)與未修改對象(屬于 Unchanged Objects Pool 的物體)之間的語義相似度,以確保模型不會“誤傷”無關(guān)區(qū)域。比如,下圖中GPT-Image-1編輯后的STOP 標志發(fā)生了明顯變化,而Nano Banana則更真實地保持了內(nèi)容一致性
      • EdiVal-VQ(Visual Quality)使用 Human Preference Score v3 評估整體視覺質(zhì)量,量化生成結(jié)果的美觀度自然度

      最終綜合指標EdiVal-O通過幾何平均融合EdiVal-IFEdiVal-CC,平衡“是否聽話”與“是否穩(wěn)定”。



      為什么不把 EdiVal-VQ 納入總體分數(shù)?

      在評估中,我們發(fā)現(xiàn)“視覺質(zhì)量(EdiVal-VQ)”雖然重要,但并不適合直接計入綜合得分。以指令“將背景換成圖書館”為例:

      • GPT-Image-1會傾向于“美化”圖像,讓整體更光亮、更清晰,從而提升審美得分
      • FLUX.1-Kontext-max則選擇“保真”策略,盡量保持原始風(fēng)格,只替換必要區(qū)域。



      這說明不同模型在面對同一任務(wù)時,有的更追求視覺美感(beautification),有的更注重和保真(preservation)。由于在圖像編輯中,是否應(yīng)追求“美化”仍存在爭議,因此我們未將 EdiVal-VQ 納入最終評測指標。

      EdiVal-Agent 的人類一致性驗證

      EdiVal-Agent評測結(jié)果能否“想法與人一致”?

      我們設(shè)計了一項人類一致性實驗(Human Agreement Study),來檢驗 EdiVal-Agent 的評測結(jié)果,是否真正符合人類判斷。結(jié)果如下:



      EdiVal-Agent 的指標EdiVal-IF與人類判斷的平均一致率高達81.3%。相比之下,傳統(tǒng)評測方法的表現(xiàn)明顯更低:

      • VLM-only(Qwen-2.5-VL):75.2%
      • CLIP-dir(CLIP-directional similarity):68.9%

      換句話說,EdiVal-Agent 不僅能“算得對”,更能“想得像人”。此外,人工之間的一致率為85.5%,這意味著——EdiVal-Agent 的表現(xiàn)已接近人類評測的上限

      為什么 EdiVal-IF 與人類判斷更為一致?

      符號任務(wù)更精準。對于“添加 / 刪除 / 替換 / 移動 / 改數(shù)量”等符號(symbolic)任務(wù),EdiVal-IF使用Grounding-DINO精確檢測目標是否真的出現(xiàn)、移動或消失,幾乎沒有歧義。相比之下,VLM模型則容易受到幻覺(Hallucination)空間推理(Spatial Reasoning)的限制。

      語義任務(wù)更智能。 對于“改顏色 / 改材質(zhì) / 改文字 / 換背景”等語義(semantic)任務(wù),EdiVal-IFVLM(Qwen-2.5-VL)對象檢測(Object Detection)相結(jié)合,先定位,再推理,讓模型真正做到“對著圖回答問題”。

      結(jié)果表明,這種檢測 + 推理融合的方式,比單純讓大模型“看圖說話”更加穩(wěn)定、可靠。

      誰才是最強圖像編輯模型?

      在本文提出的多輪圖像編輯EdiVal-Bench上,EdiVal-Agent系統(tǒng)對比了13 個代表性模型,涵蓋閉源與開源、in-context和context-free,F(xiàn)low Matching與Diffusion等不同范式。結(jié)果如下:



      其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型內(nèi)容一致性的能力。EdiVal-O是兩者的幾何平均值,為最終評分。可以看到:

      • Seedream 4.0 在指令遵循能力上遙遙領(lǐng)先,并且在最終評分上全面超越國際閉源模型,排名第一;
      • Nano Banana在速度(Latency)與質(zhì)量上達成完美平衡,在內(nèi)容一致性上尤為出色,排名第二;
      • GPT-Image-1指令遵循能力上出色,因追求美觀(見上文)而犧牲一致性,位列第三;
      • Qwen-Image-Edit出現(xiàn)典型“曝光偏差(exposure bias)”:在編輯次數(shù)變多時越改越偏,其在開源模型中排名第一,總排名第六。

      評測結(jié)果也解釋了為什么ChatGPT-4o在吉卜力風(fēng)格遷移指令遵循美化效果出圈,而Nano Banana在OOTD這些背景/物體一致性要求比較高的任務(wù)上出圈。

      更多實驗結(jié)果與詳細分析(比如關(guān)于in-context和complex editing),歡迎閱讀原文。

      關(guān)于作者

      論文作者成員來自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,兩位共同一作分別是陳天鈺,張雅思。

      陳天鈺,得克薩斯大學(xué)奧斯汀分校(UT-Austin)統(tǒng)計系博士生(三年級),導(dǎo)師為周名遠教授。碩士畢業(yè)于芝加哥大學(xué),本科畢業(yè)于復(fù)旦大學(xué)統(tǒng)計系。研究方向涵蓋生成模型、強化學(xué)習(xí)、因果推斷與表示學(xué)習(xí)等,目前與Microsoft GenAI開展長期合作研究。

      張雅思,加州大學(xué)洛杉磯分校(UCLA)統(tǒng)計與數(shù)據(jù)科學(xué)系博士生(四年級),師從吳英年教授與 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模態(tài)學(xué)習(xí)、大模型后訓(xùn)練與計算機視覺,曾在Amazon AWS AI LabsGoogle Research從事相關(guān)研究工作。

      值得一提的是,兩位共一本科均畢業(yè)于復(fù)旦大學(xué)。



      陳天鈺



      張雅思

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      貝克漢姆14歲女兒家庭風(fēng)波中首次發(fā)聲,大布被曝,只想跟妹妹聯(lián)系

      貝克漢姆14歲女兒家庭風(fēng)波中首次發(fā)聲,大布被曝,只想跟妹妹聯(lián)系

      譯言
      2026-01-25 06:53:17
      炸裂!30歲短劇男頂流被曝涉毒,前女友實名舉報,原來吳京沒說錯

      炸裂!30歲短劇男頂流被曝涉毒,前女友實名舉報,原來吳京沒說錯

      林輕吟
      2026-01-26 22:05:50
      2026剛半個月,被官媒高調(diào)官宣喜訊的18歲全紅嬋,讓多少黑粉臉紅

      2026剛半個月,被官媒高調(diào)官宣喜訊的18歲全紅嬋,讓多少黑粉臉紅

      梨花黛娛
      2026-01-26 17:58:17
      財政壓力的下半場:退休人員占比近四成,才是硬賬

      財政壓力的下半場:退休人員占比近四成,才是硬賬

      超先聲
      2026-01-09 16:45:39
      3679 元起!蘋果突然上架 4 款翻新 iPhone

      3679 元起!蘋果突然上架 4 款翻新 iPhone

      全是技能
      2026-01-26 15:45:39
      清水梨紗:遠藤航就像一位親切的父親,他是個很溫柔的人

      清水梨紗:遠藤航就像一位親切的父親,他是個很溫柔的人

      懂球帝
      2026-01-26 17:30:13
      楊廣荒唐到什么程度?在皇宮內(nèi)立下奇葩規(guī)矩,讓妃子宮女十分難堪

      楊廣荒唐到什么程度?在皇宮內(nèi)立下奇葩規(guī)矩,讓妃子宮女十分難堪

      銘記歷史呀
      2026-01-06 01:08:47
      欠中國的錢,委內(nèi)瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

      欠中國的錢,委內(nèi)瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

      我是盲流
      2026-01-22 11:37:44
      婆婆當(dāng)了近四十年的老師,今年剛好退休,我還以為退休金最多4000

      婆婆當(dāng)了近四十年的老師,今年剛好退休,我還以為退休金最多4000

      五元講堂
      2026-01-26 11:26:26
      曝章澤天父母2011年已離婚,父親已重組家庭有小女兒,媽媽在賣藥

      曝章澤天父母2011年已離婚,父親已重組家庭有小女兒,媽媽在賣藥

      古希臘掌管月桂的神
      2026-01-25 15:42:46
      兩岸統(tǒng)一的風(fēng)向:賴清德由獨轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

      兩岸統(tǒng)一的風(fēng)向:賴清德由獨轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

      輝輝歷史記
      2026-01-09 17:46:37
      馬德興:亞足聯(lián)決定U17亞預(yù)賽將分區(qū),U20亞預(yù)賽將分級

      馬德興:亞足聯(lián)決定U17亞預(yù)賽將分區(qū),U20亞預(yù)賽將分級

      懂球帝
      2026-01-26 18:55:07
      梅西穿上新球衣!邁阿密國際球衣隊徽上新增一顆星!

      梅西穿上新球衣!邁阿密國際球衣隊徽上新增一顆星!

      氧氣是個地鐵
      2026-01-25 19:22:10
      749局:南海十二艘漁船同一海域失蹤,某國艦隊全員精神失常

      749局:南海十二艘漁船同一海域失蹤,某國艦隊全員精神失常

      故事那點事
      2026-01-22 08:15:06
      保時捷女銷冠來漢領(lǐng)取“特別貢獻獎”:去年賣出192臺車連續(xù)三年蟬聯(lián)銷冠,超60%是女顧客,今年沒有定目標

      保時捷女銷冠來漢領(lǐng)取“特別貢獻獎”:去年賣出192臺車連續(xù)三年蟬聯(lián)銷冠,超60%是女顧客,今年沒有定目標

      極目新聞
      2026-01-24 18:12:15
      弘一法師:不要太操心你的孩子和在意的親人,每個人都有自己的命

      弘一法師:不要太操心你的孩子和在意的親人,每個人都有自己的命

      木言觀
      2026-01-18 13:56:24
      今晚得控制情緒!迪亞洛6次技犯并列領(lǐng)跑榜單 累計達8次將追加停賽

      今晚得控制情緒!迪亞洛6次技犯并列領(lǐng)跑榜單 累計達8次將追加停賽

      狼叔評論
      2026-01-26 12:22:04
      U17國足將在5月迎亞洲杯 國足劍指冠軍 我們年輕一代很有希望

      U17國足將在5月迎亞洲杯 國足劍指冠軍 我們年輕一代很有希望

      環(huán)球體壇啄木鳥
      2026-01-26 13:54:33
      澳網(wǎng)18連勝!辛納三盤橫掃22號種子,第14次躋身大滿貫八強

      澳網(wǎng)18連勝!辛納三盤橫掃22號種子,第14次躋身大滿貫八強

      全景體育V
      2026-01-26 17:31:43
      回顧許家印被抓捕現(xiàn)場,奮力反抗,怒吼不已,被抓捕人員抬出去

      回顧許家印被抓捕現(xiàn)場,奮力反抗,怒吼不已,被抓捕人員抬出去

      干史人
      2026-01-08 22:47:00
      2026-01-26 22:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12193文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      C919新年交付開門紅 被指今年有望實現(xiàn)每15天造一架

      頭條要聞

      C919新年交付開門紅 被指今年有望實現(xiàn)每15天造一架

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經(jīng)要聞

      從美式斬殺線看中國社會的制度韌性構(gòu)建

      汽車要聞

      賓利第四臺Batur敞篷版發(fā)布 解鎖四項定制創(chuàng)新

      態(tài)度原創(chuàng)

      本地
      家居
      藝術(shù)
      數(shù)碼
      公開課

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      家居要聞

      流韻雅居,讓復(fù)雜變純粹

      藝術(shù)要聞

      溥心畬的花鳥,淡雅清新

      數(shù)碼要聞

      首發(fā)可用NVIDIA DLSS 4.5,480幀的《明日方舟:終末地》體驗如何

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版