<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Seedream4.0大戰NanoBanana、GPT-4o?EdiVal-Agent 終結編輯評測

      0
      分享至



      在 AIGC 的下一個階段,圖像編輯(Image Editing)正逐漸取代一次性生成,成為檢驗多模態模型理解、生成與推理能力的關鍵場景。我們該如何科學、公正地評測這些圖像編輯模型?

      為了解決這一難題,來自得克薩斯大學奧斯汀分校、UCLA、微軟等機構的研究者們共同提出了EdiVal-Agent,一個以對象為中心自動化細粒度多輪編輯(Multi-Turn Editing)評估框架。

      EdiVal-Agent的名字巧妙地融合了“Editing”(編輯)和“Evaluation”(評估),并以“Agent”(智能體)的形式呈現,寓意它是一個能夠自主執行復雜評估任務智能系統。它不僅能自動化生成多樣化的編輯指令,還能從指令遵循,內容一致性,視覺質量多維度對編輯結果進行精細評估,其評估結果與人類判斷的一致性顯著優于現有方法。



      • 論文題目:
      • EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
      • 論文鏈接:
      • https://arxiv.org/abs/2509.13399
      • 項目主頁:
      • https://tianyucodings.github.io/EdiVAL-page/

      評測:如何定義“好”的編輯?

      當前主流評測分為兩類:

      1、基于參考圖像(Reference-based):依賴成對的參考圖像,覆蓋面有限,還容易繼承舊模型的偏差。

      2、基于大模型打分(VLM-based):用視覺語言模型(VLM)通過提示語打分,看似方便卻問題重重:空間理解差,常誤判物體位置關系;細節不敏感,難察覺局部微小修改;審美失準,對生成瑕疵(artifacts)缺乏感知。結果是,VLM 單評雖“方便”,卻難以精確可靠地衡量編輯質量。

      EdiVal-Agent :圖像編輯界的“評測裁判”

      EdiVal-Agent是一個面向對象自動評測智能體。它能像人類一樣,識別圖像中的每個對象,理解編輯語義,并在多輪編輯動態追蹤變化。

      在講工作流之前,我們先來看一組直觀的測試結果。

      Base Image:兩匹馬

      • Turn 1:添加文字 “HORSES
      • Turn 2:棕色的馬換成一只鹿
      • Turn 3:白馬的毛色改成棕色



      聽起來很簡單,對吧?但當我們讓各家頂尖模型來完成這三步時,結果卻大不相同。

      GPT-Image-1(OpenAI) 指令執行得不錯,但背景和細節越來越不一致。

      Qwen-Image-Edit(阿里)視覺質量和一致性上雙雙失手,第三輪后出現明顯“過曝感”。

      FLUX.1-Kontext-dev(Black Forest Labs) 基本能保留背景,但理解指令有偏差,比如第三輪“白馬的毛色改成棕色”執行失敗。

      Nano Banana(Google Gemini 2.5 Flash) 表現最平衡——穩、準、無明顯短板

      在剛才的對比中,我們看到不同模型在多輪編輯下表現差異明顯。那 EdiVal-Agent 是如何實現自動評測、做到“既懂圖又懂語義”的呢?答案來自它精心設計的三步工作流。



      1、圖像分解(Decomposition)

      第一步,EdiVal-Agent 會讓大模型(如 GPT-4o)先“看懂”一張圖片。它會自動識別出圖中所有可見對象,并為每個對象生成結構化的描述——包括顏色(color)、材質(material)、物體上是否存在文字(text)、數量(count) 和前景屬性 (foreground)。

      這些對象被匯總成一個對象池(Object Pool),并通過物體檢測器進行驗證過濾,為后續指令生成和評測打下基礎。

      2、指令生成(Instruction Generation)

      第二步,EdiVal-Agent 根據場景自動生成多輪編輯指令。 它擁有覆蓋9 種編輯類型、6 個語義類別的指令體系,包括:

      添加(add)、刪除(remove)、替換(replace)、 改顏色(color alter)、改材質(material alter)、改文字(text change)、移動位置(position change)、改數量(count change)、換背景(background change)。

      EdiVal-Agent 會動態維護三個對象池:

      • All Objects Pool(所有出現過的對象)
      • Available Objects Pool(當前可編輯的對象)
      • Unchanged Objects Pool(尚未被修改的對象)

      在每一輪編輯中,智能體都會:

      • 隨機選取指令類型;
      • 挑選合適對象;
      • 生成自然語言編輯指令;
      • 更新對象池狀態。

      默認設置為三輪(Turn 1 – Turn 3),也可以擴展到更長鏈條,實現更多輪可組合編輯。

      3、 自動評測(Evaluation)

      最后一步,EdiVal-Agent 從三個維度評估模型表現:

      • EdiVal-IF(Instruction Following)判斷模型是否準確執行指令——例如“把白馬換成鹿”是否真的完成。 對于符號任務(如位置或數量變化),使用 Grounding-DINO 等開放詞匯檢測器進行幾何驗證; 對于語義任務(如顏色或背景變化),則結合物體檢測器和VLM進行語義核對。
      • EdiVal-CC(Content Consistency)測量未被編輯的部分是否保持一致。 它計算背景區域(排除 All Objects Pool 中的所有物體)與未修改對象(屬于 Unchanged Objects Pool 的物體)之間的語義相似度,以確保模型不會“誤傷”無關區域。比如,下圖中GPT-Image-1編輯后的STOP 標志發生了明顯變化,而Nano Banana則更真實地保持了內容一致性
      • EdiVal-VQ(Visual Quality)使用 Human Preference Score v3 評估整體視覺質量,量化生成結果的美觀度自然度

      最終綜合指標EdiVal-O通過幾何平均融合EdiVal-IFEdiVal-CC,平衡“是否聽話”與“是否穩定”。



      為什么不把 EdiVal-VQ 納入總體分數?

      在評估中,我們發現“視覺質量(EdiVal-VQ)”雖然重要,但并不適合直接計入綜合得分。以指令“將背景換成圖書館”為例:

      • GPT-Image-1會傾向于“美化”圖像,讓整體更光亮、更清晰,從而提升審美得分
      • FLUX.1-Kontext-max則選擇“保真”策略,盡量保持原始風格,只替換必要區域。



      這說明不同模型在面對同一任務時,有的更追求視覺美感(beautification),有的更注重和保真(preservation)。由于在圖像編輯中,是否應追求“美化”仍存在爭議,因此我們未將 EdiVal-VQ 納入最終評測指標。

      EdiVal-Agent 的人類一致性驗證

      EdiVal-Agent評測結果能否“想法與人一致”?

      我們設計了一項人類一致性實驗(Human Agreement Study),來檢驗 EdiVal-Agent 的評測結果,是否真正符合人類判斷。結果如下:



      EdiVal-Agent 的指標EdiVal-IF與人類判斷的平均一致率高達81.3%。相比之下,傳統評測方法的表現明顯更低:

      • VLM-only(Qwen-2.5-VL):75.2%
      • CLIP-dir(CLIP-directional similarity):68.9%

      換句話說,EdiVal-Agent 不僅能“算得對”,更能“想得像人”。此外,人工之間的一致率為85.5%,這意味著——EdiVal-Agent 的表現已接近人類評測的上限

      為什么 EdiVal-IF 與人類判斷更為一致?

      符號任務更精準。對于“添加 / 刪除 / 替換 / 移動 / 改數量”等符號(symbolic)任務,EdiVal-IF使用Grounding-DINO精確檢測目標是否真的出現、移動或消失,幾乎沒有歧義。相比之下,VLM模型則容易受到幻覺(Hallucination)空間推理(Spatial Reasoning)的限制。

      語義任務更智能。 對于“改顏色 / 改材質 / 改文字 / 換背景”等語義(semantic)任務,EdiVal-IFVLM(Qwen-2.5-VL)對象檢測(Object Detection)相結合,先定位,再推理,讓模型真正做到“對著圖回答問題”。

      結果表明,這種檢測 + 推理融合的方式,比單純讓大模型“看圖說話”更加穩定、可靠。

      誰才是最強圖像編輯模型?

      在本文提出的多輪圖像編輯EdiVal-Bench上,EdiVal-Agent系統對比了13 個代表性模型,涵蓋閉源與開源、in-context和context-free,Flow Matching與Diffusion等不同范式。結果如下:



      其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型內容一致性的能力。EdiVal-O是兩者的幾何平均值,為最終評分。可以看到:

      • Seedream 4.0 在指令遵循能力上遙遙領先,并且在最終評分上全面超越國際閉源模型,排名第一;
      • Nano Banana在速度(Latency)與質量上達成完美平衡,在內容一致性上尤為出色,排名第二;
      • GPT-Image-1指令遵循能力上出色,因追求美觀(見上文)而犧牲一致性,位列第三;
      • Qwen-Image-Edit出現典型“曝光偏差(exposure bias)”:在編輯次數變多時越改越偏,其在開源模型中排名第一,總排名第六。

      評測結果也解釋了為什么ChatGPT-4o在吉卜力風格遷移指令遵循美化效果出圈,而Nano Banana在OOTD這些背景/物體一致性要求比較高的任務上出圈。

      更多實驗結果與詳細分析(比如關于in-context和complex editing),歡迎閱讀原文。

      關于作者

      論文作者成員來自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,兩位共同一作分別是陳天鈺,張雅思。

      陳天鈺,得克薩斯大學奧斯汀分校(UT-Austin)統計系博士生(三年級),導師為周名遠教授。碩士畢業于芝加哥大學,本科畢業于復旦大學統計系。研究方向涵蓋生成模型、強化學習、因果推斷與表示學習等,目前與Microsoft GenAI開展長期合作研究。

      張雅思,加州大學洛杉磯分校(UCLA)統計與數據科學系博士生(四年級),師從吳英年教授與 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模態學習、大模型后訓練與計算機視覺,曾在Amazon AWS AI LabsGoogle Research從事相關研究工作。

      值得一提的是,兩位共一本科均畢業于復旦大學。



      陳天鈺



      張雅思

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國乒一行抵達香港!王曼昱熱得脫外套 王楚欽炫雪糕 林詩棟忙簽名

      國乒一行抵達香港!王曼昱熱得脫外套 王楚欽炫雪糕 林詩棟忙簽名

      顏小白的籃球夢
      2025-12-08 16:16:42
      美國擬30個月內全面對華禁售高端AI芯片!

      美國擬30個月內全面對華禁售高端AI芯片!

      中國半導體論壇
      2025-12-08 12:54:51
      恭喜王曼昱!與馬克龍握手,被選為官方封面照,不卑不亢大國自信

      恭喜王曼昱!與馬克龍握手,被選為官方封面照,不卑不亢大國自信

      十點街球體育
      2025-12-08 01:20:05
      滋擾中國海軍訓練,日本“賊喊捉賊”,中方不接受日方所謂交涉,已當場駁回

      滋擾中國海軍訓練,日本“賊喊捉賊”,中方不接受日方所謂交涉,已當場駁回

      環球網資訊
      2025-12-08 06:56:21
      醫學調研千名吸煙者,驚訝發現:易得肺癌的人,有這7個共性!

      醫學調研千名吸煙者,驚訝發現:易得肺癌的人,有這7個共性!

      健身狂人
      2025-12-08 15:16:56
      北京本周降溫顯著 周五前后將有降雪

      北京本周降溫顯著 周五前后將有降雪

      北青網-北京青年報
      2025-12-08 07:20:04
      年輕鎮長匯報獲書記稱贊,上車后組織部長接到指示:查他背后的人

      年輕鎮長匯報獲書記稱贊,上車后組織部長接到指示:查他背后的人

      曉艾故事匯
      2025-12-03 08:18:13
      新疆網紅wu木三亞去世,人長的帥,朋友曝死因,上個月新店才開業

      新疆網紅wu木三亞去世,人長的帥,朋友曝死因,上個月新店才開業

      鋭娛之樂
      2025-12-07 19:58:59
      當了半年主播,我終于明白:為什么99%的主播都掙不到錢了

      當了半年主播,我終于明白:為什么99%的主播都掙不到錢了

      草莓解說體育
      2025-12-01 03:16:54
      48年濟南頭號漢奸被捕,他只說了一句詩,軍管會主任大驚:是同志

      48年濟南頭號漢奸被捕,他只說了一句詩,軍管會主任大驚:是同志

      白云故事
      2025-11-20 12:10:08
      取名從來都是很難很難的事,直到上級指導你造假

      取名從來都是很難很難的事,直到上級指導你造假

      基本常識
      2025-12-06 23:44:51
      腿粗屁股大的女生太好看,吊帶背心搭配瑜伽褲,小姐姐笑的好開心

      腿粗屁股大的女生太好看,吊帶背心搭配瑜伽褲,小姐姐笑的好開心

      小喬古裝漢服
      2025-12-02 10:10:02
      99年朱總理訪美,被問中國給克林頓30萬獻金,總理:怎么才30萬?

      99年朱總理訪美,被問中國給克林頓30萬獻金,總理:怎么才30萬?

      WarOH協虎
      2024-12-01 22:10:02
      難怪鬼子不開戰!日本議員:中國只要用導彈打東京,日本就會完蛋

      難怪鬼子不開戰!日本議員:中國只要用導彈打東京,日本就會完蛋

      后世的君子
      2025-12-07 04:17:03
      北京電動車新規:2026年起,右耳君提醒您頭盔和手機

      北京電動車新規:2026年起,右耳君提醒您頭盔和手機

      右耳遠聞
      2025-12-08 12:43:16
      一場大洪水,他信家族起死回生了!

      一場大洪水,他信家族起死回生了!

      天真無牙
      2025-12-07 08:00:17
      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      妙知
      2025-11-05 15:19:50
      72歲曾志偉和紅顏知己現身日本大阪逛商場購物,手牽手很親密

      72歲曾志偉和紅顏知己現身日本大阪逛商場購物,手牽手很親密

      陳意小可愛
      2025-12-06 01:59:29
      史玉柱再陷債務危機,大半輩子都在還債

      史玉柱再陷債務危機,大半輩子都在還債

      冰川思想庫
      2025-07-21 12:31:53
      教育廳公示!湖北擬設置兩所公辦本科高校

      教育廳公示!湖北擬設置兩所公辦本科高校

      中國教育在線
      2025-12-08 15:57:51
      2025-12-08 17:00:50
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11868文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      游戲
      親子
      健康
      手機
      教育

      《節奏醫生》IGN9分!Steam好評如潮:音游天花板

      親子要聞

      奧運冠軍助陣!廣東“公益體彩 快樂操場”助力萌娃體育夢

      甲狀腺結節到這個程度,該穿刺了!

      手機要聞

      匯頂科技為三星首款三折疊屏手機觸控方案供應商

      教育要聞

      父母永遠不要與孩子分享的8件事,關系再好也別說

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 夜夜高潮夜夜爽国产伦精品| 亚洲成aⅴ人在线观看| av香港经典三级级 在线| 老熟女AV| 成人亚洲精品一区二区三区嫩花 | 久久久999| 中文国产日韩欧美二视频| 成人网站亚洲| 综合一区二区| 午夜dj在线观看免费视频| 亚洲午夜伦费影视在线观看| 黄www| 中文日韩人妻| 美女扒开尿口让男人桶| 一进一出一爽又粗又大| 国产精品一区中文字幕| 观塘区| 人妻少妇久久中文字幕| 久久精品中文字幕有码| 日本免费视频| 奇米影视7777久久精品| 亚洲人妻系列无码专区| 遂宁市| 99ri精品| 尹人97| 亚洲色无码| 99久久精品国产毛片| 2019香蕉在线观看直播视频| 91视频网站| 国产精品99久久免费| 久久久亚洲精品无码| 久久成人影院精品777| 九九国产视频| 阿克陶县| 久久精品99| 无码狠狠躁久久久久久久91| 日韩精品av一区二区三区| 成人午夜电影福利免费| 无码高潮少妇毛多水多水| 正在播放国产真实哭都没用| 55夜色66夜色国产精品视频|