浙大提出ContextGen，實現(xiàn)布局錨定多實例生成新SOTA

2025-12-23 15:30:26　來源: 機器之心Pro

河北舉報

分享至

隨著擴散模型（Diffusion Models）的迭代演進，圖像生成已經(jīng)日臻成熟。然而，在多實例圖像生成（Multi-Instance Image Generation, MIG）這一有著大量用戶場景的關鍵領域，現(xiàn)有的方法仍面臨核心瓶頸：如何同時實現(xiàn)對多個對象的空間布局控制（Layout Control）以及身份特征的良好保持（Identity Preservation）。

主流方法往往無法做到兩全其美：依賴文本和布局引導（Layout-to-Image）的模型往往難以實現(xiàn)高度的實例定制化，且實例遺漏、屬性泄露的問題時有發(fā)生；而主流的主體驅(qū)動（Subject-driven）方法在主體數(shù)量增加時，面臨著嚴重的身份混淆和細節(jié)丟失的問題。

ContextGen 與主流 SOTA 的對比示例，以及 ContextGen 的使用例

為解決這一制約高度定制化圖像生成的難題，浙江大學 ReLER 團隊發(fā)布 ContextGen，一個新型的基于Diffusion Transformer (DiT)的框架，旨在通過上下文學習，可靠地完成圖像引導的多實例生成任務！

論文地址：https://arxiv.org/abs/2510.11000
項目地址：https://nenhang.github.io/ContextGen
開源代碼：https://github.com/nenhang/ContextGen
開源模型：https://huggingface.co/ruihangxu/ContextGen

ContextGen 提出了全新的上下文生成范式，通過整合布局圖像和多張參考圖像，將布局控制與身份保持的挑戰(zhàn)轉(zhuǎn)化為統(tǒng)一的上下文建模問題。

雙核驅(qū)動：實現(xiàn)布局與身份的雙重保真

ContextGen 的雙重核心機制，共同作用于統(tǒng)一的上下文 Token 序列上：

ContextGen 框架結(jié)構概覽

上下文布局錨定（Contextual Layout Anchoring, CLA）

CLA 機制聚焦于全局上下文的引導，接受用戶設計（或者模型自動拼合）的布局圖像作為輸入，以提供精確的全局布局控制和初步的身份信息。它通過在 DiT 模塊的前置層和后置層部署自注意力機制，確保文本、待生成圖像和布局圖像三者進行充分注意力交互，對整體圖像結(jié)構進行有效控制。

身份一致性注意力（Identity Consistency Attention, ICA）

ICA 機制聚焦細粒度的身份注入，利用原始高保真度的參考圖像，將身份信息注入到其對應的目標位置，從而保障多個實例的身份一致性。它被部署到 DiT 模塊的中間層，通過一個隔離式的注意力掩碼，將參考圖像的 Token 與對應待去噪?yún)^(qū)域的 Token 建立連接，旨在緩解重疊或者壓縮導致的細節(jié)丟失問題，并在圖像序列增長時保證身份信息的穩(wěn)定注入。

這種的層次化的雙重注意力策略，有效地讓框架兼具了宏觀的布局控制和精細的實例級身份保持。此外，ContextGen 還采用了增強的位置索引策略，系統(tǒng)性地區(qū)分和組織統(tǒng)一 Token 序列中多圖像之間的關系。

數(shù)據(jù)基石：大規(guī)模詳細標注的多實例數(shù)據(jù)集

針對當前領域高質(zhì)量訓練數(shù)據(jù)稀缺的現(xiàn)狀，團隊同時推出了IMIG-100K 數(shù)據(jù)集。這是首個為圖像引導的多實例生成任務設計的大規(guī)模、具備不同難度層級、提供詳細布局和身份標注的合成數(shù)據(jù)集，其構建流程代碼也已經(jīng)開源，支持用戶根據(jù)自身需求生成定制化數(shù)據(jù)集。

IMIG-100K 數(shù)據(jù)集概覽

IMIG-100K 的布局、身份標注

性能優(yōu)化：DPO 強化學習解放創(chuàng)造力

團隊在訓練過程中發(fā)現(xiàn)，僅僅使用監(jiān)督微調(diào)容易使得模型過度參考布局圖像，導致生成的圖像缺乏多樣性和靈活性。為此，在監(jiān)督微調(diào)之外，ContextGen 還引入了基于偏好優(yōu)化（DPO）的強化學習階段。該階段將布局圖像作為非偏好輸入，鼓勵模型不僵硬復制布局內(nèi)容，生成更具創(chuàng)意和多樣性的圖像。

DPO 微調(diào)過程示例

實驗驗證：對標閉源模型，樹立性能標桿

在廣泛的定量和定性評估中，ContextGen 展現(xiàn)出卓越的 SOTA 性能。

身份保持：比肩閉源巨頭

在LAMICBench++基準測試中，ContextGen 不僅超越了所有開源模型（平均得分提升+1.3%），更在身份一致性上比肩了一些閉源的商業(yè)巨頭，在多實例的復雜場景中，ContextGen 在人物身份保持 (IDS) 和物體特征保持 (IPS) 上甚至可以和 GPT-4o 和 Nano Banana 一較高下。

LAMICBench++ 基準的定量對比

LAMICBench++ 基準的定性對比1

LAMICBench++ 基準的定性對比2

布局與屬性控制：準確率大幅提升

在COCO-MIG上，ContextGen 在實例級成功率 (I-SR) 上提升+3.3%，空間準確性 (mIoU) 提升+5.9%。在LayoutSAM-Eval中，ContextGen 在顏色、材質(zhì)等屬性的正確率上也超過了現(xiàn)有的模型。

COCO-MIG 和 LayoutSAM-Eval 基準的定量比較

COCO-MIG 基準的定性比較

LayoutSam-Eval 基準的定性比較

這些結(jié)果充分證明了 ContextGen 在多實例圖像生成任務中的強大能力，成功實現(xiàn)了對布局和身份的雙重精確控制。

前端支持：便捷的用戶交互

為了方便用戶體驗，在項目中團隊增加了一個簡單易用的前端界面，支持用戶上傳參考圖像、以文本的形式添加新素材、通過拖拽方便地設計布局，生成多實例圖像。

ContextGen 前端交互界面

展望與未來

ContextGen 通過帶有雙重注意力的上下文機制，為高度可控的多實例生成提供了一個強大且可行的 DiT 框架。ReLER 團隊進一步提出，如何更智能地理解用戶的文本意圖與多模態(tài)參考，仍然是一個值得深入探索的課題。未來，團隊計劃進一步優(yōu)化模型架構，提升生成效率，并探索更多樣化的用戶交互方式，以滿足更廣泛的應用需求。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.