網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)標(biāo)GPT-4o和香蕉！浙大開(kāi)源ContextGen：布局身份協(xié)同新SOTA

2025-12-22 12:18:52　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】浙江大學(xué)ReLER團(tuán)隊(duì)開(kāi)源ContextGen框架，攻克多實(shí)例圖像生成中布局與身份協(xié)同控制難題。基于Diffusion Transformer架構(gòu)，通過(guò)雙重注意力機(jī)制，實(shí)現(xiàn)布局精準(zhǔn)錨定與身份高保真隔離，在基準(zhǔn)測(cè)試中超越開(kāi)源SOTA模型，對(duì)標(biāo)GPT-4o等閉源系統(tǒng)，為定制化AI圖像生成帶來(lái)新突破。

在定制化AI圖像生成領(lǐng)域，多實(shí)例圖像生成（MIG）面臨一個(gè)關(guān)鍵的協(xié)同控制挑戰(zhàn)：精確布局控制和多主體身份保真的同步實(shí)現(xiàn)。

現(xiàn)有方法往往只能達(dá)成二者之一，少數(shù)能兼顧的方法在性能上也存在顯著不足。

為解決這一布局與身份的協(xié)同控制瓶頸，浙江大學(xué)ReLER團(tuán)隊(duì)提出了ContextGen框架，首次在Diffusion Transformer (DiT) 架構(gòu)內(nèi)部，通過(guò)雙重上下文注意力機(jī)制實(shí)現(xiàn)了架構(gòu)級(jí)的分層解耦控制。

ContextGen在基準(zhǔn)測(cè)試上，身份保持能力超越SOTA開(kāi)源模型，并成功對(duì)標(biāo)了GPT-4o和Nano-Banana等強(qiáng)大的閉源系統(tǒng)，實(shí)現(xiàn)了在復(fù)雜定制化控制方面實(shí)現(xiàn)了關(guān)鍵突破。

論文地址：https://arxiv.org/abs/2510.11000

代碼地址：https://github.com/nenhang/ContextGen

行業(yè)痛點(diǎn)

多實(shí)例生成中的「協(xié)同控制挑戰(zhàn)」

當(dāng)前MIG模型在實(shí)際應(yīng)用中，主要表現(xiàn)出在布局精準(zhǔn)度與身份保真度協(xié)同控制上的挑戰(zhàn)：

宏觀布局難以固化：即使模型顯式提供了布局控制功能，生成的多個(gè)實(shí)例也難以精確地錨定到用戶指定的空間位置，屬性泄露和實(shí)例遺失現(xiàn)象頻發(fā)，導(dǎo)致生成圖像的構(gòu)圖混亂且不符合預(yù)期。
身份細(xì)節(jié)極易丟失：目前很多模型都支持多主體定制化，但主體數(shù)量增加時(shí)，身份細(xì)節(jié)丟失的概率會(huì)顯著上升，生成結(jié)果往往無(wú)法忠實(shí)還原每個(gè)實(shí)例的獨(dú)特身份特征。

ContextGen的核心突破在于：它利用注意力機(jī)制控制的上下文學(xué)習(xí)，實(shí)現(xiàn)了對(duì)這兩個(gè)問(wèn)題的協(xié)同解決，并在多個(gè)關(guān)鍵基準(zhǔn)上達(dá)到了新的SOTA水平。

核心機(jī)制

布局錨定與身份隔離

ContextGen框架基于DiT架構(gòu)構(gòu)建，將所有輸入整合成一個(gè)統(tǒng)一的Token序列T，創(chuàng)新在于在DiT模塊中嵌入了兩個(gè)功能不同的「注意力核」。

宏觀布局控制模塊

上下文布局錨定 (Contextual Layout Anchoring, CLA)機(jī)制是DiT網(wǎng)絡(luò)的「布局控制器」，負(fù)責(zé)全局結(jié)構(gòu)和構(gòu)圖：

機(jī)制：該模塊采用的注意力掩碼MCLA允許查詢Token q與所有文本、圖像和布局Token進(jìn)行廣泛通信。

效果：通過(guò)在DiT模塊的前置和后置層建立宏觀約束，確保生成的實(shí)例能夠魯棒且精確地遵循用戶指定的布局要求。這種圖像層面的宏觀布局引導(dǎo)更適配于現(xiàn)有的DiT上下文學(xué)習(xí)機(jī)制，簡(jiǎn)單而有效地提升了布局控制的準(zhǔn)確性。

微觀身份隔離模塊

身份一致性注意力 (Instance Consistency Attention, ICA)機(jī)制是解決多主體身份混淆與丟失的「身份隔離器」：

機(jī)制：采用隔離式的注意力掩碼MICA，強(qiáng)制限制位于實(shí)例n邊界框Bn內(nèi)的查詢Token q，只能關(guān)注其自身區(qū)域Bn、文本T以及對(duì)應(yīng)的參考圖像Rn

效果：這一設(shè)計(jì)在DiT模塊的中間層，切斷了不同實(shí)例身份Token之間的交叉通信，它為每個(gè)實(shí)例創(chuàng)造了一個(gè)「注意力孤島」，從機(jī)制上保障了多主體身份信息的高保真隔離注入，這一機(jī)制在應(yīng)對(duì)實(shí)例重疊、壓縮等復(fù)雜場(chǎng)景時(shí)，能有效緩解身份信息丟失問(wèn)題，同時(shí)在上下文變長(zhǎng)時(shí)，也能維持魯棒的身份保真度。

輔助優(yōu)化與數(shù)據(jù)基石

DPO強(qiáng)化學(xué)習(xí)：引入直接偏好優(yōu)化 (DPO)，解決了監(jiān)督微調(diào)可能導(dǎo)致的布局僵硬復(fù)制問(wèn)題，從而增強(qiáng)了生成圖像的多樣性和自然度。

IMIG-100K數(shù)據(jù)集：團(tuán)隊(duì)同步發(fā)布了IMIG-100K，首個(gè)包含詳細(xì)布局與身份標(biāo)注的、含有不同難度層級(jí)的、大規(guī)模高質(zhì)量多實(shí)例合成數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

開(kāi)源SOTA，對(duì)標(biāo)閉源巨頭

ContextGen的性能突破，體現(xiàn)在布局精度和身份保持兩個(gè)維度：

布局精度提升：在COCO-MIG基準(zhǔn)上，空間準(zhǔn)確性(mIoU) 實(shí)現(xiàn)了+5.9%提升，驗(yàn)證了ContextGen在精確構(gòu)圖上的領(lǐng)先性。

身份保持的突破：在LAMICBench++身份保持測(cè)試中，ContextGen的在較多主體下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等閉源模型。這一關(guān)鍵結(jié)果證明了ContextGen在復(fù)雜多主體場(chǎng)景中，對(duì)細(xì)節(jié)的保真還原能力。

定性結(jié)果清晰顯示，ContextGen也能還原細(xì)粒度的面部特征，也能靈活融合不同風(fēng)格的參考圖像，同時(shí)還能遵循用戶的布局設(shè)計(jì)要求。

前端支持

用戶友好界面

團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)簡(jiǎn)單的前端界面，用戶可以上傳自己的參考圖像，方便地設(shè)計(jì)布局，從而定制化生成多實(shí)例圖像。

結(jié)語(yǔ)

ContextGen框架通過(guò)在DiT架構(gòu)中引入CLA和ICA雙核注意力機(jī)制，創(chuàng)新性地實(shí)現(xiàn)了宏觀布局和微觀身份信息的架構(gòu)級(jí)分層解耦。

這一工作不僅為多實(shí)例生成提供了SOTA解決方案，成功突破了布局與身份的協(xié)同控制瓶頸，也為DiT等基礎(chǔ)擴(kuò)散模型在高度定制化AIGC任務(wù)中的應(yīng)用開(kāi)辟了新的技術(shù)路徑。

作者簡(jiǎn)介

本工作由浙江大學(xué)ReLER團(tuán)隊(duì)完成，其中第一作者是浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院本科生許瑞航，通訊作者為浙江大學(xué)求是講席教授楊易老師。ReLER團(tuán)隊(duì)長(zhǎng)期致力于人工智能領(lǐng)域的前沿研究，包括但不限于生成模型、多模態(tài)學(xué)習(xí)、AI+X等方向。

參考資料：

https://arxiv.org/abs/2510.11000

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo)，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.