![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】浙江大學(xué)ReLER團(tuán)隊(duì)開(kāi)源ContextGen框架,攻克多實(shí)例圖像生成中布局與身份協(xié)同控制難題。基于Diffusion Transformer架構(gòu),通過(guò)雙重注意力機(jī)制,實(shí)現(xiàn)布局精準(zhǔn)錨定與身份高保真隔離,在基準(zhǔn)測(cè)試中超越開(kāi)源SOTA模型,對(duì)標(biāo)GPT-4o等閉源系統(tǒng),為定制化AI圖像生成帶來(lái)新突破。
在定制化AI圖像生成領(lǐng)域,多實(shí)例圖像生成(MIG)面臨一個(gè)關(guān)鍵的協(xié)同控制挑戰(zhàn):精確布局控制和多主體身份保真的同步實(shí)現(xiàn)。
現(xiàn)有方法往往只能達(dá)成二者之一,少數(shù)能兼顧的方法在性能上也存在顯著不足。
為解決這一布局與身份的協(xié)同控制瓶頸,浙江大學(xué)ReLER團(tuán)隊(duì)提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架構(gòu)內(nèi)部,通過(guò)雙重上下文注意力機(jī)制實(shí)現(xiàn)了架構(gòu)級(jí)的分層解耦控制。
ContextGen在基準(zhǔn)測(cè)試上,身份保持能力超越SOTA開(kāi)源模型,并成功對(duì)標(biāo)了GPT-4o和Nano-Banana等強(qiáng)大的閉源系統(tǒng),實(shí)現(xiàn)了在復(fù)雜定制化控制方面實(shí)現(xiàn)了關(guān)鍵突破。
![]()
論文地址:https://arxiv.org/abs/2510.11000
代碼地址:https://github.com/nenhang/ContextGen
行業(yè)痛點(diǎn)
多實(shí)例生成中的「協(xié)同控制挑戰(zhàn)」
![]()
當(dāng)前MIG模型在實(shí)際應(yīng)用中,主要表現(xiàn)出在布局精準(zhǔn)度與身份保真度協(xié)同控制上的挑戰(zhàn):
宏觀布局難以固化:即使模型顯式提供了布局控制功能,生成的多個(gè)實(shí)例也難以精確地錨定到用戶指定的空間位置,屬性泄露和實(shí)例遺失現(xiàn)象頻發(fā),導(dǎo)致生成圖像的構(gòu)圖混亂且不符合預(yù)期。
身份細(xì)節(jié)極易丟失:目前很多模型都支持多主體定制化,但主體數(shù)量增加時(shí),身份細(xì)節(jié)丟失的概率會(huì)顯著上升,生成結(jié)果往往無(wú)法忠實(shí)還原每個(gè)實(shí)例的獨(dú)特身份特征。
ContextGen的核心突破在于:它利用注意力機(jī)制控制的上下文學(xué)習(xí),實(shí)現(xiàn)了對(duì)這兩個(gè)問(wèn)題的協(xié)同解決,并在多個(gè)關(guān)鍵基準(zhǔn)上達(dá)到了新的SOTA水平。
核心機(jī)制
布局錨定與身份隔離
![]()
ContextGen框架基于DiT架構(gòu)構(gòu)建,將所有輸入整合成一個(gè)統(tǒng)一的Token序列T,創(chuàng)新在于在DiT模塊中嵌入了兩個(gè)功能不同的「注意力核」。
宏觀布局控制模塊
上下文布局錨定 (Contextual Layout Anchoring, CLA)機(jī)制是DiT網(wǎng)絡(luò)的「布局控制器」,負(fù)責(zé)全局結(jié)構(gòu)和構(gòu)圖:
機(jī)制:該模塊采用的注意力掩碼MCLA允許查詢Token q與所有文本、圖像和布局Token進(jìn)行廣泛通信。
效果:通過(guò)在DiT模塊的前置和后置層建立宏觀約束,確保生成的實(shí)例能夠魯棒且精確地遵循用戶指定的布局要求。這種圖像層面的宏觀布局引導(dǎo)更適配于現(xiàn)有的DiT上下文學(xué)習(xí)機(jī)制,簡(jiǎn)單而有效地提升了布局控制的準(zhǔn)確性。
微觀身份隔離模塊
身份一致性注意力 (Instance Consistency Attention, ICA)機(jī)制是解決多主體身份混淆與丟失的「身份隔離器」:
機(jī)制:采用隔離式的注意力掩碼MICA,強(qiáng)制限制位于實(shí)例n邊界框Bn內(nèi)的查詢Token q,只能關(guān)注其自身區(qū)域Bn、文本T以及對(duì)應(yīng)的參考圖像Rn
效果:這一設(shè)計(jì)在DiT模塊的中間層,切斷了不同實(shí)例身份Token之間的交叉通信,它為每個(gè)實(shí)例創(chuàng)造了一個(gè)「注意力孤島」,從機(jī)制上保障了多主體身份信息的高保真隔離注入,這一機(jī)制在應(yīng)對(duì)實(shí)例重疊、壓縮等復(fù)雜場(chǎng)景時(shí),能有效緩解身份信息丟失問(wèn)題,同時(shí)在上下文變長(zhǎng)時(shí),也能維持魯棒的身份保真度。
輔助優(yōu)化與數(shù)據(jù)基石
![]()
DPO強(qiáng)化學(xué)習(xí):引入直接偏好優(yōu)化 (DPO),解決了監(jiān)督微調(diào)可能導(dǎo)致的布局僵硬復(fù)制問(wèn)題,從而增強(qiáng)了生成圖像的多樣性和自然度。
![]()
IMIG-100K數(shù)據(jù)集:團(tuán)隊(duì)同步發(fā)布了IMIG-100K,首個(gè)包含詳細(xì)布局與身份標(biāo)注的、含有不同難度層級(jí)的、大規(guī)模高質(zhì)量多實(shí)例合成數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果
開(kāi)源SOTA,對(duì)標(biāo)閉源巨頭
ContextGen的性能突破,體現(xiàn)在布局精度和身份保持兩個(gè)維度:
布局精度提升:在COCO-MIG基準(zhǔn)上,空間準(zhǔn)確性(mIoU) 實(shí)現(xiàn)了+5.9%提升,驗(yàn)證了ContextGen在精確構(gòu)圖上的領(lǐng)先性。
![]()
身份保持的突破:在LAMICBench++身份保持測(cè)試中,ContextGen的在較多主體下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等閉源模型。這一關(guān)鍵結(jié)果證明了ContextGen在復(fù)雜多主體場(chǎng)景中,對(duì)細(xì)節(jié)的保真還原能力。
![]()
定性結(jié)果清晰顯示,ContextGen也能還原細(xì)粒度的面部特征,也能靈活融合不同風(fēng)格的參考圖像,同時(shí)還能遵循用戶的布局設(shè)計(jì)要求。
![]()
![]()
![]()
前端支持
用戶友好界面
團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)簡(jiǎn)單的前端界面,用戶可以上傳自己的參考圖像,方便地設(shè)計(jì)布局,從而定制化生成多實(shí)例圖像。

結(jié)語(yǔ)
ContextGen框架通過(guò)在DiT架構(gòu)中引入CLA和ICA雙核注意力機(jī)制,創(chuàng)新性地實(shí)現(xiàn)了宏觀布局和微觀身份信息的架構(gòu)級(jí)分層解耦。
這一工作不僅為多實(shí)例生成提供了SOTA解決方案,成功突破了布局與身份的協(xié)同控制瓶頸,也為DiT等基礎(chǔ)擴(kuò)散模型在高度定制化AIGC任務(wù)中的應(yīng)用開(kāi)辟了新的技術(shù)路徑。
作者簡(jiǎn)介
本工作由浙江大學(xué)ReLER團(tuán)隊(duì)完成,其中第一作者是浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院本科生許瑞航,通訊作者為浙江大學(xué)求是講席教授楊易老師。ReLER團(tuán)隊(duì)長(zhǎng)期致力于人工智能領(lǐng)域的前沿研究,包括但不限于生成模型、多模態(tài)學(xué)習(xí)、AI+X等方向。
參考資料:
https://arxiv.org/abs/2510.11000
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.