<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      對(duì)標(biāo)GPT-4o和香蕉!浙大開(kāi)源ContextGen:布局身份協(xié)同新SOTA

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】浙江大學(xué)ReLER團(tuán)隊(duì)開(kāi)源ContextGen框架,攻克多實(shí)例圖像生成中布局與身份協(xié)同控制難題。基于Diffusion Transformer架構(gòu),通過(guò)雙重注意力機(jī)制,實(shí)現(xiàn)布局精準(zhǔn)錨定與身份高保真隔離,在基準(zhǔn)測(cè)試中超越開(kāi)源SOTA模型,對(duì)標(biāo)GPT-4o等閉源系統(tǒng),為定制化AI圖像生成帶來(lái)新突破。

      在定制化AI圖像生成領(lǐng)域,多實(shí)例圖像生成(MIG)面臨一個(gè)關(guān)鍵的協(xié)同控制挑戰(zhàn):精確布局控制多主體身份保真的同步實(shí)現(xiàn)。

      現(xiàn)有方法往往只能達(dá)成二者之一,少數(shù)能兼顧的方法在性能上也存在顯著不足。

      為解決這一布局與身份的協(xié)同控制瓶頸,浙江大學(xué)ReLER團(tuán)隊(duì)提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架構(gòu)內(nèi)部,通過(guò)雙重上下文注意力機(jī)制實(shí)現(xiàn)了架構(gòu)級(jí)的分層解耦控制。

      ContextGen在基準(zhǔn)測(cè)試上,身份保持能力超越SOTA開(kāi)源模型,并成功對(duì)標(biāo)了GPT-4o和Nano-Banana等強(qiáng)大的閉源系統(tǒng),實(shí)現(xiàn)了在復(fù)雜定制化控制方面實(shí)現(xiàn)了關(guān)鍵突破。


      論文地址:https://arxiv.org/abs/2510.11000

      代碼地址:https://github.com/nenhang/ContextGen

      行業(yè)痛點(diǎn)

      多實(shí)例生成中的「協(xié)同控制挑戰(zhàn)」


      當(dāng)前MIG模型在實(shí)際應(yīng)用中,主要表現(xiàn)出在布局精準(zhǔn)度與身份保真度協(xié)同控制上的挑戰(zhàn):

      1. 宏觀布局難以固化即使模型顯式提供了布局控制功能,生成的多個(gè)實(shí)例也難以精確地錨定到用戶指定的空間位置,屬性泄露和實(shí)例遺失現(xiàn)象頻發(fā),導(dǎo)致生成圖像的構(gòu)圖混亂且不符合預(yù)期。

      2. 身份細(xì)節(jié)極易丟失目前很多模型都支持多主體定制化,但主體數(shù)量增加時(shí),身份細(xì)節(jié)丟失的概率會(huì)顯著上升,生成結(jié)果往往無(wú)法忠實(shí)還原每個(gè)實(shí)例的獨(dú)特身份特征。

      ContextGen的核心突破在于:它利用注意力機(jī)制控制的上下文學(xué)習(xí),實(shí)現(xiàn)了對(duì)這兩個(gè)問(wèn)題的協(xié)同解決,并在多個(gè)關(guān)鍵基準(zhǔn)上達(dá)到了新的SOTA水平。

      核心機(jī)制

      布局錨定與身份隔離


      ContextGen框架基于DiT架構(gòu)構(gòu)建,將所有輸入整合成一個(gè)統(tǒng)一的Token序列T,創(chuàng)新在于在DiT模塊中嵌入了兩個(gè)功能不同的「注意力核」。

      宏觀布局控制模塊

      上下文布局錨定 (Contextual Layout Anchoring, CLA)機(jī)制是DiT網(wǎng)絡(luò)的「布局控制器」,負(fù)責(zé)全局結(jié)構(gòu)和構(gòu)圖:

      機(jī)制:該模塊采用的注意力掩碼MCLA允許查詢Token q與所有文本、圖像和布局Token進(jìn)行廣泛通信。

      效果:通過(guò)在DiT模塊的前置和后置層建立宏觀約束,確保生成的實(shí)例能夠魯棒且精確地遵循用戶指定的布局要求。這種圖像層面的宏觀布局引導(dǎo)更適配于現(xiàn)有的DiT上下文學(xué)習(xí)機(jī)制,簡(jiǎn)單而有效地提升了布局控制的準(zhǔn)確性。

      微觀身份隔離模塊

      身份一致性注意力 (Instance Consistency Attention, ICA)機(jī)制是解決多主體身份混淆與丟失的「身份隔離器」:

      機(jī)制:采用隔離式的注意力掩碼MICA,強(qiáng)制限制位于實(shí)例n邊界框Bn內(nèi)的查詢Token q,只能關(guān)注其自身區(qū)域Bn、文本T以及對(duì)應(yīng)的參考圖像Rn

      效果:這一設(shè)計(jì)在DiT模塊的中間層,切斷了不同實(shí)例身份Token之間的交叉通信,它為每個(gè)實(shí)例創(chuàng)造了一個(gè)「注意力孤島」,從機(jī)制上保障了多主體身份信息的高保真隔離注入,這一機(jī)制在應(yīng)對(duì)實(shí)例重疊、壓縮等復(fù)雜場(chǎng)景時(shí),能有效緩解身份信息丟失問(wèn)題,同時(shí)在上下文變長(zhǎng)時(shí),也能維持魯棒的身份保真度。

      輔助優(yōu)化與數(shù)據(jù)基石


      DPO強(qiáng)化學(xué)習(xí)引入直接偏好優(yōu)化 (DPO),解決了監(jiān)督微調(diào)可能導(dǎo)致的布局僵硬復(fù)制問(wèn)題,從而增強(qiáng)了生成圖像的多樣性和自然度。


      IMIG-100K數(shù)據(jù)集團(tuán)隊(duì)同步發(fā)布了IMIG-100K,首個(gè)包含詳細(xì)布局與身份標(biāo)注的、含有不同難度層級(jí)的、大規(guī)模高質(zhì)量多實(shí)例合成數(shù)據(jù)集。

      實(shí)驗(yàn)結(jié)果

      開(kāi)源SOTA,對(duì)標(biāo)閉源巨頭

      ContextGen的性能突破,體現(xiàn)在布局精度和身份保持兩個(gè)維度:

      布局精度提升:在COCO-MIG基準(zhǔn)上,空間準(zhǔn)確性(mIoU) 實(shí)現(xiàn)了+5.9%提升,驗(yàn)證了ContextGen在精確構(gòu)圖上的領(lǐng)先性。


      身份保持的突破:在LAMICBench++身份保持測(cè)試中,ContextGen的在較多主體下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等閉源模型。這一關(guān)鍵結(jié)果證明了ContextGen在復(fù)雜多主體場(chǎng)景中,對(duì)細(xì)節(jié)的保真還原能力。


      定性結(jié)果清晰顯示,ContextGen也能還原細(xì)粒度的面部特征,也能靈活融合不同風(fēng)格的參考圖像,同時(shí)還能遵循用戶的布局設(shè)計(jì)要求。




      前端支持

      用戶友好界面

      團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)簡(jiǎn)單的前端界面,用戶可以上傳自己的參考圖像,方便地設(shè)計(jì)布局,從而定制化生成多實(shí)例圖像。


      結(jié)語(yǔ)

      ContextGen框架通過(guò)在DiT架構(gòu)中引入CLA和ICA雙核注意力機(jī)制,創(chuàng)新性地實(shí)現(xiàn)了宏觀布局和微觀身份信息的架構(gòu)級(jí)分層解耦。

      這一工作不僅為多實(shí)例生成提供了SOTA解決方案,成功突破了布局與身份的協(xié)同控制瓶頸,也為DiT等基礎(chǔ)擴(kuò)散模型在高度定制化AIGC任務(wù)中的應(yīng)用開(kāi)辟了新的技術(shù)路徑。

      作者簡(jiǎn)介

      本工作由浙江大學(xué)ReLER團(tuán)隊(duì)完成,其中第一作者是浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院本科生許瑞航,通訊作者為浙江大學(xué)求是講席教授楊易老師。ReLER團(tuán)隊(duì)長(zhǎng)期致力于人工智能領(lǐng)域的前沿研究,包括但不限于生成模型、多模態(tài)學(xué)習(xí)、AI+X等方向。

      參考資料:

      https://arxiv.org/abs/2510.11000

      秒追ASI

      ?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

      點(diǎn)亮星標(biāo),鎖定新智元極速推送!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      冬至了,地球比夏至距離太陽(yáng)更近500萬(wàn)公里,為何反而更冷?

      冬至了,地球比夏至距離太陽(yáng)更近500萬(wàn)公里,為何反而更冷?

      火星一號(hào)
      2025-12-20 22:53:16
      成都今日將迎“極大雨”!

      成都今日將迎“極大雨”!

      CD潮生活
      2025-12-22 19:01:23
      繼海南之后,廣西和云南多地也開(kāi)始驅(qū)趕房車,究竟為哪般?

      繼海南之后,廣西和云南多地也開(kāi)始驅(qū)趕房車,究竟為哪般?

      趣味萌寵的日常
      2025-12-17 00:13:52
      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      阿纂看事
      2025-12-12 09:18:29
      A股:股民站穩(wěn)扶好,資金在瘋狂掃貨,明天將迎史詩(shī)級(jí)別行情?

      A股:股民站穩(wěn)扶好,資金在瘋狂掃貨,明天將迎史詩(shī)級(jí)別行情?

      股市皆大事
      2025-12-22 15:33:10
      四少平均21歲殺到西部第二!擺爛3年就崛起,天賦比雷霆還要恐怖

      四少平均21歲殺到西部第二!擺爛3年就崛起,天賦比雷霆還要恐怖

      你的籃球頻道
      2025-12-22 11:37:09
      日本G杯寫真偶像筱崎愛(ài)公布自己的派對(duì)服裝,粉絲驚嘆

      日本G杯寫真偶像筱崎愛(ài)公布自己的派對(duì)服裝,粉絲驚嘆

      隨波蕩漾的漂流瓶
      2025-12-22 17:50:08
      太慘了!漳州一汽修店突發(fā)大火,當(dāng)?shù)厝朔Q是老板23歲兒子活活燒死

      太慘了!漳州一汽修店突發(fā)大火,當(dāng)?shù)厝朔Q是老板23歲兒子活活燒死

      火山詩(shī)話
      2025-12-22 04:42:03
      悲催!網(wǎng)傳廣州一大廠搬遷珠海,有員工拒往被辭退,無(wú)經(jīng)濟(jì)補(bǔ)償…

      悲催!網(wǎng)傳廣州一大廠搬遷珠海,有員工拒往被辭退,無(wú)經(jīng)濟(jì)補(bǔ)償…

      火山詩(shī)話
      2025-12-21 09:44:59
      忍耐24小時(shí)后,蔣萬(wàn)安終于下令,臺(tái)北全城警戒,賴清德又胡作非為

      忍耐24小時(shí)后,蔣萬(wàn)安終于下令,臺(tái)北全城警戒,賴清德又胡作非為

      靚仔情感
      2025-12-22 12:42:43
      寧波5月女?huà)胧中g(shù)離世:劉良讓沉默證據(jù)開(kāi)口,醫(yī)療防線卻全面失守

      寧波5月女?huà)胧中g(shù)離世:劉良讓沉默證據(jù)開(kāi)口,醫(yī)療防線卻全面失守

      十為先生
      2025-12-22 17:46:34
      克林頓與愛(ài)潑斯坦案受害者共浴照片披露

      克林頓與愛(ài)潑斯坦案受害者共浴照片披露

      揚(yáng)子晚報(bào)
      2025-12-20 11:50:57
      為什么中國(guó)和俄國(guó)的歷史學(xué)界,都認(rèn)為《尼布楚條約》是自家吃虧?

      為什么中國(guó)和俄國(guó)的歷史學(xué)界,都認(rèn)為《尼布楚條約》是自家吃虧?

      文史道
      2025-12-22 13:29:06
      救救我!四川半場(chǎng)僅得16分落后北京36分,創(chuàng)造CBA上半場(chǎng)得分新低

      救救我!四川半場(chǎng)僅得16分落后北京36分,創(chuàng)造CBA上半場(chǎng)得分新低

      懂球帝
      2025-12-22 20:40:07
      調(diào)查發(fā)現(xiàn):晨起大量飲水者,用不了3個(gè)月,身體或迎來(lái)這5變化!

      調(diào)查發(fā)現(xiàn):晨起大量飲水者,用不了3個(gè)月,身體或迎來(lái)這5變化!

      小胡軍事愛(ài)好
      2025-11-27 10:46:30
      超美網(wǎng)紅曬觀戰(zhàn)熱火被驅(qū)逐視頻:老娘是公主!微笑+囂張步伐離場(chǎng)

      超美網(wǎng)紅曬觀戰(zhàn)熱火被驅(qū)逐視頻:老娘是公主!微笑+囂張步伐離場(chǎng)

      Emily說(shuō)個(gè)球
      2025-12-22 11:33:47
      南博風(fēng)波后續(xù):全網(wǎng)追查“借畫(huà)不還”的神秘老同志,揭開(kāi)歷史迷霧

      南博風(fēng)波后續(xù):全網(wǎng)追查“借畫(huà)不還”的神秘老同志,揭開(kāi)歷史迷霧

      公子麥少
      2025-12-21 14:54:43
      全紅嬋重返國(guó)家隊(duì),身高近170穿黑衣氣場(chǎng)強(qiáng),陳若琳沒(méi)騎電車接她

      全紅嬋重返國(guó)家隊(duì),身高近170穿黑衣氣場(chǎng)強(qiáng),陳若琳沒(méi)騎電車接她

      瘋說(shuō)時(shí)尚
      2025-12-22 09:37:10
      300萬(wàn)人連夜注銷攜程!平臺(tái)推柬埔寨旅游惹眾怒,至今未道歉

      300萬(wàn)人連夜注銷攜程!平臺(tái)推柬埔寨旅游惹眾怒,至今未道歉

      胡嚴(yán)亂語(yǔ)
      2025-12-21 14:49:26
      人算不如天算!年底天降大喜,3大生肖好運(yùn)上上簽,生意興隆

      人算不如天算!年底天降大喜,3大生肖好運(yùn)上上簽,生意興隆

      人閒情事
      2025-12-22 16:32:27
      2025-12-22 21:32:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14156文章數(shù) 66394關(guān)注度
      往期回顧 全部

      科技要聞

      商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

      頭條要聞

      特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國(guó)

      頭條要聞

      特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國(guó)

      體育要聞

      戴琳,中國(guó)足球的反向代言人

      娛樂(lè)要聞

      張柏芝不再隱瞞,三胎生父早有答案?

      財(cái)經(jīng)要聞

      央行信用新政:為失信者提供"糾錯(cuò)"通道

      汽車要聞

      可享88元抵2000元等多重權(quán)益 昊鉑A800開(kāi)啟盲訂

      態(tài)度原創(chuàng)

      手機(jī)
      藝術(shù)
      游戲
      教育
      公開(kāi)課

      手機(jī)要聞

      vivo S50主攝級(jí)長(zhǎng)焦與創(chuàng)意Live影像,打破拍攝邊界!

      藝術(shù)要聞

      萬(wàn)年松樹(shù)開(kāi)花,震驚你的雙眼!

      獵魂世界:比比東+寧榮榮抽取價(jià)值分析!這波答案顯而易見(jiàn)了!

      教育要聞

      為什么越來(lái)越多孩子開(kāi)始憎惡父母?

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧洲无码AV| 日韩视频在线观看网址| 欧美综合自拍亚洲综合图| 中文字幕无码免费久久99| 上杭县| 欧美综合激情网| av动态| jizz日本大全| 欧美性极品| 美女又黄又免费的视频| 亚洲av无码精品色午夜| 免费情侣作爱视频| 亚洲成av人片在线观看ww| 亚洲女初尝黑人巨高清| 亚洲精品久久| 亚洲国产精品无码观看久久| 小鲜肉自慰网站xnxx| 亚洲精品国产一卡二卡| 亚洲无码一卡二卡三卡| 日韩无码综合| 国产欧美精品久久久| 日本黄色免费看| AV天堂免费观看| 五月花激情网| 永久免费看mv亚洲| 免费黑人av| 日本无码中文| 亚洲色情在线播放| 熟女A片| 天天色av| 无码人妻一区二区三区线花季传件| 日韩欧美一级特黄大片| 中文字幕一区二区三区四区50岁| 无码精品a∨在线观看中文| 爱情岛论坛首页永久入口| 亚洲日韩久久综合中文字幕| 天天爱天天躁XXXXAAAA| 超碰51| 91露脸| 国产激情久久久久成熟影院苍井空| 国产熟妇|