<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      讓擴(kuò)散模型「可解釋」不再降質(zhì),開啟圖片編輯新思路

      0
      分享至



      過去三年,擴(kuò)散模型席卷圖像生成領(lǐng)域。以 DiT (Diffusion Transformer) 為代表的新一代架構(gòu)不斷刷新圖像質(zhì)量的極限,讓模型愈發(fā)接近真實(shí)世界的視覺規(guī)律。

      然而,與 LLM 可解釋性研究的蓬勃發(fā)展相對(duì),擴(kuò)散模型內(nèi)部的語義結(jié)構(gòu)、時(shí)間規(guī)律以及因果路徑仍然像被深深封住的「黑箱」。研究者可以憑直覺優(yōu)化架構(gòu),但外界無法真正理解擴(kuò)散模型在生成過程中的「思考方式」。

      更棘手的是,已有的可解釋性嘗試往往伴隨著明顯的性能下降:特征分解、激活分析、插值擾動(dòng)……無論采用哪種方法,只要試圖將擴(kuò)散模型拆開來看,生成質(zhì)量就會(huì)顯著劣化。這讓「可解釋擴(kuò)散模型」在很長(zhǎng)一段時(shí)間里被視為不切實(shí)際的小眾方向。

      在這樣的背景下,香港中文大學(xué) MMLab 與上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)不同的觀點(diǎn):擴(kuò)散模型作為當(dāng)今視覺世界最重要的生成器,其內(nèi)部機(jī)制不應(yīng)永遠(yuǎn)處于不可見狀態(tài);可解釋性也不應(yīng)該以犧牲生成質(zhì)量為代價(jià)。

      基于這一理念,他們提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首個(gè)真正意義上面向擴(kuò)散 Transformer 的時(shí)序稀疏自編碼器框架。



      • 論文標(biāo)題:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
      • 論文鏈接:
      • https://arxiv.org/pdf/2503.07050

      TIDE:

      讓「時(shí)序」成為擴(kuò)散可解釋性的核心

      以往的可解釋方法大多忽視了擴(kuò)散過程最大的特點(diǎn):生成是一個(gè)隨時(shí)間展開的漸進(jìn)式構(gòu)造過程。早期步驟決定物體形狀和布局,中期步驟塑造語義和結(jié)構(gòu),后期步驟填充材質(zhì)與細(xì)節(jié)。如果忽略這條時(shí)間線,擴(kuò)散模型看起來就像一團(tuán)混亂的噪聲與特征。TIDE 的突破在于,它不是「硬拆」一個(gè)靜態(tài)特征,而是讓模型自己在時(shí)間維度上對(duì)齊語義:

      同一個(gè)因子會(huì)在不同時(shí)間步中保持一致的語義軌跡,最終形成一個(gè)可讀、可控、穩(wěn)固的「時(shí)間語義剖面」。

      也正是在這樣的時(shí)序框架下,擴(kuò)散模型內(nèi)部原本模糊的過程第一次被清晰呈現(xiàn)出來:粗結(jié)構(gòu)從噪聲中浮現(xiàn)、語義逐漸成型、紋理被不斷潤色……模型的「思考流」沿著時(shí)間軸被完整雕刻出來。

      更重要的是,這一切并不會(huì)破壞原模型的生成能力。TIDE 的稀疏自編碼器在特征空間進(jìn)行無損重構(gòu),擴(kuò)散軌跡保持穩(wěn)定,模型幾乎感受不到被「觀察」的存在。同時(shí)在 scaling latent 維度時(shí),也優(yōu)于原有 vanilla SAE 方法。



      TIDE 架構(gòu)與訓(xùn)練

      在 Stable Diffusion XL、PixArt-α、Flux 等主流擴(kuò)散框架上,TIDE 將擴(kuò)散特征分解為具有可控語義的因子:

      負(fù)責(zé)輪廓的因子、負(fù)責(zé)物體姿態(tài)的因子、負(fù)責(zé)材質(zhì)紋理的因子……甚至可以捕捉到跨時(shí)間的概念演化?;谶@些因子,研究團(tuán)隊(duì)構(gòu)建出一種全新的圖像編輯方式:編輯不再依賴繁瑣的提示語或反復(fù)調(diào)參,而是可以沿著清晰的語義方向直接操控?cái)U(kuò)散過程。例如:

      • 提升紋理細(xì)節(jié)而不改變?nèi)纸Y(jié)構(gòu)
      • 調(diào)整物體姿態(tài)但保持背景一致
      • 加強(qiáng)某類語義而不干擾其它部分



      這些編輯操作完全基于 TIDE 生成的語義因子完成,意味著未來擴(kuò)散模型有望出現(xiàn)一種全新的「因子級(jí)編輯器」,具備高度可控性與透明性。

      與此同時(shí),TIDE 對(duì)模型生成質(zhì)量的影響幾乎可以忽略不計(jì)。FID、sFID 變化小于 0.1%,噪聲預(yù)測(cè)軌跡保持穩(wěn)定,實(shí)現(xiàn)了真正意義上的「可解釋而不降質(zhì)」。

      TIDE 的效果

      TIDE 在不同設(shè)置、不同模型規(guī)模以及不同任務(wù)維度下的整體表現(xiàn)。無論是在超參數(shù)選擇、在 DiT 不同層級(jí)進(jìn)行因子學(xué)習(xí),還是在 SDXL、FLUX-dev 等主流擴(kuò)散架構(gòu)上的泛化能力,TIDE 都表現(xiàn)出高度穩(wěn)定且持續(xù)的優(yōu)勢(shì)。

      可以看到,TIDE 在幾乎不增加 FID 代價(jià)的前提下,顯著提升了 AlignScore 中的語義綁定(顏色、形狀、紋理)以及跨區(qū)域關(guān)系理解(空間與非空間關(guān)系),其中多處指標(biāo)在表中以綠色標(biāo)記為最優(yōu)表現(xiàn)。

      此外,在安全性評(píng)測(cè)部分,TIDE 相比多個(gè)現(xiàn)有方法大幅降低了攻擊成功率,顯示出更穩(wěn)健的特征理解能力。整體來看,這幅表格清楚證明:TIDE 不僅帶來了高質(zhì)量、可解釋的語義因子,還在保持生成質(zhì)量的同時(shí),提升了模型的結(jié)構(gòu)理解、關(guān)系推理與安全性,成為一種真正可泛化、可落地的可解釋擴(kuò)散框架。



      TIDE 的意義:

      補(bǔ)齊擴(kuò)散模型的「理解」能力

      擴(kuò)散模型已經(jīng)成為現(xiàn)代視覺生成系統(tǒng)的核心支柱,但它們的內(nèi)部機(jī)制一直缺乏系統(tǒng)、透明的解釋路徑。TIDE 的出現(xiàn)不僅提供了首個(gè)真正實(shí)用的可解釋性方案,更重要的是,它讓研究者第一次能夠沿著「時(shí)間」這條線索觀察擴(kuò)散模型內(nèi)部的語義結(jié)構(gòu)。



      這種理解能力將直接影響未來的多個(gè)方向:

      • 更可控、更穩(wěn)健的擴(kuò)散編輯系統(tǒng)
      • 統(tǒng)一理解——生成模型的因子級(jí)橋接
      • 擴(kuò)散模型的因果與語義理論研究
      • 新一代透明、可信的視覺生成系統(tǒng)

      TIDE 不僅是一個(gè)方法,更是一種新的研究范式:擴(kuò)散模型并非不可解釋,只是缺少一個(gè)合適的視角。

      未來展望

      研究團(tuán)隊(duì)表示,當(dāng)前 TIDE 已成功驗(yàn)證了時(shí)序稀疏自編碼器框架的有效性,但可解釋擴(kuò)散模型的潛力遠(yuǎn)未被完全發(fā)掘。未來的工作將進(jìn)一步:

      • 擴(kuò)展更大規(guī)模、更精細(xì)的時(shí)序字典
      • 探索跨模態(tài)共享的語義因子
      • 結(jié)合 LLM-SAE 構(gòu)建統(tǒng)一解釋空間
      • 將因子級(jí)編輯推向產(chǎn)品化工具

      隨著更多研究者的加入,擴(kuò)散模型的「黑箱壁壘」正逐漸被揭開,而 TIDE 或許是這一轉(zhuǎn)變具有代表性的第一步。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      心梗去世逐年增多?醫(yī)生:牢記“3不喝、2不吃、1堅(jiān)持”,別大意

      心梗去世逐年增多?醫(yī)生:牢記“3不喝、2不吃、1堅(jiān)持”,別大意

      袁醫(yī)生課堂
      2026-01-24 17:33:06
      2025票房最高的6大爛片,每部都是業(yè)界悲哀

      2025票房最高的6大爛片,每部都是業(yè)界悲哀

      楓塵余往逝
      2026-01-31 23:10:19
      親手撕碎美元信用!看懂這波黃金暴漲,才明白什么叫逃命

      親手撕碎美元信用!看懂這波黃金暴漲,才明白什么叫逃命

      億通電子游戲
      2026-01-31 02:12:23
      醫(yī)生忠告:腦梗早期不是手腳麻,而是頻繁出現(xiàn)5癥狀,千萬別忽視

      醫(yī)生忠告:腦梗早期不是手腳麻,而是頻繁出現(xiàn)5癥狀,千萬別忽視

      健康之光
      2026-01-31 07:25:07
      竇靖童:我媽錢多到用不完,但窮苦潦倒的爸爸,成了我如今的心病

      竇靖童:我媽錢多到用不完,但窮苦潦倒的爸爸,成了我如今的心病

      璀璨幻行者
      2026-01-20 04:29:30
      鉆石都能人工合成了,為什么還沒有人造黃金?

      鉆石都能人工合成了,為什么還沒有人造黃金?

      半解智士
      2026-01-30 17:24:26
      離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實(shí)

      離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實(shí)

      李健政觀察
      2026-01-25 19:40:23
      浙江德比防守大戰(zhàn)!廣廈68-58力克浙江!胡金秋末節(jié)建功鎖勝局

      浙江德比防守大戰(zhàn)!廣廈68-58力克浙江!胡金秋末節(jié)建功鎖勝局

      小蘭看體育
      2026-01-31 21:33:40
      中國的“斤”用了3000年,為何與國際接軌后,剛好相當(dāng)于500克?

      中國的“斤”用了3000年,為何與國際接軌后,剛好相當(dāng)于500克?

      千秋文化
      2026-01-31 21:22:19
      香奈兒新款鞋子被吐槽設(shè)計(jì)很陰間:躺著穿才有感覺

      香奈兒新款鞋子被吐槽設(shè)計(jì)很陰間:躺著穿才有感覺

      星Xin辰大海
      2026-01-31 18:05:22
      廣州雙王炸!天河GDP破7000億,海珠增速霸榜3年

      廣州雙王炸!天河GDP破7000億,海珠增速霸榜3年

      廣州樓市發(fā)布
      2026-01-31 15:55:05
      逼廣東隊(duì)裁掉奎因?CBA強(qiáng)力中鋒制霸內(nèi)線,或成杜鋒最大的對(duì)手!

      逼廣東隊(duì)裁掉奎因?CBA強(qiáng)力中鋒制霸內(nèi)線,或成杜鋒最大的對(duì)手!

      緋雨兒
      2026-01-31 13:37:05
      你錯(cuò)過了哪些異性對(duì)你的暗示?網(wǎng)友:果然單身都是有理由的!

      你錯(cuò)過了哪些異性對(duì)你的暗示?網(wǎng)友:果然單身都是有理由的!

      解讀熱點(diǎn)事件
      2025-11-08 17:33:23
      美俄轟炸機(jī)甘拜下風(fēng)!轟20為何拖了這么久?研制難度太大是關(guān)鍵

      美俄轟炸機(jī)甘拜下風(fēng)!轟20為何拖了這么久?研制難度太大是關(guān)鍵

      混沌錄
      2026-01-29 22:34:06
      當(dāng)不成總統(tǒng)了?突襲委內(nèi)瑞拉后,美后院起火,特朗普面臨下臺(tái)危機(jī)

      當(dāng)不成總統(tǒng)了?突襲委內(nèi)瑞拉后,美后院起火,特朗普面臨下臺(tái)危機(jī)

      兵說
      2026-01-30 16:42:23
      暴跌60%,引來全國牙科關(guān)店潮,暴利的牙科生意真的走到了盡頭?

      暴跌60%,引來全國牙科關(guān)店潮,暴利的牙科生意真的走到了盡頭?

      小熊侃史
      2026-01-17 07:50:11
      姚明:08奧運(yùn)結(jié)束那一晚很失落,被隊(duì)友拉去喝酒以為世界會(huì)完蛋

      姚明:08奧運(yùn)結(jié)束那一晚很失落,被隊(duì)友拉去喝酒以為世界會(huì)完蛋

      林小湜體育頻道
      2026-01-31 02:15:43
      廣東隊(duì)支付給四川隊(duì)買薩納姆優(yōu)先續(xù)約權(quán)的錢,已用去支付上賽季本土球員的工資!

      廣東隊(duì)支付給四川隊(duì)買薩納姆優(yōu)先續(xù)約權(quán)的錢,已用去支付上賽季本土球員的工資!

      廣東籃球掂
      2026-01-31 13:42:08
      熱水袋是大補(bǔ),醫(yī)生提醒:一個(gè)熱水袋勝過十個(gè)老中醫(yī)!不要嫌老土

      熱水袋是大補(bǔ),醫(yī)生提醒:一個(gè)熱水袋勝過十個(gè)老中醫(yī)!不要嫌老土

      岐黃傳人孫大夫
      2026-01-29 05:55:03
      一則數(shù)據(jù),令姆巴佩成小丑!個(gè)人數(shù)據(jù)大于皇馬戰(zhàn)績(jī),他在傷害球隊(duì)

      一則數(shù)據(jù),令姆巴佩成小丑!個(gè)人數(shù)據(jù)大于皇馬戰(zhàn)績(jī),他在傷害球隊(duì)

      阿泰希特
      2026-01-31 11:04:57
      2026-02-01 00:07:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12225文章數(shù) 142559關(guān)注度
      往期回顧 全部

      科技要聞

      SpaceX申請(qǐng)部署百萬衛(wèi)星 打造太空數(shù)據(jù)中心

      頭條要聞

      新年"打虎"不停歇 三天落馬兩個(gè)正部級(jí)

      頭條要聞

      新年"打虎"不停歇 三天落馬兩個(gè)正部級(jí)

      體育要聞

      新時(shí)代得分王!東皇37+三雙刷7紀(jì)錄怒吼釋放

      娛樂要聞

      李維嘉、吳昕、汪涵現(xiàn)身魏文彬追悼會(huì)

      財(cái)經(jīng)要聞

      白銀,暴跌!黃金,40年最大跌幅!

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發(fā)布 V8混動(dòng)加持

      態(tài)度原創(chuàng)

      家居
      教育
      親子
      房產(chǎn)
      游戲

      家居要聞

      藍(lán)調(diào)空舍 自由與個(gè)性

      教育要聞

      一年一度“花式”期末考,成都的小學(xué)今年做了哪些探索?又有哪些特別?

      親子要聞

      丈母娘做一鍋海帶排骨,一桌家常菜太豐盛,龍寶調(diào)皮不好好吃飯?

      房產(chǎn)要聞

      藏不住的小城大事,海澄新城執(zhí)掌自貿(mào)港風(fēng)口,進(jìn)階兌現(xiàn)美好生活新篇

      B社大佬:《老滾6》必須好好學(xué)《博德3》!

      無障礙瀏覽 進(jìn)入關(guān)懷版