文章來源:計算機書童。
你有沒有過這樣的經(jīng)歷:手機里存了張超有意義的老照片,可惜模糊不清;或者拍了張絕美風(fēng)景,卻因為手抖變成了"抽象畫"?別急,計算機視覺領(lǐng)域又出黑科技了!
最近CVPR 2025上的一篇重磅論文《Dual Prompting Image Restoration with Diffusion Transformers》(基于擴散變換器的雙提示圖像恢復(fù)),提出了一個叫DPIR的模型,簡直是圖像修復(fù)界的"神來之筆"。今天就帶大家好好扒一扒這個能讓模糊圖片起死回生的神奇技術(shù)!
論文信息 題目:Dual Prompting Image Restoration with Diffusion Transformers 基于擴散變換器的雙提示圖像恢復(fù) 作者:Dehong Kong, Fan Li, Zhixin Wang, Jiaqi Xu, Renjing Pei, Wenbo Li, WenQi Ren 為啥我們需要新的圖像修復(fù)方法?
現(xiàn)在主流的圖像修復(fù)方法大多依賴U-Net架構(gòu)的擴散模型,但這些模型在處理復(fù)雜退化(比如老照片的噪點、壓縮失真)時總有點力不從心。要么修復(fù)出來的圖片像"照騙",細節(jié)全沒了;要么就是保留了模糊感,跟沒修一樣。
而擴散變換器(DiTs)就不一樣了!這貨憑借超強的長距離依賴捕捉能力和可擴展性,在圖像生成領(lǐng)域已經(jīng)嶄露頭角。就像SD3(Stable Diffusion 3)這樣的模型,生成的圖像質(zhì)量那叫一個驚艷。但問題是:怎么把模糊圖片的信息有效融入到DiTs里,讓它既能看懂模糊圖,又能生成高清圖呢?
DPIR就是為解決這個問題而生的!
DPIR到底牛在哪里?
先上張全家福,看看DPIR的整體架構(gòu)(圖2),是不是一眼就覺得很復(fù)雜?別怕,我們拆開來慢慢看~
![]()
DPIR整體架構(gòu)
簡單說,DPIR有兩個"秘密武器":
低質(zhì)量圖像條件分支
雙提示控制分支
這兩個分支就像兩位頂級修復(fù)大師,一個負責(zé)提取模糊圖片的基礎(chǔ)特征,一個負責(zé)提供全局和局部的細節(jié)線索,聯(lián)手把模糊圖"腦補"成高清圖。
第一個大招:輕量級條件分支
傳統(tǒng)方法為了把模糊圖信息融入模型,往往要復(fù)制一大塊主干網(wǎng)絡(luò),又笨又重。DPIR另辟蹊徑,設(shè)計了個超輕量的模塊(圖3),就像給模型裝了個"高清眼鏡"。
![]()
低質(zhì)量圖像條件分支結(jié)構(gòu)
這個模塊就做兩件事:
用幾個卷積層快速提取模糊圖的關(guān)鍵特征
通過自適應(yīng)對齊技術(shù),讓這些特征和模型主分支的特征完美匹配
就像拼圖時先找到邊緣輪廓,既高效又精準,還不會給模型增加太多負擔~
第二個大招:雙提示控制分支
你可能會想:用文字描述圖片內(nèi)容,讓模型照著修不行嗎?但現(xiàn)實是,"藍天白云下的紅色屋頂"這種描述,根本沒法精準表達屋頂瓦片的紋理細節(jié)。
DPIR的雙提示分支(圖4)就聰明多了,它同時用兩種"語言"給模型下達指令:
![]()
雙提示模塊結(jié)構(gòu)
視覺提示 :從模糊圖里提取局部細節(jié)(比如一片葉子的紋理)和全局信息(比如整個森林的布局)
文本提示 :用文字描述圖片的整體內(nèi)容(比如"陽光明媚的森林")
這兩種提示結(jié)合在一起,就像給模型同時提供了高清圖紙和施工說明,修復(fù)起來自然又準又好!
小技巧:全局-局部訓(xùn)練法
修復(fù)高分辨率圖片時,光看局部細節(jié)很容易"盲人摸象"。比如只看眼睛局部,可能不知道這是人臉還是動物臉。
DPIR的解決辦法超機智:訓(xùn)練時不僅看局部塊,還看周圍的全局區(qū)域(圖4)。這樣模型既能看清細節(jié),又能把握整體,修復(fù)4K高清圖也不在話下~
效果到底有多驚艷?
說再多理論不如直接看效果!我們來看看DPIR和其他方法的PK:
在合成數(shù)據(jù)集測試中(表1),DPIR在幾乎所有指標上都霸榜了,特別是無參考指標(不用原圖對比也能看出好),甩第二名一大截!
![]()
合成數(shù)據(jù)集定量比較
更絕的是視覺效果(圖5):同樣一張模糊的動物圖片,其他方法要么修得太光滑像塑料,要么細節(jié)錯亂;而DPIR不僅把毛發(fā)紋理修得根根分明,連眼神都透著靈氣!
![]()
合成數(shù)據(jù)定性比較
在真實世界圖片測試中(圖6),面對老照片的復(fù)雜退化,DPIR依然能精準還原細節(jié),連建筑物的窗戶格都清晰可見,對比其他方法簡直是降維打擊!
![]()
真實世界數(shù)據(jù)定性比較 ablation實驗告訴你:這些設(shè)計缺一不可
作者還做了一組對比實驗,證明每個創(chuàng)新點都不是多余的:
雙提示vs單一提示 (表5):只用視覺提示會丟全局信息,只用文本提示會缺細節(jié);雙提示結(jié)合才能達到最佳效果。
全局-局部訓(xùn)練vs僅局部訓(xùn)練 (圖9):只看局部容易修錯(比如把貓耳朵修成狗耳朵),加上全局信息后,細節(jié)還原準確率飆升!
DPIR就像一位技藝精湛的修復(fù)師,憑借兩個"法寶"在圖像修復(fù)領(lǐng)域大殺四方:
輕量級條件分支:高效捕捉模糊圖的基礎(chǔ)特征
雙提示控制分支:結(jié)合視覺細節(jié)和文本語義,讓修復(fù)更精準
不管是老照片修復(fù)、低清圖放大,還是去噪去模糊,DPIR都展現(xiàn)出了碾壓級的實力。相信用不了多久,我們手機里的"廢片"都能靠這種技術(shù)重獲新生啦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.