![]()
文章轉(zhuǎn)載于量子位
作者:聞樂
長(zhǎng)期以來(lái),AI生圖被一個(gè)經(jīng)典矛盾困擾。
潛空間模型效率高,但細(xì)節(jié)有損耗;像素空間模型保真度高,卻容易結(jié)構(gòu)混亂、速度慢。
要么快要沒準(zhǔn),大家?guī)缀跄J(rèn)這是架構(gòu)帶來(lái)的取舍問題,沒法徹底解決。
但擴(kuò)散模型生圖,順序真的對(duì)嗎?
李飛飛團(tuán)隊(duì)最新論文提出的Latent Forcing方法直接打破了這一共識(shí),他們發(fā)現(xiàn)生成的質(zhì)量瓶頸不在架構(gòu),而在順序。
![]()
簡(jiǎn)單說(shuō)就像畫畫必須先打草稿再填色,AI也需要一個(gè)「先定結(jié)構(gòu)、后填細(xì)節(jié)」的強(qiáng)制邏輯。
Latent Forcing僅通過重排生成軌跡,像素?cái)U(kuò)散模型不僅找回了效率,更在多項(xiàng)指標(biāo)上刷新SOTA。
1
傳統(tǒng)方法瓶頸
在深入了解Latent Forcing之前,咱先來(lái)說(shuō)說(shuō)當(dāng)前兩大方法的瓶頸。
傳統(tǒng)像素級(jí)擴(kuò)散模型之所以畫圖會(huì)畫歪,是因?yàn)樗诮翟脒^程中,高頻的紋理細(xì)節(jié)往往會(huì)干擾低頻的語(yǔ)義結(jié)構(gòu)。
模型常常在還沒搞清楚物體的整體輪廓時(shí),就被迫去預(yù)測(cè)局部的像素顏色,其實(shí)這在本質(zhì)上就違背了視覺生成的自然邏輯。
為了解決這個(gè)問題,行業(yè)此前大多轉(zhuǎn)向潛空間。
它通過預(yù)訓(xùn)練的tokenizer把圖像壓到低維空間,生成速度飛起。
但潛空間模型必須依賴一個(gè)預(yù)訓(xùn)練的解碼器,但這不僅會(huì)引入重建誤差,也讓模型失去了端到端建模原始數(shù)據(jù)的能力。
![]()
于是李飛飛團(tuán)隊(duì)思考——
能不能既保留像素級(jí)的無(wú)損精度,又獲得潛空間的結(jié)構(gòu)引導(dǎo)?
1
先打個(gè)草稿
Latent Forcing的答案是——
對(duì)擴(kuò)散軌跡重新排序。
![]()
怎么做的呢?
在不改變基礎(chǔ)Transformer架構(gòu)的前提下,引入了雙時(shí)間變量機(jī)制。
在訓(xùn)練和生成過程中,模型會(huì)同時(shí)處理像素和潛變量。不同的是,團(tuán)隊(duì)為兩者定制了獨(dú)立的降噪節(jié)奏:
潛變量先行:在生成初期,潛變量會(huì)率先完成降噪,在大尺度上確立圖像的語(yǔ)義骨架;
像素填色:在結(jié)構(gòu)確定后,像素部分再跟進(jìn)進(jìn)行精細(xì)化降噪。
![]()
這么一看,潛變量就像是一個(gè)臨時(shí)的草稿本。
生成結(jié)束時(shí),這個(gè)草稿本直接丟棄,最終輸出仍是100%無(wú)損的原始像素圖像,沒有任何decoder。
整個(gè)過程端到端、可擴(kuò)展,幾乎不增加計(jì)算量(token數(shù)量不變,速度接近原生DiT)。
這種先latent后pixel的細(xì)微調(diào)整,在ImageNet榜單上展現(xiàn)了出色的表現(xiàn)。
在相同計(jì)算規(guī)模,訓(xùn)練80個(gè)epochs的條件下,Latent Forcing在ImageNet-256任務(wù)中,條件生成的FID分?jǐn)?shù)較此前最強(qiáng)的像素級(jí)模型JiT+REPA,從18.60降到9.76,接近腰斬。
![]()
在200個(gè)epoch的最終模型(ViT?L 規(guī)模)下,Latent Forcing實(shí)現(xiàn)了條件生成FID 2.48(guided)、無(wú)條件生成FID 7.2(unguided)的分?jǐn)?shù)。
創(chuàng)下像素空間擴(kuò)散Transformer新的SOTA。
![]()
過去學(xué)術(shù)界普遍認(rèn)為,必須通過更高倍率的有損壓縮才能換取好的FID表現(xiàn)。
Latent Forcing則用數(shù)據(jù)反駁了這一觀點(diǎn)——
在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。
Latent Forcing項(xiàng)目由李飛飛領(lǐng)銜。
第一作者Alan Baade是李飛飛的學(xué)生,斯坦福計(jì)算機(jī)系博士生,在擴(kuò)散模型和生成建模方向有深入研究。
![]()
其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。
此外,密歇根大學(xué)教授Justin Johnson作為合作作者參與其中。
論文地址:https://arxiv.org/abs/2602.11401
點(diǎn)個(gè)“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.