網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李飛飛團(tuán)隊(duì)新作：簡(jiǎn)單調(diào)整生成順序，大幅提升像素級(jí)圖像生成質(zhì)量

2026-02-15 10:59:36　來(lái)源: 硅星人

北京舉報(bào)

分享至

文章轉(zhuǎn)載于量子位
作者：聞樂

長(zhǎng)期以來(lái)，AI生圖被一個(gè)經(jīng)典矛盾困擾。

潛空間模型效率高，但細(xì)節(jié)有損耗；像素空間模型保真度高，卻容易結(jié)構(gòu)混亂、速度慢。

要么快要沒準(zhǔn)，大家?guī)缀跄J(rèn)這是架構(gòu)帶來(lái)的取舍問題，沒法徹底解決。

但擴(kuò)散模型生圖，順序真的對(duì)嗎？

李飛飛團(tuán)隊(duì)最新論文提出的Latent Forcing方法直接打破了這一共識(shí)，他們發(fā)現(xiàn)生成的質(zhì)量瓶頸不在架構(gòu)，而在順序。

簡(jiǎn)單說(shuō)就像畫畫必須先打草稿再填色，AI也需要一個(gè)「先定結(jié)構(gòu)、后填細(xì)節(jié)」的強(qiáng)制邏輯。

Latent Forcing僅通過重排生成軌跡，像素?cái)U(kuò)散模型不僅找回了效率，更在多項(xiàng)指標(biāo)上刷新SOTA。

傳統(tǒng)方法瓶頸

在深入了解Latent Forcing之前，咱先來(lái)說(shuō)說(shuō)當(dāng)前兩大方法的瓶頸。

傳統(tǒng)像素級(jí)擴(kuò)散模型之所以畫圖會(huì)畫歪，是因?yàn)樗诮翟脒^程中，高頻的紋理細(xì)節(jié)往往會(huì)干擾低頻的語(yǔ)義結(jié)構(gòu)。

模型常常在還沒搞清楚物體的整體輪廓時(shí)，就被迫去預(yù)測(cè)局部的像素顏色，其實(shí)這在本質(zhì)上就違背了視覺生成的自然邏輯。

為了解決這個(gè)問題，行業(yè)此前大多轉(zhuǎn)向潛空間。

它通過預(yù)訓(xùn)練的tokenizer把圖像壓到低維空間，生成速度飛起。

但潛空間模型必須依賴一個(gè)預(yù)訓(xùn)練的解碼器，但這不僅會(huì)引入重建誤差，也讓模型失去了端到端建模原始數(shù)據(jù)的能力。

于是李飛飛團(tuán)隊(duì)思考——

能不能既保留像素級(jí)的無(wú)損精度，又獲得潛空間的結(jié)構(gòu)引導(dǎo)？

先打個(gè)草稿

Latent Forcing的答案是——

對(duì)擴(kuò)散軌跡重新排序。

怎么做的呢？

在不改變基礎(chǔ)Transformer架構(gòu)的前提下，引入了雙時(shí)間變量機(jī)制。

在訓(xùn)練和生成過程中，模型會(huì)同時(shí)處理像素和潛變量。不同的是，團(tuán)隊(duì)為兩者定制了獨(dú)立的降噪節(jié)奏：

潛變量先行：在生成初期，潛變量會(huì)率先完成降噪，在大尺度上確立圖像的語(yǔ)義骨架；
像素填色：在結(jié)構(gòu)確定后，像素部分再跟進(jìn)進(jìn)行精細(xì)化降噪。

這么一看，潛變量就像是一個(gè)臨時(shí)的草稿本。

生成結(jié)束時(shí)，這個(gè)草稿本直接丟棄，最終輸出仍是100%無(wú)損的原始像素圖像，沒有任何decoder。

整個(gè)過程端到端、可擴(kuò)展，幾乎不增加計(jì)算量（token數(shù)量不變，速度接近原生DiT）。

這種先latent后pixel的細(xì)微調(diào)整，在ImageNet榜單上展現(xiàn)了出色的表現(xiàn)。

在相同計(jì)算規(guī)模，訓(xùn)練80個(gè)epochs的條件下，Latent Forcing在ImageNet-256任務(wù)中，條件生成的FID分?jǐn)?shù)較此前最強(qiáng)的像素級(jí)模型JiT+REPA，從18.60降到9.76，接近腰斬。

在200個(gè)epoch的最終模型（ViT?L 規(guī)模）下，Latent Forcing實(shí)現(xiàn)了條件生成FID 2.48（guided）、無(wú)條件生成FID 7.2（unguided）的分?jǐn)?shù)。

創(chuàng)下像素空間擴(kuò)散Transformer新的SOTA。

過去學(xué)術(shù)界普遍認(rèn)為，必須通過更高倍率的有損壓縮才能換取好的FID表現(xiàn)。

Latent Forcing則用數(shù)據(jù)反駁了這一觀點(diǎn)——

在保持100%原始像素精度的情況下，我們依然能跑出超越有損模型的性能。

Latent Forcing項(xiàng)目由李飛飛領(lǐng)銜。

第一作者Alan Baade是李飛飛的學(xué)生，斯坦福計(jì)算機(jī)系博士生，在擴(kuò)散模型和生成建模方向有深入研究。

其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外，密歇根大學(xué)教授Justin Johnson作為合作作者參與其中。

論文地址：https://arxiv.org/abs/2602.11401

點(diǎn)個(gè)“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

李飛飛一年前究竟說(shuō)了啥？怎么又火了

量子位 2025-09-11 14:27:04
2 跟貼 2
「斯坦福AI小鎮(zhèn)」創(chuàng)業(yè)即獲投1億美元！李飛飛卡帕西都投了

量子位 2026-02-14 16:42:28
0 跟貼 0

預(yù)測(cè)下一個(gè)像素還需要幾年？谷歌：五年夠了

機(jī)器之心Pro 2025-11-26 15:48:35
0 跟貼 0

《西部世界》開始加載，「斯坦福小鎮(zhèn)」團(tuán)隊(duì)創(chuàng)業(yè)，李飛飛都投了

機(jī)器之心Pro 2026-02-14 12:07:56
1 跟貼 1
00后兄弟輟學(xué)創(chuàng)業(yè)，盯上Sora弱點(diǎn)，3個(gè)月融資2900萬(wàn)

智東西 2026-01-04 18:09:55
0 跟貼 0

還在玩AI 3D手辦？Gemini 3 Deep Think已能直出STL，可打印實(shí)物

機(jī)器之心Pro 2026-02-16 08:07:46
1 跟貼 1

谷歌做了個(gè)論文專用版nano banana！頂會(huì)級(jí)Figure直出

機(jī)器之心Pro 2026-02-05 15:52:42
0 跟貼 0
JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力？

機(jī)器之心Pro 2025-12-24 14:52:46
0 跟貼 0

從模型到算力再到場(chǎng)景 AI點(diǎn)亮上海年味|2026新春走基層

財(cái)聯(lián)社 2026-02-16 10:02:24
0 跟貼 0
透視高層住宅：從建設(shè)到衰敗的資產(chǎn)邏輯。一起來(lái)聽聽

豎笛小魔王 2026-02-15 04:08:45
41 跟貼 41
重慶兩套法拍房以192萬(wàn)余元起拍，物業(yè)欠費(fèi)卻達(dá)108萬(wàn)余元，物業(yè)方回應(yīng)：實(shí)際欠費(fèi)28萬(wàn)余元，80萬(wàn)余元滯納金可協(xié)商處理

極目新聞 2026-02-15 14:37:25
5179 跟貼 5179
膠卷形狀的數(shù)碼相機(jī)，OPT100 NeoFilm現(xiàn)身

IT之家 2026-02-13 22:16:08
2 跟貼 2
零下273.15攝氏度，是宇宙的絕對(duì)禁區(qū)，人類永遠(yuǎn)無(wú)法觸及？

觀察宇宙 2026-02-15 21:18:04
80 跟貼 80
視覺盛宴！樊振東德甲神球：都打削球了

小葉子侃球FM 2026-02-14 10:03:04
13 跟貼 13
“地球巨眼捕捉百米死神，見證超視覺奇觀！”

星云母體在分娩n 2026-02-14 01:56:34
3 跟貼 3
小伙徒手搓出一輛考斯特汽車模型，真的是太牛了

宸宸愛發(fā)明V 2026-02-15 13:44:08
1 跟貼 1
斯坦福AI小鎮(zhèn)團(tuán)隊(duì)創(chuàng)業(yè)，獲1億美元融資

量子位 2026-02-16 13:12:39
0 跟貼 0
考慮全系普及2億像素鏡頭，真我GT9系列影像或繼續(xù)沖高

機(jī)智萬(wàn)象 2026-02-13 22:46:04
0 跟貼 0
無(wú)網(wǎng)格畫圖，圖形性質(zhì)是突破口！

大鵬老師講數(shù)學(xué) 2026-02-12 05:01:00
0 跟貼 0
慕安會(huì)美國(guó)角色逆轉(zhuǎn) 中國(guó)議題"打滿全場(chǎng)"

上觀新聞 2026-02-15 23:33:03
218 跟貼 218
就愛看大張偉說(shuō)段子，全程無(wú)邏輯吐槽，閻鶴祥笑到起不來(lái)身

琴音似君語(yǔ) 2026-02-14 08:19:45
1 跟貼 1
神二十乘組談舷窗裂紋發(fā)現(xiàn)過程:通過40倍顯微鏡看清楚

央視新聞客戶端 2026-02-15 22:52:38
1423 跟貼 1423
小鳥從小比較嬌貴，必須要手養(yǎng)它才行，有了模型養(yǎng)幾十只不是問題

發(fā)怒的福貓 2026-02-13 13:39:20
2 跟貼 2
男子駕車返鄉(xiāng)途中被貓鎖在車外

極目新聞 2026-02-16 08:24:08
1745 跟貼 1745
巴雷特狙擊槍威力有多大？千米距離誤差極低，命中目標(biāo)瞬間轟成渣

大國(guó)之盾 2026-02-14 22:58:34
0 跟貼 0
蘋果偷偷換工藝，Ultra 3 表殼上竟然有細(xì)密紋理！

愛范兒 2025-11-19 13:45:55
53 跟貼 53
行業(yè)筑底期求變，頭部房企陣營(yíng)密集調(diào)整架構(gòu)，搶抓復(fù)蘇窗口

華夏時(shí)報(bào) 2026-02-16 10:31:03
0 跟貼 0
反向過年新潮流：老外扎堆來(lái)中國(guó)，單日飛三亞外國(guó)游客大增3倍

每日經(jīng)濟(jì)新聞 2026-02-15 11:30:33
1672 跟貼 1672
王一博新片上線，視覺盛宴，不愧頂流

全球熱點(diǎn)幕后 2026-02-14 08:21:01
4 跟貼 4
特斯拉正式停售FSD買斷版，全面轉(zhuǎn)向訂閱制

界面新聞 2026-02-15 19:49:42
1256 跟貼 1256
國(guó)投瑞銀LOF出臺(tái)補(bǔ)償方案：1000元以下?lián)p失全額補(bǔ)償

界面新聞 2026-02-15 21:28:21
879 跟貼 879
陜西：雨夾雪，局地大到暴雪！23—24日雨雪范圍確定

環(huán)球網(wǎng)資訊 2026-02-16 12:01:39
3 跟貼 3
中國(guó)決定對(duì)加拿大持普通護(hù)照人員免簽加外長(zhǎng)回應(yīng)

環(huán)球網(wǎng)資訊 2026-02-16 12:03:18
197 跟貼 197
有游客在胖東來(lái)買到搬不動(dòng)了：買了5000多元的年貨，還花了500多元的快遞費(fèi)

極目新聞 2026-02-15 14:37:25
1294 跟貼 1294
騰訊除夕官宣：追加100張萬(wàn)元小馬卡，來(lái)領(lǐng)福利了（附贈(zèng)邀請(qǐng)碼）

雷科技 2026-02-16 12:30:50
0 跟貼 0
面部特寫人像的創(chuàng)作

瞳叔捏影兒 2026-02-14 23:16:19
1 跟貼 1
美論壇：中國(guó)奉行不開第一槍，一旦美國(guó)打掉北斗系統(tǒng)是不是就贏了

指忘崖 2026-02-15 18:47:33
1 跟貼 1
微信可以發(fā)金色朋友圈了！騰訊張軍：點(diǎn)贊，還有機(jī)會(huì)掉落紅包??

每日經(jīng)濟(jì)新聞 2026-02-16 10:57:40
0 跟貼 0
拜年文案準(zhǔn)備好了！馬年祝福這樣發(fā)

齊魯壹點(diǎn) 2026-02-16 06:49:07
166 跟貼 166
今日宜貼春聯(lián) 看看你細(xì)節(jié)是否做對(duì)了

大象新聞 2026-02-16 06:47:07
212 跟貼 212

趴窗看雨的小龜

2026-02-15 00:15:03

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

李飛飛團(tuán)隊(duì)新作：簡(jiǎn)單調(diào)整生成順序，大幅提升像素級(jí)圖像生成質(zhì)量

OpenAI拿下OpenClaw之父 承諾開源絕不動(dòng)搖

牛彈琴：被王毅痛斥后 日本急了

牛彈琴：被王毅痛斥后 日本急了

遭針對(duì)？谷愛凌炮轟國(guó)際雪聯(lián)安排

好甜蜜！郭富城隨方媛回安徽過年

2025，中國(guó)商業(yè)十大意外，黃金只排第九

叫停純屏操作 工信部擬推車內(nèi)實(shí)體操作件強(qiáng)制國(guó)標(biāo)

態(tài)度原創(chuàng)

今年春天的裙子，裙擺越大越好看！

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

引導(dǎo)旅游市場(chǎng)規(guī)范經(jīng)營(yíng) 海南以信用監(jiān)管護(hù)航春節(jié)放心游

黑神話?cǎi)T驥又上央視了！這次與超強(qiáng)AI有關(guān)

真沒想到，毛主席這14個(gè)大草字，問了上百人都無(wú)人識(shí)，你認(rèn)得嗎？

OpenAI拿下OpenClaw之父承諾開源絕不動(dòng)搖

牛彈琴：被王毅痛斥后日本急了

牛彈琴：被王毅痛斥后日本急了

叫停純屏操作工信部擬推車內(nèi)實(shí)體操作件強(qiáng)制國(guó)標(biāo)