<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      何愷明帶大二本科生顛覆擴(kuò)散圖像生成:扔掉多步采樣和潛空間,一步像素直出

      0
      分享至

      何愷明,再次出手精簡(jiǎn)架構(gòu)。

      新方法Pixel Mean Flow(pMF),突破傳統(tǒng)擴(kuò)散模型/流模型限制。

      兩大傳統(tǒng)組件多步采樣和潛空間都被砍了,現(xiàn)在只需一步,直接在像素空間生成圖像。


      在ImageNet 256×256分辨率上,pMF達(dá)到了2.22 FID;512×512分辨率上則是2.48 FID。這是目前單步、無(wú)潛空間擴(kuò)散模型在該基準(zhǔn)上取得的最佳成績(jī)之一。


      砍掉擴(kuò)散模型的兩大件

      現(xiàn)代擴(kuò)散模型生成圖像,一直離不開多步采樣和潛空間編碼。

      多步采樣意味著生成一張圖需要跑幾十甚至上百次神經(jīng)網(wǎng)絡(luò),潛空間則需要先把圖像壓縮到一個(gè)低維空間再進(jìn)行操作。兩者的共同目的是把一個(gè)極度復(fù)雜的生成問題拆解成若干個(gè)相對(duì)簡(jiǎn)單的子問題。

      近年來,研究社區(qū)分別在這兩個(gè)方向上取得了進(jìn)展:

      一致性模型(Consistency Models)和何愷明團(tuán)隊(duì)2025年提出的MeanFlow在少步、單步采樣上持續(xù)突破。


      何愷明團(tuán)隊(duì)2026年1月提出的JiT(Just image Transformers)則證明了在原始像素空間做擴(kuò)散模型的可行性。


      但把這兩條路合到一起,難度陡增。

      少步模型要求單個(gè)網(wǎng)絡(luò)能夠處理不同起點(diǎn)和終點(diǎn)的軌跡;像素空間模型則需要在沒有預(yù)訓(xùn)練tokenizer的情況下完成壓縮和抽象。

      兩邊的挑戰(zhàn)疊加在一起,對(duì)架構(gòu)設(shè)計(jì)提出了更高的要求。

      pMF的核心設(shè)計(jì)

      pMF的思路可以概括為:網(wǎng)絡(luò)直接輸出像素級(jí)別的去噪圖像,但訓(xùn)練時(shí)用速度場(chǎng)來計(jì)算損失。

      具體來說,pMF定義了一個(gè)新的場(chǎng)x,它是從平均速度場(chǎng)u通過簡(jiǎn)單變換得到的。

      x場(chǎng)的關(guān)鍵特性是看起來像干凈的圖像。


      論文通過追蹤ODE軌跡進(jìn)行可視化發(fā)現(xiàn),平均速度場(chǎng)u對(duì)應(yīng)的是噪聲圖像,而變換后的x場(chǎng)則對(duì)應(yīng)近乎干凈或略微模糊的圖像。


      這背后的假設(shè)是流形假設(shè)(manifold hypothesis):自然圖像實(shí)際上位于一個(gè)低維流形上,讓網(wǎng)絡(luò)直接預(yù)測(cè)這個(gè)低維流形上的量,比預(yù)測(cè)高維噪聲空間中的量要容易得多。


      團(tuán)隊(duì)用一個(gè)2D玩具模型驗(yàn)證了這一點(diǎn)。

      當(dāng)把2D數(shù)據(jù)投影到512維觀察空間時(shí),傳統(tǒng)的u-prediction直接崩潰,而x-prediction仍然能夠正常工作。


      在真實(shí)的ImageNet實(shí)驗(yàn)中也是如此:256×256分辨率下,patch維度達(dá)到768(16×16×3),u-prediction的FID直接飆到164.89,而 x-prediction則保持在個(gè)位數(shù)。


      pMF還有一個(gè)獨(dú)特優(yōu)勢(shì):

      因?yàn)榫W(wǎng)絡(luò)直接輸出像素圖像,可以自然地使用感知損失(perceptual loss)。

      這本是潛空間方法在訓(xùn)練VAE時(shí)才能用的技巧,pMF把它帶到了生成器本身的訓(xùn)練中。實(shí)

      實(shí)驗(yàn)顯示,加入感知損失后,F(xiàn)ID從9.56直接降到3.53,提升了約6個(gè)點(diǎn)。


      實(shí)驗(yàn)結(jié)果與對(duì)比

      在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成績(jī),超越了此前唯一的同類方法EPG(8.82 FID)。與GAN方法相比,pMF達(dá)到了相近的FID,但計(jì)算量大幅下降——StyleGAN-XL每次前向傳播需要1574 Gflops,是pMF-H/16的5.8倍。


      在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持與256×256相近的計(jì)算開銷,達(dá)到了2.48 FID。


      另外,潛空間方法還有一筆經(jīng)常被忽略的開銷:VAE解碼器。

      標(biāo)準(zhǔn)SD-VAE解碼器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,這個(gè)開銷已經(jīng)超過了pMF整個(gè)生成器的計(jì)算量。

      論文還進(jìn)行了大量消融實(shí)驗(yàn):

      優(yōu)化器方面,Muon比Adam收斂更快且效果更好;


      時(shí)間采樣方面,MeanFlow的全平面采樣策略不可或缺,只在r=t或r=0單線上采樣都會(huì)導(dǎo)致失??;

      預(yù)條件器(pre-conditioner)方面,傳統(tǒng)的EDM和sCM風(fēng)格設(shè)計(jì)在這個(gè)高維場(chǎng)景下不如直接的 x-prediction有效。


      團(tuán)隊(duì)介紹

      一個(gè)圖像生成模型,本質(zhì)上就是從噪聲到像素的映射。

      多步采樣和潛空間編碼都是歷史上為了降低難度而引入的折中方案,但隨著模型能力的提升和訓(xùn)練技巧的進(jìn)步,這些“拐杖”正在變得不那么必要。

      團(tuán)隊(duì)在結(jié)尾寫道:希望這項(xiàng)工作能夠鼓勵(lì)未來對(duì)直接、端到端生成建模的探索。從實(shí)驗(yàn)結(jié)果來看,單步無(wú)潛空間生成已經(jīng)從“是否可行”進(jìn)入到“如何做得更好”的階段了。


      共同一作Yiyang Lu(陸伊煬)、Susie Lu、Qiao Sun(孫啟傲)、Hanhong Zhao(趙瀚宏)為MIT本科生。

      其中孫啟傲是IMO金牌得主,趙瀚宏是國(guó)際物理奧林匹克競(jìng)賽IPhO金牌得主,陸伊煬是全國(guó)中學(xué)生物理競(jìng)賽CPhO金牌得主。

      論文地址:
      https://arxiv.org/abs/2601.22158

      文章來源:量子位。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      CCTV5直播!國(guó)乒5日比賽預(yù)告,莎頭領(lǐng)銜,6場(chǎng)中日大戰(zhàn)看點(diǎn)拉滿

      CCTV5直播!國(guó)乒5日比賽預(yù)告,莎頭領(lǐng)銜,6場(chǎng)中日大戰(zhàn)看點(diǎn)拉滿

      球盲百小易
      2026-02-05 01:06:52
      夫妻吃網(wǎng)購(gòu)菜中毒后續(xù):再婚家庭,原要申請(qǐng)貧困戶,村支書曝更多

      夫妻吃網(wǎng)購(gòu)菜中毒后續(xù):再婚家庭,原要申請(qǐng)貧困戶,村支書曝更多

      青梅侃史啊
      2026-02-04 16:26:29
      2032奧運(yùn)會(huì)舉辦地確定,結(jié)果意外改變?nèi)驃W運(yùn)格局

      2032奧運(yùn)會(huì)舉辦地確定,結(jié)果意外改變?nèi)驃W運(yùn)格局

      余憁搞笑段子
      2026-02-02 16:48:20
      20年前,張冕為護(hù)胡歌離世,胡歌許諾贍養(yǎng)其父母,如今他做到了嗎

      20年前,張冕為護(hù)胡歌離世,胡歌許諾贍養(yǎng)其父母,如今他做到了嗎

      科學(xué)發(fā)掘
      2026-02-04 02:44:46
      新春走基層|喀什“新農(nóng)人”:我?guī)衬殃J市場(chǎng)

      新春走基層|喀什“新農(nóng)人”:我?guī)衬殃J市場(chǎng)

      新華社
      2026-02-05 00:59:37
      曾斷言特斯拉存在安全隱患 智己聯(lián)席CEO劉濤公開致歉

      曾斷言特斯拉存在安全隱患 智己聯(lián)席CEO劉濤公開致歉

      快科技
      2026-02-05 00:48:07
      S家洗白失??!韓國(guó)綜藝錘了小S忽視姐姐病情,推卸責(zé)任甩鍋給大S

      S家洗白失??!韓國(guó)綜藝錘了小S忽視姐姐病情,推卸責(zé)任甩鍋給大S

      萌神木木
      2026-02-04 19:05:07
      善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      有范又有料
      2025-12-17 14:54:06
      春晚主持人陣容曝光,5位都是老面孔,唯有她被質(zhì)疑,憑啥?

      春晚主持人陣容曝光,5位都是老面孔,唯有她被質(zhì)疑,憑啥?

      領(lǐng)略非凡
      2026-02-04 21:27:38
      提醒大家:洗衣機(jī)里,不管有幾件衣服,千萬(wàn)要記得放幾個(gè)塑料袋!

      提醒大家:洗衣機(jī)里,不管有幾件衣服,千萬(wàn)要記得放幾個(gè)塑料袋!

      美食格物
      2026-02-04 22:51:09
      一夜狂攬1.6億,李亞鵬徹底失控了

      一夜狂攬1.6億,李亞鵬徹底失控了

      品牌頭版
      2026-02-02 18:15:11
      馬斯克親手殺死「汽車公司」特斯拉

      馬斯克親手殺死「汽車公司」特斯拉

      版面之外
      2026-02-03 21:30:47
      蘿莉島大雷出現(xiàn)!比想象中炸裂,牽扯多國(guó)總統(tǒng),難怪愛潑斯坦必死

      蘿莉島大雷出現(xiàn)!比想象中炸裂,牽扯多國(guó)總統(tǒng),難怪愛潑斯坦必死

      北緯的咖啡豆
      2026-02-02 22:46:22
      第一批用Clawdbot賺錢的人類出現(xiàn),一晚上狂賺300萬(wàn)!全球金融變天了?

      第一批用Clawdbot賺錢的人類出現(xiàn),一晚上狂賺300萬(wàn)!全球金融變天了?

      新智元
      2026-02-04 15:54:47
      小玥兒穿黑衣悼念媽媽!疑和馬筱媽媽有爭(zhēng)執(zhí),汪小菲霸氣維護(hù)女兒

      小玥兒穿黑衣悼念媽媽!疑和馬筱媽媽有爭(zhēng)執(zhí),汪小菲霸氣維護(hù)女兒

      離離言幾許
      2026-02-04 23:43:38
      2-0!王欣瑜又贏了,恭喜中國(guó)女網(wǎng):2人躋身八強(qiáng),球迷:期待會(huì)師

      2-0!王欣瑜又贏了,恭喜中國(guó)女網(wǎng):2人躋身八強(qiáng),球迷:期待會(huì)師

      大秦壁虎白話體育
      2026-02-04 19:22:43
      “這跟不穿有啥區(qū)別?”格萊美紅毯“裸”戰(zhàn),連美國(guó)網(wǎng)友都喊停

      “這跟不穿有啥區(qū)別?”格萊美紅毯“裸”戰(zhàn),連美國(guó)網(wǎng)友都喊停

      大中國(guó)
      2026-02-04 01:58:09
      50歲吉雪萍近況曝光:女兒離世六年,三子隨父生活

      50歲吉雪萍近況曝光:女兒離世六年,三子隨父生活

      夢(mèng)想總會(huì)變成真
      2026-02-05 03:56:54
      私人飛機(jī)的空姐五官端莊珠圓玉潤(rùn)皮膚白凈,優(yōu)雅大方讓人陶醉著迷

      私人飛機(jī)的空姐五官端莊珠圓玉潤(rùn)皮膚白凈,優(yōu)雅大方讓人陶醉著迷

      小椰的奶奶
      2026-02-05 01:34:12
      曼聯(lián)大換血!夏窗計(jì)劃豪購(gòu)四人 3大水貨面臨清洗

      曼聯(lián)大換血!夏窗計(jì)劃豪購(gòu)四人 3大水貨面臨清洗

      球事百科吖
      2026-02-05 08:09:43
      2026-02-05 09:36:49
      算法與數(shù)學(xué)之美 incentive-icons
      算法與數(shù)學(xué)之美
      分享知識(shí),交流思想
      5340文章數(shù) 64601關(guān)注度
      往期回顧 全部

      科技要聞

      微信給馬化騰澆了“一盆冷水”

      頭條要聞

      伊朗被指將鈾庫(kù)存轉(zhuǎn)至俄羅斯 克宮首次回應(yīng)

      頭條要聞

      伊朗被指將鈾庫(kù)存轉(zhuǎn)至俄羅斯 克宮首次回應(yīng)

      體育要聞

      哈登回應(yīng)交易:不想讓自己拖累快船的未來

      娛樂要聞

      春晚主持人陣容曝光,5位都是老面孔

      財(cái)經(jīng)要聞

      黃金,出現(xiàn)拐點(diǎn)

      汽車要聞

      綜合續(xù)航1730km 5座中級(jí)電混SUV吉利銀河M7官圖發(fā)布

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      數(shù)碼
      公開課
      軍事航空

      藝術(shù)要聞

      一百多年前的風(fēng)俗畫,意大利畫家安東尼奧·羅塔

      旅游要聞

      貴旅集團(tuán)2026年春季產(chǎn)品推介會(huì)在貴陽(yáng)舉行

      數(shù)碼要聞

      西數(shù)公布高帶寬硬盤技術(shù):多通道并行 讀寫性能可達(dá)傳統(tǒng)硬盤數(shù)倍

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      卡扎菲兒子被暗殺:4名蒙面人員闖入住所

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版