<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      何愷明帶大二本科生顛覆擴散圖像生成:扔掉多步采樣和潛空間

      0
      分享至

      夢晨 發自 凹非寺
      量子位 | 公眾號 QbitAI

      何愷明,再次出手精簡架構。

      新方法Pixel Mean Flow(pMF),突破傳統擴散模型/流模型限制。

      兩大傳統組件多步采樣和潛空間都被砍了,現在只需一步,直接在像素空間生成圖像。



      在ImageNet 256×256分辨率上,pMF達到了2.22 FID;512×512分辨率上則是2.48 FID。這是目前單步、無潛空間擴散模型在該基準上取得的最佳成績之一。



      砍掉擴散模型的兩大件

      現代擴散模型生成圖像,一直離不開多步采樣和潛空間編碼。

      多步采樣意味著生成一張圖需要跑幾十甚至上百次神經網絡,潛空間則需要先把圖像壓縮到一個低維空間再進行操作。兩者的共同目的是把一個極度復雜的生成問題拆解成若干個相對簡單的子問題。

      近年來,研究社區分別在這兩個方向上取得了進展:

      一致性模型(Consistency Models)和何愷明團隊2025年提出的MeanFlow在少步、單步采樣上持續突破。



      何愷明團隊2026年1月提出的JiT(Just image Transformers)則證明了在原始像素空間做擴散模型的可行性。



      但把這兩條路合到一起,難度陡增。

      少步模型要求單個網絡能夠處理不同起點和終點的軌跡;像素空間模型則需要在沒有預訓練tokenizer的情況下完成壓縮和抽象。

      兩邊的挑戰疊加在一起,對架構設計提出了更高的要求。

      pMF的核心設計

      pMF的思路可以概括為:網絡直接輸出像素級別的去噪圖像,但訓練時用速度場來計算損失。

      具體來說,pMF定義了一個新的場x,它是從平均速度場u通過簡單變換得到的。

      x場的關鍵特性是看起來像干凈的圖像。



      論文通過追蹤ODE軌跡進行可視化發現,平均速度場u對應的是噪聲圖像,而變換后的x場則對應近乎干凈或略微模糊的圖像。



      這背后的假設是流形假設(manifold hypothesis):自然圖像實際上位于一個低維流形上,讓網絡直接預測這個低維流形上的量,比預測高維噪聲空間中的量要容易得多。



      團隊用一個2D玩具模型驗證了這一點。

      當把2D數據投影到512維觀察空間時,傳統的u-prediction直接崩潰,而x-prediction仍然能夠正常工作。



      在真實的ImageNet實驗中也是如此:256×256分辨率下,patch維度達到768(16×16×3),u-prediction的FID直接飆到164.89,而 x-prediction則保持在個位數。



      pMF還有一個獨特優勢:

      因為網絡直接輸出像素圖像,可以自然地使用感知損失(perceptual loss)。

      這本是潛空間方法在訓練VAE時才能用的技巧,pMF把它帶到了生成器本身的訓練中。實

      實驗顯示,加入感知損失后,FID從9.56直接降到3.53,提升了約6個點。



      實驗結果與對比

      在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成績,超越了此前唯一的同類方法EPG(8.82 FID)。與GAN方法相比,pMF達到了相近的FID,但計算量大幅下降——StyleGAN-XL每次前向傳播需要1574 Gflops,是pMF-H/16的5.8倍。



      在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持與256×256相近的計算開銷,達到了2.48 FID。



      另外,潛空間方法還有一筆經常被忽略的開銷:VAE解碼器。

      標準SD-VAE解碼器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,這個開銷已經超過了pMF整個生成器的計算量。

      論文還進行了大量消融實驗:

      優化器方面,Muon比Adam收斂更快且效果更好;



      時間采樣方面,MeanFlow的全平面采樣策略不可或缺,只在r=t或r=0單線上采樣都會導致失敗;

      預條件器(pre-conditioner)方面,傳統的EDM和sCM風格設計在這個高維場景下不如直接的 x-prediction有效。



      團隊介紹

      一個圖像生成模型,本質上就是從噪聲到像素的映射。

      多步采樣和潛空間編碼都是歷史上為了降低難度而引入的折中方案,但隨著模型能力的提升和訓練技巧的進步,這些“拐杖”正在變得不那么必要。

      團隊在結尾寫道:希望這項工作能夠鼓勵未來對直接、端到端生成建模的探索。從實驗結果來看,單步無潛空間生成已經從“是否可行”進入到“如何做得更好”的階段了。



      共同一作Yiyang Lu(陸伊煬)、Susie Lu、Qiao Sun(孫啟傲)、Hanhong Zhao(趙瀚宏)為MIT本科生。

      其中孫啟傲是IMO金牌得主,趙瀚宏是國際物理奧林匹克競賽IPhO金牌得主,陸伊煬是全國中學生物理競賽CPhO金牌得主。

      論文地址:
      https://arxiv.org/abs/2601.22158

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央媒怒批、坑害老百姓!臭名昭著的五大相聲演員,各個難以原諒

      央媒怒批、坑害老百姓!臭名昭著的五大相聲演員,各個難以原諒

      夢醉為紅顏一笑
      2026-02-02 06:12:05
      澳網再現歧視華人事件!白人夫婦豎中指怒罵華人母子:滾回中國去

      澳網再現歧視華人事件!白人夫婦豎中指怒罵華人母子:滾回中國去

      風過鄉
      2026-02-01 15:15:03
      哈登落選全明星,根本原因不是聯盟打壓,而是一些鮮為人知往事!

      哈登落選全明星,根本原因不是聯盟打壓,而是一些鮮為人知往事!

      田先生籃球
      2026-02-02 18:34:46
      一丹麥航運公司將暫時接管長和巴拿馬港口運營權,外交部回應

      一丹麥航運公司將暫時接管長和巴拿馬港口運營權,外交部回應

      澎湃新聞
      2026-02-02 15:59:10
      88萬粉絲網紅評論區“祝賀”豪豪離世,最新消息:網紅賬號已被封

      88萬粉絲網紅評論區“祝賀”豪豪離世,最新消息:網紅賬號已被封

      極目新聞
      2026-02-02 22:17:34
      這叫巧合?誰信?英國藥業剛砸千億投資,一大批中成藥就被清退了

      這叫巧合?誰信?英國藥業剛砸千億投資,一大批中成藥就被清退了

      青青子衿
      2026-02-01 16:40:36
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      深度 | 這個“深紅”選區翻藍,給特朗普敲響警鐘?

      深度 | 這個“深紅”選區翻藍,給特朗普敲響警鐘?

      上觀新聞
      2026-02-02 20:29:03
      愛潑斯坦最新文件:川普辦未成年性派對,老布什&克林頓共同性侵男性

      愛潑斯坦最新文件:川普辦未成年性派對,老布什&克林頓共同性侵男性

      瑪麗姬絲
      2026-02-02 12:42:14
      吃相越來越難看,都開始硬搶了!

      吃相越來越難看,都開始硬搶了!

      胖胖說他不胖
      2026-02-01 10:00:18
      我爆倉了!二三十年的積蓄7億美金清算,一個幣圈大佬的臨終遺言

      我爆倉了!二三十年的積蓄7億美金清算,一個幣圈大佬的臨終遺言

      火山詩話
      2026-02-02 10:35:13
      知名音樂人袁惟仁去世,享年57歲

      知名音樂人袁惟仁去世,享年57歲

      極目新聞
      2026-02-02 17:50:41
      大冷!聯賽第一廣廈爆冷惜敗吉林 胡金秋18分威爾遜30+13

      大冷!聯賽第一廣廈爆冷惜敗吉林 胡金秋18分威爾遜30+13

      醉臥浮生
      2026-02-02 21:28:41
      周生生足金掛墜戴一天就被刮花,檢測后發現含鐵、銀、鈀

      周生生足金掛墜戴一天就被刮花,檢測后發現含鐵、銀、鈀

      都市快報橙柿互動
      2026-02-02 22:03:00
      A股:剛剛,中央九部門發布,釋放一信號,周二將迎來新的行情

      A股:剛剛,中央九部門發布,釋放一信號,周二將迎來新的行情

      李健政觀察
      2026-02-02 17:09:22
      《名偵探柯南》與辱華漫畫聯動,緊急聲明!

      《名偵探柯南》與辱華漫畫聯動,緊急聲明!

      極目新聞
      2026-02-01 10:34:47
      特朗普強調自己清白,馬斯克暗示克林頓等人“有罪”,全球多名權勢人物被曝與愛潑斯坦關系密切

      特朗普強調自己清白,馬斯克暗示克林頓等人“有罪”,全球多名權勢人物被曝與愛潑斯坦關系密切

      新民周刊
      2026-02-02 16:14:18
      愛波斯坦和上海女大佬的風流往事大曝光!

      愛波斯坦和上海女大佬的風流往事大曝光!

      互聯網大觀
      2026-02-02 15:19:51
      黃金一夜暴跌近30%,第一批輸不起的人魔怔了

      黃金一夜暴跌近30%,第一批輸不起的人魔怔了

      鳴金網
      2026-02-02 17:24:54
      影響惡劣!中國男籃隊長搞地域歧視+破壞民族團結 應該公開道歉

      影響惡劣!中國男籃隊長搞地域歧視+破壞民族團結 應該公開道歉

      念洲
      2026-02-02 13:43:48
      2026-02-03 01:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12101文章數 176369關注度
      往期回顧 全部

      科技要聞

      阿里筑墻,騰訊寄生,字節偷家

      頭條要聞

      周生生足金掛墜戴1天被刮花 檢測后發現含鐵、銀、鈀

      頭條要聞

      周生生足金掛墜戴1天被刮花 檢測后發現含鐵、銀、鈀

      體育要聞

      澳網男單決賽,屬于阿爾卡拉斯的加冕儀式

      娛樂要聞

      57歲音樂人袁惟仁去世,家屬發文悼念

      財經要聞

      金銀暴跌 全球股市遭遇“黑色星期一”

      汽車要聞

      雷克薩斯LC500將于今年底停產 "最美雷克薩斯"謝幕

      態度原創

      藝術
      房產
      旅游
      本地
      軍事航空

      藝術要聞

      2026年,中國最值得期待的20個新建筑

      房產要聞

      狂賣1548億后,海南又上演瘋狂搶地!

      旅游要聞

      解鎖勐泐 4 大玩法,讀懂真正的傣家風情!

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      軍事要聞

      委內瑞拉外長會見美外交使團團長

      無障礙瀏覽 進入關懷版