<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      李飛飛團(tuán)隊(duì)新作:簡(jiǎn)單調(diào)整生成順序,大幅提升像素級(jí)圖像生成質(zhì)量

      0
      分享至


      文章轉(zhuǎn)載于量子位
      作者:聞樂

      長(zhǎng)期以來(lái),AI生圖被一個(gè)經(jīng)典矛盾困擾。

      潛空間模型效率高,但細(xì)節(jié)有損耗;像素空間模型保真度高,卻容易結(jié)構(gòu)混亂、速度慢。

      要么快要沒準(zhǔn),大家?guī)缀跄J(rèn)這是架構(gòu)帶來(lái)的取舍問題,沒法徹底解決。

      但擴(kuò)散模型生圖,順序真的對(duì)嗎?

      李飛飛團(tuán)隊(duì)最新論文提出的Latent Forcing方法直接打破了這一共識(shí),他們發(fā)現(xiàn)生成的質(zhì)量瓶頸不在架構(gòu),而在順序


      簡(jiǎn)單說(shuō)就像畫畫必須先打草稿再填色,AI也需要一個(gè)「先定結(jié)構(gòu)、后填細(xì)節(jié)」的強(qiáng)制邏輯。

      Latent Forcing僅通過重排生成軌跡,像素?cái)U(kuò)散模型不僅找回了效率,更在多項(xiàng)指標(biāo)上刷新SOTA。

      1

      傳統(tǒng)方法瓶頸

      在深入了解Latent Forcing之前,咱先來(lái)說(shuō)說(shuō)當(dāng)前兩大方法的瓶頸。

      傳統(tǒng)像素級(jí)擴(kuò)散模型之所以畫圖會(huì)畫歪,是因?yàn)樗诮翟脒^程中,高頻的紋理細(xì)節(jié)往往會(huì)干擾低頻的語(yǔ)義結(jié)構(gòu)。

      模型常常在還沒搞清楚物體的整體輪廓時(shí),就被迫去預(yù)測(cè)局部的像素顏色,其實(shí)這在本質(zhì)上就違背了視覺生成的自然邏輯。

      為了解決這個(gè)問題,行業(yè)此前大多轉(zhuǎn)向潛空間。

      它通過預(yù)訓(xùn)練的tokenizer把圖像壓到低維空間,生成速度飛起。

      但潛空間模型必須依賴一個(gè)預(yù)訓(xùn)練的解碼器,但這不僅會(huì)引入重建誤差,也讓模型失去了端到端建模原始數(shù)據(jù)的能力。


      于是李飛飛團(tuán)隊(duì)思考——

      能不能既保留像素級(jí)的無(wú)損精度,又獲得潛空間的結(jié)構(gòu)引導(dǎo)?

      1

      先打個(gè)草稿

      Latent Forcing的答案是——

      對(duì)擴(kuò)散軌跡重新排序


      怎么做的呢?

      在不改變基礎(chǔ)Transformer架構(gòu)的前提下,引入了雙時(shí)間變量機(jī)制。

      在訓(xùn)練和生成過程中,模型會(huì)同時(shí)處理像素和潛變量。不同的是,團(tuán)隊(duì)為兩者定制了獨(dú)立的降噪節(jié)奏:

      • 潛變量先行:在生成初期,潛變量會(huì)率先完成降噪,在大尺度上確立圖像的語(yǔ)義骨架;

      • 像素填色:在結(jié)構(gòu)確定后,像素部分再跟進(jìn)進(jìn)行精細(xì)化降噪。


      這么一看,潛變量就像是一個(gè)臨時(shí)的草稿本。

      生成結(jié)束時(shí),這個(gè)草稿本直接丟棄,最終輸出仍是100%無(wú)損的原始像素圖像,沒有任何decoder。

      整個(gè)過程端到端、可擴(kuò)展,幾乎不增加計(jì)算量(token數(shù)量不變,速度接近原生DiT)。

      這種先latent后pixel的細(xì)微調(diào)整,在ImageNet榜單上展現(xiàn)了出色的表現(xiàn)。

      在相同計(jì)算規(guī)模,訓(xùn)練80個(gè)epochs的條件下,Latent Forcing在ImageNet-256任務(wù)中,條件生成的FID分?jǐn)?shù)較此前最強(qiáng)的像素級(jí)模型JiT+REPA,從18.60降到9.76,接近腰斬。


      在200個(gè)epoch的最終模型(ViT?L 規(guī)模)下,Latent Forcing實(shí)現(xiàn)了條件生成FID 2.48(guided)、無(wú)條件生成FID 7.2(unguided)的分?jǐn)?shù)。

      創(chuàng)下像素空間擴(kuò)散Transformer新的SOTA。


      過去學(xué)術(shù)界普遍認(rèn)為,必須通過更高倍率的有損壓縮才能換取好的FID表現(xiàn)。

      Latent Forcing則用數(shù)據(jù)反駁了這一觀點(diǎn)——

      在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。

      Latent Forcing項(xiàng)目由李飛飛領(lǐng)銜。

      第一作者Alan Baade是李飛飛的學(xué)生,斯坦福計(jì)算機(jī)系博士生,在擴(kuò)散模型和生成建模方向有深入研究。


      其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

      此外,密歇根大學(xué)教授Justin Johnson作為合作作者參與其中。

      論文地址:https://arxiv.org/abs/2602.11401

      點(diǎn)個(gè)愛心,再走 吧

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      那個(gè)教小米做手機(jī)的廠商,要斷氣了

      那個(gè)教小米做手機(jī)的廠商,要斷氣了

      藍(lán)字計(jì)劃
      2026-02-14 11:40:57
      震驚!985大學(xué)也無(wú)法拯救的專業(yè),畢業(yè)生面臨失業(yè)!

      震驚!985大學(xué)也無(wú)法拯救的專業(yè),畢業(yè)生面臨失業(yè)!

      特約前排觀眾
      2026-02-16 00:10:04
      中國(guó)隊(duì)的首枚冬奧金牌,走到了半路上

      中國(guó)隊(duì)的首枚冬奧金牌,走到了半路上

      福建平子
      2026-02-15 21:13:00
      慕安會(huì)結(jié)束,王毅離開現(xiàn)場(chǎng),日本對(duì)華提出抗議,沙利文措辭不尋常

      慕安會(huì)結(jié)束,王毅離開現(xiàn)場(chǎng),日本對(duì)華提出抗議,沙利文措辭不尋常

      東極妙嚴(yán)
      2026-02-16 09:40:49
      澤連斯基:已收到美國(guó)為期15年的安全保障提案,但烏方希望期限為30至50年

      澤連斯基:已收到美國(guó)為期15年的安全保障提案,但烏方希望期限為30至50年

      大風(fēng)新聞
      2026-02-15 15:23:15
      太尷尬了!堵車動(dòng)彈不得,重慶車主稱接到違停短信提醒,惶恐不安

      太尷尬了!堵車動(dòng)彈不得,重慶車主稱接到違停短信提醒,惶恐不安

      火山詩(shī)話
      2026-02-16 11:43:17
      江蘇省委常委、省委秘書長(zhǎng)儲(chǔ)永宏履新(鹽城人)

      江蘇省委常委、省委秘書長(zhǎng)儲(chǔ)永宏履新(鹽城人)

      鹽城123網(wǎng)
      2026-02-16 11:04:06
      2025年2月至2026年2月,A股跌得最慘的10只股票!

      2025年2月至2026年2月,A股跌得最慘的10只股票!

      財(cái)經(jīng)智多星
      2026-02-16 09:16:09
      擔(dān)心的事還是發(fā)生,跑丟編制的女護(hù)士張水華,又回到了她的怪圈

      擔(dān)心的事還是發(fā)生,跑丟編制的女護(hù)士張水華,又回到了她的怪圈

      天天熱點(diǎn)見聞
      2026-02-15 08:24:58
      中國(guó)選手半場(chǎng)開香檳 提前慶祝摔倒無(wú)緣決賽 解說(shuō):滑下來(lái)再慶祝啊

      中國(guó)選手半場(chǎng)開香檳 提前慶祝摔倒無(wú)緣決賽 解說(shuō):滑下來(lái)再慶祝啊

      念洲
      2026-02-16 09:08:37
      美國(guó)大使館給中國(guó)人拜年,唱中文歌,老美咋不抵制中國(guó)節(jié)呢?

      美國(guó)大使館給中國(guó)人拜年,唱中文歌,老美咋不抵制中國(guó)節(jié)呢?

      廖保平
      2026-02-15 10:05:25
      “一號(hào)難求”,全球爆火!大量外國(guó)人求這個(gè)中國(guó)產(chǎn)品的使用教程,美國(guó)導(dǎo)演:這能搞垮好萊塢

      “一號(hào)難求”,全球爆火!大量外國(guó)人求這個(gè)中國(guó)產(chǎn)品的使用教程,美國(guó)導(dǎo)演:這能搞垮好萊塢

      新民晚報(bào)
      2026-02-15 15:18:34
      seedance2.0太恐怖了,隨手生成電影級(jí)別短片,業(yè)內(nèi)人士驚呼:我們完蛋了

      seedance2.0太恐怖了,隨手生成電影級(jí)別短片,業(yè)內(nèi)人士驚呼:我們完蛋了

      風(fēng)向觀察
      2026-02-15 22:35:48
      日媒:放書否認(rèn)南京大屠殺的APA酒店老板死亡

      日媒:放書否認(rèn)南京大屠殺的APA酒店老板死亡

      環(huán)球網(wǎng)資訊
      2026-02-16 12:01:38
      林肯汽車,還能挺過明年嗎?

      林肯汽車,還能挺過明年嗎?

      汽車K線
      2026-02-14 09:16:15
      俄羅斯遭大規(guī)模襲擊

      俄羅斯遭大規(guī)模襲擊

      環(huán)球時(shí)報(bào)國(guó)際
      2026-02-16 09:29:24
      太摳了!網(wǎng)友怒斥表哥月工資14000塊,每次拜年都是一桶油一袋米

      太摳了!網(wǎng)友怒斥表哥月工資14000塊,每次拜年都是一桶油一袋米

      火山詩(shī)話
      2026-02-15 11:03:31
      8歲女孩拿到6張獎(jiǎng)狀在母親墳前哭訴“沒有意義你看不到”,40歲姑姑安慰“我獎(jiǎng)勵(lì)你”,渦陽(yáng)縣民政:正核實(shí)跟進(jìn)

      8歲女孩拿到6張獎(jiǎng)狀在母親墳前哭訴“沒有意義你看不到”,40歲姑姑安慰“我獎(jiǎng)勵(lì)你”,渦陽(yáng)縣民政:正核實(shí)跟進(jìn)

      極目新聞
      2026-02-15 21:02:32
      斷層收視第一,罵聲全網(wǎng)刷屏!2026遼視春晚,爛得徹頭徹尾

      斷層收視第一,罵聲全網(wǎng)刷屏!2026遼視春晚,爛得徹頭徹尾

      翰飛觀事
      2026-02-16 09:22:31
      2026馬年寄語(yǔ)100句,愿你馬年行大運(yùn),馬到成功,萬(wàn)事順?biāo)欤?>
    </a>
        <h3>
      <a href=趴窗看雨的小龜
      2026-02-15 00:15:03
      2026-02-16 13:56:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
      2868文章數(shù) 10437關(guān)注度
      往期回顧 全部

      科技要聞

      OpenAI拿下OpenClaw之父 承諾開源絕不動(dòng)搖

      頭條要聞

      牛彈琴:被王毅痛斥后 日本急了

      頭條要聞

      牛彈琴:被王毅痛斥后 日本急了

      體育要聞

      遭針對(duì)?谷愛凌炮轟國(guó)際雪聯(lián)安排

      娛樂要聞

      好甜蜜!郭富城隨方媛回安徽過年

      財(cái)經(jīng)要聞

      2025,中國(guó)商業(yè)十大意外,黃金只排第九

      汽車要聞

      叫停純屏操作 工信部擬推車內(nèi)實(shí)體操作件強(qiáng)制國(guó)標(biāo)

      態(tài)度原創(chuàng)

      時(shí)尚
      健康
      旅游
      游戲
      藝術(shù)

      今年春天的裙子,裙擺越大越好看!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      引導(dǎo)旅游市場(chǎng)規(guī)范經(jīng)營(yíng) 海南以信用監(jiān)管護(hù)航春節(jié)放心游

      黑神話?cǎi)T驥又上央視了!這次與超強(qiáng)AI有關(guān)

      藝術(shù)要聞

      真沒想到,毛主席這14個(gè)大草字,問了上百人都無(wú)人識(shí),你認(rèn)得嗎?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版