11月19日晚消息,據(jù)新智元報道,何愷明團隊發(fā)布最新研究成果《Back to Basics: Let Denoising Generative Models Denoise》,顛覆了當(dāng)前主流AI生圖技術(shù)(擴散模型)的基礎(chǔ)范式。團隊指出,擴散模型在學(xué)習(xí)“預(yù)測噪聲”而非“生成干凈圖像”,并提出名為JiT的全新方法,讓AI直接預(yù)測干凈圖像。
何愷明是AI領(lǐng)域頂尖學(xué)者,ResNet(深度神經(jīng)網(wǎng)絡(luò)架構(gòu))發(fā)明人,麻省理工學(xué)院(MIT)副教授,論文引用超70萬次。其團隊曾貢獻ResNet、Faster R-CNN、Mask R-CNN、MAE等多個里程碑工作,其中ResNet讓深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能,MAE推動了自監(jiān)督學(xué)習(xí)發(fā)展。
最新提出的JiT方法無需tokenizer(標(biāo)記器)、預(yù)訓(xùn)練或額外損失函數(shù),僅使用基礎(chǔ)Vision Transformer架構(gòu)。該方法基于流形假設(shè),讓網(wǎng)絡(luò)直接預(yù)測干凈圖像而非噪聲,在ImageNet上256×256分辨率FID達(dá)1.82,512×512達(dá)1.78。
論文一作黎天鴻為何愷明在MIT的弟子,本科畢業(yè)于清華姚班。實驗顯示,在高維空間中傳統(tǒng)預(yù)測噪聲方法完全失效,而JiT方法仍保持穩(wěn)定,甚至引入降維瓶頸還能提升生成質(zhì)量。
該方法為蛋白質(zhì)、分子等難以設(shè)計tokenizer的領(lǐng)域提供了新思路,有望推動更通用的"擴散 + Transformer"范式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.