快遞員每天的任務(wù)是把包裹從倉(cāng)庫(kù)送到千家萬(wàn)戶。有兩種送貨方式:一種是隨便怎么走,只要最后把包裹送到就行;另一種是App規(guī)劃好固定路線,必須按這條路走。聽(tīng)起來(lái)第一種更自由對(duì)吧?但問(wèn)題是,如果每個(gè)快遞員都自由發(fā)揮,今天走這條路,明天走那條路,整個(gè)物流系統(tǒng)就會(huì)亂成一鍋粥,效率極低。AI圖像生成領(lǐng)域最近也面臨著類似的困境。
![]()
2025年11月27日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出了一種新方法"對(duì)抗流模型",巧妙地解決了這個(gè)讓AI圖像生成領(lǐng)域頭疼已久的問(wèn)題。簡(jiǎn)單來(lái)說(shuō),這種方法讓AI既能像老司機(jī)一樣一步到位生成圖片,又能像GPS導(dǎo)航一樣走固定路線,不再迷路。項(xiàng)目代碼在GitHub開(kāi)源。
為什么AI畫圖這么"糾結(jié)"?
目前主流的AI圖像生成方法主要有兩大門派,就像武林中的兩大流派,各有絕活但也各有軟肋。
![]()
第一個(gè)門派叫"流匹配模型",你可以把它想象成一個(gè)特別謹(jǐn)慎的導(dǎo)航系統(tǒng)。當(dāng)你要從A地到B地時(shí),這個(gè)導(dǎo)航不會(huì)直接告訴你目的地在哪,而是每走一小步就重新計(jì)算一次方向。比如你要從北京去上海,它會(huì)先告訴你"往南走100米",走完了再說(shuō)"繼續(xù)往南走100米",如此反復(fù)幾十甚至幾百次,最終才能到達(dá)目的地。這種方法雖然穩(wěn)定可靠,但效率實(shí)在太低了,生成一張圖片往往需要幾十上百次計(jì)算,就像你導(dǎo)航去超市卻要停下來(lái)問(wèn)路一百次一樣。
第二個(gè)門派叫"生成對(duì)抗網(wǎng)絡(luò)",簡(jiǎn)稱GAN,這個(gè)名字聽(tīng)起來(lái)就很有戰(zhàn)斗力。GAN的工作原理就像一場(chǎng)永不停歇的"貓鼠游戲":一個(gè)生成器負(fù)責(zé)畫圖,一個(gè)判別器負(fù)責(zé)挑毛病。生成器努力畫出以假亂真的圖片,判別器則努力分辨哪些是真圖哪些是假圖。通過(guò)這種對(duì)抗訓(xùn)練,生成器的畫技越來(lái)越好。GAN最厲害的地方在于它可以"一步到位",只需要一次計(jì)算就能生成圖片,效率極高。
但GAN有個(gè)致命的問(wèn)題:訓(xùn)練起來(lái)特別不穩(wěn)定,就像一個(gè)脾氣暴躁的學(xué)徒,動(dòng)不動(dòng)就鬧情緒罷工。研究者們發(fā)現(xiàn),當(dāng)他們嘗試用目前最流行的Transformer架構(gòu)來(lái)訓(xùn)練GAN時(shí),訓(xùn)練過(guò)程直接崩潰了,就像一輛車還沒(méi)開(kāi)出車庫(kù)就熄火了。
破案:GAN為什么這么"任性"?
字節(jié)跳動(dòng)的研究團(tuán)隊(duì)像偵探一樣深入調(diào)查,終于找到了GAN訓(xùn)練不穩(wěn)定的一個(gè)關(guān)鍵原因,它太自由了。
還記得我們開(kāi)頭說(shuō)的快遞員比喻嗎?GAN就像那個(gè)可以隨便走的快遞員。它的任務(wù)是把"噪音"(可以想象成一團(tuán)亂碼)轉(zhuǎn)換成"圖像"(清晰的照片)。問(wèn)題是,從噪音到圖像的路線有無(wú)數(shù)條,GAN可以選擇任意一條。今天它可能選擇先畫輪廓再填顏色,明天可能先畫背景再畫前景,后天又可能完全換一種方式。這種"沒(méi)有固定路線"的狀態(tài),在數(shù)學(xué)上叫做"沒(méi)有唯一的優(yōu)化目標(biāo)"。
假設(shè)你是一個(gè)企業(yè)員工,領(lǐng)導(dǎo)給了一個(gè)任務(wù)但沒(méi)有標(biāo)準(zhǔn)答案,每次交修改版本領(lǐng)導(dǎo)都說(shuō)"不太對(duì),再改改",但又不告訴你到底哪里不對(duì)、應(yīng)該怎么改。你可能會(huì)越改越生氣,最后直接問(wèn)候領(lǐng)導(dǎo)。GAN的生成器就面臨著這樣的困境,它不知道該朝哪個(gè)方向努力,只能在各種可能性之間來(lái)回漂移,訓(xùn)練過(guò)程自然就不穩(wěn)定了。
相比之下,流匹配模型就像有標(biāo)準(zhǔn)答案的考試。它通過(guò)一種叫"線性插值"的方法,預(yù)先確定了從噪音到圖像的唯一路線。每個(gè)噪音點(diǎn)應(yīng)該變成什么樣的圖像,都是事先規(guī)定好的。這種確定性讓訓(xùn)練變得穩(wěn)定可靠,但代價(jià)是需要很多步才能完成轉(zhuǎn)換。
魚與熊掌兼得:對(duì)抗流模型的誕生
字節(jié)跳動(dòng)團(tuán)隊(duì)的核心創(chuàng)新在于:他們找到了一種方法,讓GAN也能擁有固定路線,同時(shí)保留一步到位的高效率。這就是他們提出的"對(duì)抗流模型"。
核心思路其實(shí)很簡(jiǎn)單:既然GAN的問(wèn)題是"沒(méi)有固定路線",那就給它加一條路線約束。具體怎么做呢?他們?cè)贕AN的訓(xùn)練目標(biāo)里加入了一個(gè)"最優(yōu)傳輸損失"。這個(gè)名字聽(tīng)起來(lái)很學(xué)術(shù),但原理很直觀,它要求生成器走最短路。
![]()
回到快遞員的比喻:現(xiàn)在公司規(guī)定,你送快遞可以選擇任何路線,但每一單都會(huì)計(jì)算你走的距離,走得越遠(yuǎn)扣分越多。這樣一來(lái),所有快遞員自然而然就會(huì)選擇最短路線了。對(duì)抗流模型的最優(yōu)傳輸損失就是這個(gè)"距離扣分機(jī)制",它計(jì)算生成器輸出的圖像和輸入的噪音之間的距離,距離越大,懲罰越重。
數(shù)學(xué)上,這種"最短路"恰好就是流匹配模型采用的那條確定性路線。這意味著對(duì)抗流模型的生成器最終會(huì)學(xué)到和流匹配模型完全相同的"噪音到圖像"的映射關(guān)系,但它是通過(guò)對(duì)抗訓(xùn)練學(xué)到的,可以一步到位完成轉(zhuǎn)換。這就像給一個(gè)野路子的老司機(jī)配上了GPS導(dǎo)航,既保留了老司機(jī)的快準(zhǔn)狠,又有了導(dǎo)航的穩(wěn)定可靠。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:最優(yōu)傳輸損失的強(qiáng)度需要在訓(xùn)練過(guò)程中逐漸降低。一開(kāi)始強(qiáng)度太小,生成器可能會(huì)陷入"局部最優(yōu)",就像導(dǎo)航到了一個(gè)死胡同,雖然這條路在局部來(lái)看是對(duì)的,但全局來(lái)看走不通。強(qiáng)度太大也不行,生成器會(huì)變得太"懶",直接輸出和輸入一樣的東西,就像快遞員為了走最短距離干脆把包裹原封不動(dòng)退回倉(cāng)庫(kù)。所以研究團(tuán)隊(duì)采用了一個(gè)"退火"策略:訓(xùn)練初期用較大的強(qiáng)度把生成器"拉"到正確的路線上,后期逐漸降低強(qiáng)度讓生成器專注于提升圖像質(zhì)量。
一步還是多步?隨你選擇
對(duì)抗流模型還有一個(gè)很酷的特性:它既支持一步生成,也支持多步生成,而且兩種模式可以統(tǒng)一在同一個(gè)框架下。
一步生成就像設(shè)定目的地后,導(dǎo)航直接告訴你"目的地在你正前方3公里處",你一腳油門就到了。多步生成則像導(dǎo)航告訴你"先右轉(zhuǎn)500米,再左轉(zhuǎn)1公里,然后直行1.5公里",分幾段到達(dá)目的地。
傳統(tǒng)的流匹配模型只能走多步,每一步都需要重新計(jì)算方向。近年來(lái)出現(xiàn)了一些一致性模型,試圖讓模型學(xué)會(huì)走更大的步子,比如把原本需要100步的路程壓縮到4步甚至1步。但這些方法有個(gè)問(wèn)題:即使你只想走1步,訓(xùn)練時(shí)仍然需要在所有可能的步數(shù)上進(jìn)行學(xué)習(xí)。就像你明明只想學(xué)開(kāi)高速,駕校卻要求你從倒車入庫(kù)、側(cè)方停車一直學(xué)到山路駕駛,白白浪費(fèi)了很多時(shí)間和精力。
對(duì)抗流模型則不同。如果你只想要一步生成,那就只訓(xùn)練一步;如果想要兩步生成,就只訓(xùn)練兩步的情況。不需要學(xué)習(xí)那些你用不到的中間步驟。這種"按需學(xué)習(xí)"的方式不僅節(jié)省了模型容量,還減少了訓(xùn)練時(shí)間,更避免了誤差的累積。想象一下,如果你每學(xué)一個(gè)新動(dòng)作都可能犯錯(cuò),那學(xué)100個(gè)動(dòng)作累積的誤差肯定比學(xué)1個(gè)動(dòng)作大得多。
![]()
研究團(tuán)隊(duì)在論文中展示了多步生成的效果:2步生成和4步生成都能帶來(lái)進(jìn)一步的質(zhì)量提升,這證明了框架的靈活性。他們還嘗試了一種"超深模型"的玩法,把一個(gè)28層的模型重復(fù)執(zhí)行2次變成56層,或者重復(fù)4次變成112層,但仍然只進(jìn)行一次前向傳播。這種設(shè)計(jì)在保持單步生成的同時(shí),大大增加了模型的深度,最終56層模型達(dá)到了2.08的FID分?jǐn)?shù),112層模型更是達(dá)到了1.94的FID分?jǐn)?shù),超越了需要2步和4步才能達(dá)到的效果。
![]()
![]()
馴服判別器:一場(chǎng)微妙的平衡術(shù)
對(duì)抗流模型雖然解決了生成器亂走的問(wèn)題,但GAN訓(xùn)練中還有另一個(gè)老大難問(wèn)題:生成器和判別器之間的軍備競(jìng)賽很難平衡。
這就像一場(chǎng)貓鼠游戲。如果老鼠(生成器)學(xué)得太慢,貓(判別器)很快就能識(shí)別所有假圖,此時(shí)老鼠收到的反饋全是"你畫的太假了",但具體哪里假、怎么改,貓不會(huì)告訴它。這在數(shù)學(xué)上叫梯度消失,生成器收不到有效的學(xué)習(xí)信號(hào)。反過(guò)來(lái),如果貓學(xué)得太慢,老鼠很容易就能騙過(guò)它,也就沒(méi)有動(dòng)力繼續(xù)進(jìn)步了。
研究團(tuán)隊(duì)采用了幾種策略來(lái)馴服這個(gè)棘手的問(wèn)題。首先,他們使用了一種相對(duì)判別器的設(shè)計(jì),判別器不是單獨(dú)評(píng)價(jià)一張圖是真是假,而是比較真圖和假圖哪個(gè)更像真的。這種相對(duì)比較的方式讓學(xué)習(xí)信號(hào)更加穩(wěn)定。
其次,他們引入了梯度懲罰機(jī)制。這就像給貓戴上了一個(gè)限速器,不讓它跑得太快,確保老鼠能跟得上。具體來(lái)說(shuō),他們限制了判別器的輸出對(duì)輸入變化的敏感度,防止判別器過(guò)于嚴(yán)格。
最有意思的是他們發(fā)現(xiàn)的一個(gè)土方法:當(dāng)訓(xùn)練陷入僵局時(shí),直接把判別器的參數(shù)重置到之前某個(gè)時(shí)間點(diǎn)的狀態(tài)。這就像貓鼠游戲玩到一半,貓突然失憶了,忘記了之前學(xué)到的所有技巧,只好從頭開(kāi)始學(xué)。聽(tīng)起來(lái)不太優(yōu)雅,但效果出奇地好。
研究團(tuán)隊(duì)還提出了一個(gè)梯度歸一化技術(shù)來(lái)解決超參數(shù)調(diào)節(jié)的難題。對(duì)抗流模型的生成器需要同時(shí)優(yōu)化兩個(gè)目標(biāo):一個(gè)是騙過(guò)判別器的對(duì)抗損失,一個(gè)是走最短路的傳輸損失。這兩個(gè)目標(biāo)的梯度大小可能差距很大,就像你同時(shí)想減肥和增肌,減肥的進(jìn)度條可能跑得飛快,增肌的進(jìn)度條卻幾乎不動(dòng)。梯度歸一化技術(shù)會(huì)自動(dòng)調(diào)整兩個(gè)目標(biāo)的相對(duì)權(quán)重,確保它們能夠平衡發(fā)展。
為什么對(duì)抗訓(xùn)練生成的圖更"真實(shí)"?
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:即使不使用任何引導(dǎo)技術(shù),對(duì)抗流模型生成的圖像也比流匹配模型看起來(lái)更真實(shí)。這背后有一個(gè)深刻的原因。
流匹配模型使用的是"歐幾里得距離"來(lái)衡量誤差,就是我們?cè)谥袑W(xué)學(xué)過(guò)的那個(gè)兩點(diǎn)之間直線距離最短的距離。但問(wèn)題是,在高維圖像空間中,歐幾里得距離和人類的感知距離是兩回事。
舉個(gè)例子,假設(shè)有兩張圖片:圖片A是一只貓坐在沙發(fā)上,圖片B是同一只貓坐在椅子上,圖片C是一團(tuán)隨機(jī)的彩色噪點(diǎn)。從歐幾里得距離來(lái)看,A和B可能相差很大(因?yàn)槊總€(gè)像素都不一樣),而A和某種特定的噪點(diǎn)C的距離可能反而更小。但從人類感知來(lái)看,A和B明顯更相似,它們都是貓的照片,只是背景不同而已。
流匹配模型在學(xué)習(xí)過(guò)程中,如果遇到了從未見(jiàn)過(guò)的情況需要"猜測(cè)"輸出,它會(huì)傾向于輸出一個(gè)在歐幾里得距離上最"平均"的結(jié)果。這就像讓你畫一只既像狗又像貓的動(dòng)物,你可能會(huì)畫出一個(gè)模糊的四足動(dòng)物輪廓,而不是一只清晰的貓或狗。這種"平均化"的結(jié)果在像素層面可能誤差很小,但在人類感知上看起來(lái)很不自然。
對(duì)抗流模型則不同,它的判別器是一個(gè)學(xué)習(xí)過(guò)的神經(jīng)網(wǎng)絡(luò),天然會(huì)關(guān)注那些對(duì)人類感知重要的特征。判別器在評(píng)價(jià)圖像時(shí),不是計(jì)算像素級(jí)的距離,而是提取高層次的語(yǔ)義特征進(jìn)行比較。這就像請(qǐng)一個(gè)藝術(shù)評(píng)論家來(lái)評(píng)判畫作,而不是用尺子測(cè)量畫布上每個(gè)顏料點(diǎn)的位置。這種"感知距離"而非"歐幾里得距離"的優(yōu)化目標(biāo),讓對(duì)抗流模型能夠生成更符合人類審美的圖像。
![]()
研究結(jié)果也證實(shí)了這一點(diǎn):在不使用任何引導(dǎo)的情況下,對(duì)抗流模型的XL/2版本達(dá)到了3.98的FID分?jǐn)?shù),而流匹配模型即使使用250步采樣,F(xiàn)ID也只有8.30。這說(shuō)明對(duì)抗訓(xùn)練確實(shí)在圖像真實(shí)感方面有獨(dú)特優(yōu)勢(shì)。
引導(dǎo)的藝術(shù):如何讓AI畫得更像你想要的
雖然對(duì)抗流模型在無(wú)引導(dǎo)情況下已經(jīng)很強(qiáng),但有時(shí)候我們還是需要一些"引導(dǎo)"來(lái)讓生成的圖像更符合特定要求。比如,我們希望生成的圖片確實(shí)是一只"金毛犬"而不是模棱兩可的"某種狗"。
在流匹配模型中,最常用的引導(dǎo)技術(shù)叫"無(wú)分類器引導(dǎo)"。它的原理是同時(shí)訓(xùn)練有條件和無(wú)條件兩個(gè)版本的模型,然后通過(guò)調(diào)整兩者的權(quán)重來(lái)控制圖像對(duì)條件的"遵從程度"。這種方法很有效,但有個(gè)副作用:它會(huì)讓生成的圖像變得過(guò)于"標(biāo)準(zhǔn)化",失去多樣性和自然感。就像你讓AI畫"狗",它每次都畫出一只端端正正、姿態(tài)標(biāo)準(zhǔn)的狗,而不是現(xiàn)實(shí)生活中那些歪著腦袋、趴著打盹的各種姿態(tài)。
研究團(tuán)隊(duì)為對(duì)抗流模型設(shè)計(jì)了一種"分類器引導(dǎo)"方法。他們訓(xùn)練了一個(gè)單獨(dú)的分類器,在生成過(guò)程中加入分類器的梯度信號(hào),引導(dǎo)圖像朝著正確的類別方向生成。但這里有個(gè)微妙的問(wèn)題:如果直接在最終生成的圖像上計(jì)算分類器梯度,效果并不好。因?yàn)樵诟哔|(zhì)量圖像上,各個(gè)類別之間的邊界往往很清晰,分類器很容易就能判斷對(duì)錯(cuò),此時(shí)梯度幾乎為零,起不到引導(dǎo)作用。
解決方案是"基于流的分類器引導(dǎo)"。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)時(shí)間條件分類器,可以在不同"噪音程度"的圖像上進(jìn)行分類。然后,他們把生成的圖像和隨機(jī)噪音混合到不同程度,再計(jì)算分類器梯度。在混合后的"模糊"圖像上,類別邊界變得不那么清晰,分類器梯度也就有了意義。這就像給考試題目增加一些模糊性,讓優(yōu)等生也需要仔細(xì)思考才能答對(duì),而不是一眼就能看出答案。
實(shí)驗(yàn)表明,這種基于流的分類器引導(dǎo)效果更好,最佳FID從2.54提升到了2.38。
實(shí)驗(yàn)結(jié)果:數(shù)字說(shuō)話
說(shuō)了這么多原理,讓我們看看對(duì)抗流模型在實(shí)際測(cè)試中表現(xiàn)如何。研究團(tuán)隊(duì)在ImageNet數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)。ImageNet是圖像生成領(lǐng)域最常用的基準(zhǔn)測(cè)試集,包含1000個(gè)類別的130多萬(wàn)張圖片,每張圖片分辨率為256×256像素。
評(píng)價(jià)圖像生成質(zhì)量最常用的指標(biāo)是FID,全稱是"弗雷歇起始距離"。FID計(jì)算真實(shí)圖像和生成圖像在特征空間中的分布距離,數(shù)值越低表示生成的圖像越接近真實(shí)圖像的統(tǒng)計(jì)特性。FID為2表示生成質(zhì)量非常高,F(xiàn)ID為10就已經(jīng)能明顯看出是AI生成的了。
![]()
在單步生成(一次計(jì)算就出圖)的設(shè)置下,對(duì)抗流模型的XL/2版本達(dá)到了2.38的FID,創(chuàng)造了新的最佳紀(jì)錄。作為對(duì)比,之前最好的一致性模型AlphaFlow的FID是2.81,流匹配模型MeanFlow的FID是3.43。更令人印象深刻的是,對(duì)抗流模型的B/2版本(參數(shù)量只有1.3億,是XL/2的五分之一)達(dá)到了3.05的FID,接近甚至超過(guò)了許多XL/2規(guī)模的一致性模型。這說(shuō)明對(duì)抗流模型在利用模型容量方面更高效,它不需要把容量浪費(fèi)在學(xué)習(xí)那些用不到的中間步驟上。
在無(wú)引導(dǎo)生成的設(shè)置下,對(duì)抗流模型的優(yōu)勢(shì)更加明顯。XL/2版本用單步就達(dá)到了3.98的FID,用兩步更是達(dá)到了2.36的FID。而流匹配模型DiT即使用250步采樣,F(xiàn)ID也只有9.62;SiT用250步達(dá)到8.30。這是一個(gè)數(shù)量級(jí)的差距,充分證明了對(duì)抗訓(xùn)練在分布匹配方面的優(yōu)勢(shì)。
研究團(tuán)隊(duì)還展示了深度模型的潛力。通過(guò)把28層的模型重復(fù)執(zhí)行4次變成等效的112層,同時(shí)保持單步生成,他們達(dá)到了1.94的FID,這超過(guò)了4步生成的2.02的FID。這個(gè)結(jié)果意義重大,它表明單步生成的質(zhì)量瓶頸可能不在訓(xùn)練方法上,而在于模型深度。只要模型足夠深,單步就能完成多步才能做到的復(fù)雜變換。這為未來(lái)的研究指明了一個(gè)有前景的方向:與其糾結(jié)于如何更好地蒸餾或一致性訓(xùn)練,不如直接訓(xùn)練更深的單步模型。
至頂AI實(shí)驗(yàn)室洞見(jiàn)
字節(jié)跳動(dòng)團(tuán)隊(duì)的這項(xiàng)研究在理論和實(shí)踐上都有重要貢獻(xiàn)。從理論角度看,他們揭示了GAN訓(xùn)練不穩(wěn)定的一個(gè)核心原因,缺乏唯一的優(yōu)化目標(biāo),并提出了一個(gè)優(yōu)雅的解決方案。從實(shí)踐角度看,對(duì)抗流模型在多個(gè)設(shè)置下都取得了最佳性能,特別是在單步生成方面的突破,對(duì)于需要實(shí)時(shí)生成圖像的應(yīng)用場(chǎng)景意義重大。
但研究團(tuán)隊(duì)也坦誠(chéng)地討論了方法的局限性。首先,雖然他們提出了多種技術(shù)來(lái)穩(wěn)定訓(xùn)練,但有些技術(shù)(比如重置判別器)還不夠優(yōu)雅,缺乏理論上的完美解釋。其次,對(duì)抗訓(xùn)練相比一致性訓(xùn)練需要更多的計(jì)算量,大約是1.88倍,因?yàn)樾枰瑫r(shí)訓(xùn)練生成器和判別器。最后,他們使用的是分類器引導(dǎo)而非無(wú)分類器引導(dǎo),這需要額外訓(xùn)練一個(gè)分類器網(wǎng)絡(luò)。
盡管如此,這項(xiàng)研究為AI圖像生成領(lǐng)域開(kāi)辟了一條新路。它證明了對(duì)抗訓(xùn)練和流模型可以優(yōu)雅地統(tǒng)一,兩者的優(yōu)點(diǎn)可以兼得。更重要的是,它表明深度而非訓(xùn)練方法可能是突破單步生成質(zhì)量瓶頸的關(guān)鍵。這些洞見(jiàn)將指導(dǎo)未來(lái)的研究方向,推動(dòng)AI圖像生成技術(shù)繼續(xù)進(jìn)步。
字節(jié)跳動(dòng)團(tuán)隊(duì)做的事情就像是給一個(gè)才華橫溢但性格古怪的藝術(shù)家配上了一套科學(xué)的創(chuàng)作方法論。這個(gè)藝術(shù)家就是GAN,它天生就有一步畫出精美圖像的能力,但以前總是發(fā)揮不穩(wěn)定,好的時(shí)候驚為天人,差的時(shí)候一塌糊涂。現(xiàn)在有了"最優(yōu)傳輸"這個(gè)導(dǎo)航系統(tǒng)的加持,它終于能夠穩(wěn)定發(fā)揮了。而且有趣的是,這個(gè)導(dǎo)航系統(tǒng)并沒(méi)有限制藝術(shù)家的創(chuàng)造力,相反,由于它采用的是感知距離而非像素距離的優(yōu)化目標(biāo),生成的圖像反而更加自然真實(shí)。這項(xiàng)研究給我們的啟示是:在AI領(lǐng)域,看似矛盾的方法往往可以找到統(tǒng)一的框架,而突破性的進(jìn)展常常來(lái)自于對(duì)基礎(chǔ)問(wèn)題的重新思考。
論文地址:https://arxiv.org/abs/2511.22475v1
項(xiàng)目地址:https://github.com/ByteDance-Seed/Adversarial-Flow-Models
本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
Q&A
Q1:對(duì)抗流模型和傳統(tǒng)GAN有什么區(qū)別?
A:傳統(tǒng)GAN的生成器可以學(xué)習(xí)任意從噪音到圖像的映射,沒(méi)有固定路線,導(dǎo)致訓(xùn)練不穩(wěn)定。對(duì)抗流模型加入了最優(yōu)傳輸損失,強(qiáng)制生成器走"最短路",學(xué)習(xí)一個(gè)確定性的映射,從而大大提高了訓(xùn)練穩(wěn)定性。
Q2:對(duì)抗流模型能比流匹配模型快多少?
A:對(duì)抗流模型可以一步生成圖像,而流匹配模型通常需要幾十到幾百步。在相同質(zhì)量下,對(duì)抗流模型的效率可以提高幾十倍甚至上百倍,這對(duì)實(shí)時(shí)圖像生成應(yīng)用非常重要。
Q3:普通用戶什么時(shí)候能用上這項(xiàng)技術(shù)?
A:這項(xiàng)技術(shù)目前處于研究階段,但它的核心思想——更快、更穩(wěn)定的圖像生成——很可能會(huì)被整合到未來(lái)的AI繪畫工具中。隨著技術(shù)成熟,用戶可能會(huì)發(fā)現(xiàn)AI畫圖的速度更快、質(zhì)量更穩(wěn)定,等待時(shí)間大大縮短。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.