![]()
編輯|Panda
眾所周知,LeCun 不喜自回歸,并且還提出了一種名為聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的新方向,并且該方向也一直在有新成果涌現(xiàn)。
然而,自回歸模型的成功也是有目共睹的,尤其是在語言領(lǐng)域。那么,生成式預(yù)訓(xùn)練在自然語言上的成功能否在視覺領(lǐng)域重現(xiàn)呢?
近日,密歇根大學(xué)、紐約大學(xué)、普林斯頓大學(xué)和弗吉尼亞大學(xué)的一個(gè)聯(lián)合研究團(tuán)隊(duì)對(duì)此給出了肯定答案。
只不過,他們不是訓(xùn)練模型輸出用于下游任務(wù)的特征,而是讓它們生成嵌入(embeddings)以直接執(zhí)行預(yù)測任務(wù)。可以說,這是從學(xué)習(xí)表征(learning representations)到學(xué)習(xí)模型(learning models)的一種范式轉(zhuǎn)變。
具體而言,模型會(huì)通過因果掩碼(causal masking)和停止梯度(stop gradient),以過去圖塊嵌入為條件,學(xué)習(xí)預(yù)測未來的圖塊嵌入。類似于下一 token 預(yù)測,該團(tuán)隊(duì)將這種方法稱為下一嵌入預(yù)測自回歸(Next-Embedding Predictive Autoregression),簡稱NEPA
![]()
- 論文標(biāo)題:Next-Embedding Prediction Makes Strong Vision Learners
- 論文地址:https://arxiv.org/abs/2512.16922v1
- 項(xiàng)目地址:https://sihanxu.me/nepa/
- 代碼地址:https://github.com/SihanXU/nepa
- 模型地址:https://huggingface.co/collections/SixAILab/nepa
該論文目前正是 alphaXiv 上熱度第一的論文。
![]()
本文第一作者為 Sihan Xu,密歇根大學(xué)博士生,導(dǎo)師是密歇根大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系正教授 Stella X. Yu;這項(xiàng)研究的部分工作是其在紐約大學(xué)訪問期間完成。紐約大學(xué)著名研究科學(xué)家謝賽寧也在作者名單中。
范式的轉(zhuǎn)變
視覺預(yù)訓(xùn)練是計(jì)算機(jī)視覺的核心議題之一。自監(jiān)督學(xué)習(xí)也已成為現(xiàn)代視覺預(yù)訓(xùn)練方法的基石,使得無需人工標(biāo)簽即可訓(xùn)練可擴(kuò)展的視覺學(xué)習(xí)器。
其核心目標(biāo)是學(xué)習(xí)表征(learn representations):優(yōu)化模型,從而將原始像素映射到固定維度的表征,這些表征隨后可被使用或針對(duì)下游任務(wù)進(jìn)行微調(diào)。
這一哲學(xué)統(tǒng)一了基于實(shí)例判別(instance discrimination)、自蒸餾(self-distillation)和掩碼重建(masked reconstruction)的方法。
其目標(biāo)是學(xué)習(xí)能夠被各種規(guī)模的下游模塊(從輕量級(jí)的特定于任務(wù)的頭到諸如視覺 - 語言模型等大型級(jí)聯(lián)系統(tǒng))所使用的視覺表征。
現(xiàn)代自然語言處理的成功則建立在一個(gè)根本不同的范式之上。
語言模型的預(yù)訓(xùn)練目標(biāo)并不是作為特征提取器;而是作為生成式和預(yù)測式系統(tǒng)。其目標(biāo)不是生成句子的靜態(tài)嵌入,而是通過一個(gè)簡單的因果目標(biāo)(causal objective)對(duì)數(shù)據(jù)分布本身進(jìn)行建模。
這種訓(xùn)練會(huì)迫使模型內(nèi)化語言中的語義和條件依賴關(guān)系。推理不再是一個(gè)「編碼→解決任務(wù)」的兩階段過程,而是由模型本身執(zhí)行的單一預(yù)測計(jì)算。
這一區(qū)別至關(guān)重要,涉及根本。它表明:生成式預(yù)測(而非表征學(xué)習(xí))可能提供了一條擴(kuò)展預(yù)訓(xùn)練的直接途徑。
最近的一系列研究已經(jīng)轉(zhuǎn)向了這一哲學(xué)。例如:
- 早期的像素級(jí)生成式預(yù)訓(xùn)練(iGPT)展示了可遷移的特征,但在處理超長序列和弱語義對(duì)齊方面表現(xiàn)一般。
- JEPA 超越了像素層面,通過預(yù)測潛在目標(biāo)(latent targets)來更緊密地與語義結(jié)構(gòu)對(duì)齊。然而,JEPA 依然是通過從動(dòng)量編碼器(momentum encoder)回歸到潛在目標(biāo)來進(jìn)行訓(xùn)練,而不是將生成式預(yù)測作為自監(jiān)督目標(biāo)。
基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器。
具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。
基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器?
具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。
該團(tuán)隊(duì)對(duì)目標(biāo)嵌入使用停止梯度(stop-gradient)以創(chuàng)建一個(gè)穩(wěn)定的預(yù)測任務(wù)。這種形式是刻意保持極簡的。它不需要像素級(jí)解碼器、不需要離散的視覺 Tokenizer(分詞器),也不需要對(duì)比學(xué)習(xí)中常見的工程化數(shù)據(jù)增強(qiáng)、負(fù)樣本對(duì)或動(dòng)量編碼器。整個(gè)學(xué)習(xí)信號(hào)源于模型在嵌入空間中預(yù)測未來的能力。
于是乎,一個(gè)新的模型家族誕生了:下一嵌入預(yù)測自回歸(NEPA)
下一嵌入預(yù)測自回歸(NEPA)
整體來看,NEPA 方法是極簡主義的。如果說現(xiàn)在的視覺模型都在比拼誰的裝備更復(fù)雜(動(dòng)量編碼器、解碼器、離散 Tokenizer……),那么 NEPA 就是那個(gè)穿著白 T 恤走進(jìn)戰(zhàn)場的選手。它的核心哲學(xué)非常簡單:像 GPT 預(yù)測下一個(gè)詞那樣,去預(yù)測圖像的下一個(gè)「特征塊」。
![]()
其核心思路可以總結(jié)如下:
- 切塊與編碼:首先,把一張圖切成若干小塊(Patch),每一塊通過編碼器變成一個(gè)向量(Embedding)。
- 預(yù)測未來:觀看前面的塊,猜下一塊長什么樣。這和語言模型(LLM)的「下一詞預(yù)測」相似,只不過這里處理的是連續(xù)的數(shù)學(xué)向量,而不是離散的詞。
- 防止「作弊」:為了防止模型偷懶(比如輸出一樣的結(jié)果),作者借用了 SimSiam 的經(jīng)典招數(shù):停止梯度(Stop-Gradient)。簡單說,就是讓作為「標(biāo)準(zhǔn)答案」的那個(gè)目標(biāo)向量保持靜止,不參與反向傳播。這就像是射箭時(shí),靶子必須固定,不能讓你把靶子移到箭射中的地方。
具體到架構(gòu)設(shè)計(jì)上,他們采用了一個(gè)帶有因果注意力掩碼的標(biāo)準(zhǔn)視覺 Transformer(ViT)主干網(wǎng)絡(luò)。
與像素級(jí)重建方法不同,該方法不需要單獨(dú)的解碼器。該 Transformer 直接根據(jù)過去的圖像塊嵌入來預(yù)測未來的圖像塊嵌入,使用單個(gè)主干網(wǎng)絡(luò)同時(shí)進(jìn)行上下文編碼和預(yù)測,這與自回歸語言模型類似。圖像通過一個(gè)二維卷積(Conv2d)圖像塊嵌入層被分割成不重疊的圖像塊,并在輸入到 Transformer 之前添加可學(xué)習(xí)的位置嵌入。
他們采用了帶有層歸一化(LayerNorm) 的預(yù)歸一化設(shè)計(jì),并對(duì)輸出特征應(yīng)用最終的層歸一化。
為了提高穩(wěn)定性和可擴(kuò)展性,該團(tuán)隊(duì)該結(jié)合了受 DINOv3 和視覺大語言模型 VisionLLaMA 啟發(fā)的現(xiàn)代訓(xùn)練和歸一化方法,如圖 2 所示。
![]()
這些模型設(shè)計(jì)有助于訓(xùn)練,但與核心框架無關(guān),感興趣的讀者可參閱原論文以及相關(guān)論文。
訓(xùn)練好之后怎么用呢?換個(gè)「頭」就行。下面是兩個(gè)例子:
- 分類:取出最后一個(gè)預(yù)測出來的嵌入向量,接個(gè)簡單的分類頭,就能識(shí)別這是貓還是狗。
- 分割:接一個(gè) UPerNet 頭。有趣的是,雖然訓(xùn)練時(shí)是「只看過去」的單向預(yù)測,但在做分割這種需要全局信息的任務(wù)時(shí),可以解除封印,開啟雙向注意力(Bidirectional Attention),讓模型看清全圖。
總之,NEPA 證明了,只要你有一個(gè)好的預(yù)測目標(biāo),就不需要那些花里胡哨的架構(gòu),一個(gè)標(biāo)準(zhǔn)的 Transformer 加上「防坍塌」技巧,就能成為頂級(jí)的視覺學(xué)習(xí)者。
實(shí)驗(yàn)結(jié)果
在量化性能方面,NEPA 展現(xiàn)出了與 SOTA 方法相媲美甚至更優(yōu)的實(shí)力。
僅在 ImageNet-1K 上進(jìn)行預(yù)訓(xùn)練,NEPA 的 ViT-B 和 ViT-L 模型分別達(dá)到了 83.8% 和 85.3% 的 Top-1 準(zhǔn)確率,這一成績優(yōu)于 MoCo v3、BEiT,并與 MAE 和 JEPA 處于同一水平。
![]()
更重要的是,盡管預(yù)訓(xùn)練過程中從未涉及像素重建,NEPA 依然表現(xiàn)出了強(qiáng)大的遷移能力,在 ADE20K 語義分割任務(wù)上分別取得了 48.3% 和 54.0% 的 mIoU,證明了純粹的嵌入預(yù)測足以學(xué)習(xí)到處理密集預(yù)測任務(wù)所需的豐富語義特征。
![]()
最后,通過對(duì)模型內(nèi)部注意力和嵌入的可視化分析,研究揭示了 NEPA 的有效性來源。
![]()
可視化結(jié)果顯示,模型自動(dòng)學(xué)會(huì)了長距離且以對(duì)象為中心的注意力模式,能夠忽略背景干擾,將注意力集中在語義相關(guān)的區(qū)域。同時(shí),預(yù)測出的嵌入向量在語義上與屬于同一物體的其他圖塊高度相似,表明模型并非死記硬背局部紋理,而是真正理解了物體層面的結(jié)構(gòu)。
這種通過簡單的「下一嵌入預(yù)測」所習(xí)得的全局語義依賴,不僅驗(yàn)證了該方法的有效性,也為跨模態(tài)的統(tǒng)一預(yù)訓(xùn)練范式提供了一種無需復(fù)雜手工設(shè)計(jì)的通用視角。
消融實(shí)驗(yàn)和更多詳情請參閱原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.