<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      自回歸也能做強(qiáng)視覺模型?NEPA「下一嵌入預(yù)測」時(shí)代,謝賽寧參與

      0
      分享至



      編輯|Panda

      眾所周知,LeCun 不喜自回歸,并且還提出了一種名為聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的新方向,并且該方向也一直在有新成果涌現(xiàn)。

      然而,自回歸模型的成功也是有目共睹的,尤其是在語言領(lǐng)域。那么,生成式預(yù)訓(xùn)練在自然語言上的成功能否在視覺領(lǐng)域重現(xiàn)呢?

      近日,密歇根大學(xué)、紐約大學(xué)、普林斯頓大學(xué)和弗吉尼亞大學(xué)的一個(gè)聯(lián)合研究團(tuán)隊(duì)對(duì)此給出了肯定答案。

      只不過,他們不是訓(xùn)練模型輸出用于下游任務(wù)的特征,而是讓它們生成嵌入(embeddings)以直接執(zhí)行預(yù)測任務(wù)。可以說,這是從學(xué)習(xí)表征(learning representations)到學(xué)習(xí)模型(learning models)的一種范式轉(zhuǎn)變。

      具體而言,模型會(huì)通過因果掩碼(causal masking)和停止梯度(stop gradient),以過去圖塊嵌入為條件,學(xué)習(xí)預(yù)測未來的圖塊嵌入。類似于下一 token 預(yù)測,該團(tuán)隊(duì)將這種方法稱為下一嵌入預(yù)測自回歸(Next-Embedding Predictive Autoregression),簡稱NEPA



      • 論文標(biāo)題:Next-Embedding Prediction Makes Strong Vision Learners
      • 論文地址:https://arxiv.org/abs/2512.16922v1
      • 項(xiàng)目地址:https://sihanxu.me/nepa/
      • 代碼地址:https://github.com/SihanXU/nepa
      • 模型地址:https://huggingface.co/collections/SixAILab/nepa

      該論文目前正是 alphaXiv 上熱度第一的論文。



      本文第一作者為 Sihan Xu,密歇根大學(xué)博士生,導(dǎo)師是密歇根大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系正教授 Stella X. Yu;這項(xiàng)研究的部分工作是其在紐約大學(xué)訪問期間完成。紐約大學(xué)著名研究科學(xué)家謝賽寧也在作者名單中。

      范式的轉(zhuǎn)變

      視覺預(yù)訓(xùn)練是計(jì)算機(jī)視覺的核心議題之一。自監(jiān)督學(xué)習(xí)也已成為現(xiàn)代視覺預(yù)訓(xùn)練方法的基石,使得無需人工標(biāo)簽即可訓(xùn)練可擴(kuò)展的視覺學(xué)習(xí)器。

      其核心目標(biāo)是學(xué)習(xí)表征(learn representations):優(yōu)化模型,從而將原始像素映射到固定維度的表征,這些表征隨后可被使用或針對(duì)下游任務(wù)進(jìn)行微調(diào)。

      這一哲學(xué)統(tǒng)一了基于實(shí)例判別(instance discrimination)、自蒸餾(self-distillation)和掩碼重建(masked reconstruction)的方法。

      其目標(biāo)是學(xué)習(xí)能夠被各種規(guī)模的下游模塊(從輕量級(jí)的特定于任務(wù)的頭到諸如視覺 - 語言模型等大型級(jí)聯(lián)系統(tǒng))所使用的視覺表征。

      現(xiàn)代自然語言處理的成功則建立在一個(gè)根本不同的范式之上。

      語言模型的預(yù)訓(xùn)練目標(biāo)并不是作為特征提取器;而是作為生成式和預(yù)測式系統(tǒng)。其目標(biāo)不是生成句子的靜態(tài)嵌入,而是通過一個(gè)簡單的因果目標(biāo)(causal objective)對(duì)數(shù)據(jù)分布本身進(jìn)行建模。

      這種訓(xùn)練會(huì)迫使模型內(nèi)化語言中的語義和條件依賴關(guān)系。推理不再是一個(gè)「編碼→解決任務(wù)」的兩階段過程,而是由模型本身執(zhí)行的單一預(yù)測計(jì)算。

      這一區(qū)別至關(guān)重要,涉及根本。它表明:生成式預(yù)測(而非表征學(xué)習(xí))可能提供了一條擴(kuò)展預(yù)訓(xùn)練的直接途徑。

      最近的一系列研究已經(jīng)轉(zhuǎn)向了這一哲學(xué)。例如:

      • 早期的像素級(jí)生成式預(yù)訓(xùn)練(iGPT)展示了可遷移的特征,但在處理超長序列和弱語義對(duì)齊方面表現(xiàn)一般。
      • JEPA 超越了像素層面,通過預(yù)測潛在目標(biāo)(latent targets)來更緊密地與語義結(jié)構(gòu)對(duì)齊。然而,JEPA 依然是通過從動(dòng)量編碼器(momentum encoder)回歸到潛在目標(biāo)來進(jìn)行訓(xùn)練,而不是將生成式預(yù)測作為自監(jiān)督目標(biāo)。

      基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器。

      具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。

      基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器?

      具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級(jí)嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。

      該團(tuán)隊(duì)對(duì)目標(biāo)嵌入使用停止梯度(stop-gradient)以創(chuàng)建一個(gè)穩(wěn)定的預(yù)測任務(wù)。這種形式是刻意保持極簡的。它不需要像素級(jí)解碼器、不需要離散的視覺 Tokenizer(分詞器),也不需要對(duì)比學(xué)習(xí)中常見的工程化數(shù)據(jù)增強(qiáng)、負(fù)樣本對(duì)或動(dòng)量編碼器。整個(gè)學(xué)習(xí)信號(hào)源于模型在嵌入空間中預(yù)測未來的能力。

      于是乎,一個(gè)新的模型家族誕生了:下一嵌入預(yù)測自回歸(NEPA)

      下一嵌入預(yù)測自回歸(NEPA)

      整體來看,NEPA 方法是極簡主義的。如果說現(xiàn)在的視覺模型都在比拼誰的裝備更復(fù)雜(動(dòng)量編碼器、解碼器、離散 Tokenizer……),那么 NEPA 就是那個(gè)穿著白 T 恤走進(jìn)戰(zhàn)場的選手。它的核心哲學(xué)非常簡單:像 GPT 預(yù)測下一個(gè)詞那樣,去預(yù)測圖像的下一個(gè)「特征塊」。



      其核心思路可以總結(jié)如下:

      • 切塊與編碼:首先,把一張圖切成若干小塊(Patch),每一塊通過編碼器變成一個(gè)向量(Embedding)。
      • 預(yù)測未來:觀看前面的塊,猜下一塊長什么樣。這和語言模型(LLM)的「下一詞預(yù)測」相似,只不過這里處理的是連續(xù)的數(shù)學(xué)向量,而不是離散的詞。
      • 防止「作弊」:為了防止模型偷懶(比如輸出一樣的結(jié)果),作者借用了 SimSiam 的經(jīng)典招數(shù):停止梯度(Stop-Gradient)。簡單說,就是讓作為「標(biāo)準(zhǔn)答案」的那個(gè)目標(biāo)向量保持靜止,不參與反向傳播。這就像是射箭時(shí),靶子必須固定,不能讓你把靶子移到箭射中的地方。

      具體到架構(gòu)設(shè)計(jì)上,他們采用了一個(gè)帶有因果注意力掩碼的標(biāo)準(zhǔn)視覺 Transformer(ViT)主干網(wǎng)絡(luò)。

      與像素級(jí)重建方法不同,該方法不需要單獨(dú)的解碼器。該 Transformer 直接根據(jù)過去的圖像塊嵌入來預(yù)測未來的圖像塊嵌入,使用單個(gè)主干網(wǎng)絡(luò)同時(shí)進(jìn)行上下文編碼和預(yù)測,這與自回歸語言模型類似。圖像通過一個(gè)二維卷積(Conv2d)圖像塊嵌入層被分割成不重疊的圖像塊,并在輸入到 Transformer 之前添加可學(xué)習(xí)的位置嵌入。

      他們采用了帶有層歸一化(LayerNorm) 的預(yù)歸一化設(shè)計(jì),并對(duì)輸出特征應(yīng)用最終的層歸一化。

      為了提高穩(wěn)定性和可擴(kuò)展性,該團(tuán)隊(duì)該結(jié)合了受 DINOv3 和視覺大語言模型 VisionLLaMA 啟發(fā)的現(xiàn)代訓(xùn)練和歸一化方法,如圖 2 所示。



      這些模型設(shè)計(jì)有助于訓(xùn)練,但與核心框架無關(guān),感興趣的讀者可參閱原論文以及相關(guān)論文。

      訓(xùn)練好之后怎么用呢?換個(gè)「頭」就行。下面是兩個(gè)例子:

      • 分類:取出最后一個(gè)預(yù)測出來的嵌入向量,接個(gè)簡單的分類頭,就能識(shí)別這是貓還是狗。
      • 分割:接一個(gè) UPerNet 頭。有趣的是,雖然訓(xùn)練時(shí)是「只看過去」的單向預(yù)測,但在做分割這種需要全局信息的任務(wù)時(shí),可以解除封印,開啟雙向注意力(Bidirectional Attention),讓模型看清全圖。

      總之,NEPA 證明了,只要你有一個(gè)好的預(yù)測目標(biāo),就不需要那些花里胡哨的架構(gòu),一個(gè)標(biāo)準(zhǔn)的 Transformer 加上「防坍塌」技巧,就能成為頂級(jí)的視覺學(xué)習(xí)者。

      實(shí)驗(yàn)結(jié)果

      在量化性能方面,NEPA 展現(xiàn)出了與 SOTA 方法相媲美甚至更優(yōu)的實(shí)力。

      僅在 ImageNet-1K 上進(jìn)行預(yù)訓(xùn)練,NEPA 的 ViT-B 和 ViT-L 模型分別達(dá)到了 83.8% 和 85.3% 的 Top-1 準(zhǔn)確率,這一成績優(yōu)于 MoCo v3、BEiT,并與 MAE 和 JEPA 處于同一水平。



      更重要的是,盡管預(yù)訓(xùn)練過程中從未涉及像素重建,NEPA 依然表現(xiàn)出了強(qiáng)大的遷移能力,在 ADE20K 語義分割任務(wù)上分別取得了 48.3% 和 54.0% 的 mIoU,證明了純粹的嵌入預(yù)測足以學(xué)習(xí)到處理密集預(yù)測任務(wù)所需的豐富語義特征。



      最后,通過對(duì)模型內(nèi)部注意力和嵌入的可視化分析,研究揭示了 NEPA 的有效性來源。



      可視化結(jié)果顯示,模型自動(dòng)學(xué)會(huì)了長距離且以對(duì)象為中心的注意力模式,能夠忽略背景干擾,將注意力集中在語義相關(guān)的區(qū)域。同時(shí),預(yù)測出的嵌入向量在語義上與屬于同一物體的其他圖塊高度相似,表明模型并非死記硬背局部紋理,而是真正理解了物體層面的結(jié)構(gòu)。

      這種通過簡單的「下一嵌入預(yù)測」所習(xí)得的全局語義依賴,不僅驗(yàn)證了該方法的有效性,也為跨模態(tài)的統(tǒng)一預(yù)訓(xùn)練范式提供了一種無需復(fù)雜手工設(shè)計(jì)的通用視角。

      消融實(shí)驗(yàn)和更多詳情請參閱原論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

      國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

      巧手曉廚娘
      2025-12-26 21:34:40
      又是高價(jià)預(yù)制菜?被曝湯底澆頭均是袋裝!事發(fā)知名連鎖店,上海門店最多

      又是高價(jià)預(yù)制菜?被曝湯底澆頭均是袋裝!事發(fā)知名連鎖店,上海門店最多

      新民晚報(bào)
      2026-01-07 20:34:36
      腦梗的源頭被查出,肥肉沒上榜,第1名很多人可能每天都在吃!

      腦梗的源頭被查出,肥肉沒上榜,第1名很多人可能每天都在吃!

      全球軍事記
      2025-11-29 13:46:37
      太囂張了!歐拉弄穿蘇提達(dá)專用服裝高調(diào)秀年度照,到底是誰給她的底氣

      太囂張了!歐拉弄穿蘇提達(dá)專用服裝高調(diào)秀年度照,到底是誰給她的底氣

      小魚愛魚樂
      2026-01-08 08:32:32
      一瓶肉寶王扯出驚天劇本!探店博主刪視頻跑路,16歲燒雞少年涼了

      一瓶肉寶王扯出驚天劇本!探店博主刪視頻跑路,16歲燒雞少年涼了

      一盅情懷
      2025-12-27 17:59:26
      她身為黃埔軍校的校花,與葉帥離異后獨(dú)自教子,建國后出任副主席,其子亦被授予少將軍銜

      她身為黃埔軍校的校花,與葉帥離異后獨(dú)自教子,建國后出任副主席,其子亦被授予少將軍銜

      史海孤雁
      2026-01-02 17:46:14
      保時(shí)捷卡宴跑網(wǎng)約車,幾塊錢的單也接!已經(jīng)接了1798單!

      保時(shí)捷卡宴跑網(wǎng)約車,幾塊錢的單也接!已經(jīng)接了1798單!

      網(wǎng)約車焦點(diǎn)
      2026-01-06 11:55:46
      李詠遺孀哈文現(xiàn)狀:定居美國富人區(qū),7年了沒再婚,女婿條件不錯(cuò)

      李詠遺孀哈文現(xiàn)狀:定居美國富人區(qū),7年了沒再婚,女婿條件不錯(cuò)

      削桐作琴
      2026-01-03 14:25:54
      攝影還是監(jiān)控?小米17 Ultra的2億像素鏡頭或引發(fā)訴訟潮

      攝影還是監(jiān)控?小米17 Ultra的2億像素鏡頭或引發(fā)訴訟潮

      手機(jī)中國
      2026-01-07 07:58:08
      記者:英冠布萊克本流浪者隊(duì)28歲中鋒蓋伊將加盟上海申花

      記者:英冠布萊克本流浪者隊(duì)28歲中鋒蓋伊將加盟上海申花

      懂球帝
      2026-01-08 18:58:39
      朱芳雨上訴成功!籃協(xié)官宣認(rèn)錯(cuò),漏判山西兩違體,迪亞洛逃過一劫

      朱芳雨上訴成功!籃協(xié)官宣認(rèn)錯(cuò),漏判山西兩違體,迪亞洛逃過一劫

      多特體育說
      2026-01-08 21:17:30
      美硬扣俄油輪后,不到24小時(shí),特朗普迎來噩耗,這一次沒人能幫他

      美硬扣俄油輪后,不到24小時(shí),特朗普迎來噩耗,這一次沒人能幫他

      尋途
      2026-01-08 20:39:40
      向太爆料方媛三胎為郭富城生兒子,打破四大天王女兒魔咒

      向太爆料方媛三胎為郭富城生兒子,打破四大天王女兒魔咒

      胖子的勇氣
      2026-01-06 19:47:36
      胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

      胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

      岐黃傳人孫大夫
      2025-12-20 11:45:03
      公示!北京985大學(xué)生,擬轉(zhuǎn)入地方高校

      公示!北京985大學(xué)生,擬轉(zhuǎn)入地方高校

      麥可思研究
      2026-01-06 14:03:01
      阿根廷球迷沮喪!?梅西向美媒發(fā)表"引人注目的言論",并談及未來

      阿根廷球迷沮喪!?梅西向美媒發(fā)表"引人注目的言論",并談及未來

      峰云峰雨
      2026-01-08 12:21:06
      國產(chǎn)香煙加了助燃劑?測試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

      國產(chǎn)香煙加了助燃劑?測試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

      回旋鏢
      2026-01-01 21:00:24
      驚艷!全紅嬋 “換頭式” 長大,長發(fā)披肩秒變甜妹

      驚艷!全紅嬋 “換頭式” 長大,長發(fā)披肩秒變甜妹

      帶你逛體壇
      2025-12-31 08:03:04
      家有哪3生肖,1月9號(hào)起財(cái)運(yùn)如潮涌,貴人不斷,富貴穩(wěn)穩(wěn)來

      家有哪3生肖,1月9號(hào)起財(cái)運(yùn)如潮涌,貴人不斷,富貴穩(wěn)穩(wěn)來

      毅談生肖
      2026-01-08 11:36:47
      解放前的成都原來還有這么雄偉壯觀的城墻,那時(shí)候通惠門還在!

      解放前的成都原來還有這么雄偉壯觀的城墻,那時(shí)候通惠門還在!

      史之銘
      2026-01-08 07:47:12
      2026-01-09 01:56:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12080文章數(shù) 142533關(guān)注度
      往期回顧 全部

      科技要聞

      智譜拿下“全球大模型第一股”,憑什么

      頭條要聞

      采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

      頭條要聞

      采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

      體育要聞

      世乒賽銀牌得主,說自己夢里都是孫穎莎

      娛樂要聞

      抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評(píng)

      財(cái)經(jīng)要聞

      微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

      汽車要聞

      從量變到"智"變 吉利在CES打出了五張牌

      態(tài)度原創(chuàng)

      房產(chǎn)
      旅游
      本地
      時(shí)尚
      公開課

      房產(chǎn)要聞

      豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

      旅游要聞

      美翻了!深圳一地鐵口驚現(xiàn)浪漫果凍海

      本地新聞

      1986-2026,一通電話的時(shí)空旅程

      珍珠專場|| 無論18歲還是80歲,總是會(huì)為它再一次心動(dòng)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 热99re久久免费视精品频| 97久久国产亚洲精品超碰热 | 高潮添下面视频免费看| 亚洲天堂色图| 色综合天天综合网国产成人网| 亚洲精品岛国片在线观看| 99久久99久久精品免费看蜜桃| 国产成人无码a区在线视频无码dvd | 亚洲av免费| 天天综合网亚洲网站| 国产99久60在线视频 | 传媒| 伊人偷拍| 色综合天天综合网国产成人网| 超碰在线成人| 免费视频成人片在线观看| 亚洲伊人精品久视频国产| 中文字幕人妻系列人妻有码| 久久无码人妻丰满熟妇区毛片| 中文字幕无码家庭乱欲| 日韩免费无码人妻波多野| 日日撸夜夜干| 国产午夜亚洲精品不卡| 久久er99热精品一区二区| 精品成人A片久久久久久船舶| 国产一级片内射在线视频| 国产av剧情md精品麻豆| 在线观看成人永久免费网站 | 国产中文字幕在线精品| 这里只有精品在线播放| 乌克兰少妇videos高潮| 一区二区三区av天堂| 香蕉久人久人青草青草| 亚洲熟妇久久国产精品| 午夜无码A级毛片免费视频| 欧美日本韩国亚洲| 久久久国产免费影院| 狼色精品人妻在线视频| 连山| 国产欧美一区二区精品仙草咪| 97蜜芽在线| 综合成人在线|