<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      楊立昆路線的新勝利:VL-JEPA來了,拋棄預測下一個詞,不靠生成,照樣SOTA

      0
      分享至

      算泥社區是集 “AI 大模型開發服務 + 算法 + 算力” 于一體的開源生態社區,歡迎關注!

      人工智能研究中,Yann LeCun(楊立昆)有一個獨特且經常引起爭議的觀點。

      他認為僅靠以語言為中心、基于預測下一個詞的規模化模型,無法通向真正具備常識、因果理解和規劃能力的通用智能;它們缺乏對物理世界的內在表征與世界模型,無法自主學習和可靠推理,因此最多是強大的工具,而不是通往 AGI 的終極路徑。


      在他的《通往自主機器智能的道路》的重要立場論文中,他提出了實現人工智能的替代框架。


      他還提出了一種預測世界模型的新架構: 聯合嵌入預測架構 (Joint Embedding Predictive Architecture,JEPA)。

      Yann LeCun已經離開了Meta,他的學術成果仍然在Meta發揮余熱。

      剛剛,Meta FAIR、香港科技大學、索邦大學、紐約大學聯合發布了一個基于JEPA的視覺-語言模型VL-JEPA。


      VL-JEPA架構徹底拋棄了傳統視覺語言模型逐個Token生成的低效模式,轉而在抽象的嵌入空間中直接預測語義,以一半的參數量實現了SOTA的性能,并為實時視頻理解帶來了近3倍的效率提升。

      回歸語義本質

      現在的AI界都是被基于Transformer的自回歸模型統治。

      給AI看一張圖,它就像個絮絮叨叨的解說員,必須一個詞接一個詞地往外蹦句子。這種方式看似直觀,實則在訓練和推理上都極其昂貴。

      Yann LeCun早已對這種低效模式感到不滿。

      這篇論文的研究者也認為,智能的核心在于理解和預測,而不在于是否能把每一句話都修飾得文采飛揚。

      基于這種理念,他們推出了VL-JEPA的視覺語言模型。


      傳統模型在訓練時不得不關注每一個單詞的選擇、句式的排列甚至語氣的模仿。

      這對理解圖像內容來說,其實是巨大的浪費。

      就像你問一個人“燈關了嗎?”,他回答“燈滅了”或者“房間變暗了”在意思上是完全一樣的,但在傳統的訓練中,模型卻要為了這兩個在字面上完全正交(不重疊)的句子耗費大量算力去擬合。

      VL-JEPA換了一種活法。

      它不再執著于預測下一個單詞是什么,而是直接預測目標文本在數學空間中的“坐標”——也就是連續的語義嵌入(Embeddings)。

      在這個高維空間里,“燈滅了”和“房間變暗了”的坐標靠得非常近。模型只需要學會指那個方向,而不需要糾結具體用哪個詞來描述。

      這種非生成式(Non-generative)的設計,讓模型得以剝離掉那些與任務無關的語言表象,專注于最核心的語義信息。

      這不僅簡化了學習目標,更讓模型在參數量減少50%的情況下,依然能打出比肩甚至超越龐大生成式模型的戰績。

      架構的精密運轉邏輯

      VL-JEPA的設計哲學體現在其精簡而高效的四個核心組件中。這套架構不需要在那兒猜詞,而是通過計算向量的距離來理解世界。


      X-Encoder(視覺編碼器)負責看。

      它接收視頻或圖像輸入,將其壓縮成一串緊湊的視覺嵌入向量。這里研究團隊選用的是凍結參數的V-JEPA 2 ViT-L模型。這個模型本身就在自監督視覺任務上表現優異,能把復雜的視頻畫面濃縮成高密度的信息流。

      Y-Encoder(文本編碼器)負責聽和理解目標。

      它將目標文本(比如問題的答案或圖片的描述)映射到一個連續的潛在空間中。這個空間就是模型學習的靶場。在這個空間里,語義相近的句子會聚在一起,無關的信息被過濾。這一步至關重要,它決定了模型思考的質量。

      Predictor(預測器)是整個架構的大腦。

      它接收來自X-Encoder的視覺信息,同時接收一個文本查詢(Query,比如“這人在干嘛?”),然后它的任務就是預測出Y-Encoder會生成什么樣的嵌入向量。注意,它預測的是一個數學向量,而不是具體的文字。這部分采用的是Llama-3的Transformer層進行初始化,讓它天生就具備一定的語言理解底子。

      Y-Decoder(文本解碼器)是一個輕量級的翻譯官。

      它在訓練階段完全不參與,只有在人類真的需要看文字結果時,它才會被喚醒,把模型預測出來的數學向量翻譯成人類能讀懂的句子。

      這套系統的訓練目標非常純粹:最小化預測出的嵌入向量和真實文本嵌入向量之間的距離。

      為了防止模型偷懶(比如把所有輸入都映射成同一個點),團隊使用了InfoNCE損失函數。

      這種對比學習的方法,一邊拉近正確答案的距離,一邊把無關的干擾項推遠,迫使模型在那個抽象的數學空間里構建出清晰的語義地圖。

      這種設計讓VL-JEPA在處理那些沒有標準答案的任務時如魚得水。

      在真實世界里,同一個動作的描述千變萬化,傳統模型要在離散的詞表中尋找唯一解極其痛苦,而VL-JEPA只需要在連續空間里找到那個語義聚類中心即可。

      選擇性解碼藝術

      視頻理解一直是AI領域的硬骨頭,尤其是實時視頻流。

      以前的模型每一幀都要處理,每一秒都要嘗試生成描述,計算量大到無法在可穿戴設備或機器人上實時運行。

      VL-JEPA在這里展現了它作為非自回歸模型的巨大優勢。

      由于VL-JEPA輸出的是連續的語義嵌入流,它可以像心電圖一樣實時監測這個信號的變化。

      如果畫面中的語義沒有發生劇烈波動,模型就保持沉默,不做任何繁重的文字解碼工作。

      只有當監測到的語義方差超過某個閾值——意味著畫面中發生了新的事件時,它才喚醒解碼器,輸出一段文字描述。

      這種選擇性解碼(Selective Decoding)機制,讓計算資源得到了極致的優化。


      實驗數據顯示,在保證同等語義捕捉質量(CIDEr分數)的前提下,VL-JEPA的解碼操作次數減少了約2.85倍。

      對于智能眼鏡、家庭機器人這種對延遲和功耗極其敏感的設備來說,這幾乎是質的飛躍。

      模型可以始終在線觀察世界,但只在必要時開口匯報,既省電又敏捷。

      相比之下,傳統的VLM(視覺語言模型)受限于自回歸的生成方式,必須把上一個詞算出來才能算下一個詞,這不僅延遲高,而且無法在生成過程中動態更新語義。

      VL-JEPA的嵌入流則是并行的、連續的,能跟隨視頻流即時刷新對世界的認知。

      在嚴苛對比下的性能統治力

      為了證明這套架構不僅僅是理論上好聽,Meta團隊進行了一場極其嚴苛的對比實驗。他們構建了一個對照組:一個標準的Token生成式VLM。

      這個對照組使用了完全相同的視覺編碼器、相同的空間分辨率、相同的幀率、完全一樣的訓練數據(包括DataComp、YFCC-100M等海量圖文對以及HowTo100M視頻數據)、一樣的Batch Size,甚至訓練迭代次數都一模一樣。

      唯一的區別就在于,一個是在數據空間里預測Token,一個是在潛在空間里預測Embedding。

      結果令人信服。在同等算力預算下,VL-JEPA在零樣本(Zero-shot)分類和描述任務上,性能曲線爬升得比傳統VLM快得多。


      在訓練了500萬個樣本后,VL-JEPA的Top-5分類準確率達到了35.3%,而對照組只有27.2%。

      這種差距隨著訓練的進行一直保持著。

      更關鍵的是,VL-JEPA的訓練參數只有1.6B(16億),比許多動輒百億參數的大模型輕量得多,卻干出了更好的活。


      在廣泛的視頻分類和檢索基準測試中,VL-JEPA的表現全面超越了CLIP、SigLIP2和Perception Encoder這些赫赫有名的前輩。

      特別是在SSv2、EgoExo4D這種強調動作和過程的視頻數據集上,VL-JEPA的優勢尤為明顯。

      這說明它不僅僅是看懂了畫面里的物體(外觀),更看懂了物體在如何運動和交互(動態)。

      VL-JEPA不僅僅是一個只會看視頻的分類器,經過第二階段的監督微調(SFT)后,它搖身一變成了一個全能選手。

      在視覺問答(VQA)任務上,盡管參數量只有1.6B,VL-JEPA依然與InstructBLIP、Qwen-VL這些大塊頭打得有來有回。

      在GQA(組合視覺推理)、TallyQA(復雜計數)以及POPE(物體幻覺檢測)等數據集上,它的表現都接近了SOTA水平。


      更令人興奮的是它在世界預測(World Prediction)任務上的表現。

      這個任務要求模型看一張起始圖和一張終點圖,然后判斷中間發生了什么動作。這實際上是在測試模型是否理解物理世界的因果關系。

      在這個領域,VL-JEPA不僅擊敗了同量級的VLM,甚至在準確率上超過了GPT-4o、Claude-3.5和Gemini-2這些頂級的大語言模型。


      雖然這些大模型擁有千億級的參數,但在純粹的視覺因果推理上,專注于嵌入空間預測的VL-JEPA展現出了更敏銳的物理直覺。

      這種能力意味著VL-JEPA非常適合作為具身智能(Embodied AI)的大腦。

      機器人需要理解它所處環境的物理規律,預測自己動作的后果,而不需要每一步都停下來寫一篇小作文來分析現狀。

      Meta團隊還非常誠實地展示了各種失敗的嘗試,告訴大家什么行得通,什么行不通。


      關于預訓練,他們發現如果跳過第一階段的海量圖文預訓練,直接上SFT,分類準確率會暴跌21.7%。

      這說明地基必須打牢,沒有大規模數據的浸泡,模型學不到通用的視覺語言對齊。

      關于學習率,Y-Encoder的學習率必須非常小心地調整。

      實驗表明,給文本編碼器設置0.05到0.1倍的學習率乘數是最佳甜點。太快了模型會發散,太慢了學不動。

      關于損失函數,InfoNCE展現了統治力。

      相比于簡單的余弦距離(Cosine)或L1/L2距離,InfoNCE自帶的抗坍縮(Anti-collapse)屬性對于維持嵌入空間的多樣性至關重要。雖然在VQA任務上余弦距離表現稍好,但在分類和檢索等通用任務上,InfoNCE是絕對的最優解。

      有趣的是,他們還嘗試了不同的文本編碼器。

      雖然默認使用的是EmbeddingGemma-300M,但實驗證明更大的編碼器確實能帶來更好的性能。

      特別是那些視覺對齊過的文本編碼器(如PE模型),能讓分類和檢索分數進一步上漲。

      這暗示了VL-JEPA架構還有巨大的潛力可挖,只要換上更強的組件,性能天花板還能往上頂。

      VL-JEPA標志著視覺語言模型從學會說話向學會思考邁出了堅實的一步。

      參考資料:

      https://arxiv.org/pdf/2512.10942

      https://openreview.net/pdf?id=BZ5a1r-kVsf

      ??

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蕭美娘乳白寫真合集(2)

      蕭美娘乳白寫真合集(2)

      情感大頭說說
      2026-01-24 15:26:40
      金門炮戰三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      金門炮戰三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      混沌錄
      2026-01-28 22:49:07
      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯賽

      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯賽

      懂球帝
      2026-01-31 11:53:20
      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      漫川舟船
      2026-01-31 11:55:19
      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      簡史檔案館
      2026-01-30 11:05:03
      海南省市場監督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      海南省市場監督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      界面新聞
      2026-01-31 12:07:18
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      李云飛Afey
      2026-01-20 11:43:34
      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      素衣讀史
      2026-01-28 17:22:30
      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      漢史趣聞
      2025-11-08 09:27:32
      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      梅亭談
      2026-01-31 10:26:10
      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯動火爆歐洲!

      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯動火爆歐洲!

      羅納爾說個球
      2026-01-31 00:37:39
      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      帶你感受人間冷暖
      2026-01-25 00:20:06
      春節前到賬!4億黨費發放,5類黨員符合條件就有

      春節前到賬!4億黨費發放,5類黨員符合條件就有

      夜深愛雜談
      2026-01-30 22:30:02
      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發布會

      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發布會

      懂球帝
      2026-01-31 09:57:12
      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南語學習平臺
      2026-01-31 09:27:28
      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      極目新聞
      2026-01-30 19:08:19
      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      懂球帝
      2026-01-31 00:06:23
      廣東提前一輪無緣常規賽第一

      廣東提前一輪無緣常規賽第一

      刺猬籃球
      2026-01-31 11:45:16
      華為宣布:最高降4000元!此前蘋果開啟大降價

      華為宣布:最高降4000元!此前蘋果開啟大降價

      每日經濟新聞
      2026-01-29 18:19:05
      兒子帶女友回家,女友頭發把媽媽嚇一跳,網友:這就是自我的代價

      兒子帶女友回家,女友頭發把媽媽嚇一跳,網友:這就是自我的代價

      丫頭舫
      2026-01-30 15:51:49
      2026-01-31 12:39:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4511文章數 37400關注度
      往期回顧 全部

      科技要聞

      中國車企和特斯拉的下一戰,戰場已定

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      成龍入駐小紅書,懟臉近照沒有老年斑

      財經要聞

      白銀,暴跌!黃金,40年最大跌幅!

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發布 V8混動加持

      態度原創

      藝術
      家居
      教育
      親子
      數碼

      藝術要聞

      15位當代國外畫家的16幅具象人物繪畫

      家居要聞

      藍調空舍 自由與個性

      教育要聞

      上海交大與滑鐵盧大學正式簽約:本碩博聯合培養項目要來了!

      親子要聞

      生完孩子后,她腋下長出第三個胸??跟其他倆同步變化,理論上也能喂奶...

      數碼要聞

      8K電視集體“退燒”,消息稱LG停產8K面板

      無障礙瀏覽 進入關懷版