<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      徹底告別VE與VAE!商湯硬核重構多模態(tài):砍掉所有中間編碼器

      0
      分享至

      允中 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      多模態(tài)大模型的研發(fā)范式,正在被徹底重構。

      今天,商湯科技聯(lián)合南洋理工大學發(fā)布了最新技術成果:NEO-unify

      這是一套真正實現(xiàn)“原生、統(tǒng)一、端到端”的多模態(tài)模型架構,其最核心的突破在于:

      徹底砍掉了長期以來行業(yè)依賴的視覺編碼器(VE)和變分自編碼器(VAE)。不再通過“組件拼湊”來實現(xiàn)感知與生成,回歸第一性原理,直接以近乎無損的像素和文字作為原生輸入。

      通過創(chuàng)新的混合變換器(Mixture-of-Transformer, MoT)架構,該模型在同一個體系內打通了視覺與語言的“理解+生成”雙向能力。

      技術要點一覽:

      • 無編碼器設計:越過視覺表征爭論,擺脫預訓練先驗與規(guī)模定律瓶頸;
      • MoT架構:統(tǒng)一實現(xiàn)視覺與語言的深度融合;
      • 高效利用:在保持高保真細節(jié)恢復的同時,顯著提升了數(shù)據(jù)與算力的利用效率。

      這套架構的出現(xiàn),標志著多模態(tài)AI正在從“模態(tài)連接”進化為“原生統(tǒng)一智能體”

      其無編碼器、端到端、多模態(tài)統(tǒng)一學習的新路徑,也為未來實現(xiàn)跨模態(tài)認知與生成一體化的智能系統(tǒng)奠定了基礎。

      當前多模態(tài)智能架構困境

      長期以來,多模態(tài)研究領域普遍遵循著一種默認范式:

      • 視覺編碼器(Vision Encoder, VE)負責感知與理解;
      • 變分自編碼器(Variational Autoencoder, VAE)用于內容生成。

      這種架構雖然在初期推動了領域發(fā)展,但也在感知與生成之間劃下了一道天然的鴻溝。

      為了彌合這一裂痕,近期業(yè)界涌現(xiàn)出一系列嘗試構建“共享編碼器”的研究工作。然而,這種折衷方案往往陷入了新的結構性設計權衡。

      面對這一挑戰(zhàn),研究視角開始回歸第一性原理:能否構建一個直接處理原生輸入(即像素本身與文字本身)的一體化模型?

      基于這一思考,商湯科技聯(lián)合南洋理工大學提出了一種全新的架構范式:NEO-unify(preview)

      作為一個原生、統(tǒng)一、端到端的多模態(tài)模型架構,NEO-unify不僅越過了當前視覺表征的爭論,也擺脫了預訓練先驗和規(guī)模定律瓶頸的限制。

      最關鍵的是:不需要VE,也不需要VAE,NEO-unify實現(xiàn)了多模態(tài)處理的真正歸一

      NEO-unify原生一體化架構新范式

      NEO-unify第一次邁向真正的端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學習,并由模型自身塑造內部表征空間。



      首先,引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示。

      其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構,使理解與生成能夠在同一體系中協(xié)同進行。

      最終,通過統(tǒng)一學習框架實現(xiàn)跨模態(tài)訓練:文本采用自回歸交叉熵目標,視覺通過像素流匹配進行優(yōu)化。

      模型效果

      1、定量結果分析





      2、生圖效果展示





      技術發(fā)現(xiàn)

      1、無編碼器設計能夠同時保留抽象語義與細粒度表征

      圖像重建任務

      該團隊先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠學習到豐富的語義表征。

      在此基礎上,他們進一步觀察到一個有趣的現(xiàn)象:即使在凍結理解分支的情況下,獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節(jié)

      基于這一發(fā)現(xiàn),團隊訓練了NEO-unify(2B)

      初步9萬步預訓練后,模型在MS COCO 2017上取得31.56 PSNR0.85 SSIM,而Flux VAE的對應指標為0.91

      這一結果表明,即使不依賴預訓練VE或VAE,近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節(jié)保真。

      △域外圖像重建(2B NEO-unify,理解分支凍結)



      圖像編輯任務

      據(jù)此,團隊進一步開展探索:NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負責生成新的圖像。

      即使在凍結理解分支的情況下,NEO-unify(2B) 仍展現(xiàn)出強大的圖像編輯能力,同時顯著減少了輸入圖像令牌的數(shù)量。

      在使用開源生成與圖像編輯數(shù)據(jù)集并進行初步6萬步混合訓練后,模型在ImgEdit基準上取得3.32的成績,且理解分支在整個訓練過程中保持凍結。

      △小規(guī)模數(shù)據(jù)驗證(2B NEO-unify,理解分支凍結)



      △ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結)



      2、無編碼器架構與MoT主干高度協(xié)同大幅降低內在沖突

      借助預訓練的理解分支與生成分支,NEO-unify使用相同的中期訓練(MT)與監(jiān)督微調(SFT)數(shù)據(jù)進行聯(lián)合訓練。

      即使在較低的數(shù)據(jù)比例和損失權重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在MoT主干中協(xié)同提升,整體沖突極小。



      3、無編碼器架構,展現(xiàn)更高數(shù)據(jù)訓練效率

      此外,團隊先進行了web-scale預訓練,隨后在多樣且高質量的數(shù)據(jù)語料上依次進行中期訓練(MT) 和 監(jiān)督微調(SFT)。

      與Bagel模型相比,NEO-unify展現(xiàn)出更高的數(shù)據(jù)訓練效率,在使用更少訓練token的情況下取得了更優(yōu)的性能。



      邁向原生統(tǒng)一的下一代智能范式

      NEO-unify的意義不止于一次模型架構的創(chuàng)新,它實際上預示著多模態(tài)智能正從“組件堆疊”邁向“本質統(tǒng)一”。

      這種范式的演進,正在勾勒出通往下一代智能形態(tài)的清晰路徑:

      • 感知與生成交織的閉環(huán);
      • 全模態(tài)與深層視覺推理;
      • 空間智能與世界模型的涌現(xiàn)。

      這標志著一條全新的技術路線圖正在展開:

      模型不再在模態(tài)之間進行轉換,而是能夠原生地跨模態(tài)思考

      在這一愿景下,多模態(tài)AI不再只是連接不同系統(tǒng),而是構建一個從未被割裂的、高度集成的統(tǒng)一智能體,并讓所需能力從其內部自然涌現(xiàn)。

      據(jù)悉,目前相關的研發(fā)工作正處于規(guī)模化擴張與持續(xù)迭代的關鍵期。一系列基于該架構的模型成果與開源貢獻,將在近期陸續(xù)向業(yè)界發(fā)布。

      Hugging Face地址:
      https://huggingface.co/blog/sensenova/neo-unify
      官方博客地址:
      https://www.sensetime.com/en/news-detail/51170542?categoryId=1072
      https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央企大瘦身要來了,從77行業(yè)退出,大合并,大重組來了!

      央企大瘦身要來了,從77行業(yè)退出,大合并,大重組來了!

      環(huán)球通信
      2026-03-09 19:02:07
      恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

      恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

      火山詩話
      2026-03-09 09:07:09
      難以置信!因油價持續(xù)上漲,一早餐店通知每根油條上漲價格2.5元

      難以置信!因油價持續(xù)上漲,一早餐店通知每根油條上漲價格2.5元

      火山詩話
      2026-03-09 15:09:03
      叫停!上海浦東雙子塔地標暫緩建設

      叫停!上海浦東雙子塔地標暫緩建設

      GA環(huán)球建筑
      2026-03-10 00:07:45
      打工人的天徹底塌了!養(yǎng)龍蝦全網(wǎng)爆火,24小時干完6個人三周的活

      打工人的天徹底塌了!養(yǎng)龍蝦全網(wǎng)爆火,24小時干完6個人三周的活

      烏娛子醬
      2026-03-09 14:40:50
      特朗普和普京通話,美國宣布戰(zhàn)爭基本結束!國際油價巨震40%!

      特朗普和普京通話,美國宣布戰(zhàn)爭基本結束!國際油價巨震40%!

      軍機Talk
      2026-03-10 14:30:02
      全網(wǎng)斷貨!杭州老板傻眼:以前堆成山都賣不掉,愁!結果漲成這樣了……

      全網(wǎng)斷貨!杭州老板傻眼:以前堆成山都賣不掉,愁!結果漲成這樣了……

      極目新聞
      2026-03-10 14:24:43
      美國估計臉都綠了!伊朗揭露:美軍被俘,但美方聲稱他們已陣亡!

      美國估計臉都綠了!伊朗揭露:美軍被俘,但美方聲稱他們已陣亡!

      青青子衿
      2026-03-08 12:28:51
      還沒焐熱就腰斬,MacBook Neo4599元發(fā)布2429元到手,比買iPad還劃算?

      還沒焐熱就腰斬,MacBook Neo4599元發(fā)布2429元到手,比買iPad還劃算?

      齊魯壹點
      2026-03-10 10:38:15
      與陳坤牽手兩月,董潔首談和潘粵明離婚細節(jié),估計和你想的不一樣

      與陳坤牽手兩月,董潔首談和潘粵明離婚細節(jié),估計和你想的不一樣

      攬星河的筆記
      2026-03-10 12:49:56
      哈梅內伊的最后時刻

      哈梅內伊的最后時刻

      西樓飲月
      2026-03-09 22:13:35
      是否刺殺伊朗新領袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標;想在伊朗復制“委內瑞拉模式”

      是否刺殺伊朗新領袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標;想在伊朗復制“委內瑞拉模式”

      極目新聞
      2026-03-10 14:47:01
      美媒:美軍已損失總價值3.3億美元的“死神”無人機

      美媒:美軍已損失總價值3.3億美元的“死神”無人機

      新華社
      2026-03-10 15:11:11
      交通運輸部約談馬士基集團和地中海航運公司

      交通運輸部約談馬士基集團和地中海航運公司

      界面新聞
      2026-03-10 10:21:01
      兩會還沒結束,央媒對霍啟剛稱呼變了,四字之差釋放兩大強烈信號

      兩會還沒結束,央媒對霍啟剛稱呼變了,四字之差釋放兩大強烈信號

      以茶帶書
      2026-03-10 13:33:47
      清純得不像動作片!愛了!

      清純得不像動作片!愛了!

      貴圈真亂
      2026-03-10 10:49:23
      中東最后一套薩德系統(tǒng)被伊朗摧毀,現(xiàn)在最后悔的,估計是韓國!

      中東最后一套薩德系統(tǒng)被伊朗摧毀,現(xiàn)在最后悔的,估計是韓國!

      青青子衿
      2026-03-09 19:47:45
      深圳一幼兒園學費217360元!網(wǎng)友:都說經(jīng)濟下滑,只是我窮而已

      深圳一幼兒園學費217360元!網(wǎng)友:都說經(jīng)濟下滑,只是我窮而已

      火山詩話
      2026-03-10 13:22:20
      上海這一夜,和孫儷挨著坐的肖戰(zhàn),讓所有人見識了他的江湖地位

      上海這一夜,和孫儷挨著坐的肖戰(zhàn),讓所有人見識了他的江湖地位

      八卦南風
      2026-03-10 10:17:43
      打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

      打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

      史政先鋒
      2026-03-09 19:30:53
      2026-03-10 16:11:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12257文章數(shù) 176413關注度
      往期回顧 全部

      科技要聞

      “龍蝦”狂歡 賣“飼料”先掙錢了?

      頭條要聞

      男子吃飯像兔子去治療 蒙眼做手術聽到醫(yī)生一句話懵了

      頭條要聞

      男子吃飯像兔子去治療 蒙眼做手術聽到醫(yī)生一句話懵了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

      財經(jīng)要聞

      全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

      汽車要聞

      蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

      態(tài)度原創(chuàng)

      時尚
      房產(chǎn)
      旅游
      家居
      游戲

      沒有人不愛這個穿平底鞋都發(fā)光的女人

      房產(chǎn)要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      旅游要聞

      視窗|長安春日繁花開

      家居要聞

      自然肌理 溫度質感婚房

      英雄所見略同?《地平線6》新預告神似R星經(jīng)典大作!

      無障礙瀏覽 進入關懷版