允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
多模態(tài)大模型的研發(fā)范式,正在被徹底重構。
今天,商湯科技聯(lián)合南洋理工大學發(fā)布了最新技術成果:NEO-unify
這是一套真正實現(xiàn)“原生、統(tǒng)一、端到端”的多模態(tài)模型架構,其最核心的突破在于:
徹底砍掉了長期以來行業(yè)依賴的視覺編碼器(VE)和變分自編碼器(VAE)。不再通過“組件拼湊”來實現(xiàn)感知與生成,回歸第一性原理,直接以近乎無損的像素和文字作為原生輸入。
通過創(chuàng)新的混合變換器(Mixture-of-Transformer, MoT)架構,該模型在同一個體系內打通了視覺與語言的“理解+生成”雙向能力。
技術要點一覽:
- 無編碼器設計:越過視覺表征爭論,擺脫預訓練先驗與規(guī)模定律瓶頸;
- MoT架構:統(tǒng)一實現(xiàn)視覺與語言的深度融合;
- 高效利用:在保持高保真細節(jié)恢復的同時,顯著提升了數(shù)據(jù)與算力的利用效率。
這套架構的出現(xiàn),標志著多模態(tài)AI正在從“模態(tài)連接”進化為“原生統(tǒng)一智能體”
其無編碼器、端到端、多模態(tài)統(tǒng)一學習的新路徑,也為未來實現(xiàn)跨模態(tài)認知與生成一體化的智能系統(tǒng)奠定了基礎。
當前多模態(tài)智能架構困境
長期以來,多模態(tài)研究領域普遍遵循著一種默認范式:
- 視覺編碼器(Vision Encoder, VE)負責感知與理解;
- 變分自編碼器(Variational Autoencoder, VAE)用于內容生成。
這種架構雖然在初期推動了領域發(fā)展,但也在感知與生成之間劃下了一道天然的鴻溝。
為了彌合這一裂痕,近期業(yè)界涌現(xiàn)出一系列嘗試構建“共享編碼器”的研究工作。然而,這種折衷方案往往陷入了新的結構性設計權衡。
面對這一挑戰(zhàn),研究視角開始回歸第一性原理:能否構建一個直接處理原生輸入(即像素本身與文字本身)的一體化模型?
基于這一思考,商湯科技聯(lián)合南洋理工大學提出了一種全新的架構范式:NEO-unify(preview)
作為一個原生、統(tǒng)一、端到端的多模態(tài)模型架構,NEO-unify不僅越過了當前視覺表征的爭論,也擺脫了預訓練先驗和規(guī)模定律瓶頸的限制。
最關鍵的是:不需要VE,也不需要VAE,NEO-unify實現(xiàn)了多模態(tài)處理的真正歸一
NEO-unify原生一體化架構新范式
NEO-unify第一次邁向真正的端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學習,并由模型自身塑造內部表征空間。
![]()
首先,引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示。
其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構,使理解與生成能夠在同一體系中協(xié)同進行。
最終,通過統(tǒng)一學習框架實現(xiàn)跨模態(tài)訓練:文本采用自回歸交叉熵目標,視覺通過像素流匹配進行優(yōu)化。
模型效果
1、定量結果分析
![]()
![]()
2、生圖效果展示
![]()
![]()
技術發(fā)現(xiàn)
1、無編碼器設計能夠同時保留抽象語義與細粒度表征
圖像重建任務
該團隊先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠學習到豐富的語義表征。
在此基礎上,他們進一步觀察到一個有趣的現(xiàn)象:即使在凍結理解分支的情況下,獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節(jié)
基于這一發(fā)現(xiàn),團隊訓練了NEO-unify(2B)
初步9萬步預訓練后,模型在MS COCO 2017上取得31.56 PSNR0.85 SSIM,而Flux VAE的對應指標為0.91
這一結果表明,即使不依賴預訓練VE或VAE,近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節(jié)保真。
△域外圖像重建(2B NEO-unify,理解分支凍結)
![]()
圖像編輯任務
據(jù)此,團隊進一步開展探索:NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負責生成新的圖像。
即使在凍結理解分支的情況下,NEO-unify(2B) 仍展現(xiàn)出強大的圖像編輯能力,同時顯著減少了輸入圖像令牌的數(shù)量。
在使用開源生成與圖像編輯數(shù)據(jù)集并進行初步6萬步混合訓練后,模型在ImgEdit基準上取得3.32的成績,且理解分支在整個訓練過程中保持凍結。
△小規(guī)模數(shù)據(jù)驗證(2B NEO-unify,理解分支凍結)
![]()
△ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結)
![]()
2、無編碼器架構與MoT主干高度協(xié)同大幅降低內在沖突
借助預訓練的理解分支與生成分支,NEO-unify使用相同的中期訓練(MT)與監(jiān)督微調(SFT)數(shù)據(jù)進行聯(lián)合訓練。
即使在較低的數(shù)據(jù)比例和損失權重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在MoT主干中協(xié)同提升,整體沖突極小。
![]()
3、無編碼器架構,展現(xiàn)更高數(shù)據(jù)訓練效率
此外,團隊先進行了web-scale預訓練,隨后在多樣且高質量的數(shù)據(jù)語料上依次進行中期訓練(MT) 和 監(jiān)督微調(SFT)。
與Bagel模型相比,NEO-unify展現(xiàn)出更高的數(shù)據(jù)訓練效率,在使用更少訓練token的情況下取得了更優(yōu)的性能。
![]()
邁向原生統(tǒng)一的下一代智能范式
NEO-unify的意義不止于一次模型架構的創(chuàng)新,它實際上預示著多模態(tài)智能正從“組件堆疊”邁向“本質統(tǒng)一”。
這種范式的演進,正在勾勒出通往下一代智能形態(tài)的清晰路徑:
- 感知與生成交織的閉環(huán);
- 全模態(tài)與深層視覺推理;
- 空間智能與世界模型的涌現(xiàn)。
這標志著一條全新的技術路線圖正在展開:
模型不再在模態(tài)之間進行轉換,而是能夠原生地跨模態(tài)思考
在這一愿景下,多模態(tài)AI不再只是連接不同系統(tǒng),而是構建一個從未被割裂的、高度集成的統(tǒng)一智能體,并讓所需能力從其內部自然涌現(xiàn)。
據(jù)悉,目前相關的研發(fā)工作正處于規(guī)模化擴張與持續(xù)迭代的關鍵期。一系列基于該架構的模型成果與開源貢獻,將在近期陸續(xù)向業(yè)界發(fā)布。
Hugging Face地址:
https://huggingface.co/blog/sensenova/neo-unify
官方博客地址:
https://www.sensetime.com/en/news-detail/51170542?categoryId=1072
https://www.sensetime.com/cn/news-detail/51170543?categoryId=72
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.