網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

新技術(shù)：無(wú)需編解碼器，NEO-unify如何打造原生視覺(jué)語(yǔ)言理解與生成

2026-04-01 19:05:51　來(lái)源: 開(kāi)源中國(guó)

廣東舉報(bào)

分享至

當(dāng)前多模態(tài)智能架構(gòu)困境

長(zhǎng)期以來(lái)，多模態(tài)研究已形成一種默認(rèn)范式：視覺(jué)編碼器（Vision Encoder, VE）負(fù)責(zé)感知與理解，而變分自編碼器（Variational Autoencoder, VAE）則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器，但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計(jì)權(quán)衡。

由此回到第一性原理：構(gòu)建一體化模型直接處理原生輸入，即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué)，提出一種全新的架構(gòu)范式：NEO-unify（preview），一個(gè)原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過(guò)了當(dāng)前視覺(jué)表征的爭(zhēng)論，也擺脫了預(yù)訓(xùn)練先驗(yàn)和規(guī)模定律瓶頸的限制。最關(guān)鍵的是：不需要 VE，也不需要 VAE。

我們正擴(kuò)大規(guī)模、持續(xù)迭代。更多模型與開(kāi)源成果，將很快與大家見(jiàn)面。

NEO-unify原生一體化架構(gòu)新范式

NEO-unify 第一次邁向真正的端到端統(tǒng)一框架，能夠直接從近乎無(wú)損的信息輸入中學(xué)習(xí)，并由模型自身塑造內(nèi)部表征空間。首先，引入近似無(wú)損的視覺(jué)接口，用于統(tǒng)一圖像的輸入與輸出表示；其次，采用原生混合Transformer（Mixture-of-Transformer，MoT）架構(gòu)，使理解與生成能夠在同一體系中協(xié)同進(jìn)行；最終，通過(guò)統(tǒng)一學(xué)習(xí)框架實(shí)現(xiàn)跨模態(tài)訓(xùn)練：文本采用自回歸交叉熵目標(biāo)，視覺(jué)通過(guò)像素流匹配進(jìn)行優(yōu)化。

模型效果

1. 定量結(jié)果分析

2. 生圖效果展示

技術(shù)發(fā)現(xiàn)

1. 無(wú)編碼器設(shè)計(jì)能夠同時(shí)保留抽象語(yǔ)義與細(xì)粒度表征

[圖像重建任務(wù)]

我們先前的工作 NEO（Diao et al., ICLR 2026）表明，原生端到端模型同樣能夠?qū)W習(xí)到豐富的語(yǔ)義表征。在此基礎(chǔ)上，我們進(jìn)一步觀(guān)察到一個(gè)有趣的現(xiàn)象：即使在凍結(jié)理解分支的情況下，獨(dú)立的生成分支仍然能夠從表示中抽取并恢復(fù)細(xì)粒度的視覺(jué)細(xì)節(jié)。

基于這一發(fā)現(xiàn)，我們訓(xùn)練了 NEO-unify（2B）。在初步 9 萬(wàn)步預(yù)訓(xùn)練后，模型在 MS COCO 2017 上取得 31.56 PSNR 和 0.85 SSIM，而 Flux VAE 的對(duì)應(yīng)指標(biāo)為 32.65 和 0.91。這一結(jié)果表明，即使不依賴(lài)預(yù)訓(xùn)練 VE 或 VAE，近似無(wú)損的原生輸入仍能夠同時(shí)支持高質(zhì)量的語(yǔ)義理解與像素級(jí)細(xì)節(jié)保真。

域外圖像重建（2B NEO-unify，理解分支凍結(jié)）

[圖像編輯任務(wù)]

據(jù)此，我們進(jìn)一步開(kāi)展探索：NEO-unify 將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支，而生成分支僅負(fù)責(zé)生成新的圖像。

即使在凍結(jié)理解分支的情況下，NEO-unify（2B） 仍展現(xiàn)出強(qiáng)大的圖像編輯能力，同時(shí)顯著減少了輸入圖像令牌的數(shù)量。在使用開(kāi)源生成與圖像編輯數(shù)據(jù)集并進(jìn)行初步 6 萬(wàn)步混合訓(xùn)練后，模型在 ImgEdit 基準(zhǔn)上取得 3.32 的成績(jī)，且理解分支在整個(gè)訓(xùn)練過(guò)程中保持凍結(jié)。

小規(guī)模數(shù)據(jù)驗(yàn)證（2B NEO-unify，理解分支凍結(jié)）

ImgEdit提示詞編輯（2B NEO-unify，理解分支凍結(jié)）

2. 無(wú)編碼器架構(gòu)與 MoT 主干高度協(xié)同大幅降低內(nèi)在沖突

借助預(yù)訓(xùn)練的理解分支與生成分支，NEO-unify 使用相同的中期訓(xùn)練（MT）與監(jiān)督微調(diào)（SFT）數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下，理解能力依然保持穩(wěn)定，而生成能力則收斂很快。二者在 MoT 主干中協(xié)同提升，整體沖突極小。

3. 無(wú)編碼器架構(gòu)，展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

此外，我們首先進(jìn)行 web-scale 預(yù)訓(xùn)練，隨后在多樣且高質(zhì)量的數(shù)據(jù)語(yǔ)料上依次進(jìn)行中期訓(xùn)練（MT）和監(jiān)督微調(diào)（SFT）。與 Bagel 模型相比，NEO-unify 展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率，在使用更少訓(xùn)練 token 的情況下取得了更優(yōu)的性能。

未來(lái)展望

這不僅僅是一種模型架構(gòu)探索，更是邁向下一代智能形態(tài)的一步：

? 感知與生成交織的閉環(huán)

? 全模態(tài)推理

? 視覺(jué)推理

? 空間智能

? 世界模型

? …

一條新的路線(xiàn)圖正在展開(kāi)：模型不再在模態(tài)之間進(jìn)行轉(zhuǎn)換，而是能夠原生地跨模態(tài)思考。多模態(tài) AI 不再只是連接不同系統(tǒng)，而是構(gòu)建一個(gè)從未割裂的統(tǒng)一智能體，并讓所需能力從其內(nèi)部自然涌現(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.