<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      劍指世界模型!商湯發(fā)多模態(tài)理解生成一體化架構(gòu),無(wú)需編碼器“玩轉(zhuǎn)”圖像

      0
      分享至


      智東西
      作者 陳駿達(dá)
      編輯 李水青

      智東西3月6日?qǐng)?bào)道,今天,商湯科技發(fā)布最新技術(shù)博客——《NEO-unify:原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型》。NEO-unify是一個(gè)從底層統(tǒng)一多模態(tài)理解與生成的端到端原生架構(gòu),在保留抽象語(yǔ)義與細(xì)粒度表征的同時(shí),展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率。

      當(dāng)前,多模態(tài)模型普遍采用“視覺(jué)編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設(shè)計(jì)。這套范式雖行之有效,卻也內(nèi)在割裂了感知與創(chuàng)造,常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。

      能否更進(jìn)一步,讓AI像人一樣,直接從最原始的像素和文字中,統(tǒng)一地進(jìn)行學(xué)習(xí)、理解與生成?這正是NEO-unify嘗試回答的根本問(wèn)題。它摒棄了傳統(tǒng)的VE與VAE,首次構(gòu)建了一個(gè)真正的端到端原生統(tǒng)一模型,在同一個(gè)架構(gòu)內(nèi)直接處理像素與文本,并在此基礎(chǔ)上協(xié)同完成理解與生成任務(wù)。

      初步研究成果顯示,該設(shè)計(jì)在保持強(qiáng)大語(yǔ)義理解與細(xì)節(jié)恢復(fù)能力的同時(shí),顯著提升了訓(xùn)練與計(jì)算效率。

      博客地址(英文):

      https://huggingface.co/blog/sensenova/neo-unify

      博客地址(中文):

      https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

      一、不需要VE也不需要VAE,模型表現(xiàn)打平Qwen3-VL

      長(zhǎng)期以來(lái),多模態(tài)研究已形成一種默認(rèn)范式:視覺(jué)編碼器(Vision Encoder, VE)負(fù)責(zé)感知與理解,而變分自編碼器(Variational Autoencoder, VAE)則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器,但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計(jì)權(quán)衡。

      由此回到第一性原理:構(gòu)建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué),提出一種全新的架構(gòu)范式:NEO-unify(preview),一個(gè)原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過(guò)了當(dāng)前視覺(jué)表征的爭(zhēng)論,也擺脫了預(yù)訓(xùn)練先驗(yàn)和規(guī)模定律瓶頸的限制。最關(guān)鍵的是:不需要VE,也不需要VAE。

      NEO-unify則是一個(gè)端到端統(tǒng)一框架,能夠直接從近乎無(wú)損的信息輸入中學(xué)習(xí),并由模型自身塑造內(nèi)部表征空間。

      它首先引入近似無(wú)損的視覺(jué)接口,用于統(tǒng)一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構(gòu),使理解與生成能夠在同一體系中協(xié)同進(jìn)行。

      最終,通過(guò)統(tǒng)一學(xué)習(xí)框架實(shí)現(xiàn)跨模態(tài)訓(xùn)練:文本采用自回歸交叉熵目標(biāo),視覺(jué)通過(guò)像素流匹配進(jìn)行優(yōu)化。


      實(shí)驗(yàn)結(jié)果顯示,采用NEO-unify架構(gòu)的模型在多項(xiàng)基準(zhǔn)測(cè)試上的表現(xiàn)超過(guò)同尺寸的前沿視覺(jué)語(yǔ)言模型,排進(jìn)了同尺寸模型的第一梯隊(duì),基本與Qwen3-VL模型打了平手。


      二、無(wú)編碼器同時(shí)保留抽象語(yǔ)義與細(xì)粒度表征,展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

      那么,這一模型背后究竟有哪些關(guān)鍵技術(shù)發(fā)現(xiàn)呢?

      商湯此前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠?qū)W習(xí)到豐富的語(yǔ)義表征。在此基礎(chǔ)上,商湯進(jìn)一步觀察到一個(gè)有趣的現(xiàn)象:即使在凍結(jié)理解分支的情況下,獨(dú)立的生成分支仍然能夠從表示中抽取并恢復(fù)細(xì)粒度的視覺(jué)細(xì)節(jié)

      基于這一發(fā)現(xiàn),商湯訓(xùn)練了NEO-unify(2B)。在初步9萬(wàn)步預(yù)訓(xùn)練后,模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,而Flux VAE的對(duì)應(yīng)指標(biāo)為32.65和0.91。這一結(jié)果表明,即使不依賴預(yù)訓(xùn)練VE或VAE,近似無(wú)損的原生輸入仍能夠同時(shí)支持高質(zhì)量的語(yǔ)義理解與像素級(jí)細(xì)節(jié)保真。

      據(jù)此,商湯進(jìn)一步開(kāi)展探索:NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負(fù)責(zé)生成新的圖像。

      在凍結(jié)理解分支的情況下,NEO-unify(2B)仍展現(xiàn)出較強(qiáng)的圖像編輯能力,同時(shí)顯著減少了輸入圖像token的數(shù)量。在使用開(kāi)源生成與圖像編輯數(shù)據(jù)集并進(jìn)行初步6萬(wàn)步混合訓(xùn)練后,模型在ImgEdit基準(zhǔn)上取得3.32的成績(jī),且理解分支在整個(gè)訓(xùn)練過(guò)程中保持凍結(jié)。

      借助預(yù)訓(xùn)練的理解分支與生成分支,NEO-unify使用相同的中期訓(xùn)練(MT)與監(jiān)督微調(diào)(SFT)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在MoT主干中協(xié)同提升,整體沖突極小。


      此外,商湯首先進(jìn)行web-scale預(yù)訓(xùn)練,隨后在多樣且高質(zhì)量的數(shù)據(jù)語(yǔ)料上依次進(jìn)行中期訓(xùn)練(MT)和監(jiān)督微調(diào)(SFT)。與7BBagel模型相比,NEO-unify展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率,在使用更少訓(xùn)練token的情況下取得了更優(yōu)的性能。


      結(jié)語(yǔ):多模態(tài)理解與生成一體化或成世界模型基礎(chǔ)

      NEO-unify團(tuán)隊(duì)認(rèn)為,隨著多模態(tài)理解生成一體化的模型出現(xiàn),模型不再在模態(tài)之間進(jìn)行轉(zhuǎn)換,而是能夠原生地跨模態(tài)思考。多模態(tài)AI不再只是連接不同系統(tǒng),而是構(gòu)建一個(gè)從未割裂的統(tǒng)一智能體,并讓所需能力從其內(nèi)部自然涌現(xiàn)。

      理解生成一體化是AI大模型領(lǐng)域的前沿方向之一,被認(rèn)為是更接近人類智能的一種模型形式。目前,業(yè)界已經(jīng)基本完成文字理解生成一體化模型的探索,而多模態(tài)理解生成一體化模型,則有望成為全模態(tài)推理、視覺(jué)推理、空間智能乃至世界模型的重要基礎(chǔ)。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國(guó)2000多個(gè)縣城的生存現(xiàn)狀:除了性生活就是打麻將!

      中國(guó)2000多個(gè)縣城的生存現(xiàn)狀:除了性生活就是打麻將!

      談史論天地
      2026-03-03 18:02:29
      雷軍被嚴(yán)重低估!除了小米,他還有一個(gè)千倍回報(bào)的“資本帝國(guó)”

      雷軍被嚴(yán)重低估!除了小米,他還有一個(gè)千倍回報(bào)的“資本帝國(guó)”

      混沌錄
      2026-03-05 21:57:07
      對(duì)越反擊戰(zhàn)前,廣州軍區(qū)副司令遭免職,許世友直言:此乃兵家大忌

      對(duì)越反擊戰(zhàn)前,廣州軍區(qū)副司令遭免職,許世友直言:此乃兵家大忌

      觀史搜尋著
      2026-03-06 23:43:45
      三次背叛馮玉祥的西北軍軍閥石友三,最后卻被張學(xué)良擊敗

      三次背叛馮玉祥的西北軍軍閥石友三,最后卻被張學(xué)良擊敗

      歷史龍?jiān)w
      2026-03-06 08:00:24
      45歲金卡戴珊片場(chǎng)秀身材,肥臀,傲人胸,是真實(shí)存在的嗎

      45歲金卡戴珊片場(chǎng)秀身材,肥臀,傲人胸,是真實(shí)存在的嗎

      娛樂(lè)領(lǐng)航家
      2026-03-06 21:00:03
      蘋(píng)果官網(wǎng)價(jià)格更新!大幅下降

      蘋(píng)果官網(wǎng)價(jià)格更新!大幅下降

      花果科技
      2026-03-04 18:09:37
      谷維素加維生素B12,可改善老年人4大常見(jiàn)問(wèn)題,建議收藏!

      谷維素加維生素B12,可改善老年人4大常見(jiàn)問(wèn)題,建議收藏!

      李藥師談健康
      2026-03-06 13:25:58
      上海男子愛(ài)上江西51歲老太,相差18歲戀愛(ài)九年不結(jié)婚

      上海男子愛(ài)上江西51歲老太,相差18歲戀愛(ài)九年不結(jié)婚

      浩舞纆畫(huà)
      2026-03-05 18:41:23
      人有三大愚蠢:情深不壽,過(guò)極必辱,慧極必傷(經(jīng)典)

      人有三大愚蠢:情深不壽,過(guò)極必辱,慧極必傷(經(jīng)典)

      洞讀君
      2026-03-05 21:15:03
      中東,大消息!油價(jià)飆升,黃金、白銀集體大漲,美股下挫!

      中東,大消息!油價(jià)飆升,黃金、白銀集體大漲,美股下挫!

      證券時(shí)報(bào)e公司
      2026-03-07 07:48:09
      深度長(zhǎng)文:量子糾纏超過(guò)光速一萬(wàn)倍,為什么不能用來(lái)通信?

      深度長(zhǎng)文:量子糾纏超過(guò)光速一萬(wàn)倍,為什么不能用來(lái)通信?

      宇宙時(shí)空
      2026-03-06 07:00:09
      樂(lè)道月銷量不到3000臺(tái),L90怎么也熄火了?

      樂(lè)道月銷量不到3000臺(tái),L90怎么也熄火了?

      《新車新技術(shù)》
      2026-03-06 14:02:15
      林彪叛逃后,紀(jì)登奎為鄭維山說(shuō)情,毛主席:你頭上的白頭發(fā)少兩根

      林彪叛逃后,紀(jì)登奎為鄭維山說(shuō)情,毛主席:你頭上的白頭發(fā)少兩根

      談古論今歷史有道
      2026-03-07 08:55:03
      越來(lái)越離譜的顯示器市場(chǎng)行情

      越來(lái)越離譜的顯示器市場(chǎng)行情

      電腦吧評(píng)測(cè)室
      2026-03-06 22:10:19
      魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

      魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

      靜若梨花
      2026-03-06 00:05:09
      汪小菲與麻六記的生意急轉(zhuǎn)直下:流量消失的那一刻

      汪小菲與麻六記的生意急轉(zhuǎn)直下:流量消失的那一刻

      情感大頭說(shuō)說(shuō)
      2026-03-07 01:48:56
      上海大叔55歲未婚,住垃圾堆卻要穿名牌,打開(kāi)冰箱后才知啥叫生活

      上海大叔55歲未婚,住垃圾堆卻要穿名牌,打開(kāi)冰箱后才知啥叫生活

      寒士之言本尊
      2025-09-08 23:20:45
      輸不起的比賽!加圖索招“二老”回藍(lán)衣軍團(tuán),杯賽附加生死戰(zhàn)

      輸不起的比賽!加圖索招“二老”回藍(lán)衣軍團(tuán),杯賽附加生死戰(zhàn)

      里芃芃體育
      2026-03-07 04:00:03
      官方:阿根廷隊(duì)將派代表來(lái)華,舉辦阿根廷世界杯出征中國(guó)發(fā)布會(huì)

      官方:阿根廷隊(duì)將派代表來(lái)華,舉辦阿根廷世界杯出征中國(guó)發(fā)布會(huì)

      懂球帝
      2026-03-06 15:47:22
      洗牙可能影響壽命!醫(yī)生再三提醒:60歲以后,牢記洗牙5不要

      洗牙可能影響壽命!醫(yī)生再三提醒:60歲以后,牢記洗牙5不要

      醫(yī)學(xué)科普匯
      2026-03-06 18:20:07
      2026-03-07 09:28:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
      11320文章數(shù) 116988關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國(guó)趁機(jī)拿捏歐洲

      頭條要聞

      中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國(guó)趁機(jī)拿捏歐洲

      體育要聞

      跑了24年,他終于成為英超“最長(zhǎng)的河”

      娛樂(lè)要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

      財(cái)經(jīng)要聞

      關(guān)于經(jīng)濟(jì)、股市等,五部門都說(shuō)了啥?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      游戲
      旅游
      公開(kāi)課

      本地新聞

      食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

      數(shù)碼要聞

      蘋(píng)果MacBook Neo能虛擬機(jī)安裝Win11嗎?Parallels回應(yīng)稱在測(cè)試

      《控制:共振》線上媒體演示訪談:我們叫它ARPG"/> 主站 商城 論壇 自運(yùn)營(yíng) 登錄 注冊(cè) 《控制:共振》線上媒體演示訪談:我們叫它ARPG 海星罐頭...

      旅游要聞

      陜西最值得去的寶藏地,周末6大景區(qū)全免費(fèi)/半價(jià)!趕緊沖

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版