<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      劍指世界模型!商湯發多模態理解生成一體化架構,無需編碼器“玩轉”圖像

      0
      分享至


      智東西
      作者 陳駿達
      編輯 李水青

      智東西3月6日報道,今天,商湯科技發布最新技術博客——《NEO-unify:原生架構打造端到端多模態理解與生成統一模型》。NEO-unify是一個從底層統一多模態理解與生成的端到端原生架構,在保留抽象語義與細粒度表征的同時,展現更高數據訓練效率。

      當前,多模態模型普遍采用“視覺編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設計。這套范式雖行之有效,卻也內在割裂了感知與創造,常面臨模塊協同與效率權衡的挑戰。

      能否更進一步,讓AI像人一樣,直接從最原始的像素和文字中,統一地進行學習、理解與生成?這正是NEO-unify嘗試回答的根本問題。它摒棄了傳統的VE與VAE,首次構建了一個真正的端到端原生統一模型,在同一個架構內直接處理像素與文本,并在此基礎上協同完成理解與生成任務。

      初步研究成果顯示,該設計在保持強大語義理解與細節恢復能力的同時,顯著提升了訓練與計算效率。

      博客地址(英文):

      https://huggingface.co/blog/sensenova/neo-unify

      博客地址(中文):

      https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

      一、不需要VE也不需要VAE,模型表現打平Qwen3-VL

      長期以來,多模態研究已形成一種默認范式:視覺編碼器(Vision Encoder, VE)負責感知與理解,而變分自編碼器(Variational Autoencoder, VAE)則用于內容生成。近期的一些工作嘗試構建共享編碼器,但這種折衷往往引入新的結構性設計權衡。

      由此回到第一性原理:構建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯合南洋理工大學,提出一種全新的架構范式:NEO-unify(preview),一個原生、統一、端到端的多模態模型架構。它不僅越過了當前視覺表征的爭論,也擺脫了預訓練先驗和規模定律瓶頸的限制。最關鍵的是:不需要VE,也不需要VAE。

      NEO-unify則是一個端到端統一框架,能夠直接從近乎無損的信息輸入中學習,并由模型自身塑造內部表征空間。

      它首先引入近似無損的視覺接口,用于統一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構,使理解與生成能夠在同一體系中協同進行。

      最終,通過統一學習框架實現跨模態訓練:文本采用自回歸交叉熵目標,視覺通過像素流匹配進行優化。


      實驗結果顯示,采用NEO-unify架構的模型在多項基準測試上的表現超過同尺寸的前沿視覺語言模型,排進了同尺寸模型的第一梯隊,基本與Qwen3-VL模型打了平手。


      二、無編碼器同時保留抽象語義與細粒度表征,展現更高數據訓練效率

      那么,這一模型背后究竟有哪些關鍵技術發現呢?

      商湯此前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠學習到豐富的語義表征。在此基礎上,商湯進一步觀察到一個有趣的現象:即使在凍結理解分支的情況下,獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節

      基于這一發現,商湯訓練了NEO-unify(2B)。在初步9萬步預訓練后,模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,而Flux VAE的對應指標為32.65和0.91。這一結果表明,即使不依賴預訓練VE或VAE,近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節保真。

      據此,商湯進一步開展探索:NEO-unify將所有全模態條件信息統一輸入到理解分支,而生成分支僅負責生成新的圖像。

      在凍結理解分支的情況下,NEO-unify(2B)仍展現出較強的圖像編輯能力,同時顯著減少了輸入圖像token的數量。在使用開源生成與圖像編輯數據集并進行初步6萬步混合訓練后,模型在ImgEdit基準上取得3.32的成績,且理解分支在整個訓練過程中保持凍結。

      借助預訓練的理解分支與生成分支,NEO-unify使用相同的中期訓練(MT)與監督微調(SFT)數據進行聯合訓練。即使在較低的數據比例和損失權重下,理解能力依然保持穩定,而生成能力則收斂很快。二者在MoT主干中協同提升,整體沖突極小。


      此外,商湯首先進行web-scale預訓練,隨后在多樣且高質量的數據語料上依次進行中期訓練(MT)和監督微調(SFT)。與7BBagel模型相比,NEO-unify展現出更高的數據訓練效率,在使用更少訓練token的情況下取得了更優的性能。


      結語:多模態理解與生成一體化或成世界模型基礎

      NEO-unify團隊認為,隨著多模態理解生成一體化的模型出現,模型不再在模態之間進行轉換,而是能夠原生地跨模態思考。多模態AI不再只是連接不同系統,而是構建一個從未割裂的統一智能體,并讓所需能力從其內部自然涌現。

      理解生成一體化是AI大模型領域的前沿方向之一,被認為是更接近人類智能的一種模型形式。目前,業界已經基本完成文字理解生成一體化模型的探索,而多模態理解生成一體化模型,則有望成為全模態推理、視覺推理、空間智能乃至世界模型的重要基礎。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普:美軍在與伊朗沖突中可能還會出現更多傷亡

      特朗普:美軍在與伊朗沖突中可能還會出現更多傷亡

      界面新聞
      2026-03-08 07:13:38
      西貝再暴大雷!總部人去樓空,新任領導威逼員工,300人討薪無門

      西貝再暴大雷!總部人去樓空,新任領導威逼員工,300人討薪無門

      離離言幾許
      2026-03-07 15:53:37
      偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

      偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

      映射生活的身影
      2026-03-08 02:42:07
      越扒瓜越大!魯山舅舅與亡姐結婚再添猛料,遠不止吃絕戶這么簡單

      越扒瓜越大!魯山舅舅與亡姐結婚再添猛料,遠不止吃絕戶這么簡單

      夢史
      2026-03-07 09:26:14
      特朗普發表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續攻擊才實現的

      特朗普發表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續攻擊才實現的

      爆角追蹤
      2026-03-07 21:09:51
      伊朗發視頻嘲諷:500萬美元導彈摧毀10美元假直升機 這就是所謂的“精準勝利”

      伊朗發視頻嘲諷:500萬美元導彈摧毀10美元假直升機 這就是所謂的“精準勝利”

      閃電新聞
      2026-03-07 14:00:07
      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      霹靂炮
      2026-01-19 22:24:13
      汪小菲怒撕親媽翻車!張蘭撕開汪家四十年遮羞布,六麻記口碑暴跌

      汪小菲怒撕親媽翻車!張蘭撕開汪家四十年遮羞布,六麻記口碑暴跌

      離離言幾許
      2026-03-07 16:06:38
      就在下周一,或迎來本年度飆升!加滿一箱油要貴20元

      就在下周一,或迎來本年度飆升!加滿一箱油要貴20元

      都市快報橙柿互動
      2026-03-07 23:13:42
      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      眼光很亮
      2026-03-08 01:43:40
      劉詩詩直播美的好權威,金絲眼鏡+大波浪造型,讓她美的發光了

      劉詩詩直播美的好權威,金絲眼鏡+大波浪造型,讓她美的發光了

      明星私服穿搭daily
      2026-03-05 07:24:32
      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

      軍機Talk
      2026-03-07 16:42:12
      38歲破格被復旦大學錄取為博士的東北三輪車夫,如今怎么樣了?

      38歲破格被復旦大學錄取為博士的東北三輪車夫,如今怎么樣了?

      凡知
      2026-03-07 12:12:50
      魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

      魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

      鶴羽說個事
      2026-03-07 18:52:54
      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      探索新高度
      2026-03-07 23:24:06
      愛德華茲評NBA歷史首發五虎:現役三人在列包括自己 沒選詹姆斯

      愛德華茲評NBA歷史首發五虎:現役三人在列包括自己 沒選詹姆斯

      羅說NBA
      2026-03-08 06:08:56
      伊朗戰術奏效了,再對林肯號航母發射導彈,這個武器成美軍數學題

      伊朗戰術奏效了,再對林肯號航母發射導彈,這個武器成美軍數學題

      書紀文譚
      2026-03-07 15:19:19
      人大代表畢利霞哽咽發言:老一輩的農民為農村改革發展奉獻了一輩子,懇請將農村70歲以上老人養老金每月提高到400元,免除居民醫保費

      人大代表畢利霞哽咽發言:老一輩的農民為農村改革發展奉獻了一輩子,懇請將農村70歲以上老人養老金每月提高到400元,免除居民醫保費

      大風新聞
      2026-03-07 17:46:10
      伊朗問題,注意普京的動向

      伊朗問題,注意普京的動向

      新民周刊
      2026-03-08 09:11:54
      "小龍蝦”背后暗藏極大危險:目前所有部署OpenClaw的電腦都可能成為"肉雞"!

      "小龍蝦”背后暗藏極大危險:目前所有部署OpenClaw的電腦都可能成為"肉雞"!

      識局Insight
      2026-03-07 19:42:12
      2026-03-08 09:43:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11320文章數 116989關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      油價要失控?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      家居
      藝術
      手機
      親子
      公開課

      家居要聞

      暖棕撞色 輕法奶油風

      藝術要聞

      他是二王書法的化身?米芾的秘密揭曉!

      手機要聞

      麒麟9030產能火力全開!華為Mate 80系列銷量激增:已突破400萬臺

      親子要聞

      12歲孩子腸癌晚期,腫瘤年輕化不是開玩笑!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版