<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      行業首個!商湯正式開源原生多模態架構NEO,訓練僅需1/10數據量

      0
      分享至


      智東西
      編譯 王欣逸
      編輯 程茜

      智東西12月2日消息,昨天,商湯科技正式發布并開源了全新多模態模型架構NEO,該架構由商湯科技和新加坡南洋理工大學AI技術實驗室S-Lab合作研發,是行業首個可用的、實現深層次融合的原生多模態架構,基于NEO架構的NEO模型僅用3.9億訓練數據,就達到了模塊化架構下頂級VLM(視覺-語言模型)模型的性能,數據量僅需其他同等性能模型的1/10。


      從基準測試來看,NEO模型在多模態能力綜合評估、跨學科和復雜推理等多項指標中碾壓上海AI Lab推出的Mono-InternVL-1.5、清華大學、上海AI Lab聯合商湯推出的HoVLE等原生VLM模型,還在多項視覺理解任務中追平通義千問的視覺語言模型Qwen2-VL、上海AI Lab聯合商湯推出的InternVL3等基于模塊化架構的頂級VLM模型。

      當前,業內主流的多模態模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式,本質上仍以語言為中心,圖像與語言的融合僅停留在數據層面,視覺編碼和語言解碼分離,模型學習效率低下,在復雜多模態場景下處理任務受限。


      為此,商湯科技拋棄了傳統的模塊化結構,推出從零設計的NEO原生架構。NEO架構在注意力機制、位置編碼和語義映射進行了底層創新,構建一個統一的原生基元,讓模型具備統一處理視覺與語言的能力。

      NEO架構相關論文已發布在arXiv上,題為《從像素到文字——邁向大規模的原生視覺語言原始基元(From Pixels to Words — Towards Native Vision-Language Primitives at Scale)》,商湯科技聯合創始人、執行董事及AI基礎設施和大模型首席科學家林達華博士,南洋理工大學S-Lab負責人、副教授劉子緯等均在該論文的作者行列。


      開源地址:https://github.com/EvolvingLMMs-Lab/NEO

      論文地址:https://arxiv.org/abs/2510.14979

      一、同參數全面領先原生VLM,數據僅為同等性能模型的1/10,復雜文本理解存在局限

      基于NEO架構,研究人員推出了兩個參數的VLM模型:NEO-2.2B和NEO-9B,這兩個模型利用Qwen3-1.7B和Qwen3-8B兩個基礎語言模型作為基礎語言模型,添加了原生視覺組件。

      在基準測試中,研究人員把NEO-2.2B、NEO-9B和同級別VLM模型進行對比,包括模塊化架構的VLM模型InternVL3、Qwen2.5-VL等,以及原生VLM模型Mono-InternVL-1.5、HoVLE等。為了進行公平、可控的科學對比,研究人員專門構建了一個模塊化VLM基線模型Encoder-Based作為對照。

      從通用視覺語言的理解能力來看,與模塊化VLM相比,NEO在2B和8B參數規模下表現都不錯,NEO-2.2B和NEO-9B在多模態能力綜合評估、跨學科和復雜推理等多個關鍵指標優于模塊化VLM Encoder-Based;在同參數規模下,NEO幾乎全面領先其他原生VLM。

      值得一提的是,NEO僅使用約3.9億訓練數據,而InternVL3等模塊化架構的頂級VLM模型至少使用了60億訓練數據,是NEO所需數據的15倍。


      視覺任務測試中,在圖表理解和文檔結構理解任務上,NEO-2.2B和NEO-9B都表現出接近頂級模塊化模型水平。

      不過,NEO的密集文本識別和理解能力仍存在不足,幾乎落后于所有模塊化模型,在原生模型的對比中也不占優。NEO-9B在文檔問答和圖像中的文本問答能力的得分略低于NEO-2.2B。

      研究人員指出,密集文本識別和理解能力不足是由于訓練數據中此類高質量、知識密集型樣本的不足,而NEO-9B的得分低于NEO-2.2B則是由于當前訓練數據集的覆蓋范圍和知識密度有限。


      此外,NEO在邊緣部署方面具有優勢,特別是在0.6B-8B的參數區間內,便于計算資源有限或實時性要求嚴格的場景應用。

      二、原生圖塊嵌入,雙向注意力并存,具備復雜場景擴展能力


      NEO架構通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創新,讓模型天生具備了統一處理視覺與語言的能力:

      1、原生圖塊嵌入(Native Patch Embedding): 這一方法摒棄了離散的圖像tokenizer,通過獨創的圖塊嵌入層(Patch Embedding Layer ,PEL)自底向上構建從像素到詞元的連續映射。

      2、原生三維旋轉位置編碼(Native-RoPE):NEO架構解耦了三維時空頻率分配,為三個維度設定了不同的旋轉基頻率。視覺維度采用高頻頻率,便于模型理解空間布局和細粒度對齊;文本維度采用低頻頻率,兼容了預訓練語言模型的旋轉位置編碼(RoPE)設置。由此,訓練后的模型具備向視頻處理、跨幀建模等復雜場景擴展的潛力。

      3、原生多頭注意力(Native Multi-Hea′d Attention):針對不同模態特點,NEO在統一框架下實現了文本token的自回歸注意力和視覺token的雙向注意力并存。基于此,模型可以無視線性化順序,直接根據原生三維旋轉位置編碼(Native-RoPE)的二維坐標來學習任意兩個空間區域的語義和幾何關系,以支撐復雜的圖文混合理解與推理。

      三、三階段訓練,平穩過渡視覺能力與復雜文本指令

      NEO模型的訓練分為三個階段逐步推進:預訓練、中期訓練和監督微調。


      在預訓練階段,訓練的主要工作是學習基礎視覺概念和上下文關系,并在預訓練語言模型的指導下,初步建立圖像與文本之間的對齊。NEO架構采用了Pre-Buffer(NEO中新增的視覺層)和Post-LLM(NEO中的語言大腦)分離式預訓練,這一階段Post-LLM被凍結,Pre-Buffer需要從頭開始學習視覺感知能力,這保護了語言模型不被低質量的圖像-文本對破壞,實現跨模態學習。這一階段使用了約3.45億的網絡和合成的圖像-文本對的數據。

      中期訓練階段的核心目標是強化視覺與語言能力的對齊,提升模型對高分辨率圖像、復雜場景、小物體和OCR文本的感知能力。這一階段的訓練數據來自InternVL-1.5的預訓練語料庫,包含4000萬樣本數據,整個架構使用相同的損失函數進行更新,以鞏固視覺-語言對齊。

      在監督微調階段,NEO能夠遵循復雜指令、進行多輪對話和執行多樣化任務,更適用于實際應用。研究人員使用約400萬高質量、多來源的指令數據,涵蓋視覺問答、多模態對話、數學推理、知識問答等多種任務。

      階段式訓練不僅防止了視覺訓練破壞已有的語言能力,確保穩定優化,還能實現模型能力從基礎的視覺概念到復雜指令的平滑過渡。

      結語:正探索NEO規模化和突破數據瓶頸,拓展多模態應用邊界

      NEO系列模型實現了模型數據訓練的高效性,其性能在同等參數規模原生VLM模型中處于領先地位。在圖表和文檔結構化理解上,NEO模型具有明顯優勢和競爭力。受制于訓練數據和計算資源,NEO模型仍表現出了媲美頂尖模塊化VLM的實力。

      NEO模型還存在密集文本識別和理解能力的不足、依賴外部知識的短板。不過,研究人員指出這并非是架構的缺陷,而是訓練數據集的覆蓋范圍、知識密集型樣本、高質量數據的不足。

      研究人員稱,未來他們將會探索更大規模的NEO模型,解決知識和文本理解短板,開發稀疏架構,探索視頻、具身智能等新應用場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      閱讀第一
      2025-12-07 08:32:59
      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      釋凡電影
      2025-08-14 09:33:19
      18年生涯最失敗賽季,漢密爾頓:我受夠了!

      18年生涯最失敗賽季,漢密爾頓:我受夠了!

      體育妞世界
      2025-12-07 16:14:18
      人民日報怒批,炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      人民日報怒批,炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      丁丁鯉史紀
      2025-12-03 09:15:50
      一度在中國控制之下的法卡山,到最后卻給了越南,你知道原因嗎?

      一度在中國控制之下的法卡山,到最后卻給了越南,你知道原因嗎?

      小濤叨叨
      2025-12-07 20:06:02
      水果姐官宣與加拿大前總理特魯多戀情,發布首張自拍合影

      水果姐官宣與加拿大前總理特魯多戀情,發布首張自拍合影

      韓小娛
      2025-12-07 16:29:49
      被橫掃,改變對曼昱稱呼,誰注意張本美和握手舉動,曼昱傷情曝光

      被橫掃,改變對曼昱稱呼,誰注意張本美和握手舉動,曼昱傷情曝光

      樂聊球
      2025-12-07 21:03:54
      意媒解析國米對陣利物浦三大武器:斯洛特的執念 薩拉赫風波

      意媒解析國米對陣利物浦三大武器:斯洛特的執念 薩拉赫風波

      國際足球冷雪
      2025-12-08 09:00:05
      “給你們鞠躬”最快女護士再獲1.5萬獎金 近7周跑5場總獎金18.5萬

      “給你們鞠躬”最快女護士再獲1.5萬獎金 近7周跑5場總獎金18.5萬

      風過鄉
      2025-12-07 12:07:44
      在寸土寸金的香港,貴為視后也難買豪宅,你看胡杏兒和鐘嘉欣聚餐

      在寸土寸金的香港,貴為視后也難買豪宅,你看胡杏兒和鐘嘉欣聚餐

      可樂談情感
      2025-11-25 12:07:13
      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      每日經濟新聞
      2025-12-06 23:23:09
      南京市中心商場被瘋狂吐槽!現場實探形同鬼屋

      南京市中心商場被瘋狂吐槽!現場實探形同鬼屋

      劉哥談體育
      2025-12-08 06:26:05
      不滿?張本智和:在成都發生了很多事!沒必要說出來,但我不會忘

      不滿?張本智和:在成都發生了很多事!沒必要說出來,但我不會忘

      念洲
      2025-12-08 08:14:17
      消息稱蘋果芯片主管斯魯吉考慮離職;陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億|Do早報

      消息稱蘋果芯片主管斯魯吉考慮離職;陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億|Do早報

      DoNews
      2025-12-08 09:31:08
      短短兩周內,廣東一地鐵站先后撿到兩包現金,金額均超10萬元……坐地鐵遺失財物怎么辦?官方提醒

      短短兩周內,廣東一地鐵站先后撿到兩包現金,金額均超10萬元……坐地鐵遺失財物怎么辦?官方提醒

      環球網資訊
      2025-12-07 21:06:11
      和稀泥的專家,哄女人的高手,韋小寶在世也不得不服他!

      和稀泥的專家,哄女人的高手,韋小寶在世也不得不服他!

      歷史按察使司
      2025-12-08 08:55:03
      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      澎湃新聞
      2025-12-07 20:46:28
      已正式開啟!無錫適齡男子都要登記

      已正式開啟!無錫適齡男子都要登記

      江南晚報
      2025-12-06 15:42:35
      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      蘭姐說故事
      2025-12-03 12:05:07
      中戲明星班畢業,搭檔孫紅雷也沒紅,48歲的她卻活成了人間清醒

      中戲明星班畢業,搭檔孫紅雷也沒紅,48歲的她卻活成了人間清醒

      手工制作阿殲
      2025-12-07 16:27:46
      2025-12-08 10:24:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10859文章數 116921關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      房產
      游戲
      本地
      家居
      公開課

      房產要聞

      封關啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      《殺戮尖塔2》創始人:我們通過拋硬幣決定制作續作

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      家居要聞

      白味湯館 當代宴飲儀式

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产麻豆精品手机在线观看| 欧美阿V| 欧美性群另类交| 99在线国产视频| 国产精品成人三级| 亚洲自偷精品视频自拍| 中文字幕在线日韩| 成人av午夜在线观看| 国产亚洲精品2021自在线| 无码人妻av免费一区二区三区| 五月天激情婷婷婷久久| 99久久人妻无码精品系列蜜桃 | 9191久久| 国产精品一二| 丁香婷婷社区| 札达县| 大渡口区| 丰满人妻一区二区三区视频54 | 屁屁国产第一页| 女人AV天堂| 3P免费视频在线观看| 国产精品A片| 五月丁香中文字幕| 上海旅游集散中心网上订票| 江华| 成人在线一本之道| 狠狠色亚洲| H色无码网站| 亚洲456| 91丨国产丨白浆秘?网站| 色www88| 人人看成人在线| 国产三级在线观看完整版| 国产v亚洲v天堂无码久久久| 护士的小嫩嫩好紧好爽| 一本本月无码-| 中文字幕一区二区人妻免费不卡| 金典黄色网| 亚洲无码久久| 鲁丝片一区二区三区免费| 人人爽人人爽人人片av|