![]()
智東西
編譯 王欣逸
編輯 程茜
智東西12月2日消息,昨天,商湯科技正式發布并開源了全新多模態模型架構NEO,該架構由商湯科技和新加坡南洋理工大學AI技術實驗室S-Lab合作研發,是行業首個可用的、實現深層次融合的原生多模態架構,基于NEO架構的NEO模型僅用3.9億訓練數據,就達到了模塊化架構下頂級VLM(視覺-語言模型)模型的性能,數據量僅需其他同等性能模型的1/10。
![]()
從基準測試來看,NEO模型在多模態能力綜合評估、跨學科和復雜推理等多項指標中碾壓上海AI Lab推出的Mono-InternVL-1.5、清華大學、上海AI Lab聯合商湯推出的HoVLE等原生VLM模型,還在多項視覺理解任務中追平通義千問的視覺語言模型Qwen2-VL、上海AI Lab聯合商湯推出的InternVL3等基于模塊化架構的頂級VLM模型。
當前,業內主流的多模態模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式,本質上仍以語言為中心,圖像與語言的融合僅停留在數據層面,視覺編碼和語言解碼分離,模型學習效率低下,在復雜多模態場景下處理任務受限。
![]()
為此,商湯科技拋棄了傳統的模塊化結構,推出從零設計的NEO原生架構。NEO架構在注意力機制、位置編碼和語義映射進行了底層創新,構建一個統一的原生基元,讓模型具備統一處理視覺與語言的能力。
NEO架構相關論文已發布在arXiv上,題為《從像素到文字——邁向大規模的原生視覺語言原始基元(From Pixels to Words — Towards Native Vision-Language Primitives at Scale)》,商湯科技聯合創始人、執行董事及AI基礎設施和大模型首席科學家林達華博士,南洋理工大學S-Lab負責人、副教授劉子緯等均在該論文的作者行列。
![]()
開源地址:https://github.com/EvolvingLMMs-Lab/NEO
論文地址:https://arxiv.org/abs/2510.14979
一、同參數全面領先原生VLM,數據僅為同等性能模型的1/10,復雜文本理解存在局限
基于NEO架構,研究人員推出了兩個參數的VLM模型:NEO-2.2B和NEO-9B,這兩個模型利用Qwen3-1.7B和Qwen3-8B兩個基礎語言模型作為基礎語言模型,添加了原生視覺組件。
在基準測試中,研究人員把NEO-2.2B、NEO-9B和同級別VLM模型進行對比,包括模塊化架構的VLM模型InternVL3、Qwen2.5-VL等,以及原生VLM模型Mono-InternVL-1.5、HoVLE等。為了進行公平、可控的科學對比,研究人員專門構建了一個模塊化VLM基線模型Encoder-Based作為對照。
從通用視覺語言的理解能力來看,與模塊化VLM相比,NEO在2B和8B參數規模下表現都不錯,NEO-2.2B和NEO-9B在多模態能力綜合評估、跨學科和復雜推理等多個關鍵指標優于模塊化VLM Encoder-Based;在同參數規模下,NEO幾乎全面領先其他原生VLM。
值得一提的是,NEO僅使用約3.9億訓練數據,而InternVL3等模塊化架構的頂級VLM模型至少使用了60億訓練數據,是NEO所需數據的15倍。
![]()
視覺任務測試中,在圖表理解和文檔結構理解任務上,NEO-2.2B和NEO-9B都表現出接近頂級模塊化模型水平。
不過,NEO的密集文本識別和理解能力仍存在不足,幾乎落后于所有模塊化模型,在原生模型的對比中也不占優。NEO-9B在文檔問答和圖像中的文本問答能力的得分略低于NEO-2.2B。
研究人員指出,密集文本識別和理解能力不足是由于訓練數據中此類高質量、知識密集型樣本的不足,而NEO-9B的得分低于NEO-2.2B則是由于當前訓練數據集的覆蓋范圍和知識密度有限。
![]()
此外,NEO在邊緣部署方面具有優勢,特別是在0.6B-8B的參數區間內,便于計算資源有限或實時性要求嚴格的場景應用。
二、原生圖塊嵌入,雙向注意力并存,具備復雜場景擴展能力
![]()
NEO架構通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創新,讓模型天生具備了統一處理視覺與語言的能力:
1、原生圖塊嵌入(Native Patch Embedding): 這一方法摒棄了離散的圖像tokenizer,通過獨創的圖塊嵌入層(Patch Embedding Layer ,PEL)自底向上構建從像素到詞元的連續映射。
2、原生三維旋轉位置編碼(Native-RoPE):NEO架構解耦了三維時空頻率分配,為三個維度設定了不同的旋轉基頻率。視覺維度采用高頻頻率,便于模型理解空間布局和細粒度對齊;文本維度采用低頻頻率,兼容了預訓練語言模型的旋轉位置編碼(RoPE)設置。由此,訓練后的模型具備向視頻處理、跨幀建模等復雜場景擴展的潛力。
3、原生多頭注意力(Native Multi-Hea′d Attention):針對不同模態特點,NEO在統一框架下實現了文本token的自回歸注意力和視覺token的雙向注意力并存。基于此,模型可以無視線性化順序,直接根據原生三維旋轉位置編碼(Native-RoPE)的二維坐標來學習任意兩個空間區域的語義和幾何關系,以支撐復雜的圖文混合理解與推理。
三、三階段訓練,平穩過渡視覺能力與復雜文本指令
NEO模型的訓練分為三個階段逐步推進:預訓練、中期訓練和監督微調。
![]()
在預訓練階段,訓練的主要工作是學習基礎視覺概念和上下文關系,并在預訓練語言模型的指導下,初步建立圖像與文本之間的對齊。NEO架構采用了Pre-Buffer(NEO中新增的視覺層)和Post-LLM(NEO中的語言大腦)分離式預訓練,這一階段Post-LLM被凍結,Pre-Buffer需要從頭開始學習視覺感知能力,這保護了語言模型不被低質量的圖像-文本對破壞,實現跨模態學習。這一階段使用了約3.45億的網絡和合成的圖像-文本對的數據。
中期訓練階段的核心目標是強化視覺與語言能力的對齊,提升模型對高分辨率圖像、復雜場景、小物體和OCR文本的感知能力。這一階段的訓練數據來自InternVL-1.5的預訓練語料庫,包含4000萬樣本數據,整個架構使用相同的損失函數進行更新,以鞏固視覺-語言對齊。
在監督微調階段,NEO能夠遵循復雜指令、進行多輪對話和執行多樣化任務,更適用于實際應用。研究人員使用約400萬高質量、多來源的指令數據,涵蓋視覺問答、多模態對話、數學推理、知識問答等多種任務。
階段式訓練不僅防止了視覺訓練破壞已有的語言能力,確保穩定優化,還能實現模型能力從基礎的視覺概念到復雜指令的平滑過渡。
結語:正探索NEO規模化和突破數據瓶頸,拓展多模態應用邊界
NEO系列模型實現了模型數據訓練的高效性,其性能在同等參數規模原生VLM模型中處于領先地位。在圖表和文檔結構化理解上,NEO模型具有明顯優勢和競爭力。受制于訓練數據和計算資源,NEO模型仍表現出了媲美頂尖模塊化VLM的實力。
NEO模型還存在密集文本識別和理解能力的不足、依賴外部知識的短板。不過,研究人員指出這并非是架構的缺陷,而是訓練數據集的覆蓋范圍、知識密集型樣本、高質量數據的不足。
研究人員稱,未來他們將會探索更大規模的NEO模型,解決知識和文本理解短板,開發稀疏架構,探索視頻、具身智能等新應用場景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.