網易首頁 > 網易號 > 正文申請入駐

行業首個！商湯正式開源原生多模態架構NEO，訓練僅需1/10數據量

2025-12-02 19:18:52　來源: 智東西

北京舉報

分享至

智東西
編譯王欣逸
編輯程茜

智東西12月2日消息，昨天，商湯科技正式發布并開源了全新多模態模型架構NEO，該架構由商湯科技和新加坡南洋理工大學AI技術實驗室S-Lab合作研發，是行業首個可用的、實現深層次融合的原生多模態架構，基于NEO架構的NEO模型僅用3.9億訓練數據，就達到了模塊化架構下頂級VLM（視覺-語言模型）模型的性能，數據量僅需其他同等性能模型的1/10。

從基準測試來看，NEO模型在多模態能力綜合評估、跨學科和復雜推理等多項指標中碾壓上海AI Lab推出的Mono-InternVL-1.5、清華大學、上海AI Lab聯合商湯推出的HoVLE等原生VLM模型，還在多項視覺理解任務中追平通義千問的視覺語言模型Qwen2-VL、上海AI Lab聯合商湯推出的InternVL3等基于模塊化架構的頂級VLM模型。

當前，業內主流的多模態模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式，本質上仍以語言為中心，圖像與語言的融合僅停留在數據層面，視覺編碼和語言解碼分離，模型學習效率低下，在復雜多模態場景下處理任務受限。

為此，商湯科技拋棄了傳統的模塊化結構，推出從零設計的NEO原生架構。NEO架構在注意力機制、位置編碼和語義映射進行了底層創新，構建一個統一的原生基元，讓模型具備統一處理視覺與語言的能力。

NEO架構相關論文已發布在arXiv上，題為《從像素到文字——邁向大規模的原生視覺語言原始基元（From Pixels to Words — Towards Native Vision-Language Primitives at Scale）》，商湯科技聯合創始人、執行董事及AI基礎設施和大模型首席科學家林達華博士，南洋理工大學S-Lab負責人、副教授劉子緯等均在該論文的作者行列。

開源地址：https://github.com/EvolvingLMMs-Lab/NEO

論文地址：https://arxiv.org/abs/2510.14979

一、同參數全面領先原生VLM，數據僅為同等性能模型的1/10，復雜文本理解存在局限

基于NEO架構，研究人員推出了兩個參數的VLM模型：NEO-2.2B和NEO-9B，這兩個模型利用Qwen3-1.7B和Qwen3-8B兩個基礎語言模型作為基礎語言模型，添加了原生視覺組件。

在基準測試中，研究人員把NEO-2.2B、NEO-9B和同級別VLM模型進行對比，包括模塊化架構的VLM模型InternVL3、Qwen2.5-VL等，以及原生VLM模型Mono-InternVL-1.5、HoVLE等。為了進行公平、可控的科學對比，研究人員專門構建了一個模塊化VLM基線模型Encoder-Based作為對照。

從通用視覺語言的理解能力來看，與模塊化VLM相比，NEO在2B和8B參數規模下表現都不錯，NEO-2.2B和NEO-9B在多模態能力綜合評估、跨學科和復雜推理等多個關鍵指標優于模塊化VLM Encoder-Based；在同參數規模下，NEO幾乎全面領先其他原生VLM。

值得一提的是，NEO僅使用約3.9億訓練數據，而InternVL3等模塊化架構的頂級VLM模型至少使用了60億訓練數據，是NEO所需數據的15倍。

視覺任務測試中，在圖表理解和文檔結構理解任務上，NEO-2.2B和NEO-9B都表現出接近頂級模塊化模型水平。

不過，NEO的密集文本識別和理解能力仍存在不足，幾乎落后于所有模塊化模型，在原生模型的對比中也不占優。NEO-9B在文檔問答和圖像中的文本問答能力的得分略低于NEO-2.2B。

研究人員指出，密集文本識別和理解能力不足是由于訓練數據中此類高質量、知識密集型樣本的不足，而NEO-9B的得分低于NEO-2.2B則是由于當前訓練數據集的覆蓋范圍和知識密度有限。

此外，NEO在邊緣部署方面具有優勢，特別是在0.6B-8B的參數區間內，便于計算資源有限或實時性要求嚴格的場景應用。

二、原生圖塊嵌入，雙向注意力并存，具備復雜場景擴展能力

NEO架構通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創新，讓模型天生具備了統一處理視覺與語言的能力：

1、原生圖塊嵌入（Native Patch Embedding）：這一方法摒棄了離散的圖像tokenizer，通過獨創的圖塊嵌入層（Patch Embedding Layer ，PEL）自底向上構建從像素到詞元的連續映射。

2、原生三維旋轉位置編碼（Native-RoPE）：NEO架構解耦了三維時空頻率分配，為三個維度設定了不同的旋轉基頻率。視覺維度采用高頻頻率，便于模型理解空間布局和細粒度對齊；文本維度采用低頻頻率，兼容了預訓練語言模型的旋轉位置編碼（RoPE）設置。由此，訓練后的模型具備向視頻處理、跨幀建模等復雜場景擴展的潛力。

3、原生多頭注意力（Native Multi-Hea′d Attention）：針對不同模態特點，NEO在統一框架下實現了文本token的自回歸注意力和視覺token的雙向注意力并存。基于此，模型可以無視線性化順序，直接根據原生三維旋轉位置編碼（Native-RoPE）的二維坐標來學習任意兩個空間區域的語義和幾何關系，以支撐復雜的圖文混合理解與推理。

三、三階段訓練，平穩過渡視覺能力與復雜文本指令

NEO模型的訓練分為三個階段逐步推進：預訓練、中期訓練和監督微調。

在預訓練階段，訓練的主要工作是學習基礎視覺概念和上下文關系，并在預訓練語言模型的指導下，初步建立圖像與文本之間的對齊。NEO架構采用了Pre-Buffer（NEO中新增的視覺層）和Post-LLM（NEO中的語言大腦）分離式預訓練，這一階段Post-LLM被凍結，Pre-Buffer需要從頭開始學習視覺感知能力，這保護了語言模型不被低質量的圖像-文本對破壞，實現跨模態學習。這一階段使用了約3.45億的網絡和合成的圖像-文本對的數據。

中期訓練階段的核心目標是強化視覺與語言能力的對齊，提升模型對高分辨率圖像、復雜場景、小物體和OCR文本的感知能力。這一階段的訓練數據來自InternVL-1.5的預訓練語料庫，包含4000萬樣本數據，整個架構使用相同的損失函數進行更新，以鞏固視覺-語言對齊。

在監督微調階段，NEO能夠遵循復雜指令、進行多輪對話和執行多樣化任務，更適用于實際應用。研究人員使用約400萬高質量、多來源的指令數據，涵蓋視覺問答、多模態對話、數學推理、知識問答等多種任務。

階段式訓練不僅防止了視覺訓練破壞已有的語言能力，確保穩定優化，還能實現模型能力從基礎的視覺概念到復雜指令的平滑過渡。

結語：正探索NEO規模化和突破數據瓶頸，拓展多模態應用邊界

NEO系列模型實現了模型數據訓練的高效性，其性能在同等參數規模原生VLM模型中處于領先地位。在圖表和文檔結構化理解上，NEO模型具有明顯優勢和競爭力。受制于訓練數據和計算資源，NEO模型仍表現出了媲美頂尖模塊化VLM的實力。

NEO模型還存在密集文本識別和理解能力的不足、依賴外部知識的短板。不過，研究人員指出這并非是架構的缺陷，而是訓練數據集的覆蓋范圍、知識密集型樣本、高質量數據的不足。

研究人員稱，未來他們將會探索更大規模的NEO模型，解決知識和文本理解短板，開發稀疏架構，探索視頻、具身智能等新應用場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.