當前端側多模態大模型普遍面臨性能不足、能力有限、適配性差等問題,難以滿足端側對高性能、強隱私、低延遲的需求,成為制約下一代 AI 手機發展的關鍵。
為此,OPPO AI 中心推出開源的全鏈路適配的端側多模態大模型 AndesVL。該模型兼具 SOTA 水平的通用多模態理解推理能力與端側專項優勢,含 0.6B-4B 四檔尺寸套件,支持多場景靈活部署,還具備強 GUI 與多語言能力,更將全面開源。其通過先進技術實現端側效果與效率均衡,為端側多模態大模型應用樹標桿,助力 AI 手機等場景創新。AndesVL具有通用能力強、端側能力專、適用范圍廣、端側部署好、端測試配快等諸多優勢。AndesVL浮點數模型在多個領域共30余個benchmark上取得相近尺寸模型的SOTA效果,端側部署的模型實現高達6.7倍的峰值解碼加速比以及1.8BPW的壓縮效率。
技術背景
近年來,多模態大模型已在云端各類場景的應用中取得顯著成功,而如何在智能手機等終端設備上充分發揮多模態大模型的能力,是下一代AI手機能否成功的關鍵。端側應用亟需多模態大模型具備高性能、強隱私、低延遲的能力,但目前的端側多模態大模型普遍存在性能不足、能力有限、適配性差的問題。
為此,OPPO AI中心大模型算法團隊推出國內首個全鏈路適配的端側多模態大模型——AndesVL。該系列模型不僅具備廣泛適用的SOTA水平的多模態理解和推理能力,還實現了端側化部署與業務場景應用的無縫對接,能夠快速部署、加速推理并廣泛應用于智能AI手機等端側場景。全系列模型包含0.6B至4B四個階梯尺寸的套件,支持不同資源環境下的配置與應用。除具備通用多模態識別、理解和推理能力外,AndesVL還具有強大的GUI能力和多語言能力,全面適配多樣化、全球化的手機端側應用。此外,AndesVL將全面開源,為端側多模態大模型的部署與應用樹立標桿,同時促進產業內相關技術和應用的全面快速發展。
具體而言,AndesVL主要有以下幾個亮點:
- 通用能力強:AndesVL對比同參數規模的開源模型在公開評測集上綜合達到SOTA水平、30多個評測集上達到Top1的精度,能力涵蓋數學推理能力、OCR識別能力、圖文理解和知識能力、多圖理解以及幻覺抑制等。
- 端側能力專:AndesVL針對手機端側的多語言、GUI理解需求進行專項提升,使模型兼顧通用能力的同時,在這兩項端側相關能力上也達到SOTA。
- 適用范圍廣:為滿足不同資源限制和多樣性應用的需求,AndesVL提供0.6B、1B、2B、4B共4個階梯尺寸的模型組合套裝。同時,提供各尺寸模型的Instruct版和Thinking版模型,兼顧效率和效果,既適用于高效的理解生成應用需求也能應對復雜的數學推理規劃應用的挑戰。
- 端側部署好:基于先進的稀疏化技術、量化感知訓練技術和編解碼加速技術,實現端側效果和效率的完美均衡,實現從云端模型到端側模型的跨越。
- 端側適配快:以1+N LoRA架構支持多場景部署,以QALFT技術實現場景獨立迭代更新,端側也能實現和云端一樣的高效靈活。
![]()
![]()
模型架構
![]()
![]()
AndesVL是面向實際端側部署開發的大模型,因此從架構設計起,就綜合考慮模型能力和端側資源、功耗限制的均衡。為適應不同資源限制下的端側化運行場景,AndesVL 系列模型在統一的架構模式下具備參數范圍從0.6B到4B的4個不同尺寸模型,每個模型具有Instruct和thinking兩個版本。統一的架構有利于模型的快速開發迭代和部署應用,不同的模型尺寸適應不同的需求和資源限制場景,而通用指令版和推理版能分別應對通用指令執行和強推理的不同應用場景需求。
具體而言,模型結構包括三部分:視覺編碼器(ViT)、多層感知器(MLP)和大語言模型(LLM)。視覺編碼器的選型上,1-4B版本的采用AimV2-300M,相比更大、更復雜的編碼器(如 Qwen2VL-ViT),其尺寸和架構設計在功耗和部署適配性上都更適合端側使用;應對0.6B模型部署資源限制更為嚴格的要求,則采用更小尺寸的SigLIP-2-base 作為視覺編碼器,在保證效果的同時盡可能減少資源消耗。在基礎的視覺編碼器上,AndesVL 加入了二維旋轉位置嵌入(2D-RoPE),借助其外推能力,使模型能有效處理高低不同分辨率圖像的輸入。此外,視覺編碼器基于Native Resolution ViT(NaViT) 策略直接處理任意分辨率的輸入,能高效處理任意寬高比和分辨率的圖像,同時采用像素重排 (pixel shuffle) 無損壓縮序列長度,提高處理性能。 在大語言模型部分,AndesVL采用成熟的Qwen3系列語言模型,以支持Instruct和Thinking兩種模式的模型實現。
訓練方案
1、預訓練階段
AndesVL 的預訓練階段包含三個步驟:視覺-語言對齊、視覺-語言聯合預訓練和多任務預訓練:
![]()
- 視覺-語言對齊
該階段訓練除進行視覺模態到語言模態的對齊外,重點訓練以充分發揮新引入的二維旋轉位置嵌入的潛能。訓練第一階段使用大量低分辨率數據(最高 896×896 像素)進行預訓練;第二階段則在此基礎上繼續使用更高分辨率數據(最高1792×1792 像素)進行微調。為保持語言模型穩定性,該階段主要使用的數據為圖像描述(Captions)、光學字符識別(OCR)數據和視覺問答(VQA)等較為通用的視覺語言對齊數據。
- 視覺-語言聯合預訓練
視覺-語言聯合預訓練階段解凍 LLM 的參數,并以相對較低的學習率進行全參數預訓練,同時此階段將 LLM 的上下文窗口從 2,048 擴展到 8,192。
這一階段的訓練數據主要由圖文交錯的數據組成,這將傳統的純文本預訓練擴展為包含圖像輸入的形式。為了保留模型的純文本處理能力,提升指令理解能力和基本的視覺理解能力,他們在訓練中也混入了一部分純文本數據、一定數量的VQA數據和第一階段中用于視覺-語言對齊的數據。為防止單向自回歸的 Transformer 中圖像出現在序列末尾時導致無法有效學習的問題,訓練時采取隨機位置替換的方式,即以 50% 的概率隨機將圖像從原始位置提前至文本內容之前,并用對應的索引代替原圖像位置。
相比于Instruct版的訓練,Thinking版模型從此階段起就開始引入大量長推理數據,包括圖文混合的長推理數據和純文本的長推理數據,在保持原LLM的數學推理能力的同時,激活多模態模型的長推理能力。
- 多任務預訓練
在此階段,AndesVL使用標注數據的有監督學習,并專注于對答案部分的文本token計算損失。這一階段的主要數據類型包括通用的視覺問答(VQA)、圖像描述(Captions)、光學字符識別(OCR)數據和圖文長推理數據,同時也引入了特定任務的數據,例如定位(Grounding)和用戶界面(GUI)相關數據。同樣的,這個階段的Thinking模型也引入了大量的長推理數據。為了更好地學習高分辨率數據中的信息,在此階段將 ViT 的圖像塊輸入長度從4,096 增加到了 16,384。同時LLM的序列長度也從8,192擴展到32,768。
![]()
2、后訓練階段
AndesVL的后訓練主要應用的技術包括:監督微調 (SFT)和強化學習對齊(RL)。其中RL階段對Instruct模型和Thinking模型分別使用混合偏好優化 (MPO)和GRPO。因此后訓練數據包含三部分,通用的微調數據、MPO數據和GRPO數據。
- 監督微調
監督微調的通用數據集經過精心設計,能夠將多種輸入模態引入模型,從而增強強大的表征學習能力。該數據集涵蓋了多種任務目標,例如圖像描述、圖像問答、文本摘要、代碼生成等。
![]()
監督微調數據經過多階段的數據過濾流程,包括單模態過濾、任務聚類及基于LLM的評分機制,最終構建了一個包含約1600萬條數據的高質量微調數據集。
- 混合偏好優化
直接偏好優化(DPO)已成為將大語言模型(LLM)與人類偏好對齊的主流方法,由于其在語言模型對齊中的良好表現,近期一些研究已將 DPO 應用于多模態場景中。然而,在多模態大語言模型中應用 DPO 仍面臨兩大挑戰:一是缺乏全面且高質量的多模態推理偏好數據集,二是 DPO 本身無法評估單個回答的絕對質量。為應對這些問題,InternVL團隊提出了一種新的方法——混合偏好優化(MPO),該方法已在多個多模態推理評估任務中展現出更優的性能表現。
AndesVL采用了MPO的訓練方法,并針對性設計了數據構造pipeline,由此生成了大量MPO訓練數據,結合開源數據MMPR,顯著提升了模型的整體能力。
![]()
- GRPO訓練
根據DeepSeek的實驗結論,小模型可以從大模型中繼承思維鏈的推理能力,因此AndesVL采用了數據蒸餾的方式,通過設計數據構造的pipeline來大批量獲取高質量的多模態長思維鏈數據。
借鑒Qwen3思考模式切換的設計思路,AndesVL采用了兩類數據集:一種包含詳細推理步驟的“有思考過程”數據集,另一種省略推理過程的“無思考過程”數據集。這種策略使得模型可以在思考和不思考之間靈活切換。
GRPO階段我們采用多模態推理數據和純文本推理數據的兩階段訓練方案,同時根據數據難度從易到難做課程學習充分激發模型的推理能力,使其在數學推理等領域的效果大幅提升,同時保持非推理領域的效果。
端側部署解決方案:算法優化與高效部署的創新實踐
為應對端側AI規模化落地的挑戰,OPPO基于自研的AndesVL多模態模型,構建了一套從底層算法優化到上層部署架構的完整技術方案。該方案聚焦于算法優化與端側部署兩大方向,通過在模型壓縮與架構設計上的協同創新,實現了推理效率、部署靈活性與迭代經濟性的顯著提升。
1、算法優化:稀疏化+QAT,奠定高效部署基石
在算法層面,我們通過前沿的稀疏化壓縮與量化感知訓練技術,從源頭削減模型的計算與存儲開銷,同時結合先進編解碼算法,為端側高效推理奠定堅實基礎。
模型稀疏化壓縮:突破75%稀疏度,BPW低至1.8+bit
我們實現了大語言模型稀疏化技術的關鍵突破。OPPO與聯發科聯合優化模型端側內存壓縮技術,通過算法與硬件的協同設計,在極小的效果損失前提下,將模型權重稀疏度提升至75%以上,平均每參數比特數(BPW)成功降至1.8bit以下,結合聯發科天璣9500芯片的硬件內存壓縮技術,OPPO實現模型端側內存占用降低30.9%,推理速度提升45%。成功在壓縮率、推理速度與精度保持之間達成了高效平衡。
量化感知訓練(QAT):構建從訓練到部署的可預測通路
我們構建了覆蓋基模型與場景LoRA的雙重量化感知訓練體系,確保量化模型在端側的效果可靠性與迭代效率。
- 基模型QAT框架:支持權重(W2/W3/W4/W8)與激活(A8/A16)的細粒度混合精度配置。其核心創新在于建立了從“靜態QAT訓練”到“端側PTQ結果”的無縫映射機制,有效消除了因校準數據分布差異等因素引入的精度波動,大幅提升了模型在真實硬件上的表現確定性與穩定性。
- QALFT框架(Quantization-Aware LoRA Fine-Tuning):在“1+N LoRA”架構下,不同的場景LoRA會產生不一樣的激活范圍,這導致基模型在量化過程中必須考慮所有場景的激活范圍才能保證最佳的量化效果,因此當場景發生更新或新增時,都需要對基模型重新量化,這影響了端側模型的部署和迭代的效率。為了解決上述問題,我們與聯發科聯合開發了端側LoRA量化感知訓練框架QALFT(Quantization-Aware LoRA Fine Tuning)。該技術通過在云端仿真端側已經量化好的基模型的計算結果,實現對場景LoRA進行量化感知訓練,讓場景LoRA在訓練階段擬合端側已經產生的量化誤差。基于QALFT框架,真正實現了場景的新增和更新彼此獨立,提升端側部署效率與靈活性,并最大程度保證端上的算法效果。
![]()
QALFT框架的核心思想是模型、數據、訓練器三方解耦,各組件可在不同訓練流程中復用。同時,Runtime庫與上層設施隔離,保證訓練流程可以在不同平臺快速遷移。通過使用QALFT訓練套件,我們可以快速在MTK硬件平臺上進行模型訓練和部署。
編碼壓縮與解碼加速:突破長上下文與自回歸生成瓶頸
為克服長文本輸入與自回歸生成帶來的端側推理延遲,我們針對LLM的推理流程進行了深度優化。
- 編碼壓縮:針對長提示下鍵值緩存(KV Cache)內存暴漲的業界難題,我們基于長文本特征稀疏的特性,研發了端側專用編碼加速方案OKV。該方案通過對KV緩存進行智能稀疏化,在僅保留25%緩存的條件下,效果即可媲美全量緩存,同時成功在端側支持了高達128K的上下文長度,為用戶流暢的長文本交互體驗提供了核心技術保障。
- 解碼加速(投機解碼):為破解自回歸解碼的串行瓶頸,提升端側模型的能耗效率,我們整合改進了EAGLE-2、HASS等前沿投機解碼算法,結合OPPO的模型壓縮算法,AndesVL的峰值解碼加速比達到6.7倍,顯著提升了端側AI的響應速度。
2、端側部署:1+N LoRA架構實現低成本、高靈活的規模化擴展
在部署架構層面,我們創新性地采用了 “1+N LoRA” 策略,以一個強大的多模態基模型結合多個輕量級、可插拔的場景專用LoRA模塊,有效應對端側設備資源受限與場景多樣化的雙重挑戰。
該架構允許在運行時動態加載不同的LoRA來執行相應任務,不僅顯著降低了新增功能所需的存儲空間與更新成本,更使得OPPO能夠基于同一基模型,快速發布并迭代多款運行于AI設備上的端側應用,實現了高效、經濟的規模化部署與敏捷迭代。
評測結果
1、整體能力
![]()
上表展示了不同多模態大模型 (MLLM) 在學術基準測試中的詳細評估結果。4B-Thinking 模型70.9 分,比第二名InternVL3.5-4B 高出 3.2 分。在6大垂直領域,AndesVL-4B均取得第一的分數,顯示出其在各種多模態場景下的卓越性能。4B-instruct 在多個垂直領域同樣表現出色,尤其是在多圖像理解和多語言任務。AndesVL-2B-Thinking總分64.4,在同規模模型中排名第一,其在多圖像理解和幻覺緩解方面性能突出。1B和0.6B模型優勢明顯,thinking和instruct模型分別位列同尺寸前兩名。特別是0.6B模型,相比InternVL3.5-1B等各大尺寸的模型,也具有一定優勢。
這些結果凸顯了AndesVL系列模型在處理一系列需要多模態感知、理解和推理的現實世界任務方面的出色能力。同時,0.6B-4B的多樣性的尺寸范圍結合其強大的多模態能力,AndesVL十分適合應用于各類場景,特別是計算資源緊缺的手機移動場景。
2、垂域能力
- 數學和邏輯推理能力
![]()
AndesVL-4B-Thinking在各類數學與推理基準測試中以58.3的綜合得分位居榜首,特別是在MathVista、MathVerse和WeMath基準測試中較先進模型展現出顯著優勢。AndesVL-2B-Thinking模型以45.7的綜合得分位列第二,與最高分49.9十分接近。此外,AndesVL的1B和0.6B模型在各自規模組別中僅在綜合得分上最高,而且在大多數單項基準測試中也是第一。
這些結果印證了訓練策略的有效性:在預訓練階段利用大規模、優質的長鏈思維鏈多模態數據激活推理能力后,在后訓練階段通過強化學習顯著增強了模型的視覺-文本聯合推理能力。
- 視覺文本理解能力
![]()
AndesVL4B-Thinking模型以86.0的綜合得分在視覺文本任務中奪得第一,并在八項基準測試中的四項取得最佳成績。同樣,AndesVL-4B-Instruct也取得84.8的優異表現。特別在ChartQA上,AndesVL-4B-Thinking模型獲得90.4分,以4.4分的優勢顯著超越此前最佳模型InternVL3.5-4B(86.0)。在DocVQA基準測試中同樣觀察到類似的顯著優勢。由于ChartQA和DocVQA都是以長文本圖像和復雜問題構成,這個結果說明了AndesVL不僅能夠準確識別長文本,更能運用高級推理能力有效解決具有挑戰性的多模態問題。
對于更小尺寸的模型,AndesVL-2B-Instruct、AndesVL-1B-Thinking和AndesVL-0.6B-Instruct模型均在各自規模組別中奪得第一,展現出全系列模型的優秀視覺文本理解能力。
- 多圖理解能力
![]()
AndesVL-4B 在多項多圖像基準中表現優異,獲得67.8 的最高分。更小尺寸的模型依舊繼承了4B模型的優勢,0.6B模型得分53.1,相比1B模型無明顯精度下降。這一優勢表明,AndesVL 采用的先進預訓練策略和增強的訓練數據集,通過同時理解和分析多幅圖像之間的關系,顯著提升了其捕捉和推理圖像間關系的能力。
- 通用問答理解能力
![]()
AndesVL 模型(4B、1B 和 0.6B)在各自尺寸中取得了最佳精度,2B 版本也獲得極具競爭力的成績。詳細分析顯示, AndesVL 在 MME 和 RealWorldQA 上展現出優異性能。這表明我們的模型能夠提取魯棒圖像特征,并展現出強大的真實場景理解能力,能夠有效地處理復雜且動態的任務。
- 幻覺抑制能力
![]()
AndesVL 各尺寸模型均排名第一,4B 和 0.6B 模型分別得分74.8 和 65.9,與其他同尺寸模型相比有顯著優勢,而且這種優勢在更小尺寸模型上更加明顯。這表明我們的架構在保持高精度的同時,還提供了優異的幻覺緩解能力,即使在最小的 0.6B 版本中也依舊如此。
- 多語言理解能力
![]()
AndesVL 的 Thinking 和 Instruct 模型都展現出優異的多語言能力,取得 64.9 的最高分,比之前的最佳模型 Ovis2-4B 高出 1.5 分。這種專業的多語言能力可以使模型的多模態能力能夠遷移到多個語種,從而將應用擴展到更廣泛、更多樣化的全球受眾。
- UI理解能力
![]()
AndesVL 模型在ScreenSpot和我們自建的 AndesUI 評測集上均取得了領先精度。這些結果共同證明了AndesVL在 UI 理解和應用方面的豐富經驗和獨特的競爭優勢。
3、on-device效果和性能評測
我們在多個公開評測集進行端側精度和推理速度的評測,展示OPPO在端側模型精度優化和推理加速方面的成果。
- 量化感知訓練
![]()
Top1-accuracy體現了模型在量化前后解碼行為的一致性。我們在端側驗證了經過量化感知訓練(QAT)前后的Ansdes-VL-4B進行PTQ(W4A16)之后的精度,實驗結果顯示OPPO自研的QAT訓練框架可以顯著降低模型在端側的量化損失。
- Cache Eviction
![]()
我們成功將自研的OKV端側編碼壓縮方案應用在OPPO亮點功能-通話摘要上,可以看到在50%壓縮率的實驗條件下,相比SnapKV這一經典方案,模型在rouge-1指標上提升超過10%。在25%壓縮率下甚至媲美全量KV緩存效果。
- Speculative Decoding
![]()
結合自研的投機解碼算法、模型稀疏化及聯發科天璣9500芯片的硬件壓縮技術,在AndesVL-4B上,我們實現了比無壓縮優化的自回歸模型高達6.7倍的峰值解碼加速比。通過極致的模型壓縮,模型的BPW也大幅下降至1.8。
AndesUI benchmark
為增強 AndesVL 對智能手機 UI 的理解能力,OPPO多模態大模型團隊構建了一個專注于 UI 理解的數據集,名為 AndesUI。此數據集共收集了 90 款應用,其中包括來自 OPPO 軟件商店的 65 款熱門下載應用,覆蓋用戶高頻使用的多個類別,以及 25 款 ColorOS 預裝應用。標注人員被要求截取每款應用中不同且具有異構特性的頁面截圖,確保每張截圖包含獨特的布局和內容。最終共收集了來自第三方應用的 10000 張截圖和來自 ColorOS 預裝應用的 2500 張截圖。
得到以上圖片數據后人工對每張截圖中的所有控件進行標注,包括繪制邊界框、識別控件類型、記錄控件上可獲取的文字內容、判斷其是否可點擊等信息。平均每張界面截圖生成約 18 個控件,訓練集中共計包含 227000 個控件。
最終構建了基礎與進階兩類數據。基礎數據包括定位與指代表達數據集,進階數據則涵蓋整體描述性數據和自然語言問答對。最終訓練集共生成 227000 條指代表達數據、186000 條定位數據、13000 條綜合描述數據以及 108000 條自然語言問答對。
數據示例如下:
![]()
![]()
模型輸出示例
下面展示了AndesVL-4B模型在各個場景的輸出示例:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
未來展望
OPPO多模態大模型團隊提出的Andes-VL從模型架構、訓練方法、端側部署、模型應用等多個方面提出了針對端側多模態大模型訓練部署應用的綜合解決方案。當前該模型在綜合效果、數學推理、GUI理解、多語言都達到了同量級模型的領先水平,并開源相關模型推動行業技術進步。
未來該團隊將會在視覺編碼器解決方案、后訓練方案、知識蒸餾機制、融合文本視覺語音三模態的一體化模型等方向繼續發力,相信OPPO將不斷在手機端側實踐和應用這些技術,給用戶提供更安全、更快捷、更智能的交互體驗,也將推動整個行業向更高層次的技術革新邁進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.