允中 發自 凹非寺
量子位 | 公眾號 QbitAI
7B量級模型,向來是端側部署與個人開發者的心頭好。
輕量化特性讓它能靈活適配各類終端場景,而強勁性能又能覆蓋圖像信息抽取、文檔理解、視頻解析、物體定位等高頻需求。
剛剛,華為重磅推出開源新玩家openPangu-VL-7B,直接瞄準這一核心場景精準發力。
昇騰原生的模型結構,讓openPangu-VL-7B的推理性能極具性價比:
720P圖像在單張Ascend Atlas 800T A2卡上首字模型推理時延(ViT與LLM模型時延和)僅160毫秒,能夠進行5FPS的實時推理;訓練階段的MFU更是達到42.5%。
更值得關注的是,模型在預訓練階段完成了3T+tokens的無突刺集群長穩訓練,為開發者使用昇騰集群提供了極具價值的實踐參考。
![]()
openPangu-VL-7B在通用視覺問答、文檔圖表理解&OCR、視覺定位、短視頻理解等核心任務上表現突出,在開源榜單中力壓同量級模型,展現出強悍的綜合實力。
![]()
官方提供的cookbook也展現了模型在這些領域的優異能力。
比如我們給模型一張菜品圖,讓模型找到一共有多少個櫻桃番茄,模型能夠點出所有的位置并正確計數。
![]()
給模型一張年報截圖,模型也能將其轉變為markdown格式,省去了人工摘錄的痛苦。
![]()
除了亮眼的榜單成績和針對昇騰的訓推優化,技術報告中還披露了若干核心技術細節,揭秘模型高性能背后的設計巧思:
1)適配昇騰的高性能視覺編碼器
![]()
業界傳統視覺編碼器多針對GPU架構設計,沒有充分發揮昇騰硬件優勢。
團隊通過大量先導實驗與性能分析,找到模型結構的最優平衡點——相同參數量下,該視覺編碼器在昇騰芯片上的吞吐較使用窗注意力的ViT-H系列編碼器提升15%。
同時,采用多標簽對比學習框架,讓模型具備更優的細粒度理解能力,為后續VLM訓練中的視覺定位數據學習筑牢基礎。
2)樣本均衡的損失設計
為解決不同長度訓練樣本的學習均衡問題,openPangu-VL-7B創新采用 “加權逐樣本損失+逐令牌損失” 的混合訓練方案,加權系數由令牌位置和樣本重要性動態決定。
![]()
這一設計讓模型在訓練中既能吃透長回復數據,也不忽視短回復信息,避免 “顧此失彼”,消融實驗已充分驗證其有效性。
![]()
3)帶填充的定位數據格式
區別于業界主流的0-999定位方案,openPangu-VL-7B采用000-999千分位帶填充相對坐標完成視覺定位。
整齊的三個token進行位置回歸,不僅降低了模型學習難度,更顯著提升了格式遵從性,讓定位任務的精度和效率同步提升。
![]()
此外,技術報告還深入探索了預訓練數據配比、位置編碼、模型融合等關鍵策略,為開發者提供了全面的技術細節參考。
對于昇騰使用者而言,openPangu-VL-7B 的開源無疑是一大利好。
這款兼具輕量化、高性能與強通用性的多模態模型,既為端側開發和個人使用提供了新選擇,也將進一步豐富昇騰生態的應用場景,為創新注入新動力。
模型鏈接:
https://ai.gitcode.com/ascend-tribe/openPangu-VL-7B
技術報告:
https://ai.gitcode.com/ascend-tribe/openPangu-VL-7B/blob/main/doc/technical_report.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.