網易首頁 > 網易號 > 正文申請入駐

又發模型！文心開源全新多模態深度思考模型

2025-11-11 13:35:26　來源: 新立場NewPosition

四川舉報

分享至

11月11日，百度正式對外推出文心多模態思考模型ERNIE-4.5-VL-28B-A3B-Thinking，新模型全面開源。公開評測數據顯示，該模型在多項多模態理解與推理任務中表現優異，僅需3B激活參數，性能表現接近業界領先的GPT-5-High與Gemini-2.5-Pro。

作為文心大模型開源家族的最新成員，ERNIE-4.5-VL-28B-A3B-Thinking基于ERNIE-4.5-VL-28B-A3B訓練而來，專注于提升多模態理解和跨模態推理能力。與傳統“越大越強”的范式不同，該模型通過高效的模型結構設計和強化學習策略，在較小參數規模下實現了高精度的視覺理解與復雜推理。

從評測數據來看，該模型在STEM學科計算、文檔圖表解析、視覺問答及視頻理解等多個維度表現穩定，大部分指標達Gemini-2.5-Pro與GPT-5-High兩款海外頂級模型95%百分位水平，部分指標表現如ChartQA和DocVQAval等文檔/圖表理解任務超過Gemini-2.5-Pro及GPT-5-High。

ERNIE-4.5-VL-28B-A3B-Thinking在多項多模態理解與推理任務中表現優異

值得關注的是，ERNIE-4.5-VL-28B-A3B-Thinking引入了“圖像思考”（Thinking with Images）功能，使其具備更接近人類的認知方式——能夠主動放大、縮小圖像，聚焦細節，并結合上下文進行多步推理。同時，該模型進一步加強了模型定位能力，擁有更強的指令遵循能力，在用戶需要時，能夠便捷的觸發視覺定位功能，適用于需要精確空間感知的應用場景。

當前ERNIE-4.5-VL-28B-A3B-Thinking模型以 Apache License 2.0 協議開源，允許商業使用。該模型的預訓練權重、推理代碼和項目均已在 Hugging Face、Modelscope、飛槳星河社區發布，FastDeploy、 vLLM、Transformers 等開源工具已經實現了對該模型的支持，可以直接加載模型并使用。

文心4.5系列開源模型

公開資料顯示，百度在模型開源方面持續發力，自6月30日開源10款文心大模型4.5系列模型以來，不斷豐富其開源模型矩陣。9月9日開源的ERNIE-4.5-21B-A3B-Thinking模型在發布三天后登上HuggingFace全球模型總趨勢榜和文本模型趨勢榜第一。

近期百度在大模型領域的進展也在加速。11月8日，LMArena最新排名顯示，百度文心最新模型ERNIE-5.0-Preview-1022在文本能力榜單中位列全球并列第二、國內第一。此外有消息稱，百度將于11月13日舉行的2025百度世界大會上發布文心大模型全新版本。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.