11月11日,百度正式對(duì)外推出文心多模態(tài)思考模型ERNIE-4.5-VL-28B-A3B-Thinking,新模型全面開源。公開評(píng)測(cè)數(shù)據(jù)顯示,該模型在多項(xiàng)多模態(tài)理解與推理任務(wù)中表現(xiàn)優(yōu)異,僅需3B激活參數(shù),性能表現(xiàn)接近業(yè)界領(lǐng)先的GPT-5-High與Gemini-2.5-Pro。
作為文心大模型開源家族的最新成員,ERNIE-4.5-VL-28B-A3B-Thinking基于ERNIE-4.5-VL-28B-A3B訓(xùn)練而來,專注于提升多模態(tài)理解和跨模態(tài)推理能力。與傳統(tǒng)“越大越強(qiáng)”的范式不同,該模型通過高效的模型結(jié)構(gòu)設(shè)計(jì)和強(qiáng)化學(xué)習(xí)策略,在較小參數(shù)規(guī)模下實(shí)現(xiàn)了高精度的視覺理解與復(fù)雜推理。
從評(píng)測(cè)數(shù)據(jù)來看,該模型在STEM學(xué)科計(jì)算、文檔圖表解析、視覺問答及視頻理解等多個(gè)維度表現(xiàn)穩(wěn)定,大部分指標(biāo)達(dá)Gemini-2.5-Pro與GPT-5-High兩款海外頂級(jí)模型95%百分位水平,部分指標(biāo)表現(xiàn)如ChartQA和DocVQAval等文檔/圖表理解任務(wù)超過Gemini-2.5-Pro及GPT-5-High。
![]()
ERNIE-4.5-VL-28B-A3B-Thinking在多項(xiàng)多模態(tài)理解與推理任務(wù)中表現(xiàn)優(yōu)異
值得關(guān)注的是,ERNIE-4.5-VL-28B-A3B-Thinking引入了“圖像思考”(Thinking with Images)功能,使其具備更接近人類的認(rèn)知方式——能夠主動(dòng)放大、縮小圖像,聚焦細(xì)節(jié),并結(jié)合上下文進(jìn)行多步推理。同時(shí),該模型進(jìn)一步加強(qiáng)了模型定位能力,擁有更強(qiáng)的指令遵循能力,在用戶需要時(shí),能夠便捷的觸發(fā)視覺定位功能,適用于需要精確空間感知的應(yīng)用場(chǎng)景。
當(dāng)前ERNIE-4.5-VL-28B-A3B-Thinking模型以 Apache License 2.0 協(xié)議開源,允許商業(yè)使用。該模型的預(yù)訓(xùn)練權(quán)重、推理代碼和項(xiàng)目均已在 Hugging Face、Modelscope、飛槳星河社區(qū)發(fā)布,F(xiàn)astDeploy、 vLLM、Transformers 等開源工具已經(jīng)實(shí)現(xiàn)了對(duì)該模型的支持,可以直接加載模型并使用。
![]()
文心4.5系列開源模型
公開資料顯示,百度在模型開源方面持續(xù)發(fā)力,自6月30日開源10款文心大模型4.5系列模型以來,不斷豐富其開源模型矩陣。9月9日開源的ERNIE-4.5-21B-A3B-Thinking模型在發(fā)布三天后登上HuggingFace全球模型總趨勢(shì)榜和文本模型趨勢(shì)榜第一。
近期百度在大模型領(lǐng)域的進(jìn)展也在加速。11月8日,LMArena最新排名顯示,百度文心最新模型ERNIE-5.0-Preview-1022在文本能力榜單中位列全球并列第二、國內(nèi)第一。此外有消息稱,百度將于11月13日舉行的2025百度世界大會(huì)上發(fā)布文心大模型全新版本。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.