<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

      0
      分享至

      面壁智能正式開源 8B 參數(shù)的面壁小鋼炮 MiniCPM-V 4.5 多模態(tài)旗艦?zāi)P停?strong>成為行業(yè)首個具備高刷視頻理解能力的多模態(tài)模型看得準(zhǔn)、看得快,看得長!高刷視頻理解、長視頻理解、OCR、文檔解析能力同級 SOTA,且性能超過 Qwen2.5-VL 72B,堪稱最強(qiáng)端側(cè)多模態(tài)模型。

      模型剛剛開源,就收獲了 Hugging Face 聯(lián)合創(chuàng)始人Thomas Wolf 等一眾大 V 的點贊轉(zhuǎn)發(fā)。


      MiniCPM-V 4.5 亮一覽

      首個「高刷視頻理解」多模態(tài)模型,兼顧性能與效率:高刷視頻理解同級 SOTA 且超過 Qwen2.5-VL 72B 越級領(lǐng)先;同等視覺 token 開銷下, MiniCPM-V 4.5 可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍;

      最強(qiáng)多模態(tài) SOTA 模型:圖片理解、長視頻理解、OCR、文檔解析同級 SOTA,且超過 Qwen2.5-VL 72B 達(dá)到 越級領(lǐng)先

      ? 端側(cè)友好:提供 SOTA 級多模態(tài)表現(xiàn)的同時,帶來最佳的推理效率,顯存占用、平均推理時間等領(lǐng)先優(yōu)勢顯著;

      支持長思考、短思考可控混合推理,性能好、速度快

      ? 模型鏈接

      Github:

      https://github.com/OpenBMB/MiniCPM-o

      Hugging Face:

      https://huggingface.co/openbmb/MiniCPM-V-4_5

      ModelScope:

      https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

      01

      首個高刷視頻理解 兼顧性能與效率

      看得更清更準(zhǔn),才能減少視覺信息的誤差,提升視覺理解與推理準(zhǔn)確性。更高刷新率,是畫面流暢度的關(guān)鍵。

      此前,主流的多模態(tài)模型在處理視頻理解任務(wù)中,因為平衡算力、功耗等因素,通常采取 1 fps 抽幀,即每秒只能截取 1 幀畫面進(jìn)行識別和理解。雖然一定程度上保證了模型推理效率,但也因此缺失了絕大部分視覺信息,降低了多模態(tài)大模型對動態(tài)世界「精細(xì)化」的理解。

      MiniCPM-V 4.5 是行業(yè)首個具備高刷視頻理解能力的多模態(tài)模型,通過將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮,在同等視覺 token 量開銷下,最大可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍。

      MiniCPM-V 4.5 通過顯著增加抽幀頻次,從看「PPT」變成理解「動態(tài)畫面」,瞬間捕捉,洞見細(xì)節(jié)!面對一閃而過的畫面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更準(zhǔn)、更細(xì)。

      在 MotionBench、FavorBench 兩項體現(xiàn)高刷視頻理解能力的榜單中,MiniCPM-V 4.5 達(dá)到同尺寸 SOTA,且超過 Qwen2.5-VL 72B,實現(xiàn)越級領(lǐng)先水平


      02 最強(qiáng)端側(cè)多模態(tài)

      圖片、視頻理解全 SOTA

      以小博大,一直是面壁小鋼炮 MiniCPM 的模型特色。這一次,MiniCPM-V 4.5 憑借 8B 參數(shù),在圖片理解、視頻理解、復(fù)雜文檔識別等多模態(tài)能力上再次刷新能力上限。


      圖片理解性能上,MiniCPM-V 4.5 在 OpenCompass 測評中,領(lǐng)先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等眾多閉源模型,甚至超過 Qwen2.5-VL 72B,實現(xiàn)越級領(lǐng)先。


      視頻理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜單中,均達(dá)到同級最佳水平。


      在復(fù)雜文檔識別任務(wù)中,MiniCPM-V 4.5 在 OmniDocBench 榜單的 OverallEdit、TextEdit、TableEdit 三項指標(biāo)上,均取得了通用多模態(tài)模型同級別的 SOTA 表現(xiàn)。


      此外,MiniCPM-V 4.5 同時支持常規(guī)模式和深度思考模式,實現(xiàn)了性能與響應(yīng)速度的有效平衡,常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。


      03 極致推理性價比 端側(cè)應(yīng)用優(yōu)選

      在端側(cè) AI 應(yīng)用持續(xù)升溫的當(dāng)下,模型能力再強(qiáng),如果無法在端側(cè)設(shè)備上穩(wěn)定、流暢運行,一切都是空談。

      面壁小鋼炮 MiniCPM 不斷提升模型的「能力密度」,也一直致力于追求大模型的極致「能效比」,通過更低的顯存占用、更快的響應(yīng)速度,確保在提供 SOTA 級多模態(tài)表現(xiàn)的同時,也實現(xiàn)最佳的推理效率和最低的推理開銷。

      在視頻理解榜單 VideoMME、以及單圖OpenCompass測試中,MiniCPM-V 4.5 達(dá)到同級 SOTA 水平,顯存占用、平均推理時間等方面領(lǐng)先優(yōu)勢顯著

      其中,在覆蓋短、中、長三種類型的視頻理解評測集 Video-MME 上,MiniCPM-V 4.5 采用 3 幀打包策略進(jìn)行推理,時間開銷(未計算模型抽幀時間)僅為同級模型的 1/10 。



      04 技術(shù)解析

      MiniCPM-V 4.5 作為多模態(tài)模型的新旗艦,之所以具備「高刷」視頻理解能力、并取得圖片理解、OCR、長視頻理解等 SOTA ,主要得益于在模型結(jié)構(gòu)、訓(xùn)練范式等領(lǐng)域的創(chuàng)新。

      • 3D-Resampler 實現(xiàn)高密度視頻壓縮

        當(dāng)前,制約多模態(tài)模型視頻理解能力的最核心挑戰(zhàn)是性能和效率的 Trade-off,即模型需要看更多視頻幀,才能獲取更精細(xì)的信息以提高理解上限;而模型融入太多視頻幀,又會造成顯存、推理速度等開銷爆炸。由于局部片段的不同視頻幀之間存在信息冗余性,即大部分視覺信息不變,僅有少部分信息發(fā)生變化,存在很大的信息壓縮空間。MiniCPM-V 4.5 將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮。具體來說,視頻會按照每N個視頻幀一組分組(分組尺寸最大為 6 ),3D-Resampler 會對每個視頻組壓縮編碼,得到 64 個視覺token(與編碼單圖視覺token數(shù)量相同),最終在推理開銷不變的情況下,最大 10 fps 抽幀,實現(xiàn)了模型高刷視頻理解能力。得益于 Resampler 機(jī)制的靈活性,我們可以在推理階段靈活調(diào)整視頻分組尺寸,同時支持單圖、多圖、視頻的統(tǒng)一編碼(即單圖編碼視為 3D 視頻編碼的 2D 特例),方便知識和能力遷移。

      • 面向多頁文檔圖片的統(tǒng)一 OCR 和知識推理學(xué)習(xí)

        「對文字的識別解析」和「從文檔中學(xué)習(xí)知識」是多模態(tài)大模型的兩個重要課題,但這兩個方向的學(xué)習(xí)范式割裂,并且分別受到圖像樣例難度和解析準(zhǔn)確性的限制。提升 OCR 能力往往需要補(bǔ)充更豐富且難的數(shù)據(jù),數(shù)據(jù)增廣(例如對圖像中文字加高斯噪音)往往會被采用,以提升數(shù)據(jù)的難度和多樣性,但是過大的增廣會使得文字不可讀,反而會導(dǎo)致模型幻覺。在文檔知識學(xué)習(xí)方面,大部分工作會將文檔解析成為圖文交替數(shù)據(jù)進(jìn)行學(xué)習(xí),嚴(yán)重受到文本解析工具錯誤的影響。

        MiniCPM-V 4.5 連續(xù)控制圖像中的「文字信息可見度」,使得多模態(tài)模型在 OCR 和知識學(xué)習(xí)兩種模式之間無縫切換,首次實現(xiàn)了OCR 和知識學(xué)習(xí)兩種學(xué)習(xí)范式的有效融合,且不會受到過難增廣和解析錯誤的影響。具體來說,我們首先提取出文檔中的文字框(這通常是非常準(zhǔn)確的,大部分解析錯誤來源于排版、閱讀順序、低信息量圖文噪音錯誤),然后對文字框內(nèi)區(qū)域進(jìn)行不同程度的噪音增廣。當(dāng)施加噪音較小,文字處于尚可辨別范圍內(nèi)時,模型會 OCR 學(xué)習(xí)識別文字;當(dāng)施加噪音較大,文字無法辨認(rèn)時,模型會自動進(jìn)入知識學(xué)習(xí),根據(jù)文檔的多模態(tài)上下文還原文字;當(dāng)噪音介于兩者之間,模型會進(jìn)行混合能力的學(xué)習(xí)。基于上述技術(shù),MiniCPM-V 4.5 低成本實現(xiàn)了領(lǐng)先的 OCR 能力和多模態(tài)知識能力。

      • 通用域混合推理強(qiáng)化學(xué)習(xí)

        深度思考推理能力極大拓展了多模態(tài)大模型的推理能力邊界,但在常見問題場景中,也往往伴隨過高的推理延遲。MiniCPM-V 4.5 同時支持常規(guī)模式和深度思考模式,實現(xiàn)了性能與響應(yīng)速度的有效平衡:常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。為了讓模型在兩種模式下都具備出色性能,MiniCPM-V 4.5 提出了混合推理的強(qiáng)化學(xué)習(xí)訓(xùn)練方案,在強(qiáng)化學(xué)習(xí)過程中同時激活常規(guī)和深度思考模式,實現(xiàn)在相同訓(xùn)練時長下顯著更強(qiáng)的常規(guī)模式性能和相似的深度思考模式性能。借助 RLPR 技術(shù),MiniCPM-V 4.5 進(jìn)一步從通用域多模態(tài)推理數(shù)據(jù)上獲得高質(zhì)量的獎勵信號,以提升廣泛通用領(lǐng)域的推理能力。最終,通過輕量化的 RLAIF-V 訓(xùn)練階段,模型在保持推理能力的同時顯著降低了幻覺。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      聰明反被聰明誤!本想為女兒鋪路的李湘,卻栽在了何超瓊手里

      聰明反被聰明誤!本想為女兒鋪路的李湘,卻栽在了何超瓊手里

      觀察鑒娛
      2025-12-18 09:43:05
      意外!上港球迷曾質(zhì)疑他不如蒯紀(jì)聞,如今德轉(zhuǎn)身價飆升到350萬

      意外!上港球迷曾質(zhì)疑他不如蒯紀(jì)聞,如今德轉(zhuǎn)身價飆升到350萬

      懂個球
      2025-12-18 17:42:06
      部級大佬被抓時攜女人叛逃海外,躲藏十年,傳言死于澳大利亞街頭

      部級大佬被抓時攜女人叛逃海外,躲藏十年,傳言死于澳大利亞街頭

      阿胡
      2024-06-24 13:38:46
      硬扛中國39天,高市終于改口:只有美國打上門,才符合存亡危機(jī)?

      硬扛中國39天,高市終于改口:只有美國打上門,才符合存亡危機(jī)?

      博覽歷史
      2025-12-17 17:22:03
      2019年,被“港獨”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

      2019年,被“港獨”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

      知鑒明史
      2025-12-18 18:21:51
      善惡終有報,被央視“除名”的海霞,新身份曝光令人唏噓

      善惡終有報,被央視“除名”的海霞,新身份曝光令人唏噓

      丁羂解說
      2025-12-18 04:05:59
      77年我把公社會計肚子搞大,她被調(diào)回省再沒消息,我以為緣分盡了

      77年我把公社會計肚子搞大,她被調(diào)回省再沒消息,我以為緣分盡了

      蕭竹輕語
      2025-12-11 18:42:00
      “全球大模型第一股”, 來了?

      “全球大模型第一股”, 來了?

      每日經(jīng)濟(jì)新聞
      2025-12-18 00:17:48
      U15國足開門黑!0-3不敵日本,柏驊峻烏龍助攻,2天后對韓國

      U15國足開門黑!0-3不敵日本,柏驊峻烏龍助攻,2天后對韓國

      奧拜爾
      2025-12-18 16:32:30
      實探絲芭傳媒公司注冊地:公演正常,拒絕回應(yīng)“鞠婧祎事件”

      實探絲芭傳媒公司注冊地:公演正常,拒絕回應(yīng)“鞠婧祎事件”

      新京報
      2025-12-18 18:56:47
      美團(tuán)外賣官宣周杰倫成為品牌代言人

      美團(tuán)外賣官宣周杰倫成為品牌代言人

      IT之家
      2025-12-18 10:21:08
      陜西高二女生午休時操場產(chǎn)子,調(diào)查后發(fā)現(xiàn),孩子父親身份不簡單

      陜西高二女生午休時操場產(chǎn)子,調(diào)查后發(fā)現(xiàn),孩子父親身份不簡單

      蘇大強(qiáng)專欄
      2024-07-18 20:34:57
      上海市中心規(guī)模最大的居民小區(qū)拆除重建項目封頂

      上海市中心規(guī)模最大的居民小區(qū)拆除重建項目封頂

      新華社
      2025-12-18 18:41:52
      CBA罰單:對浙江男籃義烏賽區(qū)警告 戰(zhàn)廣東比賽球迷屢次喊“黑哨”

      CBA罰單:對浙江男籃義烏賽區(qū)警告 戰(zhàn)廣東比賽球迷屢次喊“黑哨”

      醉臥浮生
      2025-12-18 13:42:14
      "崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

      "崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

      互聯(lián)網(wǎng)大觀
      2025-12-12 15:14:03
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      怒了!董路全面開炮,硬剛6大前國腳:與孫繼海徹底撕破臉,大戰(zhàn)魯能系

      怒了!董路全面開炮,硬剛6大前國腳:與孫繼海徹底撕破臉,大戰(zhàn)魯能系

      林子說事
      2025-12-18 13:47:16
      F1車隊一年燒掉4.5億美元!為何資本仍瘋狂涌入?回報率超600%

      F1車隊一年燒掉4.5億美元!為何資本仍瘋狂涌入?回報率超600%

      扶蘇史記
      2025-12-12 02:30:04
      德轉(zhuǎn)葡萄牙球員歷史身價TOP10:C羅、內(nèi)維斯、維蒂尼亞前3

      德轉(zhuǎn)葡萄牙球員歷史身價TOP10:C羅、內(nèi)維斯、維蒂尼亞前3

      懂球帝
      2025-12-18 11:18:56
      倒反天罡!日本明治天皇玄孫發(fā)文稱世界上最野蠻的國家是中國

      倒反天罡!日本明治天皇玄孫發(fā)文稱世界上最野蠻的國家是中國

      我心縱橫天地間
      2025-12-17 14:35:24
      2025-12-18 23:19:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學(xué)術(shù),服務(wù)AI
      7012文章數(shù) 20715關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟(jì)犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      健康
      藝術(shù)
      教育
      房產(chǎn)
      軍事航空

      這些新療法,讓化療不再那么痛苦

      藝術(shù)要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      教育要聞

      所謂教育,不過是三分說,七分等

      房產(chǎn)要聞

      搶藏瘋潮!封關(guān)時代,海口頂奢王炸壓軸,傳世資產(chǎn)即刻登場!

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機(jī)"

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 少妇扒开双腿自慰出白浆| 精品一卡二卡| 欧美精品一区二区蜜臀亚洲| 久久久久999| 日韩亚洲欧美中文在线| 日韩第四页| 亚洲AV成人无码精在线| 91丝袜高潮流白浆潮喷在线观看| 无码丰满熟妇| 日产久久久| 人妻斩0930无码视频| 欧美性69式xxxx护士| 55夜色66夜色国产精品视频| 亚洲欧洲色图片网站| 精品无码中文视频在线观看| 伊人久久中文字幕| 熟女人妻av五十路六十路| 日本天天躁天天搡久久| 国内成人综合| 人人玩人人添人人澡超碰| 国产av制服丝袜| 婷婷色综合成人成人网小说 | 91探花视频在线观看| 精品综合久久久久久97| 河间市| 国产精品乱码久久久久久小说| 成年免费视频黄网站zxgk| 日韩色美女| 日韩大片高清播放器| 天天爱天天做天天爽夜夜揉| 午夜欧美精品久久久久久久 | 久久精品中文字幕免费| 精品人妻大屁股白浆无码 | 日日撸夜夜干| 久久AV秘?一区二区三区水生| 久久天天躁狠狠躁夜夜不卡公司| 成人大香蕉| 国产超碰在线| 亚洲狠狠婷婷综合久久| 动漫AV纯肉无码AV电影网| 中文字幕自拍|