網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

消費級顯卡可以快速上手跑！面壁智能MiniCPM-o 4.5發(fā)技術報告

2026-04-28 22:47:00　來源: 量子位

北京舉報

分享至

面壁智能投稿
量子位 | 公眾號 QbitAI

面壁智能公開了自己在全雙工全模態(tài)交互領域的核心技術——

Omni-Flow 流式全模態(tài)框架。

今天，面壁智能聯(lián)合OpenBMB開源社區(qū)、清華大學THUNLP實驗室和THUMAI實驗室，正式發(fā)布MiniCPM-o 4.5技術報告。

過往大模型均為半雙工交互模式，類似對講機式輪次對話。

用戶與AI無法并行交流，AI無法實時感知環(huán)境、不能被打斷插話，存在交互時空割裂，用戶體驗差，嚴重制約多模態(tài)AI落地應用。

MiniCPM-o 4.5是面壁智能今年2月發(fā)布的全雙工全模態(tài)模型，也是業(yè)界首個端到端全雙工全模態(tài)大模型。

該模型參數(shù)規(guī)模約9B，支持視頻、音頻、文本流輸入及文本與語音的連續(xù)輸出。

利用MiniCPM-o 4.5，不用聯(lián)網(wǎng)、僅用一張消費級顯卡，你就能在個人電腦上擁有一個“邊看、邊聽、邊說、還能主動提醒”的類人AI助手。

目前，MiniCPM-o 4.5已基于llama.cpp完成模型量化和推理性能優(yōu)化，實測最低12GB顯存的RTX 5070即可流暢運行全雙工模式（RTF0.4)，極大降低了個人端側(cè)部署的準入門檻。M1-M5 Max（包含M5 Pro）的MAC設備亦可使用，建議內(nèi)存超過16G。

下面這支視頻展示了MiniCPM-o 4.5在個人筆記本上的完整部署與運行過程，包括全雙工語音對話、實時視覺理解、主動提醒等能力演示。

模型發(fā)布至今，抱抱臉下載量已突破25萬+。

技術報告發(fā)布之外，MiniCPM-o 4.5還同步推出在線體驗Demo、全模態(tài)全雙工API、端側(cè)安裝包Comni和Demo倉庫。

核心依托Omni-Flow流式全模態(tài)框架

MiniCPM-o 4.5極致流暢的全雙工交互體驗，核心依托于面壁智能與清華大學聯(lián)合研發(fā)的Omni-Flow流式全模態(tài)框架。

這也是本次技術報告公開的核心底層技術。

該框架打破傳統(tǒng)模型孤立的回合式交互邏輯，搭建起毫秒級統(tǒng)一時間軸。

通過時分復用機制，Omni-Flow流式全模態(tài)框架將視覺、音頻、文本等多模態(tài)并行信息流，精準對齊、拆分重組為周期性時序信息組。

模型以每秒一次的高頻次持續(xù)刷新環(huán)境認知，實時更新對場景和用戶意圖的理解，全程無需依賴外部VAD語音活動檢測工具，原生支持持續(xù)感知、即時響應、自由打斷。

在模型架構(gòu)上，MiniCPM-o 4.5采用輕量化端到端全模態(tài)設計，整體僅9B參數(shù)，由四大核心模塊高效協(xié)同構(gòu)成：

0.4B參數(shù)SigLIP-ViT視覺編碼器負責環(huán)境視覺感知；
0.3B參數(shù)Whisper-Medium音頻編碼器完成聲音信息采集；
8B參數(shù)Qwen3-8B LLM基座承擔核心思考與語義理解；
搭配0.3B參數(shù)輕量級語音Token解碼器實現(xiàn)語音生成。

模塊化分工設計各司其職、高效聯(lián)動，既保留了大模型強大的理解推理能力，又規(guī)避了復雜聲學任務對核心算力的損耗。

同時搭配自研TAIL時間對齊交錯語音生成方案，精準匹配文本與語音輸出節(jié)奏。

在保證語音流暢自然、情感飽滿的前提下，最大限度降低交互延遲，徹底解決流式對話卡頓、滯后、銜接生硬的行業(yè)難題。

參數(shù)不大，但實力不容小覷。

在多項權(quán)威評測基準中實現(xiàn)越級對標，MiniCPM-o 4.5綜合性能比肩甚至超越多款行業(yè)前沿大模型。

在視覺能力上，模型OpenCompass綜合得分77.6、MMBench英文得分87.6，整體表現(xiàn)對標Gemini 2.5 Flash，圖像理解、數(shù)學推理、文檔解析能力表現(xiàn)優(yōu)異。

在全模態(tài)動態(tài)交互、視頻場景理解領域，MiniCPM-o 4.5的優(yōu)勢更為突出。

Daily-Omni、Video-Holmes等多項評測數(shù)據(jù)顯示，MiniCPM-o 4.5優(yōu)于Gemini 2.5 Flash等大模型的表現(xiàn)；在LiveSports-3K-CC全雙工視頻基準測試中，勝率達到54.4%，領先各類專用流式視頻模型。

同時模型推理效率優(yōu)勢顯著。

INT4量化版本顯存占用大幅降低，僅需12GB顯存即可運行，解碼速度可達212 tokens/s，相較同類模型提速40%以上，響應延遲更低，性價比與落地優(yōu)勢拉滿。

除此之外，模型搭載多項實用特色功能，適配多元化使用場景。

MiniCPM-o 4.5全面支持中英雙語實時語音對話，語音生成質(zhì)量行業(yè)領先，中文CER、英文WER錯誤率低于CosyVoice2等主流模型，情感表現(xiàn)力更強。

支持簡易參考音頻即可完成聲音克隆與角色扮演，音色自然逼真。

延續(xù)MiniCPM-V系列優(yōu)勢，擁有前沿的OCR文檔解析能力，支持高清圖像、高幀率視頻處理，多語言解析能力覆蓋30余種語言。

同時，模型原生兼容傳統(tǒng)輪次對話、Omni-Flow全雙工流式交互兩種模式，無縫切換，兼顧精準問答與實時流式交互需求，適配各類使用場景。

兼顧普通用戶體驗與開發(fā)者二次開發(fā)需求

為讓技術真正落地普惠，MiniCPM-o 4.5打造了全渠道、全人群的開放落地體系，兼顧普通用戶體驗與開發(fā)者二次開發(fā)需求。

面向普通用戶，官方開放無需注冊、無需下載的在線體驗Demo，同時推出適配Windows、macOS系統(tǒng)的桌面端Comni一鍵安裝包，簡化部署流程，普通用戶可快速上手體驗全雙工AI交互能力。

面向廣大開發(fā)者，平臺免費開放全雙工實時WebSocket API，提供完整規(guī)范的接口文檔，支持快速接入各類應用；同時完整開源Demo前后端代碼，開放Linux部署方案，支持開發(fā)者自由二次開發(fā)、自定義調(diào)試，助力各類全模態(tài)AI應用快速落地。

依托原生全雙工、持續(xù)感知、主動交互的核心能力，MiniCPM-o 4.5突破了傳統(tǒng)AI單次問答的場景局限，解鎖了大量全新流式交互應用場景。

在生活服務領域，有望作為沉浸式智能陪伴助手，在用戶運動、烹飪、日常勞作時實時答疑、主動提醒、全程指導。

在無障礙公益領域，可為視障人群提供實時環(huán)境感知服務，主動播報路況、設備狀態(tài)、環(huán)境變化，成為可靠的“視覺輔助助手”。

在智能車載領域，可以持續(xù)監(jiān)測路況與駕駛員狀態(tài)，主動預警風險、提示可用車位、輔助泊車，提升駕駛安全性。

在具身智能領域，可作為機器人核心大腦，持續(xù)感知動態(tài)環(huán)境、自主決策交互時機，適配智能機器人、智能家居等智能化場景，覆蓋生活化、公益化、工業(yè)級多維度需求。

可以說，MiniCPM-o 4.5把“主動式AI”從概念變成了可以在你電腦上跑起來的東西。

當然，團隊也在技術報告中坦誠指出了當前不足：

長時間交互的穩(wěn)定性、主動行為的豐富性、對復雜場景的魯棒性，都還有提升空間。

但這不妨礙它已經(jīng)立起了一個新的起點——全雙工全模態(tài)、端側(cè)可部署、全棧開源，這條路線跑通了。

目前，MiniCPM-o 4.5在線體驗、API、端側(cè)安裝包、Demo代碼倉庫，所有入口都已在GitHub和面壁官網(wǎng)上線。

感興趣的小伙伴可以直接上手體驗～

期待大家在評論區(qū)反饋。

技術報告PDF：

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在線體驗：

https://minicpmo45.modelbest.cn/

在線體驗（手機端推薦）：

https://minicpmo45.modelbest.cn/mobile/

GitHub Demo（含本地安裝包）：

https://github.com/OpenBMB/MiniCPM-o-Demo

抱抱臉：

https://huggingface.co/openbmb/MiniCPM-o-4_5

魔搭：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.