面壁智能 投稿
量子位 | 公眾號 QbitAI
面壁智能公開了自己在全雙工全模態(tài)交互領域的核心技術——
Omni-Flow 流式全模態(tài)框架。
![]()
今天,面壁智能聯(lián)合OpenBMB開源社區(qū)、清華大學THUNLP實驗室和THUMAI實驗室,正式發(fā)布MiniCPM-o 4.5技術報告。
過往大模型均為半雙工交互模式,類似對講機式輪次對話。
用戶與AI無法并行交流,AI無法實時感知環(huán)境、不能被打斷插話,存在交互時空割裂,用戶體驗差,嚴重制約多模態(tài)AI落地應用。
MiniCPM-o 4.5是面壁智能今年2月發(fā)布的全雙工全模態(tài)模型,也是業(yè)界首個端到端全雙工全模態(tài)大模型。
該模型參數(shù)規(guī)模約9B,支持視頻、音頻、文本流輸入及文本與語音的連續(xù)輸出。
利用MiniCPM-o 4.5,不用聯(lián)網(wǎng)、僅用一張消費級顯卡,你就能在個人電腦上擁有一個“邊看、邊聽、邊說、還能主動提醒”的類人AI助手。
目前,MiniCPM-o 4.5已基于llama.cpp完成模型量化和推理性能優(yōu)化,實測最低12GB顯存的RTX 5070即可流暢運行全雙工模式(RTF0.4),極大降低了個人端側(cè)部署的準入門檻。M1-M5 Max(包含M5 Pro)的MAC設備亦可使用,建議內(nèi)存超過16G。
下面這支視頻展示了MiniCPM-o 4.5在個人筆記本上的完整部署與運行過程,包括全雙工語音對話、實時視覺理解、主動提醒等能力演示。
模型發(fā)布至今,抱抱臉下載量已突破25萬+。
技術報告發(fā)布之外,MiniCPM-o 4.5還同步推出在線體驗Demo、全模態(tài)全雙工API、端側(cè)安裝包Comni和Demo倉庫。
核心依托Omni-Flow流式全模態(tài)框架
MiniCPM-o 4.5極致流暢的全雙工交互體驗,核心依托于面壁智能與清華大學聯(lián)合研發(fā)的Omni-Flow流式全模態(tài)框架。
這也是本次技術報告公開的核心底層技術。
該框架打破傳統(tǒng)模型孤立的回合式交互邏輯,搭建起毫秒級統(tǒng)一時間軸。
通過時分復用機制,Omni-Flow流式全模態(tài)框架將視覺、音頻、文本等多模態(tài)并行信息流,精準對齊、拆分重組為周期性時序信息組。
模型以每秒一次的高頻次持續(xù)刷新環(huán)境認知,實時更新對場景和用戶意圖的理解,全程無需依賴外部VAD語音活動檢測工具,原生支持持續(xù)感知、即時響應、自由打斷。
在模型架構(gòu)上,MiniCPM-o 4.5采用輕量化端到端全模態(tài)設計,整體僅9B參數(shù),由四大核心模塊高效協(xié)同構(gòu)成:
- 0.4B參數(shù)SigLIP-ViT視覺編碼器負責環(huán)境視覺感知;
- 0.3B參數(shù)Whisper-Medium音頻編碼器完成聲音信息采集;
- 8B參數(shù)Qwen3-8B LLM基座承擔核心思考與語義理解;
- 搭配0.3B參數(shù)輕量級語音Token解碼器實現(xiàn)語音生成。
![]()
模塊化分工設計各司其職、高效聯(lián)動,既保留了大模型強大的理解推理能力,又規(guī)避了復雜聲學任務對核心算力的損耗。
同時搭配自研TAIL時間對齊交錯語音生成方案,精準匹配文本與語音輸出節(jié)奏。
在保證語音流暢自然、情感飽滿的前提下,最大限度降低交互延遲,徹底解決流式對話卡頓、滯后、銜接生硬的行業(yè)難題。
參數(shù)不大,但實力不容小覷。
在多項權(quán)威評測基準中實現(xiàn)越級對標,MiniCPM-o 4.5綜合性能比肩甚至超越多款行業(yè)前沿大模型。
![]()
在視覺能力上,模型OpenCompass綜合得分77.6、MMBench英文得分87.6,整體表現(xiàn)對標Gemini 2.5 Flash,圖像理解、數(shù)學推理、文檔解析能力表現(xiàn)優(yōu)異。
在全模態(tài)動態(tài)交互、視頻場景理解領域,MiniCPM-o 4.5的優(yōu)勢更為突出。
Daily-Omni、Video-Holmes等多項評測數(shù)據(jù)顯示,MiniCPM-o 4.5優(yōu)于Gemini 2.5 Flash等大模型的表現(xiàn);在LiveSports-3K-CC全雙工視頻基準測試中,勝率達到54.4%,領先各類專用流式視頻模型。
同時模型推理效率優(yōu)勢顯著。
INT4量化版本顯存占用大幅降低,僅需12GB顯存即可運行,解碼速度可達212 tokens/s,相較同類模型提速40%以上,響應延遲更低,性價比與落地優(yōu)勢拉滿。
![]()
除此之外,模型搭載多項實用特色功能,適配多元化使用場景。
MiniCPM-o 4.5全面支持中英雙語實時語音對話,語音生成質(zhì)量行業(yè)領先,中文CER、英文WER錯誤率低于CosyVoice2等主流模型,情感表現(xiàn)力更強。
支持簡易參考音頻即可完成聲音克隆與角色扮演,音色自然逼真。
延續(xù)MiniCPM-V系列優(yōu)勢,擁有前沿的OCR文檔解析能力,支持高清圖像、高幀率視頻處理,多語言解析能力覆蓋30余種語言。
同時,模型原生兼容傳統(tǒng)輪次對話、Omni-Flow全雙工流式交互兩種模式,無縫切換,兼顧精準問答與實時流式交互需求,適配各類使用場景。
兼顧普通用戶體驗與開發(fā)者二次開發(fā)需求
為讓技術真正落地普惠,MiniCPM-o 4.5打造了全渠道、全人群的開放落地體系,兼顧普通用戶體驗與開發(fā)者二次開發(fā)需求。
面向普通用戶,官方開放無需注冊、無需下載的在線體驗Demo,同時推出適配Windows、macOS系統(tǒng)的桌面端Comni一鍵安裝包,簡化部署流程,普通用戶可快速上手體驗全雙工AI交互能力。
面向廣大開發(fā)者,平臺免費開放全雙工實時WebSocket API,提供完整規(guī)范的接口文檔,支持快速接入各類應用;同時完整開源Demo前后端代碼,開放Linux部署方案,支持開發(fā)者自由二次開發(fā)、自定義調(diào)試,助力各類全模態(tài)AI應用快速落地。
依托原生全雙工、持續(xù)感知、主動交互的核心能力,MiniCPM-o 4.5突破了傳統(tǒng)AI單次問答的場景局限,解鎖了大量全新流式交互應用場景。
在生活服務領域,有望作為沉浸式智能陪伴助手,在用戶運動、烹飪、日常勞作時實時答疑、主動提醒、全程指導。
在無障礙公益領域,可為視障人群提供實時環(huán)境感知服務,主動播報路況、設備狀態(tài)、環(huán)境變化,成為可靠的“視覺輔助助手”。
在智能車載領域,可以持續(xù)監(jiān)測路況與駕駛員狀態(tài),主動預警風險、提示可用車位、輔助泊車,提升駕駛安全性。
在具身智能領域,可作為機器人核心大腦,持續(xù)感知動態(tài)環(huán)境、自主決策交互時機,適配智能機器人、智能家居等智能化場景,覆蓋生活化、公益化、工業(yè)級多維度需求。
可以說,MiniCPM-o 4.5把“主動式AI”從概念變成了可以在你電腦上跑起來的東西。
當然,團隊也在技術報告中坦誠指出了當前不足:
長時間交互的穩(wěn)定性、主動行為的豐富性、對復雜場景的魯棒性,都還有提升空間。
但這不妨礙它已經(jīng)立起了一個新的起點——全雙工全模態(tài)、端側(cè)可部署、全棧開源,這條路線跑通了。
目前,MiniCPM-o 4.5在線體驗、API、端側(cè)安裝包、Demo代碼倉庫,所有入口都已在GitHub和面壁官網(wǎng)上線。
感興趣的小伙伴可以直接上手體驗~
期待大家在評論區(qū)反饋。
技術報告PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
在線體驗:
https://minicpmo45.modelbest.cn/
在線體驗(手機端推薦):
https://minicpmo45.modelbest.cn/mobile/
GitHub Demo(含本地安裝包):
https://github.com/OpenBMB/MiniCPM-o-Demo
抱抱臉:
https://huggingface.co/openbmb/MiniCPM-o-4_5
魔搭:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.