<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓大模型【告別回合制】:同時看、聽、說、一直察言觀色|MiniCPM-o 4.5 開源

      0
      分享至

      我做了一面「言出法隨」的墻:表面上是一面墻,隨時在任何區域出現任何我想要的東西

      這面墻,會出現在我的新的 AGI Bar 里(正在裝修,很大)

      整個酒吧會變成一個大的具身空間,布滿麥克風,識別我朝哪兒、說了什么,然后對應區域的墻面開始變化,機械臂開始運動

      甚至,我還可以讓墻面去干活,比如可以讓它去我的某個賬號里拉取資料,也可以讓它執行各種操作。生成內容、找材料、執行動作,都行


      但我遇到一個很頭疼的問題

      現有的語音交互方案,一旦我腦子卡殼、話說到一半停頓了,系統就會判斷「他說完了」,然后開始執行

      這讓交互變得很別扭。我不想每次都說一個喚醒詞,也不想用「over」來告訴 AI 我說完了。我需要的是一個能感知我有沒有說完話、能理解我到底想干什么的 AI

      正常人聊天,不會是這樣的

      微信里聊天,可能我說兩句、你說三句,甚至我不理你你又說了兩句。現在的 AI 對話太刻板了,必須一問一答,顯得很傻


      而且把...你讓它從 1 數到 10,數到 7 的時候問它數到幾了,很多模型會直接說「10」。因為它腦子里已經預排到 10 了,中間打斷它根本沒用

      之前只有一個解決方案,就是用 OpenAI 的 Realtime API,在加上一點魔改,實踐下來每個麥克風每個小時的成本在 30 美金左右...太特么貴了,而且中文并不好

      前些日子跟面壁智能的朋友聊,他們整出了個新東西:全雙工全模態

      全雙工的意思是,模型可以同時輸入和輸出,互不阻塞。它說話的時候還在聽、還在看,你可以隨時打斷它,它也能根據環境變化隨時調整

      更關鍵的是,模型自己判斷什么時候該說話。不需要你說喚醒詞,不需要你說「over」,它能根據語義判斷你說完沒、你想要什么,在生活的場景中,成為真正的交互伙伴

      這正好是我的墻壁需要的能力,而這個模型今天開源了:MiniCPM-o 4.5,9B 參數


      MiniCPM-o 4.5 模型架構 先說清楚語音交互的幾種模式

      目前市面上的語音交互方案,大概分兩類

      第一類是「對講機模式」

      大多數語音助手用的都是這個。系統先把你說的話識別成文字,處理完之后再用 TTS(文字轉語音)播報出來

      流程是:語音 → 文字 → 處理 → TTS 播報


      很顯然...這里的延遲是打不下去的,而且語音里的語氣,比如不同音調的 wocao,完全無法區分含義

      第二類是端到端模式

      OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都屬于這一類。模型直接處理語音,不需要先轉成文字,交互更自然

      Realtime API 的對話能力很強,但它只能處理語音,看不到畫面


      MiniCPM-o 能同時處理語音和視頻。這是它的核心差異

      這里要說一下,很多模型號稱能「看視頻」,其實是在你說話的間隙截一張攝像頭的圖片,然后處理這張靜態圖。不是真正的實時視頻流

      MiniCPM-o 4.5 做的是原生全雙工全模態

      「邊看、邊聽、主動說」


      無論模型在沉默還是在說話,都保持著對外界的感知。你可以隨時打斷它,它也可以根據環境變化隨時調整輸出

      比如在下面的這個例子中,模型會隨著畫面的變化,不斷描述

      全雙工具體是怎么回事

      說人話就是:模型的眼睛、耳朵、嘴巴可以同時工作,互不干擾

      技術上怎么實現的?

      模型把視頻流、音頻流、文本輸出這些并行的信息,切成很小的時間片(毫秒級),輪流處理。宏觀上看起來是同時進行的,實際上是快速切換


      這樣做的好處是,模型說話的時候不會「閉眼捂耳」,可以根據你的反應隨時調整

      還有一個關鍵能力:模型自己判斷什么時候該說話

      現在很多產品靠 VAD(語音活動檢測)來判斷用戶說完沒。簡單說就是檢測到你停頓了一段時間(比如 1 秒),就認為你說完了

      VAD 的問題很明顯:

      • ? 不知道是誰在說話,嘈雜環境下容易誤判

      • ? 拍個桌子可能被當成說話

      • ? 必須硬等一段時間才能判斷,延遲高

      MiniCPM-o 4.5 不用 VAD。模型自己每秒判斷很多次,根據語義來決定要不要回應

      它可以預判你是否說完,不需要硬等;也可以被打斷,根據你說的內容判斷而不只是聲音大小


      主動交互機制示意 主動擇機回復

      全雙工帶來的另一個能力是「主動交互」

      你可以給模型下一個條件指令,它會持續監測,在條件觸發時主動回應

      比如:「等綠燈亮了叫我」


      模型會一直盯著畫面,看到信號燈變化就提醒你。這對視力不好的人過馬路很有用

      比如:「等電梯到 24 層了叫我」模型實時跟蹤樓層數字,到了就喊你

      這種模式,也可能會帶了更多人與AI的交互創新,比如和 AI 打個撲克

      更有意思的是環境音識別

      現有很多視頻通話模型只能聽懂人說話(Speech),聽不懂環境音(Audio)。MiniCPM-o 4.5 可以識別環境音

      「微波爐叮了告訴我」、「聽到門鈴聲提醒我」、「水流聲停了喊我」這些它都能處理。因為是原生全雙工,不靠外掛工具,對環境音的識別比那些只能聽人聲的模型靈敏很多


      持續在線的兩個層面

      之前介紹過一個叫 OpenClaw 的項目

      它是一個本地 AI Agent,可以理解為封裝了一個類似 Claude Code 的東西。通過心跳機制(Heartbeat)和定時任務(Cron),實現周期性監控。比如每 30 分鐘掃描一次緊急郵件,檢測到異常可以半夜發消息

      OpenClaw 做的是Agent 側的持續在線。它負責執行任務、調用工具、管理流程

      MiniCPM-o 4.5 做的是模型側的持續在線。它負責感知環境、理解語義、決定何時回應

      這兩個層面如果結合起來會很有意思

      一個持續感知的模型,加上一個持續執行的 Agent。模型看到什么、聽到什么,Agent 就去做什么

      這才是我想要的「言出法隨」墻壁的完整形態


      前幾天開了個溝通會

      前幾天有個面壁的小會,聊了不少東西

      有人問到具身智能。劉知遠說:MiniCPM-o 4.5 這種全雙工模型,非常接近機器人所需的狀態。人類就是邊聽邊說、多通道并行處理的。以前的模型做不到,一說話就不能看

      姚遠(面壁多模態研發負責人)補充:目前具身智能最大的問題不在底層控制,在泛化性和長程規劃。全模態大模型是具身智能實現通用性的機會

      李大海把具身智能分成三層:

      • ? 0.1 Hz:深度思考

      • ? 1 Hz:日常感知、規劃(MiniCPM-o 4.5 做的這層)

      • ? 10 Hz:具體動作控制


      現在行業缺的是把 1Hz 的「大腦」和 10Hz 的「小腦」結合起來

      面壁還將在今年年中,發布一個叫「松果派」的開發板,類似樹莓派,預裝了端側這套模型和推理框架。開發者可以直接上手做 AI 硬件原型


      回到我的墻

      我的「言出法隨」墻壁,硬件層面已經 ready 了。畢竟我是硬件出身

      模型層面的需求是:一個能持續感知、不需要喚醒詞、能自己判斷我有沒有說完話的 AI

      MiniCPM-o 4.5 給了一個方案

      9B 參數,端側可部署,中文原生支持,成本可控

      交互模式也變了。從「一問一答」到「隨時插話」,從「對講機」到正常人聊天

      最后...再給大家看一個我覺得很有意義的東西:在盲道上,大模型會一直幫你看著路面,如果有不對的地方,它就會和你交互

      然后,現在這個模型已經開源了,歡迎體驗


      GitHub
      https://github.com/OpenBMB/MiniCPM-o

      Hugging Face
      https://huggingface.co/spaces/openbmb/minicpm-omni

      體驗鏈接
      https://minicpm-omni.openbmb.cn/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      豬友巴巴
      2026-04-02 16:35:03
      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      閃電新聞
      2026-04-02 11:12:54
      上市公司突發,董事長失聯

      上市公司突發,董事長失聯

      第一財經資訊
      2026-04-03 14:29:12
      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      魔都姐姐雜談
      2026-03-30 19:25:57
      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      阿傖說事
      2026-04-03 11:55:00
      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      小談食刻美食
      2026-04-03 10:10:23
      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      小嵩
      2026-04-03 14:01:17
      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      阿天愛旅行
      2026-03-31 14:31:55
      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      里芃芃體育
      2026-04-03 11:30:13
      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      大千世界觀
      2025-04-06 08:14:26
      被免去廳長職務半年后,夏智倫主動投案

      被免去廳長職務半年后,夏智倫主動投案

      新浪財經
      2026-04-03 15:21:39
      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      杰絲聊古今
      2026-04-03 05:33:28
      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      桃葉渡春
      2026-04-03 10:34:53
      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      俄羅斯衛星通訊社
      2026-04-03 15:14:10
      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      你的籃球頻道
      2026-04-03 13:41:26
      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      潮鹿逐夢
      2026-04-01 11:14:27
      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      鍋子籃球
      2026-04-03 12:08:01
      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      粵語音樂噴泉
      2026-04-01 13:11:23
      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      山河路口
      2026-04-02 17:16:01
      2026-04-03 16:03:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      本地
      時尚
      手機
      游戲
      房產

      本地新聞

      跟著歌聲游安徽,聽古村回響

      怎么她們都穿成18世紀的粉彩畫?

      手機要聞

      vivo X300 Ultra以藍圖色彩筑質感,用增距鏡破創作邊界

      《羊蹄山之魂》"奇譚模式"高難突襲任務4月11日上線

      房產要聞

      理科生的浪漫,都藏在細節里!中交·藍色港灣這場交付太硬核!

      無障礙瀏覽 進入關懷版