<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓大模型【告別回合制】:同時看、聽、說、一直察言觀色|MiniCPM-o 4.5 開源

      0
      分享至

      我做了一面「言出法隨」的墻:表面上是一面墻,隨時在任何區域出現任何我想要的東西

      這面墻,會出現在我的新的 AGI Bar 里(正在裝修,很大)

      整個酒吧會變成一個大的具身空間,布滿麥克風,識別我朝哪兒、說了什么,然后對應區域的墻面開始變化,機械臂開始運動

      甚至,我還可以讓墻面去干活,比如可以讓它去我的某個賬號里拉取資料,也可以讓它執行各種操作。生成內容、找材料、執行動作,都行


      但我遇到一個很頭疼的問題

      現有的語音交互方案,一旦我腦子卡殼、話說到一半停頓了,系統就會判斷「他說完了」,然后開始執行

      這讓交互變得很別扭。我不想每次都說一個喚醒詞,也不想用「over」來告訴 AI 我說完了。我需要的是一個能感知我有沒有說完話、能理解我到底想干什么的 AI

      正常人聊天,不會是這樣的

      微信里聊天,可能我說兩句、你說三句,甚至我不理你你又說了兩句。現在的 AI 對話太刻板了,必須一問一答,顯得很傻


      而且把...你讓它從 1 數到 10,數到 7 的時候問它數到幾了,很多模型會直接說「10」。因為它腦子里已經預排到 10 了,中間打斷它根本沒用

      之前只有一個解決方案,就是用 OpenAI 的 Realtime API,在加上一點魔改,實踐下來每個麥克風每個小時的成本在 30 美金左右...太特么貴了,而且中文并不好

      前些日子跟面壁智能的朋友聊,他們整出了個新東西:全雙工全模態

      全雙工的意思是,模型可以同時輸入和輸出,互不阻塞。它說話的時候還在聽、還在看,你可以隨時打斷它,它也能根據環境變化隨時調整

      更關鍵的是,模型自己判斷什么時候該說話。不需要你說喚醒詞,不需要你說「over」,它能根據語義判斷你說完沒、你想要什么,在生活的場景中,成為真正的交互伙伴

      這正好是我的墻壁需要的能力,而這個模型今天開源了:MiniCPM-o 4.5,9B 參數


      MiniCPM-o 4.5 模型架構 先說清楚語音交互的幾種模式

      目前市面上的語音交互方案,大概分兩類

      第一類是「對講機模式」

      大多數語音助手用的都是這個。系統先把你說的話識別成文字,處理完之后再用 TTS(文字轉語音)播報出來

      流程是:語音 → 文字 → 處理 → TTS 播報


      很顯然...這里的延遲是打不下去的,而且語音里的語氣,比如不同音調的 wocao,完全無法區分含義

      第二類是端到端模式

      OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都屬于這一類。模型直接處理語音,不需要先轉成文字,交互更自然

      Realtime API 的對話能力很強,但它只能處理語音,看不到畫面


      MiniCPM-o 能同時處理語音和視頻。這是它的核心差異

      這里要說一下,很多模型號稱能「看視頻」,其實是在你說話的間隙截一張攝像頭的圖片,然后處理這張靜態圖。不是真正的實時視頻流

      MiniCPM-o 4.5 做的是原生全雙工全模態

      「邊看、邊聽、主動說」


      無論模型在沉默還是在說話,都保持著對外界的感知。你可以隨時打斷它,它也可以根據環境變化隨時調整輸出

      比如在下面的這個例子中,模型會隨著畫面的變化,不斷描述

      全雙工具體是怎么回事

      說人話就是:模型的眼睛、耳朵、嘴巴可以同時工作,互不干擾

      技術上怎么實現的?

      模型把視頻流、音頻流、文本輸出這些并行的信息,切成很小的時間片(毫秒級),輪流處理。宏觀上看起來是同時進行的,實際上是快速切換


      這樣做的好處是,模型說話的時候不會「閉眼捂耳」,可以根據你的反應隨時調整

      還有一個關鍵能力:模型自己判斷什么時候該說話

      現在很多產品靠 VAD(語音活動檢測)來判斷用戶說完沒。簡單說就是檢測到你停頓了一段時間(比如 1 秒),就認為你說完了

      VAD 的問題很明顯:

      • ? 不知道是誰在說話,嘈雜環境下容易誤判

      • ? 拍個桌子可能被當成說話

      • ? 必須硬等一段時間才能判斷,延遲高

      MiniCPM-o 4.5 不用 VAD。模型自己每秒判斷很多次,根據語義來決定要不要回應

      它可以預判你是否說完,不需要硬等;也可以被打斷,根據你說的內容判斷而不只是聲音大小


      主動交互機制示意 主動擇機回復

      全雙工帶來的另一個能力是「主動交互」

      你可以給模型下一個條件指令,它會持續監測,在條件觸發時主動回應

      比如:「等綠燈亮了叫我」


      模型會一直盯著畫面,看到信號燈變化就提醒你。這對視力不好的人過馬路很有用

      比如:「等電梯到 24 層了叫我」模型實時跟蹤樓層數字,到了就喊你

      這種模式,也可能會帶了更多人與AI的交互創新,比如和 AI 打個撲克

      更有意思的是環境音識別

      現有很多視頻通話模型只能聽懂人說話(Speech),聽不懂環境音(Audio)。MiniCPM-o 4.5 可以識別環境音

      「微波爐叮了告訴我」、「聽到門鈴聲提醒我」、「水流聲停了喊我」這些它都能處理。因為是原生全雙工,不靠外掛工具,對環境音的識別比那些只能聽人聲的模型靈敏很多


      持續在線的兩個層面

      之前介紹過一個叫 OpenClaw 的項目

      它是一個本地 AI Agent,可以理解為封裝了一個類似 Claude Code 的東西。通過心跳機制(Heartbeat)和定時任務(Cron),實現周期性監控。比如每 30 分鐘掃描一次緊急郵件,檢測到異常可以半夜發消息

      OpenClaw 做的是Agent 側的持續在線。它負責執行任務、調用工具、管理流程

      MiniCPM-o 4.5 做的是模型側的持續在線。它負責感知環境、理解語義、決定何時回應

      這兩個層面如果結合起來會很有意思

      一個持續感知的模型,加上一個持續執行的 Agent。模型看到什么、聽到什么,Agent 就去做什么

      這才是我想要的「言出法隨」墻壁的完整形態


      前幾天開了個溝通會

      前幾天有個面壁的小會,聊了不少東西

      有人問到具身智能。劉知遠說:MiniCPM-o 4.5 這種全雙工模型,非常接近機器人所需的狀態。人類就是邊聽邊說、多通道并行處理的。以前的模型做不到,一說話就不能看

      姚遠(面壁多模態研發負責人)補充:目前具身智能最大的問題不在底層控制,在泛化性和長程規劃。全模態大模型是具身智能實現通用性的機會

      李大海把具身智能分成三層:

      • ? 0.1 Hz:深度思考

      • ? 1 Hz:日常感知、規劃(MiniCPM-o 4.5 做的這層)

      • ? 10 Hz:具體動作控制


      現在行業缺的是把 1Hz 的「大腦」和 10Hz 的「小腦」結合起來

      面壁還將在今年年中,發布一個叫「松果派」的開發板,類似樹莓派,預裝了端側這套模型和推理框架。開發者可以直接上手做 AI 硬件原型


      回到我的墻

      我的「言出法隨」墻壁,硬件層面已經 ready 了。畢竟我是硬件出身

      模型層面的需求是:一個能持續感知、不需要喚醒詞、能自己判斷我有沒有說完話的 AI

      MiniCPM-o 4.5 給了一個方案

      9B 參數,端側可部署,中文原生支持,成本可控

      交互模式也變了。從「一問一答」到「隨時插話」,從「對講機」到正常人聊天

      最后...再給大家看一個我覺得很有意義的東西:在盲道上,大模型會一直幫你看著路面,如果有不對的地方,它就會和你交互

      然后,現在這個模型已經開源了,歡迎體驗


      GitHub
      https://github.com/OpenBMB/MiniCPM-o

      Hugging Face
      https://huggingface.co/spaces/openbmb/minicpm-omni

      體驗鏈接
      https://minicpm-omni.openbmb.cn/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      秀廚娘
      2026-02-15 08:45:25
      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      靜夜史君
      2026-02-15 23:47:18
      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      小蘭看體育
      2026-02-15 17:21:27
      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      硯底沉香
      2026-02-16 02:03:14
      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人,美議員質疑“故意混淆視聽”

      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人,美議員質疑“故意混淆視聽”

      環球網資訊
      2026-02-15 19:38:08
      馬筱梅情人節曬幸福!汪小菲去臺北過節,小玥兒和箖箖跟后外婆睡

      馬筱梅情人節曬幸福!汪小菲去臺北過節,小玥兒和箖箖跟后外婆睡

      離離言幾許
      2026-02-14 23:12:38
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      網紅幼虎去世后被“替身”直播,死亡7天后飼養員稱“正曬太陽”;區政府成立調查組,信息上報、跨園轉運真相成謎

      網紅幼虎去世后被“替身”直播,死亡7天后飼養員稱“正曬太陽”;區政府成立調查組,信息上報、跨園轉運真相成謎

      大風新聞
      2026-02-15 18:00:11
      體壇名將放棄中國國籍,轉為美國國籍,14歲時在亞運會創造歷史

      體壇名將放棄中國國籍,轉為美國國籍,14歲時在亞運會創造歷史

      米修體育
      2026-01-24 12:47:31
      應急管理部派出工作組趕赴江蘇東海事故現場指導工作

      應急管理部派出工作組趕赴江蘇東海事故現場指導工作

      國際在線
      2026-02-16 02:55:03
      今年沒有年三十,什么時候貼春聯最好?2個黃金時段定好

      今年沒有年三十,什么時候貼春聯最好?2個黃金時段定好

      白淺娛樂聊
      2026-02-15 12:49:58
      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      老頭的傳奇色彩
      2026-02-14 19:05:06
      美國歷史上第一位二百五總統即將誕生,就是當今美國總統特朗普…

      美國歷史上第一位二百五總統即將誕生,就是當今美國總統特朗普…

      福建平子
      2026-02-08 13:17:52
      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      筆墨V
      2026-02-14 18:34:18
      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      神奇故事
      2026-01-05 23:24:05
      古巴已進入倒計時。

      古巴已進入倒計時。

      素顏為誰傾城人
      2026-02-15 05:04:46
      原來iPhone信號差是沒開對,這個隱藏設置一開,信號直接滿格

      原來iPhone信號差是沒開對,這個隱藏設置一開,信號直接滿格

      小柱解說游戲
      2026-02-13 12:20:15
      谷愛凌再遭美國網友網暴:沒收她的財產!回美國是非法滯留 魯比奧查她

      谷愛凌再遭美國網友網暴:沒收她的財產!回美國是非法滯留 魯比奧查她

      小椰的奶奶
      2026-02-13 08:02:35
      福特號突然出動了,伊朗這下是真難了!

      福特號突然出動了,伊朗這下是真難了!

      Ck的蜜糖
      2026-02-16 02:51:46
      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      丁羂解說
      2026-02-15 14:12:01
      2026-02-16 05:08:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      數碼
      手機
      親子
      旅游
      軍事航空

      數碼要聞

      盲測顯示:音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

      手機要聞

      榮耀Magic V6真機現身,圓形Deco、紅色機身

      親子要聞

      從小“吃零食”和“不吃零食”的孩子,離了父母的嚴管,差距拉大

      旅游要聞

      開放機關事業單位床位給游客,“寵客”還要善始善終

      軍事要聞

      特朗普:在俄烏沖突問題上 澤連斯基必須行動起來

      無障礙瀏覽 進入關懷版