網易首頁 > 網易號 > 正文申請入駐

告別“對講機”時代：面壁智能給 AI 裝上了“神經末梢”

2026-02-05 12:08:03　來源: AI科技大本營

北京舉報

分享至

作者 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

2026 年初的科技圈發生了一個很有意思的現象：二手市場上的 Mac Mini 突然成了理財產品，價格一路飆升。

名為 OpenClaw（以及其前身 Moltbot）的開源項目在 GitHub 上爆火，一夜之間，全球的開發者和極客們似乎達成了一種共識：我們不再滿足于在網頁框里和 ChatGPT 聊天，我們需要一個 Agent（智能體），一個能接管我的鼠標鍵盤、能幫我整理本地文件、能像私人管家一樣處理繁雜事務的“數字分身”。

但這股狂熱背后，很快就暴露出了一個巨大的邏輯黑洞。

當你興奮地在本地部署好 OpenClaw，看著它接管你的電腦時，你很快會發現——這個所謂的“本地管家”，本質上是一個把你的隱私數據打包發送給云端 API 的搬運工。每一次屏幕截圖的分析，每一次語音指令的理解，都要跨越幾千公里的光纜，傳到某個不知名的數據中心，計算完再傳回來。

延遲、隱私泄露、斷網即智障。這三個幽靈，讓所謂的“個人智能”變成了一個隨時可能斷線的風箏。

也是在這個時間節點，我走進了五道口科建大廈。比起外面對于 Agent 概念的狂熱追捧，這里正在進行的一場發布顯得有些“反潮流”。DeepSeek、Qwen、GLM 皆有消息要在近期發布大參數模型，而面壁智能則是一如既往地掏出了一個僅有 9B（90億參數）的小模型 MiniCPM-o 4.5，以及一塊看起來樸實無華的硬件開發板 松果派（Pinea Pi）。

他們試圖回答的問題，正是當今熱潮下最被忽視的那個痛點：如果 AI 真的要接管我們的生活，它能不能把“腦子”長在它自己的“身體”里？

這場對話，無關乎誰的模型跑分更高，而關乎 AI 進化的下一個分支——從“云端的神諭”變成“指尖的直覺”。

告別“對講機”：當 AI 終于學會了“被插嘴”

在很長一段時間里，人與 AI 的語音交互——無論是 Siri 還是早期的 GPT-4o 語音模式——都被困在一個名為“回合制”的牢籠里。

這種體驗就像是使用老式的軍用對講機：你說完一句話，必須停頓，等待 VAD（語音活動檢測）算法判定你“閉嘴”了，它才切斷麥克風，把聲音發給云端。云端處理完，再把回復發回來。

AI 在“說話”的時候，它的耳朵是聾的。

在面壁智能的演示現場，清華大學人工智能學院助理教授、面壁智能多模態首席科學家姚遠向我們展示了什么叫“全雙工”（Full-duplex）。這不僅僅是一個通信術語，它是讓 AI 從“機器”變成“人”的關鍵一躍。

演示的場景非常生活化：一個人在白板上隨意涂鴉，一邊畫一邊跟 AI 閑聊。

畫筆剛剛落下幾根起伏的波浪線，MiniCPM-o 4.5 的聲音就響起了：“看這線條的走勢，你是打算畫一片大海嗎？”

畫畫的人并沒有停筆，也沒有按任何暫停鍵，只是隨口回了一句：“沒，你再看看。”

在傳統的交互邏輯里，這句話大概率會被 AI 忽略，或者因為 AI 正在說話而造成識別沖突。但在這里，AI 幾乎是毫秒級地改了口：“哦！看見那兩個圓圓的眼睛了，原來是個卡通小人啊，這表情看著挺樂呵。”

這個過程沒有那個“看門人”。MiniCPM-o 4.5 實現了真正的“感知不中斷”——它的“眼睛”和“耳朵”是常開的。即使它自己正在說話，它也能同時聽到你的插話，或者看到畫面的變化，并實時決定是閉嘴傾聽，還是調整話術。

官方將這種能力總結為“邊看、邊聽、主動說”。

這背后的技術難度極高。模型需要在一個統一的時間軸上，同時處理輸入的視頻流、音頻流和輸出的語音流、文本流。面壁智能通過“時分復用”機制，將并行的全模態流劃分為微小的時間片，讓 9B 的小模型也能像雜技演員一樣，同時拋接好幾個球。

這帶來的改變是顛覆性的。AI 不再是一個需要你按鍵觸發的工具，它變成了一個始終在線的觀察者。

它每秒鐘都在以 1Hz 的頻率進行決策：現在的環境變化重要嗎？值得我打斷主人嗎？

這種混亂、實時、多并發的交流，才是真實世界的本來面目。如果不打破“回合制”的枷鎖，AI 永遠只能是像《鋼鐵俠》里早期的機械臂，而不是那個隨時能吐槽、隨時能幫忙的賈維斯。

GitHub：https://github.com/OpenBMB/MiniCPM-o

Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5

ModelScope: https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

9B 的反擊：用“密度法則”對抗“暴力美學”

這次發布的另一個爭議點在于參數量。在各家大廠都在卷千億甚至萬億參數的當下，面壁為什么死磕 9B 這個小尺寸？

在與清華大學計算機系長聘教授、面壁智能首席科學家劉知遠教授的交流中，他詳細解釋了一遍面壁智能看家的核心理論：Densing Law（密度法則）。

劉教授現場畫了個圖，講解兩個 Law 之間的關系

過去幾年，行業里信奉的是 Scaling Law（尺度法則），簡單說就是大力出奇跡，模型越大越聰明。這就像早期的計算機，為了更強的算力，把機器造得像房子一樣大。

“Scaling Law 并沒有失效，但我們不能只看這一條路。” 劉知遠認為，AI 的發展正在進入“摩爾定律”時刻。芯片的性能提升不是靠把芯片做成足球場那么大，而是靠更先進的光刻機，在指甲蓋大小的地方塞進更多的晶體管。

同理，AI 的未來不在于把模型做得無限大，而在于提高“知識密度”。

“我們要做大模型界的光刻機。”這是面壁智能內部的一個核心信條。按照他們的測算，大模型的知識密度現在大約每 100 天就能翻一倍。這意味著，今天 9B 模型能做到的事情——全模態理解、高刷視覺識別、端到端語音對話——可能相當于一年前 70B 甚至更大模型的能力。

僅靠 9B 參數，在全模態、視覺理解、文檔解析、語音理解和生成、聲音克隆等方方面面，均做到了全模態模型 SOTA 水準

MiniCPM-o 4.5 就是這個理論的最新產物。它把視覺理解、文檔解析、語音理解和生成、聲音克隆等能力 All in One，塞進了一個 9B 的軀殼里。

這個判斷極其關鍵。因為只有模型足夠小，它才能跑在你的手機上，跑在你的車機里，跑在機器人那顆并不算強大的芯片上。

李大海在采訪中也直言：“純云端的方案，沒法解決隱私和延遲。”

回到開頭 OpenClaw 的例子。為什么大家那么渴望本地運行？因為誰也不想把自己的銀行賬單、私人郵件傳到云端。而對于未來的機器人、智能眼鏡來說，如果每做一個動作都要把視頻傳到云端分析，那個高昂的推理成本和帶寬成本，足以讓任何一家商業公司破產。

面壁在賭一個未來：最極致的智能，一定是在端側的。 它不需要無所不知（那些百科全書式的知識可以偶爾問問云端），但它必須反應極快、極其懂你、并且絕對安全。

松果派：一家模型公司的“越界”陽謀

如果說 MiniCPM-o 4.5 是面壁打造的“靈魂”，即將在今年年中發布的“松果派”（Pinea Pi）就是他們試圖定義的“軀體”。

這在行業里其實是個挺“非主流”的動作。一家做算法模型的軟件公司，突然發了個硬件開發板。通常我們認為，軟件公司做硬件，要么是想通過賣硬件賺錢（像蘋果），要么是軟件賣不動了想換個賽道。

那么，這究竟是一款什么樣的硬件？

從拆解結構來看，松果派與其說是一塊像樹莓派那樣的“裸板”，不如說是一個高度集成的“AI 智能體原生套件”。

它的核心是一顆算力澎湃的 Orin AGX 64G 模組，這為端側運行 9B 這樣參數規模的模型提供了物理保障。但不同于傳統開發板需要你自己去買攝像頭、配麥克風、還要被各種驅動兼容性折磨，松果派直接在機身頂端集成了高清攝像頭和環形麥克風陣列，并配備了主動散熱風扇以及 HDMI、Type-C、USB-A 和千兆網口等豐富接口。

換句話說，這是一個“開箱即用的物理大腦”。通電的一瞬間，住在里面的 MiniCPM-o 4.5 就擁有了眼睛和耳朵，能聽能看。對于開發者來說，這意味著你不需要懂復雜的硬件電路，只需要把它像樂高積木一樣塞進機器狗、服務機器人或者智能座艙里，你的設備就立刻擁有了理解世界的能力。

面壁 COO 雷升濤在現場講了一個真實的故事。他們之前給一家車企做“遺留物提醒”功能——就是當你下車時，如果手機忘在車里了，車機要提醒你。

一開始，他們把模型部署上去，延遲高達 4 秒。

你想想這個場景：你關上車門，走了兩步，甚至都進電梯了，車機才慢悠悠地喊一聲“手機忘拿了”。這功能有啥用？

這 4 秒里，模型推理其實只占了一小部分時間。大量的時間被浪費在了攝像頭數據的采集、編碼、傳輸、解碼，以及芯片內存的搬運上。因為現有的硬件架構，壓根就不是為這種“流式全模態”模型設計的。芯片廠商設計芯片時，想的是怎么解碼高清電影，怎么跑王者榮耀，而不是怎么讓一個大模型同時處理視頻流和音頻流。

為了解決這個問題，他們不得不深入到底層，跟芯片廠商一起改驅動、改架構，把延遲硬生生從 4 秒壓到了 1 秒以內。

這讓他們意識到一個問題：如果沒有一個好的“身體”，再聰明的“大腦”也發揮不出來。

松果派的存在，就是為了“打個樣”。

它不是為了跟樹莓派搶極客市場，而是為了給整個行業——給開發者，也給芯片廠商——定義一種標準：什么樣的硬件才叫 Model-Native（模型原生）？

在這個板子上，MiniCPM-o 4.5 可以跑得飛快，視頻流的處理路徑是最短的，內存的占用是極致優化的。他們希望通過這個板子，告訴所有的硬件廠商：“看，路要這么修，車才能跑得快。”

這一招其實是“陽謀”。面壁通過開源模型和參考硬件，正在構建一個龐大的端側生態。我們可以看到，MiniCPM-o 4.5 已經基于統一系統軟件棧眾智 FlagOS，在天數智芯、華為昇騰、平頭哥、海光、沐曦等 6 款國產主流芯片上獲得了端到端推理性能的提升。

具身智能的“最后一公里”：1Hz vs 10Hz

如果現在把一群 AI 圈的人放在一個房間里聊天，話題經常會自然延伸到那個終極科幻場景——機器人。

現在的機器人行業，其實挺尷尬的。做本體的廠商（波士頓動力那些）把運動控制做得爐火純青，機器人能空翻、能跳舞。但如果你讓它“去廚房把那個紅色的杯子拿來”，它可能就傻了。

因為它有發達的小腦（運動控制），卻缺一個聰明的大腦（理解與決策）。

李大海在采訪中提出了一個非常精準的“頻率分層理論”，即“1Hz vs 10Hz”。

“機器人的運動控制，比如保持平衡、抓取物體，屬于 10Hz 甚至更高頻的直覺反應。”李大海解釋道，“這部分也就是我們常說的‘小腦’，目前行業解決得已經不錯了。但真正的瓶頸在于 1Hz 的智能。”

什么是 1Hz 的智能？

它是深度思考，是規劃，是對環境的復雜理解。當你告訴機器人“我渴了”，它需要理解這句話背后的意圖（找水），環顧四周確認杯子的位置（感知），規劃一條避開障礙物的路線（規劃）。

“現在的機器人，往往是 10Hz 很強，1Hz 很弱。”姚遠補充道。這就導致了一個尷尬的現狀：機器人能精準地把杯子拿起來，但它不知道該去拿哪個杯子，或者在聽到門鈴響時不知道該先去開門還是繼續倒水。

MiniCPM-o 4.5 的出現，本質上就是試圖成為那個通用的 1Hz 大腦。

它不僅僅是一個聊天軟件，它更像是一個通用的“感知中樞”。當把它裝進機器人里，機器人就不再是一個瞎子和聾子。它可以一邊走（小腦控制），一邊看路邊的障礙物，一邊聽主人的指令，一邊思考該怎么規劃路線（大腦控制）。

而且，因為它是端側模型，這一切都不需要依賴不穩定的 Wi-Fi 網絡。即使在沒有信號的地下室，或者在火星上，這個機器人依然是有智慧的。

這種“端側大腦 + 本地小腦”的架構，或許才是具身智能走出實驗室、進入家庭的唯一解。

那么，當大廠也開始下場做手機助手、做端側模型時，創業公司的護城河究竟有多深？

李大海在現場的回答顯示出一種難得的清醒：“我們不打陣地戰。”

他把 AI 市場分為了兩類：

一類是 通用搜索與問答，這是巨頭的必爭之地。無論是 ChatGPT 還是豆包，本質上都是在搶占下一個時代的搜索入口。這是一個贏家通吃的統一市場，創業公司進去大概率是炮灰。
另一類是端側智能，這是一個高度碎片化的市場。

“端側市場不是鐵板一塊。”李大海分析道，“汽車、手機、PC、機器人、甚至智能眼鏡，每一個終端的硬件架構不同，使用場景不同，用戶的隱私需求也不同。”

在這個碎片化的戰場里，巨頭的“通用大模型”往往因為水土不服而難以落地。你不能直接把一個千億參數的模型塞進車機里，也不能指望一套標準 API 適配所有的機器人底盤。

這就給面壁留出了巨大的“修路”空間。

他們愿意干苦活累活：去適配幾十種不同的芯片，去壓榨每一毫秒的延遲，去設計松果派這樣的參考硬件。這些工作瑣碎、繁重，但一旦做成，就會形成極高的壁壘。

MiniCPM-o 4.5 已經支持了 16 種不同大小的 int4 和 GGUF 量化模型，通過 llama.cpp 和 Ollama 就能在本地設備上高效推理。這種極致的工程化能力，正是面壁在“夾縫”中生長出來的根系。

“我們是在制造大模型時代的 ‘光刻機’，也是在鋪設端側智能的 ‘高速公路’。”

當開發者習慣了在松果派上開發，當車企習慣了 MiniCPM 的低延遲，當機器人廠商習慣了 1Hz 的智能分層，面壁智能就不再只是一個賣模型的公司，而是成為了端側生態的基礎設施。

走出科建大廈的時候，天色已晚。北京的寒風中，路邊的大屏幕上正播放著某大廠“全知全能”AI 的廣告。而在我身后這間普通的會議室里，一群人正在試圖把 AI 從神壇上拉下來，塞進芯片，塞進板卡，塞進每一個具體的、微小的設備里。

OpenClaw 掀起的 Agent 熱潮或許只是一個序幕，而真正的故事，可能就始于這塊不起眼的開發板和這個只有 9B 大小的模型。這不僅是一場技術的突圍，更是一場關于 AI 究竟該屬于“巨頭”還是屬于“個體”的權利爭奪戰。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.