作者 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
2026 年初的科技圈發生了一個很有意思的現象:二手市場上的 Mac Mini 突然成了理財產品,價格一路飆升。
名為 OpenClaw(以及其前身 Moltbot)的開源項目在 GitHub 上爆火,一夜之間,全球的開發者和極客們似乎達成了一種共識:我們不再滿足于在網頁框里和 ChatGPT 聊天,我們需要一個 Agent(智能體),一個能接管我的鼠標鍵盤、能幫我整理本地文件、能像私人管家一樣處理繁雜事務的“數字分身”。
但這股狂熱背后,很快就暴露出了一個巨大的邏輯黑洞。
當你興奮地在本地部署好 OpenClaw,看著它接管你的電腦時,你很快會發現——這個所謂的“本地管家”,本質上是一個把你的隱私數據打包發送給云端 API 的搬運工。每一次屏幕截圖的分析,每一次語音指令的理解,都要跨越幾千公里的光纜,傳到某個不知名的數據中心,計算完再傳回來。
延遲、隱私泄露、斷網即智障。這三個幽靈,讓所謂的“個人智能”變成了一個隨時可能斷線的風箏。
也是在這個時間節點,我走進了五道口科建大廈。比起外面對于 Agent 概念的狂熱追捧,這里正在進行的一場發布顯得有些“反潮流”。DeepSeek、Qwen、GLM 皆有消息要在近期發布大參數模型,而面壁智能則是一如既往地掏出了一個僅有 9B(90億參數)的小模型 MiniCPM-o 4.5,以及一塊看起來樸實無華的硬件開發板 松果派(Pinea Pi)。
他們試圖回答的問題,正是當今熱潮下最被忽視的那個痛點:如果 AI 真的要接管我們的生活,它能不能把“腦子”長在它自己的“身體”里?
這場對話,無關乎誰的模型跑分更高,而關乎 AI 進化的下一個分支——從“云端的神諭”變成“指尖的直覺”。
![]()
告別“對講機”:當 AI 終于學會了“被插嘴”
在很長一段時間里,人與 AI 的語音交互——無論是 Siri 還是早期的 GPT-4o 語音模式——都被困在一個名為“回合制”的牢籠里。
這種體驗就像是使用老式的軍用對講機:你說完一句話,必須停頓,等待 VAD(語音活動檢測)算法判定你“閉嘴”了,它才切斷麥克風,把聲音發給云端。云端處理完,再把回復發回來。
AI 在“說話”的時候,它的耳朵是聾的。
在面壁智能的演示現場,清華大學人工智能學院助理教授、面壁智能多模態首席科學家姚遠向我們展示了什么叫“全雙工”(Full-duplex)。這不僅僅是一個通信術語,它是讓 AI 從“機器”變成“人”的關鍵一躍。
演示的場景非常生活化:一個人在白板上隨意涂鴉,一邊畫一邊跟 AI 閑聊。
畫筆剛剛落下幾根起伏的波浪線,MiniCPM-o 4.5 的聲音就響起了:“看這線條的走勢,你是打算畫一片大海嗎?”
畫畫的人并沒有停筆,也沒有按任何暫停鍵,只是隨口回了一句:“沒,你再看看。”
在傳統的交互邏輯里,這句話大概率會被 AI 忽略,或者因為 AI 正在說話而造成識別沖突。但在這里,AI 幾乎是毫秒級地改了口:“哦!看見那兩個圓圓的眼睛了,原來是個卡通小人啊,這表情看著挺樂呵。”
這個過程沒有那個“看門人”。MiniCPM-o 4.5 實現了真正的“感知不中斷”——它的“眼睛”和“耳朵”是常開的。即使它自己正在說話,它也能同時聽到你的插話,或者看到畫面的變化,并實時決定是閉嘴傾聽,還是調整話術。
官方將這種能力總結為“邊看、邊聽、主動說”。
這背后的技術難度極高。模型需要在一個統一的時間軸上,同時處理輸入的視頻流、音頻流和輸出的語音流、文本流。面壁智能通過“時分復用”機制,將并行的全模態流劃分為微小的時間片,讓 9B 的小模型也能像雜技演員一樣,同時拋接好幾個球。
![]()
這帶來的改變是顛覆性的。AI 不再是一個需要你按鍵觸發的工具,它變成了一個始終在線的觀察者。
它每秒鐘都在以 1Hz 的頻率進行決策:現在的環境變化重要嗎?值得我打斷主人嗎?
這種混亂、實時、多并發的交流,才是真實世界的本來面目。如果不打破“回合制”的枷鎖,AI 永遠只能是像《鋼鐵俠》里早期的機械臂,而不是那個隨時能吐槽、隨時能幫忙的賈維斯。
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5
ModelScope: https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
![]()
9B 的反擊:用“密度法則”對抗“暴力美學”
這次發布的另一個爭議點在于參數量。在各家大廠都在卷千億甚至萬億參數的當下,面壁為什么死磕 9B 這個小尺寸?
在與清華大學計算機系長聘教授、面壁智能首席科學家劉知遠教授的交流中,他詳細解釋了一遍面壁智能看家的核心理論:Densing Law(密度法則)。
![]()
劉教授現場畫了個圖,講解兩個 Law 之間的關系
過去幾年,行業里信奉的是 Scaling Law(尺度法則),簡單說就是大力出奇跡,模型越大越聰明。這就像早期的計算機,為了更強的算力,把機器造得像房子一樣大。
“Scaling Law 并沒有失效,但我們不能只看這一條路。” 劉知遠認為,AI 的發展正在進入“摩爾定律”時刻。芯片的性能提升不是靠把芯片做成足球場那么大,而是靠更先進的光刻機,在指甲蓋大小的地方塞進更多的晶體管。
同理,AI 的未來不在于把模型做得無限大,而在于提高“知識密度”。
“我們要做大模型界的光刻機。”這是面壁智能內部的一個核心信條。按照他們的測算,大模型的知識密度現在大約每 100 天就能翻一倍。這意味著,今天 9B 模型能做到的事情——全模態理解、高刷視覺識別、端到端語音對話——可能相當于一年前 70B 甚至更大模型的能力。
![]()
僅靠 9B 參數,在全模態、視覺理解、文檔解析、語音理解和生成、聲音克隆等方方面面,均做到了全模態模型 SOTA 水準
MiniCPM-o 4.5 就是這個理論的最新產物。它把視覺理解、文檔解析、語音理解和生成、聲音克隆等能力 All in One,塞進了一個 9B 的軀殼里。
這個判斷極其關鍵。因為只有模型足夠小,它才能跑在你的手機上,跑在你的車機里,跑在機器人那顆并不算強大的芯片上。
李大海在采訪中也直言:“純云端的方案,沒法解決隱私和延遲。”
回到開頭 OpenClaw 的例子。為什么大家那么渴望本地運行?因為誰也不想把自己的銀行賬單、私人郵件傳到云端。而對于未來的機器人、智能眼鏡來說,如果每做一個動作都要把視頻傳到云端分析,那個高昂的推理成本和帶寬成本,足以讓任何一家商業公司破產。
面壁在賭一個未來:最極致的智能,一定是在端側的。 它不需要無所不知(那些百科全書式的知識可以偶爾問問云端),但它必須反應極快、極其懂你、并且絕對安全。
![]()
松果派:一家模型公司的“越界”陽謀
如果說 MiniCPM-o 4.5 是面壁打造的“靈魂”,即將在今年年中發布的“松果派”(Pinea Pi)就是他們試圖定義的“軀體”。
這在行業里其實是個挺“非主流”的動作。一家做算法模型的軟件公司,突然發了個硬件開發板。通常我們認為,軟件公司做硬件,要么是想通過賣硬件賺錢(像蘋果),要么是軟件賣不動了想換個賽道。
那么,這究竟是一款什么樣的硬件?
![]()
從拆解結構來看,松果派與其說是一塊像樹莓派那樣的“裸板”,不如說是一個高度集成的“AI 智能體原生套件”。
它的核心是一顆算力澎湃的 Orin AGX 64G 模組,這為端側運行 9B 這樣參數規模的模型提供了物理保障。但不同于傳統開發板需要你自己去買攝像頭、配麥克風、還要被各種驅動兼容性折磨,松果派直接在機身頂端集成了高清攝像頭和環形麥克風陣列,并配備了主動散熱風扇以及 HDMI、Type-C、USB-A 和千兆網口等豐富接口。
換句話說,這是一個“開箱即用的物理大腦”。通電的一瞬間,住在里面的 MiniCPM-o 4.5 就擁有了眼睛和耳朵,能聽能看。對于開發者來說,這意味著你不需要懂復雜的硬件電路,只需要把它像樂高積木一樣塞進機器狗、服務機器人或者智能座艙里,你的設備就立刻擁有了理解世界的能力。
面壁 COO 雷升濤在現場講了一個真實的故事。他們之前給一家車企做“遺留物提醒”功能——就是當你下車時,如果手機忘在車里了,車機要提醒你。
一開始,他們把模型部署上去,延遲高達 4 秒。
你想想這個場景:你關上車門,走了兩步,甚至都進電梯了,車機才慢悠悠地喊一聲“手機忘拿了”。這功能有啥用?
這 4 秒里,模型推理其實只占了一小部分時間。大量的時間被浪費在了攝像頭數據的采集、編碼、傳輸、解碼,以及芯片內存的搬運上。因為現有的硬件架構,壓根就不是為這種“流式全模態”模型設計的。芯片廠商設計芯片時,想的是怎么解碼高清電影,怎么跑王者榮耀,而不是怎么讓一個大模型同時處理視頻流和音頻流。
為了解決這個問題,他們不得不深入到底層,跟芯片廠商一起改驅動、改架構,把延遲硬生生從 4 秒壓到了 1 秒以內。
這讓他們意識到一個問題:如果沒有一個好的“身體”,再聰明的“大腦”也發揮不出來。
松果派的存在,就是為了“打個樣”。
它不是為了跟樹莓派搶極客市場,而是為了給整個行業——給開發者,也給芯片廠商——定義一種標準:什么樣的硬件才叫 Model-Native(模型原生)?
在這個板子上,MiniCPM-o 4.5 可以跑得飛快,視頻流的處理路徑是最短的,內存的占用是極致優化的。他們希望通過這個板子,告訴所有的硬件廠商:“看,路要這么修,車才能跑得快。”
這一招其實是“陽謀”。面壁通過開源模型和參考硬件,正在構建一個龐大的端側生態。我們可以看到,MiniCPM-o 4.5 已經基于統一系統軟件棧眾智 FlagOS,在天數智芯、華為昇騰、平頭哥、海光、沐曦等 6 款國產主流芯片上獲得了端到端推理性能的提升。
![]()
具身智能的“最后一公里”:1Hz vs 10Hz
如果現在把一群 AI 圈的人放在一個房間里聊天,話題經常會自然延伸到那個終極科幻場景——機器人。
現在的機器人行業,其實挺尷尬的。做本體的廠商(波士頓動力那些)把運動控制做得爐火純青,機器人能空翻、能跳舞。但如果你讓它“去廚房把那個紅色的杯子拿來”,它可能就傻了。
因為它有發達的小腦(運動控制),卻缺一個聰明的大腦(理解與決策)。
李大海在采訪中提出了一個非常精準的“頻率分層理論”,即“1Hz vs 10Hz”。
“機器人的運動控制,比如保持平衡、抓取物體,屬于 10Hz 甚至更高頻的直覺反應。”李大海解釋道,“這部分也就是我們常說的‘小腦’,目前行業解決得已經不錯了。但真正的瓶頸在于 1Hz 的智能。”
什么是 1Hz 的智能?
它是深度思考,是規劃,是對環境的復雜理解。當你告訴機器人“我渴了”,它需要理解這句話背后的意圖(找水),環顧四周確認杯子的位置(感知),規劃一條避開障礙物的路線(規劃)。
“現在的機器人,往往是 10Hz 很強,1Hz 很弱。”姚遠補充道。這就導致了一個尷尬的現狀:機器人能精準地把杯子拿起來,但它不知道該去拿哪個杯子,或者在聽到門鈴響時不知道該先去開門還是繼續倒水。
MiniCPM-o 4.5 的出現,本質上就是試圖成為那個通用的 1Hz 大腦。
它不僅僅是一個聊天軟件,它更像是一個通用的“感知中樞”。當把它裝進機器人里,機器人就不再是一個瞎子和聾子。它可以一邊走(小腦控制),一邊看路邊的障礙物,一邊聽主人的指令,一邊思考該怎么規劃路線(大腦控制)。
而且,因為它是端側模型,這一切都不需要依賴不穩定的 Wi-Fi 網絡。即使在沒有信號的地下室,或者在火星上,這個機器人依然是有智慧的。
這種“端側大腦 + 本地小腦”的架構,或許才是具身智能走出實驗室、進入家庭的唯一解。
那么,當大廠也開始下場做手機助手、做端側模型時,創業公司的護城河究竟有多深?
李大海在現場的回答顯示出一種難得的清醒:“我們不打陣地戰。”
他把 AI 市場分為了兩類:
一類是 通用搜索與問答,這是巨頭的必爭之地。無論是 ChatGPT 還是豆包,本質上都是在搶占下一個時代的搜索入口。這是一個贏家通吃的統一市場,創業公司進去大概率是炮灰。
另一類是端側智能,這是一個高度碎片化的市場。
“端側市場不是鐵板一塊。”李大海分析道,“汽車、手機、PC、機器人、甚至智能眼鏡,每一個終端的硬件架構不同,使用場景不同,用戶的隱私需求也不同。”
在這個碎片化的戰場里,巨頭的“通用大模型”往往因為水土不服而難以落地。你不能直接把一個千億參數的模型塞進車機里,也不能指望一套標準 API 適配所有的機器人底盤。
這就給面壁留出了巨大的“修路”空間。
他們愿意干苦活累活:去適配幾十種不同的芯片,去壓榨每一毫秒的延遲,去設計松果派這樣的參考硬件。這些工作瑣碎、繁重,但一旦做成,就會形成極高的壁壘。
MiniCPM-o 4.5 已經支持了 16 種不同大小的 int4 和 GGUF 量化模型,通過 llama.cpp 和 Ollama 就能在本地設備上高效推理。這種極致的工程化能力,正是面壁在“夾縫”中生長出來的根系。
“我們是在制造大模型時代的 ‘光刻機’,也是在鋪設端側智能的 ‘高速公路’。”
當開發者習慣了在松果派上開發,當車企習慣了 MiniCPM 的低延遲,當機器人廠商習慣了 1Hz 的智能分層,面壁智能就不再只是一個賣模型的公司,而是成為了端側生態的基礎設施。
走出科建大廈的時候,天色已晚。北京的寒風中,路邊的大屏幕上正播放著某大廠“全知全能”AI 的廣告。而在我身后這間普通的會議室里,一群人正在試圖把 AI 從神壇上拉下來,塞進芯片,塞進板卡,塞進每一個具體的、微小的設備里。
OpenClaw 掀起的 Agent 熱潮或許只是一個序幕,而真正的故事,可能就始于這塊不起眼的開發板和這個只有 9B 大小的模型。這不僅是一場技術的突圍,更是一場關于 AI 究竟該屬于“巨頭”還是屬于“個體”的權利爭奪戰。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.