網易首頁 > 網易號 > 正文申請入駐

大模型卷算力，vivo 悄悄押注了「看懂世界」

2026-03-28 17:25:48　來源: 極客公園

北京舉報

分享至

當算力開始同質化，感知才是真正的護城河。

作者｜張勇毅

編輯｜靖宇

失明九年的寶哥，把手機舉向南澳漁船上的陌生人。

他什么都看不見。但耳機里傳來了 AI 的聲音：「面前是你的朋友章喜德，他雙臂交叉，面帶微笑，穿著一件深色長袖。」

這是 vivo 總裁、首席運營官，vivo 中央研究院院長胡柏山在今年博鰲現場的演講中提到的一個故事。

vivo 總裁胡柏山｜圖片來源：vivo

在這個用戶使用場景中，手機替他看見了世界。不是「拍了一張照片」，而是真正地看見——識別出了一個人，讀出了他的姿勢、表情和穿著，然后把這一切翻譯成寶哥能接收的信號。這是一臺手機在做的事，2025 年，在一艘普通的漁船上。

這件事讓我重新想了一個問題：AI 發展這么多年，為什么感知物理世界的能力還這么初級？

OpenClaw 火了，機器人打醉拳、翻跟斗上了春晚，人們開始說「科幻走進了現實」。但胡柏山不這么看。在他眼里，這兩件事之間有一道真實的鴻溝——具身智能機器人活在物理世界，OpenClaw 這類 AI 活在數字世界，而連接兩者的那座橋，目前幾乎還不存在。

他給這座橋「起」了一個名字：感知。

今年博鰲論壇，胡柏山上臺拋出了一個在 AI 滿天飛的 2026 博鰲現場，一個頗為獨特判斷——

vivo 總裁胡柏山在博鰲 2026 年會現場演講｜圖片來源：vivo

算力會被同質化，感知才是護城河。真正能讓一個智能設備『懂你』的，是它對這個世界的感知能力。

這句話背后，是 vivo 近千人的 AI 團隊在十年探索中得來的階段性判斷。

AI 的真正盲區，不在算力，在感知

先說一個容易被忽略的事實：人類 60% 到 70% 的感知來自視覺，10% 到 20% 來自聽覺，剩下才是觸覺、溫度這些。我們所有關于「理解世界」的能力，絕大多數建立在「先看見」這個前提上。

現在的大模型，用的是互聯網上積累了幾十年的數字資產——文字、圖片、視頻。它能寫代碼、能生成方案、能回答幾乎所有你能用語言描述的問題。但有一件事它做不到：感知此刻正在你面前發生的事情。

這不是算力不夠，是結構上缺了一環。

這里有一個很多人會提的反駁：GPT-4o 不是已經有了多模態能力嗎？把照片發給它，它不就「看見了」？

這個反駁看起來很有力。但有一個關鍵的區別——那是「你主動上傳、然后等待云端處理」的過程，延遲是秒級的，而且每一次感知都需要一次網絡往返。胡柏山說的感知，是另一種形態：端側實時的、主動的、持續的。

就像你不需要拍照給大腦看、大腦才能處理視覺信號一樣。感知應該是實時發生的，不是「發送—等待—接收」的任務。

胡柏山在采訪中說了一句話，我覺得最準確地定義了這個問題：

沒有感知能力，AI 就像是困在黑屋子里的大師，算力再強，也看不見咫尺之外的世界。

這不是詩意，是一個工程問題的精確描述。大模型再強，如果缺乏對當前物理世界的實時感知，它的「聰明」就只能在被動觸發的那一刻才得以釋放，其余時間，它對你身邊發生的一切一無所知。

這是為什么 vivo 今年在內部正式成立了一級技術支撐賽道—「感知賽道」——把視覺、聽覺、觸覺等多模態感知，通過傳感器結合感知大模型，統一轉化為設備可以理解的物理世界信號。

更關鍵的判斷在后面——大模型之間的差異，未來可能沒有那么大；但感知數據，是有真實差異化的。

面對不同物理場景積累下來的，是不同的場景數據。做家庭機器人的積累室內環境數據，做手機影像的積累億萬用戶在真實生活里留下的視覺信號。誰的場景數據更豐富、更準確，誰的智能體驗就更好。這是胡柏山對「感知護城河」的具體解釋，也是為什么他認為這條賽道「五年、十年甚至更長」都值得持續押注。

但判斷是判斷。vivo 手里有什么？準備怎么做？

影像，就是AI的眼睛

我第一次聽到「沒有影像，AI 是失明的天才」這句話，感覺有點像公關稿里的比喻。但仔細想了想，這其實是一個挺精準的工程判斷。

影像技術的本質，是完成物理世界的數字化投射——通過光學系統、成像處理和空間計算，把光影、空間、表情、動作全部轉化成 AI 可以處理的數字信號。vivo 做了快十年的影像大模型算法，積累的正是這套轉化能力。

有意思的是，vivo 的影像領先，和大多數人想象的路徑不太一樣。胡柏山說，他們的影像目前在行業里領先幅度比較大，關鍵原因在于：算法是大模型算法，但模組是針對這套算法定制做過硬件開發的。軟硬結合，才是真正難被復制的部分。「硬件上的鏡頭、模組、馬達，容易被復制；但算法與認知強相關，對手很難快速跟上。」

這個邏輯，同樣適用于感知賽道。

所以，接下來發布的 vivo X300 Ultra 和 X300s，搭載了第一代「影像 Agent」。胡柏山描述了一個具體的使用場景，我覺得比任何功能說明都講得清楚：

博鰲現場攝影師使用 X300Ultra 攝影｜圖片來源：vivo

過去拍照，長焦和微距在不同模式下呈現效果差異很大，用戶要提前手動切換——但大多數人根本不知道要提前選。影像 Agent 上線后，它會根據拍攝對象、光線和距離，自動彈出「它認為最佳的呈現效果」，用戶點一下就完成了。

隨便都能出片。人人都是攝影師。

這聽起來像一個聰明的相機助手。但胡柏山想說的比這大——這是手機從被動工具向「數字伙伴」進化的第一步。

按他的規劃，不同產品線對應不同的 Agent 能力。折疊旗艦 X Fold 系列主打辦公和出行——開會時默默記錄，出差時主動規劃航班和酒店；iQOO 系列聚焦游戲 Agent，自動優化性能，抓住高光時刻；相冊 Agent 在 X300 Ultra 上已經初步落地，能快速編輯剪輯。采訪時他隨口說了一句：「本來回去要做兩小時，結果二十分鐘就搞定了。」

作為一個經常要在采訪后馬上趕稿的人，這里不得不說，確實讓我心動了一下。

技術路徑上，vivo 的選擇是聚焦端側。原因不復雜：端側能做到云端做不到的事——實時感知周邊環境，不依賴網絡往返，隱私數據留在本地。但端側有硬件瓶頸，算力和帶寬雙重限制。

為此，vivo 兩年前就開始和合作伙伴一起定制專用算力芯片，計劃在后續旗艦產品中上線。旗艦機配專用芯片、端側能力全開；中端靠 SoC 加云側補充；其他產品以云側為主。分級是真實的，不是隨便說說的。

關于數據和隱私，胡柏山說了一句讓我印象深的話：「懂用戶、知人心，但不越邊界——這是技術的倫理，更是 vivo 不可逾越的底線。」

這里有一個具體的設計選擇值得說：vivo 做的 Agent，所有關鍵用戶數據存在本地，換手機時，這些數據可以整體遷移——「用戶不需要和手機重新建立認知」。這跟 OpenClaw 這類產品有一個本質區別，云端 AI 的數據用完就散，你的手機 Agent 卻在積累真正屬于你的東西。

他把這個東西叫「數字 DNA」——影像留住的是記憶，Agent 學習的是習慣，兩者融合形成的是一份獨一無二的「個人資產」。聽起來有點科幻，但底層邏輯是實在的。

手機這條線，走得相對清晰。但 vivo 押的不只是手機。

從手機到機器人：這條路有多難走

去年，vivo 成立了機器人 Lab。

很多人的第一反應是：手機公司做機器人，是不是有點想多了？

這個質疑乍看挺有道理的。家電廠商做機器人有協同邏輯，互聯網公司做機器人有數據邏輯，手機公司做機器人，憑什么？

胡柏山的回答是：「這是回歸本原。視覺是所有智能設備最自然的第一感知方式。」手機做了多年影像，本質上積累的就是這套感知能力——只是現在要把它延伸到另一個形態上。

但他說得也很清楚：機器人不是手機的迭代，是從零開始。2026 年，vivo 機器人 Lab 最重要的任務，是把整條路徑想清楚——目標用戶是誰，解決什么場景問題，關鍵技術什么時候能成熟到可以落地。

方向上，vivo 準備先聚焦年輕用戶。策略上，他們不打算上來就做「全場景通用機器人」，而是「沿途下蛋」——先把容錯率高、技術上能搞定的場景做到六七十分，比如寵物喂養或收納整理，然后讓能力自然泛化。

「一開始就做通用場景的機器人不現實，」胡柏山說，「場景數據是逐步積累的。比如機器人把雞蛋百分之百打成功，十年之內都很難做到。但收納的容錯性就高很多，夾緊一點或松一點都沒事。先聚焦這類場景，把體驗做好再說。」

手機和機器人之間，他也給出了一個具體的協同設想：

一開始，機器人能力有限，干不好的事情由手機來遙控補位。就像駕駛一樣，一開始全靠人介入，場景數據積累多了，才慢慢可以自己來。「手機是最懂你的隨身助理，你所有的習慣、偏好都在里面。機器人剛開始能力不夠的事，由手機來幫它補——兩者之間數據是打通的。」

這是一條務實的路，不是一個大餅。

MR 頭顯那邊，已經有了實物。2025 年 8 月，vivo Vision 混合現實頭顯探索版發布，國內 28 家體驗店上架，東南亞同步開放，體驗人數超過五萬。胡柏山說，下一代的目標是商業化，時間窗口是 2027 年下半年到 2028 年初。「這一代站在探索的角度，已經達到了它的使命。下一步要搞清楚卡商業化脖子的那個技術環節，把它攻克掉。」

感知賽道的投入邏輯，他說得很直白：「我們所謂的長賽道，是指天花板比較高的。一開始是小團隊先建立認知，認知到了才加油門，不希望一腳油門一腳剎車——那樣對組織傷害太大。我們公司這么多年公司組織架構相對穩定，就是因為我們控制好了投入的合理性，螺旋式上升，不是波浪式前進。」

這句話背后有一個判斷：感知賽道不會是短期爆發、快速見頂的那種，而是五年十年持續有價值的長坡厚雪。跟 vivo 做了十幾年的通信研究院邏輯一樣——先種因，認知到位了再加速。

博鰲采訪結束的時候，我又想到了胡柏山故事中的那個寶哥。

他在南澳漁船上舉起手機，AI 告訴他面前的朋友在微笑。那個場景里，技術做的事情很簡單——把光信號轉化成語言信號。但對寶哥來說，那是他九年來第一次「看見」一個新朋友的樣子。

胡柏山說，「科技的高度，終須回歸人的尺度。」我越來越覺得這句話不是漂亮話，而是一個做產品的人經過很長時間才想清楚的一件事。

算力會同質化。模型會趨同。但那個決定「你的手機到底有多懂你」的東西——它對物理世界的感知深度，它積累的關于你這個人的場景數據——那個東西，是不一樣的。

也許這就是 vivo 押注的答案。

vivo 在博鰲 2026 現場展臺｜圖片來源：vivo

也許還不是。

但至少有一件事是確定的：下一代智能終端的戰場，不會只在參數表上。

*頭圖來源：vivo博鰲

極客一問

你覺得，決定下一代 AI 終端體驗上限的，是模型參數，還是感知物理世界的能力？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.