![]()
當算力開始同質化,感知才是真正的護城河。
作者|張勇毅
編輯|靖宇
失明九年的寶哥,把手機舉向南澳漁船上的陌生人。
他什么都看不見。但耳機里傳來了 AI 的聲音:「面前是你的朋友章喜德,他雙臂交叉,面帶微笑,穿著一件深色長袖。」
這是 vivo 總裁、首席運營官,vivo 中央研究院院長胡柏山在今年博鰲現場的演講中提到的一個故事。
![]()
vivo 總裁胡柏山 | 圖片來源:vivo
在這個用戶使用場景中,手機替他看見了世界。不是「拍了一張照片」,而是真正地看見——識別出了一個人,讀出了他的姿勢、表情和穿著,然后把這一切翻譯成寶哥能接收的信號。這是一臺手機在做的事,2025 年,在一艘普通的漁船上。
這件事讓我重新想了一個問題:AI 發展這么多年,為什么感知物理世界的能力還這么初級?
OpenClaw 火了,機器人打醉拳、翻跟斗上了春晚,人們開始說「科幻走進了現實」。但胡柏山不這么看。在他眼里,這兩件事之間有一道真實的鴻溝——具身智能機器人活在物理世界,OpenClaw 這類 AI 活在數字世界,而連接兩者的那座橋,目前幾乎還不存在。
他給這座橋「起」了一個名字:感知。
今年博鰲論壇,胡柏山上臺拋出了一個在 AI 滿天飛的 2026 博鰲現場,一個頗為獨特判斷——
![]()
vivo 總裁胡柏山在博鰲 2026 年會現場演講 | 圖片來源:vivo
算力會被同質化,感知才是護城河。真正能讓一個智能設備『懂你』的,是它對這個世界的感知能力。
這句話背后,是 vivo 近千人的 AI 團隊在十年探索中得來的階段性判斷。
01
AI 的真正盲區,不在算力,在感知
先說一個容易被忽略的事實:人類 60% 到 70% 的感知來自視覺,10% 到 20% 來自聽覺,剩下才是觸覺、溫度這些。我們所有關于「理解世界」的能力,絕大多數建立在「先看見」這個前提上。
現在的大模型,用的是互聯網上積累了幾十年的數字資產——文字、圖片、視頻。它能寫代碼、能生成方案、能回答幾乎所有你能用語言描述的問題。但有一件事它做不到:感知此刻正在你面前發生的事情。
這不是算力不夠,是結構上缺了一環。
這里有一個很多人會提的反駁:GPT-4o 不是已經有了多模態能力嗎?把照片發給它,它不就「看見了」?
這個反駁看起來很有力。但有一個關鍵的區別——那是「你主動上傳、然后等待云端處理」的過程,延遲是秒級的,而且每一次感知都需要一次網絡往返。胡柏山說的感知,是另一種形態:端側實時的、主動的、持續的。
就像你不需要拍照給大腦看、大腦才能處理視覺信號一樣。感知應該是實時發生的,不是「發送—等待—接收」的任務。
胡柏山在采訪中說了一句話,我覺得最準確地定義了這個問題:
沒有感知能力,AI 就像是困在黑屋子里的大師,算力再強,也看不見咫尺之外的世界。
這不是詩意,是一個工程問題的精確描述。大模型再強,如果缺乏對當前物理世界的實時感知,它的「聰明」就只能在被動觸發的那一刻才得以釋放,其余時間,它對你身邊發生的一切一無所知。
這是為什么 vivo 今年在內部正式成立了一級技術支撐賽道—「感知賽道」——把視覺、聽覺、觸覺等多模態感知,通過傳感器結合感知大模型,統一轉化為設備可以理解的物理世界信號。
更關鍵的判斷在后面——大模型之間的差異,未來可能沒有那么大;但感知數據,是有真實差異化的。
面對不同物理場景積累下來的,是不同的場景數據。做家庭機器人的積累室內環境數據,做手機影像的積累億萬用戶在真實生活里留下的視覺信號。誰的場景數據更豐富、更準確,誰的智能體驗就更好。這是胡柏山對「感知護城河」的具體解釋,也是為什么他認為這條賽道「五年、十年甚至更長」都值得持續押注。
但判斷是判斷。vivo 手里有什么?準備怎么做?
02
影像,就是AI的眼睛
我第一次聽到「沒有影像,AI 是失明的天才」這句話,感覺有點像公關稿里的比喻。但仔細想了想,這其實是一個挺精準的工程判斷。
影像技術的本質,是完成物理世界的數字化投射——通過光學系統、成像處理和空間計算,把光影、空間、表情、動作全部轉化成 AI 可以處理的數字信號。vivo 做了快十年的影像大模型算法,積累的正是這套轉化能力。
有意思的是,vivo 的影像領先,和大多數人想象的路徑不太一樣。胡柏山說,他們的影像目前在行業里領先幅度比較大,關鍵原因在于:算法是大模型算法,但模組是針對這套算法定制做過硬件開發的。軟硬結合,才是真正難被復制的部分。「硬件上的鏡頭、模組、馬達,容易被復制;但算法與認知強相關,對手很難快速跟上。」
這個邏輯,同樣適用于感知賽道。
所以,接下來發布的 vivo X300 Ultra 和 X300s,搭載了第一代「影像 Agent」。胡柏山描述了一個具體的使用場景,我覺得比任何功能說明都講得清楚:
![]()
博鰲現場攝影師使用 X300Ultra 攝影 | 圖片來源:vivo
過去拍照,長焦和微距在不同模式下呈現效果差異很大,用戶要提前手動切換——但大多數人根本不知道要提前選。影像 Agent 上線后,它會根據拍攝對象、光線和距離,自動彈出「它認為最佳的呈現效果」,用戶點一下就完成了。
隨便都能出片。人人都是攝影師。
這聽起來像一個聰明的相機助手。但胡柏山想說的比這大——這是手機從被動工具向「數字伙伴」進化的第一步。
按他的規劃,不同產品線對應不同的 Agent 能力。折疊旗艦 X Fold 系列主打辦公和出行——開會時默默記錄,出差時主動規劃航班和酒店;iQOO 系列聚焦游戲 Agent,自動優化性能,抓住高光時刻;相冊 Agent 在 X300 Ultra 上已經初步落地,能快速編輯剪輯。采訪時他隨口說了一句:「本來回去要做兩小時,結果二十分鐘就搞定了。」
作為一個經常要在采訪后馬上趕稿的人,這里不得不說,確實讓我心動了一下。
技術路徑上,vivo 的選擇是聚焦端側。原因不復雜:端側能做到云端做不到的事——實時感知周邊環境,不依賴網絡往返,隱私數據留在本地。但端側有硬件瓶頸,算力和帶寬雙重限制。
為此,vivo 兩年前就開始和合作伙伴一起定制專用算力芯片,計劃在后續旗艦產品中上線。旗艦機配專用芯片、端側能力全開;中端靠 SoC 加云側補充;其他產品以云側為主。分級是真實的,不是隨便說說的。
關于數據和隱私,胡柏山說了一句讓我印象深的話:「懂用戶、知人心,但不越邊界——這是技術的倫理,更是 vivo 不可逾越的底線。」
這里有一個具體的設計選擇值得說:vivo 做的 Agent,所有關鍵用戶數據存在本地,換手機時,這些數據可以整體遷移——「用戶不需要和手機重新建立認知」。這跟 OpenClaw 這類產品有一個本質區別,云端 AI 的數據用完就散,你的手機 Agent 卻在積累真正屬于你的東西。
他把這個東西叫「數字 DNA」——影像留住的是記憶,Agent 學習的是習慣,兩者融合形成的是一份獨一無二的「個人資產」。聽起來有點科幻,但底層邏輯是實在的。
手機這條線,走得相對清晰。但 vivo 押的不只是手機。
03
從手機到機器人:這條路有多難走
去年,vivo 成立了機器人 Lab。
很多人的第一反應是:手機公司做機器人,是不是有點想多了?
這個質疑乍看挺有道理的。家電廠商做機器人有協同邏輯,互聯網公司做機器人有數據邏輯,手機公司做機器人,憑什么?
胡柏山的回答是:「這是回歸本原。視覺是所有智能設備最自然的第一感知方式。」手機做了多年影像,本質上積累的就是這套感知能力——只是現在要把它延伸到另一個形態上。
但他說得也很清楚:機器人不是手機的迭代,是從零開始。2026 年,vivo 機器人 Lab 最重要的任務,是把整條路徑想清楚——目標用戶是誰,解決什么場景問題,關鍵技術什么時候能成熟到可以落地。
方向上,vivo 準備先聚焦年輕用戶。策略上,他們不打算上來就做「全場景通用機器人」,而是「沿途下蛋」——先把容錯率高、技術上能搞定的場景做到六七十分,比如寵物喂養或收納整理,然后讓能力自然泛化。
「一開始就做通用場景的機器人不現實,」胡柏山說,「場景數據是逐步積累的。比如機器人把雞蛋百分之百打成功,十年之內都很難做到。但收納的容錯性就高很多,夾緊一點或松一點都沒事。先聚焦這類場景,把體驗做好再說。」
手機和機器人之間,他也給出了一個具體的協同設想:
一開始,機器人能力有限,干不好的事情由手機來遙控補位。就像駕駛一樣,一開始全靠人介入,場景數據積累多了,才慢慢可以自己來。「手機是最懂你的隨身助理,你所有的習慣、偏好都在里面。機器人剛開始能力不夠的事,由手機來幫它補——兩者之間數據是打通的。」
這是一條務實的路,不是一個大餅。
MR 頭顯那邊,已經有了實物。2025 年 8 月,vivo Vision 混合現實頭顯探索版發布,國內 28 家體驗店上架,東南亞同步開放,體驗人數超過五萬。胡柏山說,下一代的目標是商業化,時間窗口是 2027 年下半年到 2028 年初。「這一代站在探索的角度,已經達到了它的使命。下一步要搞清楚卡商業化脖子的那個技術環節,把它攻克掉。」
感知賽道的投入邏輯,他說得很直白:「我們所謂的長賽道,是指天花板比較高的。一開始是小團隊先建立認知,認知到了才加油門,不希望一腳油門一腳剎車——那樣對組織傷害太大。我們公司這么多年公司組織架構相對穩定,就是因為我們控制好了投入的合理性,螺旋式上升,不是波浪式前進。」
這句話背后有一個判斷:感知賽道不會是短期爆發、快速見頂的那種,而是五年十年持續有價值的長坡厚雪。跟 vivo 做了十幾年的通信研究院邏輯一樣——先種因,認知到位了再加速。
博鰲采訪結束的時候,我又想到了胡柏山故事中的那個寶哥。
他在南澳漁船上舉起手機,AI 告訴他面前的朋友在微笑。那個場景里,技術做的事情很簡單——把光信號轉化成語言信號。但對寶哥來說,那是他九年來第一次「看見」一個新朋友的樣子。
胡柏山說,「科技的高度,終須回歸人的尺度。」我越來越覺得這句話不是漂亮話,而是一個做產品的人經過很長時間才想清楚的一件事。
算力會同質化。模型會趨同。但那個決定「你的手機到底有多懂你」的東西——它對物理世界的感知深度,它積累的關于你這個人的場景數據——那個東西,是不一樣的。
也許這就是 vivo 押注的答案。
![]()
vivo 在博鰲 2026 現場展臺 | 圖片來源:vivo
也許還不是。
但至少有一件事是確定的:下一代智能終端的戰場,不會只在參數表上。
*頭圖來源:vivo博鰲
極客一問
你覺得,決定下一代 AI 終端體驗上限的,是模型參數,還是感知物理世界的能力?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.