![]()
本文摘自《云棲戰略參考》,這本刊物由阿里云與鈦媒體聯合策劃。目的是為了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的“數智先行者”共同探討、碰撞,希望這些內容能讓你有所啟發。
具身智能,正成為 AI 革命的核心共識與下一站錨點。當 AI 技術從數字世界邁向物理世界,硬件恰是這場躍遷中智能體與物理環境交互的關鍵載體。這一趨勢,正沿著三條核心賽道加速落地,并呈現出技術復雜度和成熟度的差異。
智能硬件以智能手機、PC、AI 眼鏡為代表,從設備工具升級為場景伙伴,依托成熟的端云協同架構、實時數據處理能力與輕量化模型部署,實現多模態智能交互并 提供更多場景化服務,正邁向規模化落地階段;智能駕駛系統,在端到端大模型驅動下正逐步實現局部自主決策,并開始展現出超越預設規則的自主應變能力,但模型泛化性與安全性仍需持續優化,對高彈性算力集群與多源異構數據融合也提出更高要求;機器人技術突破門檻最高,算力層面需構建云邊端深度協同的架構,數據層面需解決多模態真實場景數據的采集、合成與處理的問題,模型層面則要同時兼顧復雜推理與運動控制,當前核心是突破從實驗室原型到產業落地的關鍵跨越。
盡管當前三大領域技術收斂節奏不同,業界在路線選擇與細節落地中仍存在分歧,但一個共識已然形成,三條賽道最終將指向同一個未來:AI 將不再局限于屏幕內,而是在真實物理空間中完成“感知 - 決策 - 行動”的完整閉環,進化為可在現實世界自主行動的智能體,而支撐這一閉環的,則是一套由算力、數據、模型深度協同融合構成的下一代全棧 AI 技術體系。
作為全棧人工智能服務商,阿里云正致力于為這場革命構建一個統一的能力支柱,其全棧 AI 服務體系不僅提供澎湃算力,更整合數據平臺與持續進化的基礎模型能力,實現從底層算力調度到上層場景化智能輸出的全維度支撐。在 2025 云棲大會的系列分論壇中,來自 AI 硬件、汽車、機器人領域的實踐分享,共同勾勒出具身智能的清晰未來:一場由 AI 硬件打破交互邊界、智能駕駛重塑移動空間、機器人賦能千行百業的具身智能大幕,已然開啟。
AI 硬件:從功能設備到智能伙伴
在具身智能的框架下,最貼近用戶的智能硬件正經歷一場本質性的身份轉變。算力、模型、開發平臺一體化的智能底座,為這些新物種提供了體驗的想象力。這也標志著智能硬件不再是一個個獨立的設備,而會在不久的未來融入一個能夠自我進化、跨端協作的“超級生命體”。
2025 年,AI 硬件無疑是廠商押注、資本涌入的核心戰場。洛圖科技(RUNTO)此前曾預測,中國 AI 硬件(不含 AI 手機、AI 汽車)市場規模今年將首次突破萬億元,五年內將繼續保持高速增長。與之前的 AI 硬件熱潮相比,這次的趨勢清晰可見:終端設備從功能執行者向智能伙伴的躍遷。
這場變革的核心,是設備從被動響應走向主動服務。榮耀 MagicOS AI 首席戰略官王皚用一個生動的場景描繪了這種變化:“昨晚我在杭州看書,覺得燈光太暗,只需對手機說‘幫我處理一下’,它就能自動調整到護眼模式、夜景模式,整個過程無需任何手動操作。這種‘一語解千愁,萬事找 YOYO’的體驗,標志著硬件正從需要用戶學習的復雜工具,轉變為理解用戶意圖的智能伙伴。”
在教育硬件領域,這種變革尤為明顯。AI 學習機之所以 能在大模型時代迎來新的爆發,關鍵在于它精準切中了傳統學習機未能滿足的深層需求。視源股份消費者 BG 總裁邱澈分享了一個典型案例:“低齡兒童的學習機過去很難做,因為孩子沒有固定的成長路徑。現在通過大模型,我們可以基于孩子的信息和學習訴求,動態編排學習計劃。”這種個性化能力的實現,讓硬件從標準化工具變成了懂用戶的學習伙伴。
智能手機作為 AI To C 的第一入口,正在經歷從功能疊加到體驗重構的深層 AI 化變革。在全球排名 Top10 的手機廠商中,包括傳音、OPPO、vivo、榮耀等在內的 9 家廠商都與通義大模型展開了深度合作,這絕不是一種巧合。
隨著 AI 技術和 Agent 發展,手機會成為具備自我進化能力、更懂用戶的智能體手機。除了硬件和生態能力之外,廠商還推動操作系統向智能化演進,以系統級 AI 讓操作系統能夠成為一個超級入口,通過智能體感知及理解用戶的意圖、周圍環境,讓操作系統能通過 AI 內核能力來對硬件、軟件、應用及服務按需索取,恰如其分地為用戶調用和協同智能體。
在百花齊放的硬件形態中,AI 眼鏡無疑是最引人注目 的新品類之一。它正在試圖重新定義“下一代人機交互的入口”。在這個競爭激烈的賽道里,雷鳥創新等品牌正通過差異化的產品邏輯卡位市場。雷鳥深度使用了阿里通義系列的多模態大模型,視覺理解和問答準確率達 98%,同時通過系統級優化,從意圖理解到信息返回,所需時間控制在僅 1.3 秒內。這種技術突破讓 AI 眼鏡開始從新奇邁向實用,在導航、即時翻譯、智能提醒等高頻剛需場景中驗證其價值。
支撐這些智能終端進化的,是全棧 AI 云服務提供的強大技術生態。通義大模型與阿里云全棧 AI 云服務共同帶來的“模型 + 基礎設施”協同優勢,能夠讓智能助理更精準地理解意圖、更流暢地實現多模態交互、更可靠地執行場景化服務。
36 氪研究院院長鄒萍表示,通過整合云端大模型和端側大模型,AI 可以根據場景需求靈活調用算力資源,簡單實時、隱私性要求高的任務在端側完成,復雜任務則交給云端。這種架構既保證了響應速度,又兼顧了計算能力,為智能終端的體驗升級提供了堅實的技術底座。
AI 硬件憑借云、模型和端側優化等技術從功能執行者向智能伙伴躍遷的過程中不可忽視的一個關鍵詞是生態。如今,AI 硬件廠商新的競爭焦點,就是構建以硬件為入口的生態體系,通過整合內容、數據與服務,進一步拓展智能終端的場景邊界與用戶黏性。不只是 AI 教育廠商,構建 AI 生態已經成為很多智能硬件領域的共同選擇。做 AI 生態不僅是在推動硬件功能升級,也從底層重構了智能設備的價值邏輯——從單一執行走向系統協同,從工具屬性轉向場景服務。
然而,AI 硬件的發展仍面臨挑戰。在硬件堆疊、續航 功耗、成本控制等方面,行業仍在尋找最佳平衡點。論壇上提到了“不可能三角”的困境——在有限的空間內,功能、功耗和成本難以兼顧。大模型的小型化和隱私保護是需要持續突破的技術方向。
在阿里云的推動下,智能硬件的技術邊界也在逐漸清晰:不再追求“全能”,而是在產品創新中分化和深化場景。先讓 AI 在硬件中變得實用和不可或缺,再讓這些會思考、會執行的智能體與云端大腦協同進化,無聲無感地融入生活,成為我們每個人的全能“智能助理”。
最好的技術隱于共生,最好的體驗只會悄悄浮出水面。
關于未來入口的形態,會上提出了“軟入口”的概念:未來 AI 的入口可能沒有具體形態,而是像流水一樣滲透在吃、穿、住、行中。通用硬件和專用硬件將協同發展,共同構成未來的智能生態。
智能駕駛:從規則編碼走向能力涌現
當具身智能的理念進入移動出行領域,便催生了智能駕駛技術范式的根本性遷移。傳統的功能堆砌和規則編碼方式,在面對無窮無盡的現實長尾場景時顯得力不從心。如今,以視覺 - 語言 - 動作大模型(Vision- Language-Action,簡稱“VLA”)為代表的數據驅動路徑,正讓智能駕駛系統像人類一樣,獲得在面對未知場景時舉一反三的涌現能力,從一輛精密的機器,向一個擁有駕駛常識的智能體進化。
在 2025 云棲大會汽車行業峰會上,來自廣汽與理想汽車等企業的專家不約而同地指出,傳統智能駕駛系統雖然能在已知場景中穩定運行,但在面對未曾見過的陌生路況時,往往顯得力不從心。端到端系統像是一位靠題海戰術培養出來的學生,見過的題目都會做,但遇到新題就容易卡殼。而現實道路上的新題,恰恰是層出不窮的施工路段、潮汐車道、特種車輛通行等非標準化場景。
那么,如何讓智能駕駛系統具備真正的應變能力?答案指向了以 VLA 為代表的大模型技術路線。VLA 模型的核心優勢在于,它通過預訓練注入了常識與推理能力,使其在面對未訓練過的場景時,仍能作出合理判斷。
來自業內的一個真實案例顯示:在某次測試中,搭載 VLA 系統的車輛在連續繞過多個未預設路障時,展現出了接近人類駕駛員的決策連貫性——這不是靠預設規則實現的,而是模型能力的自然涌現。
這一變化,標志著智能駕駛研發從“人工寫規則”邁入“系統自進化”的新階段。阿里云智能集團的相關專家在會議中指出,VLA 結合強化學習的閉環訓練體系,正成為下一代智能駕駛系統的技術基座。在仿真環境中,系統可以實現光速迭代,在虛擬城市中無限試錯、持續優化,從而突破實車路測的數據瓶頸。有觀點預測,未來一年內,VLA 技術將帶來智能駕駛體驗的十倍級提升。
不過,當前 VLA 技術路線中,關于“L”(Language) 的必要性其實還有一些爭議。理想 CTO 謝炎在云棲大會主論壇圓桌對話中分享,語言是人類做泛化的基礎,理想在 VLA 路線中做“L”的兩個原因,從技術層面來看是因為語言具備長鏈路的推理能力,需要語言的 token 輸入輸出是次要的;非技術原因是更容易實現價值觀對齊。他認為極端情況很難靠數據或模型解決,而需要具備類似人的推理能力才能實現。
在謝炎看來,隨著語言模型越大、思考鏈路越長,消耗的 tokens 就越多,結果就越好,因此車端就需要越來越強的算力,而且這個算力需求的增長軌跡可能不是線性的,而是指數級的。
事實上,無論是車端推理還是云端訓練,對計算資源的需求都呈指數級增長。正如業內所見,能夠構建萬卡級算力集群的企業在全球范圍內屈指可數,而具備研發基礎大模型能力的科技公司更是鳳毛麟角。算力規模,已成為參與高階智能駕駛競爭的入場券。數據顯示,美國頭部企業已投入數萬張 GPU 卡用于模型訓練,而國內車企與方案商也在積極跟進。
與此同時,AI 也在重構汽車產業的成本結構。高固定成本、低邊際成本的研發模式,使得軟件與 AI 在未來整車成本中的占比持續攀升。有分析指出,在部分廉價車型中,軟件與 AI 成本甚至可能占據整車成本的半壁江山。這一變化不僅影響產品定價策略,更在重塑企業的市場競爭邏輯。
值得注意的是,智能駕駛的能力涌現并不完全依賴于車端算力的堆砌。端云協同已成為技術演進的主流方向。在車端,算力需求正從百 TOPS 向千 TOPS 邁進,芯片架構也需高度適配大模型推理;在云端,訓練與仿真所需的算力規模持續擴大,國產化替代與能效優化成為關鍵議題。阿里云發布的“全模態數據管理 + 多引擎一體化”平臺,正是為了支持從數據采集、自動標注到模型訓練與仿真的全流程閉環。
在這場技術變革中,車企的角色也在悄然轉變。他們不再僅僅是硬件的制造者,更是軟件能力的構建者、數據驅動的運營者。
例如,中國一汽從大模型中得到啟發,把所有數據轉換為 Token,這樣就可以把不同模態的內容映射到同一套 Token 空間里。這樣,企業運行中的上下文就能變得豐富很多,管理企業的模型有了長文本的支持,自然也就更聰明了。
未來,隨著 L4/L5 級智能駕駛的逐步實現,汽車將徹底從移動工具轉變為智能空間。用戶可在車內辦公、娛樂、 社交,汽車成為家、辦公室、咖啡廳的延伸。而支撐這一愿景的,正是智能駕駛系統從功能堆砌到能力涌現的持續進化。
機器人:從虛擬走向實體的關鍵跨越
機器人,未來將會是具身智能理念最純粹、最完整的載體,也是 AI 真正融入物理世界的終極挑戰。它要求智能體不僅要會思考,還要能動手,更能在不確定的現實環境中完成復雜的任務。當前,機器人領域正處在技術路徑激辯與早期商業化探索的關鍵期,其核心議題是如何彌合數字智能與物理實體之間的最后一公里鴻溝。
阿里云智能集團公共云事業部副總裁、華北大區總經理高飛在云棲大會的具身智能論壇上點明了這一趨勢的核心:具身智能已成為繼大語言模型之后最受關注的賽道,是 AI 從數字世界突圍進入物理世界的必由之路。他指出,這不僅是算法的升級,更是算法、模型、運動控制、制造與供應鏈等多方面能力的深度融合。
然而,這條突圍之路并非坦途。高飛將行業面臨的挑戰歸納為四類:如何實現從單一任務到通用智能的智能涌現;如何界定軟硬結合的邊界;如何讓機器人理解“炒 一盤菜”這樣的長程復雜任務;以及如何實現視覺、聽覺、觸覺等多模態的高效融合。這些問題,恰恰勾勒出機器人從虛擬智能走向實體智能所必須翻越的山丘。
在翻越這些山丘的技術路徑上,行業出現了有趣的分化。最為激烈的爭論之一,集中在機器人的大腦該如何構建。自變量機器人創始人 &CEO 王潛的觀點主張端到端統一模型,即構建一個單一的、強大的模型來同時處理感知、推理與控制。這種觀點認為,分層架構在復雜操作中容易因誤差累積導致失敗,而統一模型能更好地理解物理規律。
另一邊,清華大學助理教授、星海圖首席科學家趙行則傾向于分層模型架構。最初選擇分層架構,趙行更多考慮的是現實部署約束,因為在端側實時跑大模型受限于端側芯片的迭代速度。通過大小腦分層、分別部署在邊緣側和端側的設計,機器人更容易落地。此外,他認為分層架構更符合生物進化規律,畢竟人腦不同分區各司其職同樣工作得很好。針對不同層之間能力無法互通、梯度無法回傳的質疑,趙行表示這不是本質問題,可通過強化學習等技術解決。
同樣深刻的分歧也存在于機器人學習的“食糧”——數據來源上。面對數據稀缺這一行業共識,形成了“真機派” 與“仿真合成派”兩大陣營。真機派堅持以遙操或者互聯網的形式獲取數據,基于 VLA 做模仿學習;仿真派則相信合成數據可行性,在仿真環境中合成數據,用作模型訓練,并大量使用強化學習。雙方都有充足的理由堅持自己的路線。
后者堅信仿真環境的重要性:“沒有仿真,我認為我們 幾十年內都無法制造出能在現實世界中發揮作用的機器人。”NVIDIA 機器人與邊緣 AI 副總裁 Deepu Talla 在現場說道。仿真數據以其低成本、高效率和安全性,被視為規模化訓練的基石。
然而,仿真數據的局限性同樣明顯。比如在涉及靈巧操作的任務中,仿真與真實數據之間可能存在幾個數量級的效率差距。物理接觸的復雜性,如形變、滑動、摩擦等,難以在仿真中精準建模。
銀河通用選擇的路線是:先通過大規模仿真合成數據進行預訓練,構建通用基座大模型,再利用少量高精度的真實數據進行后訓練。通過這種方式,他們實現了良好的泛化性能,并且把真實數據后訓練的樣本效率提高到了 Optimus 的 1000 倍,大大降低了落地的邊際成本。
千尋智能聯席首席科學家解浚源的觀點更為尖銳,只有真機數據實際去訓練,才能訓練出世界領先的模型。作為“真機派”的代表,解浚源甚至對“真機數據昂貴”的共識發起了挑戰。“在國內供應鏈的支持下,把單個機器人成本打到 10 萬以下是很容易的”,他將此與大模型廠商的萬卡集群投入對比,認為將采集數據的機器人規模擴展到上千臺,“絕非不可想象的成本”。
盡管技術路徑存在分歧,但機器人技術在商業世界的落地已悄然加速,展現了從虛擬走向實體的初步成果。機器人在智慧零售場景中已能實現接單、揀貨、打包的全流程自動化。在制造業中機器人在復雜工業環境中也已能夠進行巡檢、分揀和裝配等操作。
當討論從“如何造出一個機器人”切換到“如何量產千萬臺機器人”時,一個關鍵角色浮出水面——云廠商。高飛建議:“具身智能公司從第一天起就要做好云架構、AI Infra 的規劃。”他洞察到,一旦行業迎來數據量的指數級增長,大多數源自科研背景的機器人團隊將面臨巨大的工程化挑戰。
阿里云智能集團公共云事業部具身智能解決方案負責人王旭文進一步提到,阿里云最初誕生就定位為“以數據為中心的云計算”,之后深度入局的智能駕駛、AI 也都是數據密集型行業,如今大量具身智能數據涌來,他們已經有足夠強大的基礎設施和經驗來從容應對。
回顧機器人的這場實體化跨越,我們看到的是一幅充滿非共識卻又充滿希望的圖景。這很像四五年前的智能駕駛,在特斯拉 FSD V12 推出后,技術路線迅速收斂。而機器人領域也會經歷類似的過程,迎來屬于它的“FSD V12 時刻”。
結語
未來的競爭,不再是單一產品的競爭,而是“終端 - 實體 - 空間”三位一體生態的競爭。
AI 目前正以硬件、汽車與機器人等形態為載體,推動智能從虛擬走向現實、從被動走向主動、從孤立走向協同。 AI 硬件正從功能設備進化為懂用戶的場景伙伴,智能駕駛系統借助大模型實現從規則編碼到能力涌現的跨越,而機器人則通過多模態融合與軟硬一體化的探索,逐步突破物理世界的最后一公里。這三條路徑共同勾勒出一幅未來智能生態圖景。
在這一進程中,技術突破、數據閉環與場景落地將成為關鍵驅動力,而誰能率先構建算法、硬件與生態深度融合的體系,誰就將在 AI 賦能的實體化浪潮中,定義下一個智能時代的基本形態。
本文摘自《云棲戰略參考》總第20期
掃碼查看最新雜志
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.