![]()
云棲大會上,阿里宣布AI平臺將把完整的英偉達Physical AI(物理AI)軟件棧納入其開發者選項菜單。這個看似技術性的宣布,實際上標志著人工智能發展的一個重要轉折點。英偉達CEO黃仁勛在2025年CES大會上明確表示:AI下一個前沿就是物理AI,蘊藏著巨大的潛力和機遇。
根據市場研究數據,全球工業機器人市場規模預計從2024年的1544億元增長到2025年的3000億美元,其中AI技術在工業機器人中的應用市場更是以21.9%的年復合增長率快速擴張。
然而目前大部分工業機器人仍屬于傳統自動化設備,按照預設程序執行固定動作。一旦環境發生變化——比如零件位置偏移或形狀略有不同——就需要人工重新編程。物理AI機器人則可以自主適應這些變化,通過實時感知和決策來完成任務。
這其中,由傳統工業機器人升級到物理AI所帶來的增長,正是阿里和英偉達合作的根本。不過在此之前,我們需要了解一個問題,什么是物理AI?
A
如果非要用一句話來概括什么是物理AI,那就是一個讓人工智能從屏幕里走出來,真正進入物理世界的技術。
舉個簡單的例子:傳統AI可以識別出一個杯子,并告訴你這是什么;而物理AI不僅能識別杯子,還能判斷杯子的重量、材質,計算出抓取它需要多大的力度,以及如何避免打翻里面的液體。這種差異決定了兩者的應用場景完全不同。
黃仁勛強調,Physical AI的核心在于將物理規律與人工智能技術相結合,通過整合真實物理規則來優化AI生成的內容,使其更符合現實世界的邏輯與規律。物理AI,顧名思義就是物理+AI,也就是人工智能反饋的內容要符合物理規律。
物理AI這個概念并非一夜之間出現,而是英偉達經過多年技術積累和戰略布局的結果。早在2021年,英偉達就開始在GTC大會上提及物理AI的概念,但真正將其作為核心戰略推出是在2024年3月的GTC 2024大會上。黃仁勛在那次大會上首次系統性地闡述了物理AI的愿景,并發布了相關的技術平臺和工具鏈。
![]()
在黃仁勛看來,AI的發展經歷了三個清晰的階段:最初是感知AI(Perceptual AI),能夠理解圖像、文字和聲音,這個階段的代表是計算機視覺和語音識別技術;然后是生成式AI(Generative AI),能夠創造文本、圖像和聲音,以ChatGPT、DALL-E等為代表;現在我們正進入Physical AI(物理AI)的時代,AI不僅能夠理解世界,還能夠像人一樣進行推理、計劃和行動。
物理AI的技術基礎建立在三個關鍵組件之上:世界模型(World Model)、物理仿真引擎(Physics Simulation Engine)和具身智能控制器(Embodied Intelligence Controller)。世界模型是物理AI的認知核心,它不同于傳統的語言模型或圖像模型,需要構建對三維空間的完整理解,包括物體的幾何形狀、材質屬性、運動狀態和相互關系。技術上,這通常通過神經輻射場(NeRF)、3D高斯濺射(3D Gaussian Splatting)或體素網格(Voxel Grid)等方法來實現空間表征,模型需要學習物理定律的隱式表示,比如重力加速度、摩擦系數、彈性模量等參數,并能夠根據當前狀態預測未來的物理演化。
物理仿真引擎則負責實時計算物理交互,這不是簡單的預設規則,而是基于偏微分方程求解器的動態計算系統,需要處理剛體動力學、流體力學、軟體變形等復雜物理現象。在技術實現上,通常采用有限元方法(FEM)、粒子系統(Particle System)或基于深度學習的可微分物理仿真器,關鍵在于計算效率和精度的平衡——系統需要在毫秒級時間內完成復雜的物理計算,同時保證足夠的精度來支持準確的決策。
具身智能控制器是連接虛擬推理和物理執行的橋梁,它接收來自世界模型的預測結果和物理仿真的計算輸出,生成具體的控制指令。技術上,這通常基于模型預測控制(MPC)或深度強化學習(DRL)算法,控制器需要處理高維的狀態空間和動作空間,同時考慮執行器的物理限制、延遲和噪聲。
從系統架構角度,物理AI采用分層設計。感知層集成多模態傳感器陣列,包括RGB-D攝像頭、激光雷達、IMU、力/扭矩傳感器等,關鍵技術挑戰在于傳感器融合和實時處理,系統需要將不同傳感器的數據統一到同一個坐標系中,處理時間同步、標定誤差和數據噪聲,技術上通常采用卡爾曼濾波、粒子濾波或基于深度學習的傳感器融合網絡。
認知層運行世界模型和物理仿真引擎,這一層的計算密集度極高,需要專門的硬件加速。英偉達的方案是使用GPU集群進行并行計算,同時開發了專門的CUDA內核來優化物理仿真算法,內存管理也是關鍵技術點——系統需要在有限的GPU內存中維護大規模的3D場景表示和物理狀態。
執行層負責運動規劃和控制,技術核心是逆運動學求解和軌跡優化。對于多自由度的機器人系統,需要實時求解復雜的約束優化問題,現代方法通常結合解析解和數值優化,使用雅可比矩陣的偽逆來處理冗余自由度,并采用二次規劃(QP)或序列二次規劃(SQP)來處理約束。
在物理AI發布的同時,英偉達還發布了與之對應的完整技術生態系統,包括Omniverse仿真平臺、Isaac機器人開發套件、Cosmos世界基礎模型等。
這是因為物理AI的訓練需要大量的物理交互數據,但現實世界的數據收集成本極高,解決方案是基于仿真的數據生成。于是英偉達就通過Omniverse和Cosmos平臺,生成大規模的合成訓練數據,包括各種物理場景、材質屬性和交互模式。不過再仿真環境中,訓練的模型在現實世界中往往性能下降,這被稱為“現實差距”,英偉達現在正在做的,就是用仿真到現實的遷移(Sim-to-Real Transfer)技術,去彌補虛擬數據和現實數據之間的差距。
物理AI對計算資源的需求遠超傳統AI應用,單個物理AI系統可能需要數百個GPU核心來實時運行。英偉達專門開發了RTX PRO服務器和DGX Cloud平臺來支持這種計算需求,系統架構采用分布式計算,將不同的計算任務分配到專門優化的硬件上。這種技術架構使得物理AI能夠在復雜的現實環境中實現實時的感知、推理和行動,真正實現了AI從虛擬世界向物理世界的跨越。
還有一點,與傳統AI系統主要處理文本、圖像等數字信息不同,物理AI通過大模型驅動,使機器不僅能夠處理數據,還能理解三維世界的空間關系和物理規律。這種技術讓AI系統具備了類似生物的空間感知能力,能夠在現實環境中進行復雜的物理操作。
舉個具體例子來說明這種差異:如果AI生成一段機器人抓取物體的視頻,傳統的生成式AI可能會創造出物體懸浮在空中、機械臂穿過固體障礙物、或者違反重力定律的畫面,因為它只是基于訓練數據進行像素級的模仿。而物理AI則會確保生成的內容完全符合物理世界的運作方式——物體會受重力影響下落,機械臂必須繞過障礙物,抓取力度要與物體重量相匹配。
這種技術革新的深層意義在于,它讓AI從純粹的信息處理工具,轉變為能夠真正理解和操作物理世界的智能系統。傳統的AI就像一個只會看書但從未實踐的學者,擁有豐富的理論知識卻缺乏實際操作經驗;而物理AI則像一個既有理論知識又有實踐經驗的工程師,不僅知道是什么和為什么,更重要的是知道怎么做,能夠將抽象的知識轉化為具體的行動。
B
黃仁勛對物理AI的前景極其樂觀。他曾在CES上表示,Physical AI將催生超50萬億美元規模的行業變革,涉及1000萬家工廠、20萬個倉庫、未來數十億計臺人形機器人和15億輛汽車及卡車。這個數字聽起來令人震撼,但背后有著堅實的邏輯支撐。
世界上有10億知識工作者,AI智能體可能是下一個機器人行業,很可能是一個價值數萬億美元的機會。黃仁勛在CES 2025上表示。他認為,物理AI意味著AI不再局限于虛擬世界,而是開始走向現實世界,并將在機器人、物流、汽車、制造等千行百業成為主流應用。
在黃仁勛的規劃中,未來將有兩款高產量的機器人產品:第一個是自動駕駛汽車,第二個很可能就是人形機器人。這兩種機器都需要具有人類般的感知能力,能夠應對快速變化的環境,并在幾乎沒有容錯的情況下做出即時反應。他對人形機器人的潛力感到特別興奮,因為它們最有可能適應為人類設計的環境。
黃仁勛還預言,機器人時代已經到來,未來所有移動的物體都將實現自主運行。這個預言的背后,是對物理AI技術成熟度和應用潛力的深度判斷。從技術發展的角度看,隨著計算能力的提升、傳感器成本的降低、算法的優化,物理AI正在從實驗室概念走向商業應用的臨界點。
英偉達在物理AI領域的布局可以追溯到多年前對機器人技術的投入。該公司提出的物理AI概念,核心在于將物理規律與人工智能技術相結合,通過整合真實物理規則來優化AI生成的內容,使其更符合現實世界的邏輯與規律。
但是英偉達不敢步子邁得太大,與傳統AI應用不同,物理AI系統直接與物理世界交互,其錯誤可能導致嚴重的安全后果。這要求物理AI系統具備更高的可靠性和安全性標準。
英偉達目前的方案是Halos安全系統。這是一個全棧安全系統,它可以統一硬件架構、AI模型、軟件工具和安全標準,確保物理AI系統在各種環境下的穩定運行。從數據收集、模型訓練到部署應用,每個環節都需要嚴格的安全驗證。
視角來到阿里這邊,他們選擇將英偉達物理AI軟件棧納入開發者選項,背后有著深層的戰略考量。當前的AI大模型應用主要集中在線上場景,而物理AI試圖將整個現實世界融入AI當中。這種從虛擬到現實的跨越,正是阿里云在AI時代需要搶占的制高點。
阿里云智能集團董事長兼CEO吳泳銘在云棲大會上表示:生成式AI最大的想象力,絕不是在手機屏幕上做一兩個新的超級app,而是接管數字世界,改變物理世界。這一表態清晰地表明了阿里對物理AI重要性的認識。
![]()
阿里云CTO周靖人說過這么一句話,通義千問已開源300+模型,累計下載量超過了6億。
然而,面對物理AI的發展趨勢,通義大模型也面臨著從二維理解向三維交互轉型的挑戰。傳統的大語言模型擅長處理文本和圖像,但在理解物理世界的空間關系、物理規律方面存在天然的局限性。這正是阿里需要引入物理AI技術棧的根本原因。
但,這正好也是阿里的瓶頸。阿里的數據更多來自于互聯網,而非線下。這就迫使他們需要找到一個全新的途徑,以幫助通義來完成虛擬到物理的轉變。
李飛飛曾經也說過類似的觀點,她認為對于AI而言,如果無法建立三維世界模型,就無法真正理解、操作或重建現實世界。
通過集成英偉達的物理AI軟件棧,阿里可以為通義大模型增加空間理解和物理交互能力。這種集成不僅僅是技術層面的疊加,更是從語言智能向空間智能的戰略轉型。開發者可以利用阿里云的基礎設施和通義大模型的語言能力,結合英偉達的物理仿真和機器人控制技術,構建真正能夠在物理世界中工作的AI系統。
不過與之相對的,物理AI的發展不是孤立的,它需要與現有的AI技術生態深度融合。大語言模型提供了強大的語言理解和推理能力,計算機視覺技術提供了環境感知能力,機器人技術提供了物理執行能力。物理AI正是這些技術融合的產物。
在這個融合過程中,數據流動和處理架構至關重要。物理AI系統需要實時處理來自多個傳感器的海量數據,進行快速決策,并控制執行器完成動作。這對計算架構和算法優化提出了極高要求。
云邊協同是物理AI部署的重要模式。復雜的AI推理可以在云端進行,而實時的控制決策則在邊緣設備上執行。這種架構既能利用云端的強大計算能力,又能滿足實時性要求。
所以阿里也相當于給P物理AI提供了發展的養料。
C
如果說第一代感知AI讓機器學會了看和聽,第二代生成式AI讓機器學會了創造,那么物理AI則讓機器真正學會了行動。
然而,物理AI的發展也面臨著諸多挑戰。首先是技術上的挑戰,如何讓AI系統在復雜的物理環境中穩定運行,如何降低巨大的計算成本以實現技術的普及化應用,這些都是當前亟待解決的問題。此外,仿真訓練與現實應用之間的“現實差距”也是一大難題。盡管仿真可以提供大量數據,但如何確保這些數據在現實世界中的適用性是個關鍵問題。
物理AI或許不會像某些預測那樣迅速顛覆所有行業,但它必將逐步改變我們的工作和生活方式。它不僅是技術的革新,更是對傳統行業的顛覆和重塑。隨著技術的不斷發展和應用場景的拓展,物理AI將成為推動全球經濟增長和社會進步的重要力量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.