過去一年,具身智能屢次被推向行業聚光燈中心。
一邊是融資熱潮涌動、演示視頻刷屏出圈,機器人不斷解鎖更復雜的動作能力;另一邊卻是落地場景受限、穩定性欠佳,成本與安全性等核心問題仍未破局的現實困境。
雖然行業熱度空前,但真正的問題也開始浮現:具身智能究竟處在怎樣的技術階段?它距離被廣泛使用、被規模化部署還有多遠?
在2月10日舉辦的原力靈機技術開放日上,圍繞Physical AI Next(下一代物理AI)展開的圓桌討論中,來自學術界、研究機構與產業一線的多位參與者并未急于給出樂觀結論。
相反,“還遠沒有到具身智能的‘ChatGPT時刻’”幾乎成為共識。無論是模型能力、硬件成熟度,還是數據、評測與標準體系,具身智能都仍處在高度未收斂的階段。模型路線尚在分化,真機部署暴露出的系統性問題,比仿真環境中更加真實而復雜。
![]()
原力靈機技術開放日活動現場 圖片來源:每經記者 可楊 攝
“還遠沒有到具身的‘ChatGPT時刻’”
具身智能正在經歷一輪前所未有的關注度上升,但在熱度背后,技術成熟度與產業現實之間的張力被反復提及。
北京智源人工智能研究院院長王仲遠直言,當前具身智能特別火熱,但火熱背后也伴隨著很多隱憂。他從硬件和模型兩個層面拆解了這種不平衡:一方面,硬件能力的進步是肉眼可見的,機器人從“能走路”到“能跑起來”,再到“能干活”;另一方面,連續工作的穩定性、安全性以及電池等一系列問題仍未解決。
與此同時,王仲遠也提到,當具身智能的模型和硬件真正部署到真機后,行業才意識到,“離我們真正希望的大規模應用還是有比較大的鴻溝”。
在模型層面,王仲遠的判斷同樣謹慎。他指出,無論是分模塊的“VLM(視覺語言模型)+控制”方案或端到端的VLA(視覺-語言-行為大模型)方案,還是當前研究熱度很高的世界模型,整體仍處在探索階段。
“我認為,現階段還遠遠談不上能自豪地宣稱,具身智能已經迎來根本性突破。”在王仲遠看來,更現實的路徑或許并非一次性解決泛化問題,而是要在一個個真實的場景里,先把活干起來,累積更多的數據,形成數據閉環,最后再來解決泛化性的問題。
從硬件的視角,清華大學電子工程系長聘教授汪玉認為,當前機器人展示的能力大多仍局限在一個工作臺上,而一旦任務被拉長,就需要大小腦配合;而一旦任務被放入真實空間,則需要跨模態工作,復雜度便急劇上升。
汪玉用從“疊一件衣服”到“收拾整個屋子”來舉例。他指出,二者之間的難度跨越絕非僅停留在執行單一動作層面,后者需要感知整體環境、確立任務目標,進而持續完成跨模態、多步驟的復雜任務。
在這個問題上,汪玉并未將答案完全指向模型突破,而是提出了一個更底層的反問:如果未來機器人真的要進入人的生活空間,是否需要“這個屋子本身也要發生變化”?在他看來,當前物理環境完全是圍繞人設計的,要求機器以100%的人類感知能力去感知和適應并不合理。借鑒車路協同的思路,通過基礎設施、環境側的改造,或許能為機器智能的持續進步提供另一條路徑。
何為具身智能的“ChatGPT時刻”尚無共識
在追問變革是否已經到來之前,“什么才算具身智能的‘ChatGPT時刻’”依舊是行業分歧之一。
階躍星辰創始人兼CEO(首席執行官)姜大昕從大模型產業本身的經驗出發,強調這一時刻的核心標志在于實現零樣本泛化,即模型面對以前沒有見過的情況也能理解指令并完成任務。
“如果對比自然語言,我覺得具身智能的‘ChatGPT時刻’會更加困難一些。”姜大昕認為,具身智能的泛化并非單一維度,而是同時發生在場景、任務和目標等多個層面。不同維度的組合導致“我們究竟在哪個維度上定義‘ChatGPT時刻’,還沒有形成共識”。
從技術角度看,姜大昕回顧了自然語言處理在Transformer(指模型架構)出現前后的路徑分野。他認為,NLP(自然語言處理)之所以能夠實現快速躍遷,關鍵在于它解決了自監督預訓練的問題,從而能夠壓縮海量互聯網知識,進而能夠完成復雜任務。而在具身智能中,行業對視覺的編碼方式和3D空間的推理機制等“非常根本性的問題”仍未形成統一認知。在他看來,行業可能需要等到這些問題有了新的突破才能真正跨越到“ChatGPT時刻”。
星海圖創始人兼CEO高繼揚則給出了一個更產業化的判斷。他認為,具身智能與大語言模型在產業形態上存在本質差異:大模型的稀缺環節幾乎只在模型本身,模型即產品,模型好了,整個商業化、產業化的鏈條也都具備了;具身智能的鏈條更長,零部件供應鏈尚不成熟、整機規模不足、渠道和終端高度線下化,這些都決定了算法并不能單獨構成拐點。
在這樣的前提下,高繼揚更傾向于將具身智能的“ChatGPT時刻”理解為“在某些限定范圍內具備商業價值的時刻”。他判斷,隨著整機、供應鏈、數據和模型在過去兩年逐步補齊,2026年可能成為一個關鍵節點。
“2026年是形成‘應用閉環’的一年。2025年上半年,我們明顯看到具身智能尚處于起步探索階段;2025年下半年,其發展速度迎來顯著提速。2026年有望成為具身智能技術的爆發之年,技術爆發將推動部分應用領域形成場景外溢效應,并與供應鏈、整機產品形成協同聯動。”高繼揚表示。
原力靈機聯合創始人兼CEO唐文斌則進一步降低了這一時刻的門檻。在他看來,姜大昕所定義的“ChatGPT時刻”更接近于實現AGI目標(實現通用人工智能)。唐文斌更強調,具身智能的“ChatGPT時刻”,核心是要在限定場景中完成閉環、算清ROI(投資回報比),并實現規模化落地應用。“ChatGPT給我們帶來最大的震撼是什么?我們曾經把它當成一個玩具,但是在那一刻(即ChatGPT時刻),我們認為它是一個工具,它變成一個可用的東西。”
在唐文斌看來,當機器人從玩具變成工具,這一刻便已經具備了“ChatGPT時刻”的意義。
真機評測、標準與規模化,成為行業共識的落腳點
如果說關于終極形態的判斷仍然分散,那么行業對“接下來該做什么”這一問題則逐漸形成一條清晰的共識路徑:真機、評測與標準。
唐文斌坦言,當前具身智能面臨的并非單點能力不足,而是整個技術架構的缺失。“不管是數據還是硬件,我們今天在訓練推理乃至整個鏈條上缺的東西非常多,評測也缺。”
在他看來,如果無法評測真實能力,模型就無法真正進化,現有的行業榜單規模有限。“(榜單上的)九十九點幾分能代表當前真實的能力嗎?顯然不能,所以我們覺得非常需要來自物理世界、基于物理世界真實的、大規模的、真機的評測,才能夠引導我們能夠更好向前。”
高繼揚也提到,具身智能未來也會形成垂類的概念,而垂類一定是來自真實需求,將這些真實需求落到真機的測評中,才能給企業及需求方一個公允的迭代環境。“很多時候AI還是實驗科學,它有一定的原理、數學做支撐,但最終很多事還是要試出來,試這個東西就要有反饋,反饋就要有評測。”
汪玉則將這一評測體系與未來的開放生態聯系起來。他認為,高頻、可持續的真實世界評測,比低頻的大型比賽更具推動力,而這一體系最終應當以更公益、更開放的方式存在,通過開源框架、硬件、數據和評測,形成對整個行業的基礎支撐。
在展望2026年時,王仲遠明確表示,相比模型能力的單點突破,他更期待在硬件、數據和模型輸出等層面形成統一標準,從而降低驗證和復現成本,推動生態協同。“現在不管是硬件的標準、數據的標準,包括模型輸出的標準,整個生態非常碎片化。”
唐文斌則將目標聚焦在“一個場景、一千臺、持續運行”這一極具操作性的指標上。在他看來,規模化并非通過場景疊加實現,而是在單一場景中跑通閉環,這才意味著具身智能真正邁過產業化門檻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.