人形機器人已經開始量產,但目前“秀拳腳”的仍然多于“擰螺絲”的。它們更多提供的是情緒價值,這或許會成為未來五年的行業常態。要等到 2030 年,機器人才能真正從特定場景走向規模化落地,獨立進廠上崗。
提出這一預見的,是上周末發布的《科技預見與未來愿景2049》,由騰沖科學家論壇與華為戰略研究院等聯合編撰。報告將人形機器人演進劃分為四個階段,對應不同的技術成熟度與市場滲透程度:
(2025/12/7) 閱讀全文>
第一階段(2025 年起):技術與商業化均處于初期探索,任務成功率約為 80%,應用主要集中在開發者市場和情感價值領域;
第二階段(2030 年起):蘊含更多物理維度的模型范式涌現,靈巧手精細操作提升了對復雜場景的適配,機器人開始從特定場景向規模化落地邁進;
第三階段(2035 年起):海量真實場景數據反哺模型優化,數據飛輪發揮作用,機器人不僅上得工廠,還下得廚房;
第四階段(2045 年起):規模經濟推動成本持續下降,高規格機器人整機價格降至數千元,變得像手機一樣普及。
![]()
難怪市場對那些人形機器人浮夸的營銷持懷疑態度,普遍認為其中充滿“障礙法”。真正創造價值的工作意味著,機器人必須像人一樣可靠,至少能夠以相同速度運行,并且在整個生命周期內的總擁有成本要相同或更低。銀河通用創始人王鶴批評,美國人形機器人泡沫嚴重,遙操作常態化,它們過度依賴精美視頻營銷,帶壞了國內企業風氣。
美國的FigureAI聲稱已經為寶馬生產3萬輛汽車做出貢獻,但人們質疑不如把工作交給機械臂更高效;特斯拉的擎天柱在摔倒前做出摘下“不存在的VR頭顯”動作,疑似露出了遠程操作的馬腳。中國已經擁有超過150家人形機器人公司,智元的第5000臺機器人已經走下產線;它們除了參加各式運動會,更多則走進了科研實驗室與數據采集工廠,部分汽車巨頭則給它安插了內部崗位。國家發改委也提醒,要著力防范扎堆上市,擠壓研發空間。
前述報告指出,在接下去的五年里,人形機器人的核心技術挑戰,就在于靈巧手發展滯后、觸覺感知不成熟及訓練數據匱乏。這與華爾街投行近期觀點“轉向”相呼應。摩根士丹利建議押注組件而不是品牌,短期內仍然是“鎬和鏟”的邏輯;高盛則認為,行業正進入尋找“機器人向導”等利基市場的過渡階段。
靈巧手量產
靈巧手對生產力的重要性不言而喻。人類大多數的工作,都是由手來完成的。“人類”就是這樣的生物,大約四分之一的骨頭位于雙手,手指在一生中彎曲和伸展約25萬次,手掌共有17,000個觸覺感受器和游離神經末梢。在美國勞工部的描述中,大約20%需要兩條腿來完成,而高達98.7%的工作,需要靈巧雙手精細操作。
近年來,人形機器人技術專利的重心已經逐漸從下肢結構和步態控制,轉向上肢結構及精細操作。然而,MIT機器人專家Rodney Brooks指出,目前尚無任何靈巧手能在通用場景下展現接近人類的靈活性,也沒有設計能真正投入實際應用。前述報告也總結道,在這一階段,主流的二指夾爪或六自由度靈巧手難以完成精細操作,而高自由度靈巧手的企業仍處于起步階段。雖然接近量產形態的方案已開始出現,但它們仍需在實際應用中不斷驗證、優化和迭代。
馬斯克對此判斷應當深有同感。特斯拉原計劃今年就發布第三代擎天柱(Optimus),但在三季度財報電話會上確認,它將延期到明年一季度。在所有零部件供應商中,靈巧手是最后才確定下來的。為了增加自由度,特斯拉將靈巧手的執行器數量,從17個提升至22個,它的內部結構更為復雜,容易在高頻共振和轉動中磨損,逐步丟失應有的精度;電機散熱不足也導致使用壽命下降。第二代擎天柱的靈巧手,單只成本6000美元,用它完成分揀快遞工作,平均壽命只有六周。
更多物理維度
缺乏更多物理維度的數據,同樣制約了精細操作技術的成熟。純視覺感知存在天然盲區,無法捕捉物體的硬度、彈性等關鍵力學特性。這也是為什么前述報告提出,VTLA(視覺-觸覺-語言-動作)模型有望取代現有的VLA(視覺-語言-動作)模型,成為未來主流方案。通過融入觸覺模態,VTLA能補充關鍵力學信息,大幅降低接觸密集型任務的失敗率;同時,憑借多模態整合能力,機器人可以通過少量交互提煉通用規律,實現跨場景的靈活遷移。
但這涉及到數據的采集與處理。Rodney Brooks就指出,目前主流數據采集手段都忽視了手腕力反饋與觸覺等信息。事實上,這更是技術局限。人類對觸覺的感知僅限于“即時直接體驗”,尚未開發出“捕捉、存儲、遠程傳輸”觸覺的技術,更無法將觸覺信息“重放”給自身或他人。
觸覺本質上是由多種傳感器和復雜處理機制構成的系統,其傳遞的信息隨時間和運動狀態不斷變化,遠比單純的局部壓力豐富。即便是打開冰箱門這樣的日常動作,人形機器人也難以做到順滑自然,因為它無法連續感知并動態調整施力,無法應對門在剛開啟瞬間,以及不同開啟角度下的力學變化。
學界與業界正在積極探索解決方案,但技術仍遠未收斂。亞馬遜擁有龐大的機器人隊伍,超過100萬,其中,它將旗下笨重的物流機器人Vulcan描述為“首個真正具有觸覺的機器人系統”,配置了多個傳感器,可以根據物品的大小和形狀,調整它們的抓握力,不至于破壞包裹。智元機器人的啟元大模型GO-1,可以接收來自視觸覺傳感器的力學信號,進行通用的場景感知和指令理解。所謂視觸覺傳感器,就是通過攝像頭捕捉柔性材料的形變等視覺特征,并將其映射為受力面和受力大小等觸覺信息。
數據飛輪
與大型語言模型疑似觸及預訓練擴展邊際不同,真正值得人形機器人擔心的問題是,行業離真正勾勒出那條擴展定律曲線都為時尚早。物理世界中蘊藏的數據量本應巨大,但當前可用數據遠不及自然語言,更不用說如何將這些數據的質量、分布、多樣性和覆蓋范圍轉化為可用于指導模型性能優化的工程指標。
訓練人形機器人,需要龐大數據量。在過去一年里,特斯拉一直都在擴容自己的AI算力基礎設施。按照馬斯克的預估,對人形機器人的訓練需求,可能至少是自動駕駛所需的10倍。前述報告稱,數據匱乏問題,會在靈巧手硬件穩定,以及觸覺等物理維度信息更為豐富后,逐步得以解決。海量真實場景數據將反哺模型優化。這免去了目前專門數據采集的高昂成本,類似特斯拉用戶“付費”向FSD提供真實駕駛數據。在數據真正得以“精煉”之前,中國同樣難言產業場景優勢。
但是,從VLA模型到VTLA模型,本質上仍然是對多模態模型的修修補補。在視覺語言先驅李飛飛看來,自然語言的上下文帶寬太窄,難以描述復雜動作與物理維度,裝不下三維世界。世界模型是被寄予眾望的下一個范式。它可以基于前一幀畫面與機器人動作,預測下一幀畫面。年內,李飛飛的世界實驗室(World Labs)拿出了Marble,楊立昆離職創辦了先進機器智能(AMI),華為哈勃基金投資了這一領域的極佳視界。
人形機器人批量上崗擰螺絲,會比2030年更早嗎?量產靈巧手、融合觸覺感知以及加速數據飛輪,中國能比美國更快嗎?也許在下一年《科技預見與未來愿景》報告中就能找到答案與線索。
報告下載方式:
點擊鏈接
科技預見與未來愿景2049
或公眾號后臺發送關鍵詞:2049
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.