![]()
本文第一作者來自廈門大學信息學院空間感知與計算實驗室(ASCLab)2025級博士生李明哲、2024級碩士生劉夢茵,通訊作者為廈門大學沈思淇副教授,并由吳澤凱、林心成、張俊圣、顏明、謝曾燁、張長旺(OPPO研究院)、溫程璐教授、許嵐研究員(上海科技大學)、王程教授共同合作完成。研究團隊長期聚焦于3D人體姿態估計、快速人體運動捕捉及相關多模態數據集構建。實驗室主頁:https://asc.xmu.edu.cn/
在各種機器人大會和短視頻里,我們經常看到這樣的畫面:機器人能跑、能跳、能跳舞,甚至能打拳、做體操。它們看起來已經“很像人”,但是還是不夠像,我們可以輕易地從機器人的外殼、皮膚、金屬關節看出來這個是機器人,而不是人類。如果我們忽略掉它們的外表,只看機器人純粹的運動軌跡,它們還像人嗎?會不會很像?
廈門大學、OPPO研究院、上海科技大學聯合提出的 “運動圖靈測試”(Motion Turing Test),首次為這個問題立下了“標尺”。這項工作已被CVPR 2026接收,數據集、代碼、評測基準將全面開源!
![]()
- 論文標題:
Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots
- 論文鏈接:
https://arxiv.org/abs/2603.07334
- 論文主頁:
http://www.lidarhumanmotion.net/mtt/
從圖靈測試,到“運動圖靈測試”
如果直接把機器人的測試視頻拿給人類看,由于當前的機器人大多帶有金屬外殼或裸露的關節,測試者只需一秒鐘就能通過“視覺外觀”判斷出它是機器人。
受經典“圖靈測試”啟發,研究者提出了一個新問題:如果只看“動作”,你還能分辨人類和機器人嗎?
這就是論文提出的運動圖靈測試:去掉所有外觀信息,只保留“運動本身”,去區分一段動作是來自人類還是機器人。
研究者把所有人類和機器人的視頻,都轉換成SMPL-X 3D骨骼模型——去掉皮膚、外殼、表情,只留下純粹的運動軌跡。
在這個“動作裸考”中,機器人的真實水平藏不住了:
- 走路、站立這類平緩動作,得分勉強夠到人類的一半多;
- 跳躍、拳擊這類高動態動作,機器人得分連人類的三成都不到;
- 拳擊分差達2.53,跳躍分差直接突破3.23(滿分5分)。
原來,真正讓機器人“不像人”的,不是外形,而是動作本身的僵硬、斷裂、缺乏協調。
![]()
圖1:圖靈測試概念圖
HHMotion數據集:1000段動作,500小時人工打分
為了支撐這一測試,研究團隊構建了Human-Humanoid Motion (HHMotion)數據集。這是首個直接對比人機運動、聚焦“擬人性”評分的數據集。
特點可以總結為三個關鍵詞:
1?? 真正的人機對比
- 11種先進人形機器人(如 Unitree、PM01)
- 10位真實人類
- 同一套動作體系
2?? 動作覆蓋廣
共15類動作,包括:
- 日常動作:站立、行走
- 動態動作:跳躍、拳擊、踢球等
3?? 高質量人類標注
- 30位標注者
- 1000個動作片段
- Likert 0–5評分(0表示完全像機器人,5表示完全像人類)
總標注時長:500+小時
![]()
表1:HHMotion數據集與原先數據集對比
數據分析發現,機器人在不同動作上呈現出明顯的能力不均衡現象。
在行走(分差 1.31)、坐下(分差 1.55)等相對平緩的動作上,機器人表現更接近人類;
在跳躍(分差 3.23)、拳擊(分差 2.53)、跑步(分差 2.26)等高動態動作上,機器人與人類仍存在顯著差距。
為什么動態動作這么難?
因為人類的跳躍、拳擊,需要全身協調、重心控制、本能調整——這些是機器人目前最缺的。
哪怕姿勢復刻得再準,動作的“斷裂感”和“機械感”,人類一眼就能識破。
有趣的是,研究者還讓人類刻意模仿機器人的僵硬動作,結果這些“人學機”的動作,和機器人的打分出現了重疊——這說明:類人度的關鍵,不是“姿勢像”,而是“節奏像”。
PTR-Net:當大模型遇上“專業特長生”
你可能覺得:多模態大模型這么強,評估動作應該不難吧?結果讓人大跌眼鏡:
- Gemini 2.5 Pro 平均絕對誤差(MAE)最低 1.26
- Qwen3-vl-plus 更是高達 1.77
- 而研究者提出的 PTR-Net,MAE 只有 0.58
為什么大模型會輸?
因為它們擅長的是“語義理解”,而不是“細粒度運動特征捕捉”。
大模型看視頻,關注的是“這是什么動作”,而不是“這個動作流暢嗎、協調嗎、自然嗎”。
而 PTR-Net 專為運動而生:
- 雙向LSTM 捕捉時間節奏
- 時空圖卷積(ST-GCN) 建模關節協調
- 注意力池化 聚焦關鍵動作片段
它把“類人度評估”做成一個定量回歸任務,學的是人類打分的“感覺”,而不是簡單的“人/機二分類”。
這不是大模型的失敗,而是“專精模型”的價值體現。
![]()
圖2:PTR-Net 架構圖
而 PTR-Net 不僅能打分,還能作為強化學習的獎勵模型,引導機器人生成更自然的運動。
未來,我們可能真的能看到機器人動得像人一樣自然、協調、有節奏。
![]()
圖3:PTR-Net 與人類打分對比的可視化
此外,我們還對最新一代人形機器人進行了額外測試,其中包括在2025 年底發布、備受關注的小鵬機器人XPeng IRON。
在運動圖靈測試的“去外觀評估”下,小鵬機器人的表現令人驚喜: PTR-Net 預測其類人得分為4.25,與人類真實打分4.36高度一致,已經非常接近“難以區分人類與機器”的臨界水平。
換句話說——如果只看動作軌跡,不看外形,它已經在相當多的場景中“接近人類”。
![]()
圖4:OOD樣本打分結果
這并不是偶然現象。從我們采集的數據來看,當前一批領先的人形機器人(例如宇樹 Unitree G1、小鵬 IRON、眾擎EngineAI PM01等)在行走、站立、簡單節奏動作上,已經展現出明顯的“類人趨勢”。
人形機器人的未來
我們從小就會走路、跑步、跳躍,從不用想該怎么動關節。這份與生俱來的自然,是目前最先進的機器人都難以復刻的。人類的運動,是億萬年進化的結果,是大腦、神經、肌肉、骨骼的完美協同。
它比邏輯推理、語言理解更基礎,也更珍貴。人形機器人的發展,看似是技術的迭代,實則是人類對自身的不斷解構和理解。而運動圖靈測試,就是這份理解的“標尺”。
當有一天,機器人的運動能通過運動圖靈測試,人類無法區分“是人還是機”時,我們收獲的,不僅是一個更智能的機器人,更是對什么是人的一次全新認知。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.