網易首頁 > 網易號 > 正文申請入駐

機器人真的「像人」了嗎？我們做了一場只看動作的圖靈測試

2026-03-30 11:26:59　來源: 機器之心Pro

河北舉報

分享至

本文第一作者來自廈門大學信息學院空間感知與計算實驗室（ASCLab）2025級博士生李明哲、2024級碩士生劉夢茵，通訊作者為廈門大學沈思淇副教授，并由吳澤凱、林心成、張俊圣、顏明、謝曾燁、張長旺（OPPO研究院）、溫程璐教授、許嵐研究員（上海科技大學）、王程教授共同合作完成。研究團隊長期聚焦于3D人體姿態估計、快速人體運動捕捉及相關多模態數據集構建。實驗室主頁：https://asc.xmu.edu.cn/

在各種機器人大會和短視頻里，我們經常看到這樣的畫面：機器人能跑、能跳、能跳舞，甚至能打拳、做體操。它們看起來已經“很像人”，但是還是不夠像，我們可以輕易地從機器人的外殼、皮膚、金屬關節看出來這個是機器人，而不是人類。如果我們忽略掉它們的外表，只看機器人純粹的運動軌跡，它們還像人嗎？會不會很像？

廈門大學、OPPO研究院、上海科技大學聯合提出的 “運動圖靈測試”（Motion Turing Test），首次為這個問題立下了“標尺”。這項工作已被CVPR 2026接收，數據集、代碼、評測基準將全面開源！

論文標題：

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

論文鏈接：

https://arxiv.org/abs/2603.07334

論文主頁：

http://www.lidarhumanmotion.net/mtt/

從圖靈測試，到“運動圖靈測試”

如果直接把機器人的測試視頻拿給人類看，由于當前的機器人大多帶有金屬外殼或裸露的關節，測試者只需一秒鐘就能通過“視覺外觀”判斷出它是機器人。

受經典“圖靈測試”啟發，研究者提出了一個新問題：如果只看“動作”，你還能分辨人類和機器人嗎？

這就是論文提出的運動圖靈測試：去掉所有外觀信息，只保留“運動本身”，去區分一段動作是來自人類還是機器人。

研究者把所有人類和機器人的視頻，都轉換成SMPL-X 3D骨骼模型——去掉皮膚、外殼、表情，只留下純粹的運動軌跡。

在這個“動作裸考”中，機器人的真實水平藏不住了：

走路、站立這類平緩動作，得分勉強夠到人類的一半多；
跳躍、拳擊這類高動態動作，機器人得分連人類的三成都不到；
拳擊分差達2.53，跳躍分差直接突破3.23（滿分5分）。

原來，真正讓機器人“不像人”的，不是外形，而是動作本身的僵硬、斷裂、缺乏協調。

圖1：圖靈測試概念圖

HHMotion數據集：1000段動作，500小時人工打分

為了支撐這一測試，研究團隊構建了Human-Humanoid Motion (HHMotion)數據集。這是首個直接對比人機運動、聚焦“擬人性”評分的數據集。

特點可以總結為三個關鍵詞：

1?? 真正的人機對比

11種先進人形機器人（如 Unitree、PM01）
10位真實人類
同一套動作體系

2?? 動作覆蓋廣

共15類動作，包括：

日常動作：站立、行走
動態動作：跳躍、拳擊、踢球等

3?? 高質量人類標注

30位標注者
1000個動作片段
Likert 0–5評分（0表示完全像機器人，5表示完全像人類）

總標注時長：500+小時

表1：HHMotion數據集與原先數據集對比

數據分析發現，機器人在不同動作上呈現出明顯的能力不均衡現象。

在行走（分差 1.31）、坐下（分差 1.55）等相對平緩的動作上，機器人表現更接近人類；

在跳躍（分差 3.23）、拳擊（分差 2.53）、跑步（分差 2.26）等高動態動作上，機器人與人類仍存在顯著差距。

為什么動態動作這么難？

因為人類的跳躍、拳擊，需要全身協調、重心控制、本能調整——這些是機器人目前最缺的。

哪怕姿勢復刻得再準，動作的“斷裂感”和“機械感”，人類一眼就能識破。

有趣的是，研究者還讓人類刻意模仿機器人的僵硬動作，結果這些“人學機”的動作，和機器人的打分出現了重疊——這說明：類人度的關鍵，不是“姿勢像”，而是“節奏像”。

PTR-Net：當大模型遇上“專業特長生”

你可能覺得：多模態大模型這么強，評估動作應該不難吧？結果讓人大跌眼鏡：

Gemini 2.5 Pro 平均絕對誤差（MAE）最低 1.26
Qwen3-vl-plus 更是高達 1.77
而研究者提出的 PTR-Net，MAE 只有 0.58

為什么大模型會輸？

因為它們擅長的是“語義理解”，而不是“細粒度運動特征捕捉”。

大模型看視頻，關注的是“這是什么動作”，而不是“這個動作流暢嗎、協調嗎、自然嗎”。

而 PTR-Net 專為運動而生：

雙向LSTM 捕捉時間節奏
時空圖卷積（ST-GCN）建模關節協調
注意力池化聚焦關鍵動作片段

它把“類人度評估”做成一個定量回歸任務，學的是人類打分的“感覺”，而不是簡單的“人/機二分類”。

這不是大模型的失敗，而是“專精模型”的價值體現。

圖2：PTR-Net 架構圖

而 PTR-Net 不僅能打分，還能作為強化學習的獎勵模型，引導機器人生成更自然的運動。

未來，我們可能真的能看到機器人動得像人一樣自然、協調、有節奏。

圖3：PTR-Net 與人類打分對比的可視化

此外，我們還對最新一代人形機器人進行了額外測試，其中包括在2025 年底發布、備受關注的小鵬機器人XPeng IRON。

在運動圖靈測試的“去外觀評估”下，小鵬機器人的表現令人驚喜： PTR-Net 預測其類人得分為4.25，與人類真實打分4.36高度一致，已經非常接近“難以區分人類與機器”的臨界水平。

換句話說——如果只看動作軌跡，不看外形，它已經在相當多的場景中“接近人類”。

圖4：OOD樣本打分結果

這并不是偶然現象。從我們采集的數據來看，當前一批領先的人形機器人（例如宇樹 Unitree G1、小鵬 IRON、眾擎EngineAI PM01等）在行走、站立、簡單節奏動作上，已經展現出明顯的“類人趨勢”。

人形機器人的未來

我們從小就會走路、跑步、跳躍，從不用想該怎么動關節。這份與生俱來的自然，是目前最先進的機器人都難以復刻的。人類的運動，是億萬年進化的結果，是大腦、神經、肌肉、骨骼的完美協同。

它比邏輯推理、語言理解更基礎，也更珍貴。人形機器人的發展，看似是技術的迭代，實則是人類對自身的不斷解構和理解。而運動圖靈測試，就是這份理解的“標尺”。

當有一天，機器人的運動能通過運動圖靈測試，人類無法區分“是人還是機”時，我們收獲的，不僅是一個更智能的機器人，更是對什么是人的一次全新認知。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.