![]()
胡宇航(網名 “U 航”),畢業于美國哥倫比亞大學,博士學位,首形科技創始人。長期專注于機器人自主學習的研究工作。研究成果發表于《Nature Machine Intelligence》,《Science Robotics》等國際頂級期刊。致力于賦予機器人 “自我模型” 能力,即構建對自身物理結構與運動的內部表征,使機器人能夠更好地理解自身,并適應多變的形態、環境與任務。在仿生人機交互方向,他提出融合語音、視覺與動作的情緒理解與表達一體化系統,為機器人提供更加自然的交互能力。通過自監督學習機制,他的方法使機器人在無需人工干預的情況下不斷提升人機互動質量,朝著具備終身學習能力的智能體不斷邁進。
![]()
論文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017
曾發表論文:
- Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.
- Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.
- https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg
2026 年 1 月 15 日,一項來自美國哥倫比亞大學工程學院的突破性研究正式發表于《Science Robotics》,并登上期刊封面。該研究展示了一項全新的機器人技術:一臺具備仿生面部結構的人形機器人,通過深度學習實現與語音和歌曲同步的真實唇部運動。它能跟著人類的語言精準張合嘴唇,甚至,能跟著音樂唱歌。標志著人形機器人在人類最豐富的交流通道之一唇部表達上,邁出了突破性一步。
為什么 “嘴唇” 如此重要?
研究顯示,在面對面的交流中,人類將近一半的注意力集中在唇部運動上。我們或許能容忍機器人走路笨拙、手部動作僵硬,但哪怕極其輕微的不自然面部表情,都會立刻引發本能的不適。這正是著名的 “恐怖谷”。
長期以來,即便是最先進的人形機器人,在 “說話” 時也只能做出類似木偶的張合動作 —— 如果它們有臉的話。但這一次,情況正在發生改變。
一個會自主學習表情的機器人
在這項研究中,研究團隊打造了一張高度仿生的機器人面孔:
在一層柔性硅膠皮膚之下,隱藏著20 余個微型電機,能夠快速、安靜且協同地驅動唇部形變。
![]()
圖 2. 機器人唇形硬件結構。(A)面部機器人設計概覽,重點展示了人機交互關鍵組件:包括揚聲器、麥克風、高清攝像模塊,以及用于固定柔軟硅膠面皮的磁吸式快拆連接器。該連接器能實現面皮的精準定位,并通過推拉雙向運動驅動硅膠面皮,完成說話時所需的復雜唇部動作。(B)搭載柔軟硅膠面皮的人形機器人外觀展示。其底座內部集成有邊緣計算設備。(C)唇部驅動系統特寫,展示上唇、下唇與唇角連接器分別對應固定于相應唇部支架。柔軟可替換的面皮通過磁吸連接器固定,可便捷拆卸以進行維護或個性化調整。
隨后,機器人被 “帶到鏡子前”…
就像一個第一次對著鏡子學做表情的孩子,機器人通過觀察自己面部在不同電機驅動下的變化,構建 Facial Action Transformer (FAT) 模型,逐漸學會如何控制自己的臉(機器人自我建模 Robotic Self-modeling)。研究團隊將這一過程稱為一種 “視覺 — 動作” 的自監督學習
![]()
圖 3. 機器人能實現的口型及其對應音標展示。該機器人展示了再現關鍵英語音標的能力,例如爆破音(/p/ 和 /b/)、雙唇音(/m/)以及圓唇元音(/u/ 和 /o/)。通過獨立控制上唇、下唇及嘴角,每幀圖像均捕捉到其實現的典型唇部運動效果。這些數據為機器人在說話時實現正確的唇形匹配奠定了基礎。
依靠純聲音驅動嘴形動作
接著,機器人通過觀看合成的機器人視頻(通過 Wav2Lip)在不同語音語料(由 TTS 和 ChatGPT 生成)的真實唇部變化,進一步學習聲音與唇部運動之間的對應關系。最終,這兩種能力被整合在一起 —— 機器人得以將收到的聲音信號,直接轉化為連續、自然的唇部運動。無需理解語義,機器人已經能 “對得上口型”。
![]()
圖 4. 機器人唇形同步的自監督學習框架。 (A) 數據收集階段:機器人通過與語音相關的隨機指令自主生成數據集,利用 RGB 攝像頭捕捉廣泛的唇部運動,以獲取 3D 唇形數據。(B) 部署過程:始于來自 ChatGPT 的文本輸入,文本被轉換為音頻,隨后利用 Wav2Lip 技術合成機器人視頻。利用真實機器人視頻及其對應指令,訓練由編碼器和解碼器(VAE)組成的機器人逆向變換器,以生成平滑、準確、可供真實機器人執行的電機指令。
多語言能力
研究團隊測試了機器人在多種語言、不同語音環境甚至歌曲中的表現。結果顯示,即使在復雜的語音節奏下,機器人也能完成連貫的唇部同步,甚至演唱來自其 AI 生成的曲目。
機器人多語言口型對齊能力
![]()
圖 5. 多語言唇語同步性能量化表現。x 軸標簽下方標注的樣本量 n 對應每種語言的測試句子視頻幀數。結果表明,所有非英語語言的同步誤差均保持在英語誤差范圍內,顯示出穩健的跨語言泛化能力。
當然,這還不是終點。研究者坦言,像 “B” 這類需要完全閉唇的音,以及 “W” 這類涉及明顯撮唇的發音,仍然存在挑戰。但關鍵在于 ——這是一種可以隨著學習持續進化的能力,而不是寫死的規則。
跨越恐怖谷的 “缺失環節”
在研究者看來,面部表情 —— 尤其是唇部的自然運動,正是長期以來機器人能力中的 “缺失環節”。“當前的人形機器人更多關注行走和抓取,但凡是需要與人面對面交流的場景,面部表達同樣關鍵。”
隨著人形機器人逐漸進入娛樂、教育、醫療、陪護等高度依賴情感溝通的領域,一張溫暖、自然、可信的‘臉’將不再是加分項,而是入場券。經濟學家預測,未來十年全球或將制造超過十億臺人形機器人進入人們的生活場景。而幾乎可以確定的是 —— 它們不可能都沒有臉。
從實驗室走向現實
這項封面研究,不僅是一次學術突破,也展示了中國學者在國際人形機器人領域具備獨特的創新能力。
第一作者胡宇航博士表示,當唇部同步能力與對話型大模型結合時,機器人與人類之間的連接將發生質變。“我們交流中有大量情感信息并不在語言本身,而在面部和身體語言中。機器人正在開始觸碰這條通道。”
當機器人真正學會像人一樣 “說話” 和 “表達”,
恐怖谷,正在被一步步填平。
人類與機器人的信任和情感,將會迎來新的篇章。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.