可能很多人刷到過一位名為“U航”博主(真名:胡宇航)的視頻,他研發的仿生機器人視頻在各大平臺迅速走紅,播放量累計過億。許多網友直呼作品已近乎跨越“恐怖谷”。
2026年1月14日,仿生機器人臉Emo登上《Science Robotics》開年第一期期刊封面,這項成果同樣出自胡宇航之手。
![]()
公開資料顯示,這是胡宇航博士在讀期間發表的第三篇頂級子刊論文(前兩篇分別發表于2024年的《Science Robotics》與2025年的《Nature Machine Intelligence》)。他的研究聚焦于機器人自主學習與自我建模,并由此創立了“首形科技”,相繼獲得多家頂級投資機構的青睞。
![]()
- Hu, Yuhang, et al. "Human-robot facial coexpression."Science Robotics9.88 (2024): eadi4724.
- Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves."Nature Machine Intelligence(2025): 1-11.
![]()
![]()
*胡宇航(網名“U航”),畢業于美國哥倫比亞大學,博士學位,首形科技創始人。長期專注于機器人自主學習的研究工作。研究成果發表于《Nature Machine Intelligence》,《Science Robotics》等國際頂級期刊。
致力于賦予機器人“自我模型”能力,即構建對自身物理結構與運動的內部表征,使機器人能夠更好地理解自身,并適應多變的形態、環境與任務。在仿生人機交互方向,他提出融合語音、視覺與動作的情4緒理解與表達一體化系統,為機器人提供更加自然的交互能力。通過自監督學習機制,他的方法使機器人在無需人工干預的情況下不斷提升人機互動質量,朝著具備終身學習能力的智能體不斷邁進。
從實驗室的突破到產業的萌芽,胡宇航與他的首形科技,正將前沿的學術探索推向人形機器人的核心挑戰。
▍讓人形機器人擁有能張嘴說話的臉
在生成式AI 賦予了機器人“大腦”之后,一個尷尬的物理鴻溝始終存在:我們擁有了能吟詩作賦的 ChatGPT,但承載它的載體——人形機器人,在開口說話時依然像個蹩腳的腹語表演者。
此次胡宇航博士團隊在頂級期刊《Science Robotics》上發表最新的封面論文,展示了一種全新的軟硬件解決方案:讓人形機器人擁有能張嘴說話的臉。
該研究提出了一種基于Facial Action Transformer (FAT)的自監督學習框架,配合高自由度的柔性機械結構,首次實現了機器人唇部運動對任意語音流的“零樣本”實時生成。
![]()
用于機器人唇形同步的FAT 模型架構。該模型采用獨特的雙路輸入設計來保證動作的連貫性:左側的Transformer 編碼器負責“回顧過去”,處理歷史時刻的電機指令,從而捕捉動作的時間連貫性;右側的Transformer 解碼器則負責“展望目標”,接收來自 VAE 的視覺特征數據,告訴機器人當下和未來應該呈現什么口型。兩者結合后,模型能精準預測出當前所需的電機控制信號。這種架構不僅實現了聲音與唇形的高度同步,還有效消除了機械抖動,確保了從一個口型過渡到下一個口型的平滑自然。
![]()
中間圖:機器人通過攝像頭采集進行學習。
硬件重構:擁有10自由度的嘴
長期以來,機器人面部表情僵硬的核心原因在于機械結構的匱乏。傳統的剛性連桿難以模擬人類面部肌肉極其復雜的形變。
該團隊摒棄了傳統的線驅動結構,設計了一套10個自由度(全臉25-DoF)的專用唇部驅動機制。這套機制被精巧地埋藏在一層可快拆的柔性硅膠“皮膚”之下。多點協同驅動:包括上唇、下唇、嘴角以及下頜。
這種機械設計使得機器人能夠物理實現閉唇音(如/p/、/b/)、圓唇音(如/u/)以及復雜的撮唇動作,為算法提供了物理層面的執行基礎。
![]()
機器人面部硬件系統架構。(A) 系統概覽與交互組件:展示了集成的揚聲器、麥克風及高清攝像頭模塊。重點在于磁吸式快拆連接器,該機構不僅能精準定位柔性硅膠皮膚,還能傳遞推拉雙向動力,是實現復雜唇形動作的關鍵。(B) 機器人實體外觀:覆蓋柔性皮膚后的擬人化形態,其底座內部集成了用于實時處理的邊緣計算單元Nvidia Jetson AGX。(C) 唇部驅動機構特寫:詳示了上唇、下唇及嘴角的連接器布局。通過磁吸接口與支架連接的設計,使得柔性皮膚可以輕松拆卸,便于日常維護或更換個性化面容。
算法核心:從“數字世界”到“物理現實”的跨越
如何讓這10 個電機精準配合一段從未聽過的音頻?研究團隊沒有采用傳統的“基于規則”的編程(即手動寫死‘聽到A音發B動作’),而是讓機器人“自我觀察”。
團隊構建了一個閉環的自監督學習管線(Self-supervised Learning Pipeline)
1.從虛擬到現實(Sim-to-Real):系統首先利用Wav2Lip 等算法,將音頻轉化為數字視頻(Synthesized Video)。這相當于機器人在腦海中構想“如果我完美說話應該長什么樣”,類似今天世界模型(World model),讓機器人生成未來的畫面。
2.視覺編碼(VAE):利用變分自編碼器(VAE),將這些視覺圖像壓縮為高維的“潛變量(Latent Vectors)”。
3.動作生成(Transformer):這是最關鍵的一步。Facial Action Transformer (FAT) 充當了翻譯官,它接收音頻信號和視覺潛變量,直接預測出物理電機所需的運動指令。
這一過程不僅不需要人工標注數據,還讓機器人具備了自我糾錯能力——通過對比攝像頭拍攝的自己(Real Robot)和腦海中的完美構想(Synthesized),不斷優化電機控制策略。
性能驗證:跨越語言的通用性
實驗數據顯示,該系統的唇形同步誤差顯著低于傳統的音頻振幅驅動方法。
更為驚人的是其泛化能力。盡管訓練數據有限,但這臺機器人展示了驚人的語言適應性。在未針對特定語言進行微調的情況下,它成功實現了包括中文、日語、俄語、希伯來語在內的11 種語言的唇形同步。甚至當輸入一段 AI 生成的歌曲時,機器人也能跟隨旋律和歌詞,生成流暢的演唱動作。這意味著,該系統捕捉到了人類發音與面部肌肉協同的底層物理規律,而非簡單的死記硬背。
![]()
多語言唇形同步性能的量化評估:圖中展示了不同語言環境下的同步誤差表現。X軸標簽下方標注的n值代表每種語言測試樣本的視頻總幀數。統計結果顯示,所有非英語語言的同步誤差均未超出英語(基準)的誤差范圍,不僅驗證了模型在不同語音特性下的穩定性,也證實了其具備顯著的跨語言泛化能力(Cross-lingual Generalization)。
結語:具身智能的微表情時代
胡宇航博士等人的這項工作,標志著人形機器人正在從“文本自然交互”邁向“豐富情感交互”的新階段。
當大語言模型解決了“說什么”,這項技術解決了“怎么說”。在未來,隨著人形機器人和多模態大模型技術的進一步突破,我們或許將不再只是通過屏幕與游戲角色/電影明星/AI交互。那張在物理世界中生動、細膩、能與你產生眼神與情感共鳴的臉,將成為人機共存時代最標準的情感接口。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.