當人與人面對面交流時,唇部動作是核心關注焦點之一。迄今為止,機器人始終難以精準模擬唇部動作,而人類對自身面部神態的關注度極高,尤其對唇部動作更為敏感——我們或許能包容機器人怪異的步態、笨拙的手部動作,但哪怕是極其細微的表情失誤,都很難被接受。這種嚴苛的評判標準,正是人們常說的“恐怖谷效應”。如今,美國研究人員開發的擬人面部機器人Emo,正試圖通過唇語同步與表情預判技術,打破這一桎梏。
![]()
核心突破:跨語言唇語同步與預判式表情系統
Emo的核心優勢在于能將唇部動作與語音音頻精準同步,呈現出更貼近人類的自然表情,且系統具備跨語言泛化能力,可覆蓋法語、中文、阿拉伯語等多種語種。這款機器人旨在優化人機社交交互體驗,不僅支持面部表情的非對稱呈現,硬件配置也較第一代Eva機器人實現全面升級。
具體來看,其面部采用磁吸式貼合設計,可驅動仿生皮膚靈活形變,相較傳統繩索傳動系統,控制精度大幅提升;同時面部嵌入高分辨率RGB攝像頭,能實現實時視覺感知,精準預判對話對象的表情變化;系統內置的雙神經網絡架構更是關鍵,其中自模型負責預測Emo自身的面部表情,交互模型則專注于預判人類對話者的表情。搭配23個面部表情驅動電機與3個頸部運動驅動電機,Emo可實現表情實時同步,與人類達成自然的表情呼應。
哥倫比亞研究人員表示,當前同類技術共有五種,而Emo所采用的新技術表現更優,能最大程度縮小機器人唇部動作與理想參考視頻的差異。“該框架可針對11種語音結構各異的非英語語種,生成自然逼真的唇部動作。”研究團隊強調,這一技術未來有望廣泛應用于教育、養老等需要高頻人機交互的領域。
訓練與性能:視頻自主學習+超高幀率實時響應
在人機交互場景中,當前多數機器人采用被動響應模式,即人類做出動作后才模仿相應表情,交互體驗極為生硬。而預判式表情能提前預測人類情緒并生成對應表情,是實現真實、高情商人機交互的核心關鍵,比如機器人主動的微笑表情,就能有效增強人類對其的信任與社交聯結。
要實現這一目標,預判人類表情變化是Emo面臨的核心技術難點,唯有精準預判才能為動作執行預留充足時間。為此,研究人員招募了45名受試者,錄制970段視頻數據,以此訓練出一套高效的預判式面部表情模型。該模型能捕捉人類面部表情的初始變化,并準確預測后續表情發展趨勢。在訓練過程中,輸入幀從表情峰值周圍的四個幀中隨機選取,標簽則由隨后的四個幀提供,確保了模型預測的精準性與泛化性。
出色的硬件與算法協同,帶來了極致的響應速度。在2019款蘋果MacBook Pro上,預判模型的運行幀率可達650幀/秒,逆模型的電機指令執行幀率更是高達8000幀/秒,這使得機器人能在0.002秒內完成表情生成。而人類面部表情的生成通常需要0.841±0.713秒,這為機器人實現實時表情響應預留了充足的緩沖時間。借助預判模型與逆模型的協同作用,機器人無需直接觀測目標面部,就能與人類實現面部表情的同步呈現。
值得一提的是,哥倫比亞團隊開發的系統首次實現了機器人通過自主學習掌握適用于說話、唱歌等任務的面部唇部動作。它不僅能清晰說出多種語言的詞匯,甚至還演唱了人工智能原創專輯《你好,世界》(Hello World)中的歌曲。機器人的學習過程極具“自主性”:先對著鏡子觀察自身影像,摸清26個面部驅動電機的操控方式,隨后通過觀看YouTube視頻,自主學會了模仿人類的唇部動作。“機器人系統與人類互動越頻繁,表現會越出色。”哥倫比亞大學教授霍德·利普森(Hod Lipson)表示。
挑戰與展望:攻克語音難題,邁向全面人機融合
讓機器人精準實現唇部動作,并非易事,主要面臨兩大核心挑戰:一是硬件支持,需要具備靈活變形能力的仿生皮膚和高性能微型驅動電機;二是技術層面,唇部運動是一套復雜的動態過程,其變化規律由一連串語音音節和音素共同決定。人類的唇部動作由幾十塊肌肉協同驅動,這使得人形機器人的面部動作極易顯得生硬、不自然,進而引發“恐怖谷效應”。
目前來看,哥倫比亞團隊開發的系統在唇部動作模擬上仍有提升空間。利普森坦言:“我們在模擬爆破音(比如B)和噘唇音(如字母W的發音)時,遇到不少困難,但假以時日,經過反復訓練,未來會得到提升。”此外,該技術還存在一定的文化局限性,比如在不同文化背景下,人類的表情表達與眼神交流習慣存在差異,單純的表情模仿難以適配所有場景。但研究團隊認為,對人類表情的預判能力,已是機器人實現社交能力發展的關鍵第一步。
當今機器人領域的研究重點多集中在腿部、手部動作上,但利普森判斷,未來只要涉及人機交互場景,面部表情就不可或缺。“未來所有人形機器人都會配備面部結構,而當它們真正擁有面部時,必須靈活地轉動眼球、活動嘴唇,否則就會永遠深陷恐怖谷效應之中。”(小刀)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.