![]()
大家好,我是小圓!想象一下,一個人形機器人動作靈活,能跑能跳,但一張口說話,嘴唇卻像老式木偶一樣生硬地開合——這種不協調感,就是人機交互中著名的“恐怖谷”效應。
最近,哥倫比亞大學的研究團隊在這一難題上取得了有趣進展。他們開發的機器人“Emo”,通過一種類似嬰兒學步的方式,掌握了預測和同步人類唇形的技能,其反應速度甚至比聲音發出還要快上一點。
![]()
![]()
傳統上,要讓機器人的面部表情(尤其是口型)與語音同步,工程師通常采用“硬編碼”方式:預先設定好每個音節對應的特定嘴唇形狀。這種方法不僅繁瑣,而且效果生硬、滯后,缺乏人類表情特有的流暢與微妙變化。
哥倫比亞大學團隊另辟蹊徑,他們讓“Emo”經歷了一個兩階段的“自我學習”過程。第一階段是“自我探索”:機器人的面部皮膚下裝有26個微型電機,它被放置在一面鏡子前,隨機活動這些電機,做出各種表情,并通過攝像頭觀察鏡中的反饋。這個過程類似于嬰兒在鏡子前擠眉弄眼,逐漸建立起“發出何種指令”與“臉上出現何種表情”之間的直接關聯,形成一套基礎的“視覺-動作”模型。
![]()
掌握了面部肌肉的基礎控制后,“Emo”進入了第二階段:觀察與模仿。研究人員讓它觀看了大量人類說話、唱歌的視頻。通過分析這些視頻中的聲音信號與對應的嘴唇視覺變化,機器人內部的人工智能系統學會了預測:當聽到某個特定的聲音時,嘴唇應該提前做出何種形狀的調整。正是這種預測能力,使得它能夠實現毫秒級的、甚至略微超前的唇形同步,這與人類說話時神經肌肉的預備動作原理相似。
![]()
我們可能會問,花這么大精力讓機器人的嘴唇動得逼真,是不是有點“形式大于內容”?研究團隊認為,恰恰相反,自然的面部表情可能是機器人融入人類社會的最后一塊關鍵拼圖。
![]()
人類交流中,非語言信息(如表情、眼神、肢體動作)占據極大比重,甚至超過語言本身。當我們交談時,會不自覺地將大量注意力集中在對方的面部,尤其是嘴唇和眼睛區域,以捕捉情緒、意圖等微妙信號。一張僵硬、滯后的“撲克臉”,會嚴重阻礙情感的傳遞與共鳴。
試想未來的應用場景:在養老院陪伴老人的護理機器人,在教室輔助學習的教育機器人。如果它們只能用機械的電子音和空洞的眼神回應人類的傾訴或提問,那么真正的信任與情感連接將難以建立。而一張能夠展現理解性皺眉、同情式微笑或好奇神情的“臉”,能極大增強交互的深度和親和力。因此,這項技術的突破,其社會意義可能不亞于讓機器人學會搬運重物。
![]()
![]()
當機器人的微笑變得足以“以假亂真”,甚至讓研發它的科學家都情不自禁回以微笑時,一個倫理問題也隨之浮現:情感操縱的風險。
目前,“Emo”仍有局限,比如處理某些需要復雜唇部動作的輔音時還不夠自然,硅膠皮膚的質感也與真人存在差距。但“自我學習”范式的引入,意味著其進化速度將不再完全依賴于程序員一行行的代碼,而更多取決于它“觀察”和“練習”的數據量與多樣性。
![]()
![]()
哥倫比亞大學的這項研究,為人形機器人突破“恐怖谷”、實現更自然的人機交互提供了新路徑。它揭示了一個趨勢:機器人的“智能”正從單純的邏輯計算,向包含情感表達在內的綜合交互能力拓展。
這項技術未來若與先進的大語言模型結合,或許能創造出真正能進行“情感交流”的機器伙伴。但在擁抱這種可能性的同時,我們必須同步思考如何設立倫理護欄,確保技術的進步服務于增進人類福祉,而非帶來新的迷惑與傷害。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.