<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      哥大博士讓機器人臉告別“面癱”,看視頻學會11門語言

      0
      分享至

      你是否想過,當人類面對面交流時,我們的注意力更多地被放在哪里?

      第一直覺或許是眼睛。它們是心靈的窗戶,能夠傳達出細微而生動的情感。科學研究也證實的確如此,在日常對話中,我們會頻繁地注視對方的眼睛來捕捉情緒信號。

      不過,當環境變得嘈雜時,情況就有所不同了。研究表明,在噪音環境下,人們會將 50%-55% 的注意力轉向對話者的嘴唇,傾向于通過唇形來輔助理解對方在說什么。

      這也解釋了為什么即便是目前最先進的人形機器人,仍然讓人在和它們面對面交流時感到不適。我們可以容忍它們笨拙的步態,甚至僵硬的手勢,但當一張接近人類的面孔無法自然地活動時,就會生發出一絲詭異感。這就是機器人領域著名的"恐怖谷效應"——越接近人類卻又不夠完美的機器,反而會引發更強烈的排斥感。

      在致力機器人如何跨越“恐怖谷”效應的道路上,首形科技是積極的拓路者之一。這家由哥倫比亞大學博士胡宇航創立的初創公司,自成立起便選擇了一條與眾不同的技術路徑:不追求機器人在運動或操作能力上的極致性能,而是聚焦于賦予它們具有情緒表達能力的面部。過去一年多,這一方向為他們贏得了多輪融資,并且收獲了社交媒體和市場的廣泛關注。


      圖 | 胡宇航與人臉機器人 Emo (來源:受訪者)

      1 月 15 日,Science Robotics 封面刊發了胡宇航團隊關于 Emo 面部機器人的研究,展示了其如何通過學習實現與語音、歌曲同步的唇部運動,這也是 Science Robotics 首次將人臉機器人刊登在封面。這項工作源于他在哥倫比亞大學的博士研究,也是他近兩年在 Science 和 Nature 子刊上發表的第三篇論文。


      (來源:Science Robotics)

      嘴唇運動被低估的復雜性

      “嘴唇是人們交互過程中動作最多的部位, 也是機器人從表情自然到交互自然非常重要的門檻。”胡宇航告訴 DeepTech,嘴唇運動的復雜性遠超多數人的想象,甚至超出了機器人研究者此前的認知。

      從技術角度看,這種復雜性首先體現在驅動機制上。與眉毛等單一方向運動的面部特征不同,嘴唇由多個肌肉群驅動,運動過程中存在頻繁的接觸與分離。同時,嘴唇對時間精度極為敏感,還需同步承載語言、情感與社交信號。胡宇航指出:“這使得嘴唇運動的建模從根本上超越了參數化控制,成為一個高維、非線性、強閉環的生成式形變問題。”


      (來源:論文)

      既然如此,面對如此復雜的任務,如何客觀衡量機器人嘴唇運動的“真實性”呢?

      胡宇航團隊在論文中提出了一種創新方法:使用合成參考視頻作為理想同步基準,在 VAE 編碼器的潛空間中計算機器人嘴唇運動與參考視頻之間的距離。該指標能夠刻畫整體嘴型動態與時序結構的偏差,避免了依賴易受噪聲干擾的二維關鍵點。由此,研究者獲得了一個客觀的度量標準,可以在連續語音與多語言場景下評估音頻-視覺同步誤差。

      這可以說是創新的一步。因為此前,機器人領域對嘴唇同步的嘗試主要依賴手工預定義的運動規則和固定的音素-視位映射表。簡單來說,就是為每個音素設計一套固定嘴型,再讓機器人機械執行。

      但這種方法存在明顯的局限。胡宇航列舉了幾個關鍵問題:首先,同一音素的發聲速度會因說話人、場景或情緒而異。例如,一個人在激動和平靜狀態下說出的“好”,雖然音素相同,但嘴唇運動的幅度、速度和形態可能截然不同。其次,在多語言、歌唱或方言等場景中,基于音素設計規則需要投入巨大的手工工作量。更關鍵的是,當機器人硬件升級時,所有動作幾乎都要重新編排,難以復用。

      此外,這種規則方法還隱含了一個假設:音素與嘴型之間存在著穩定、一對一的映射關系。但這顯然與真實人類發音機制并不相符。實際上,同一音素的嘴唇運動在不同說話人、語速、情緒和語境下都存在顯著差異,其時序、幅度和形態高度連續且上下文相關。

      將這種連續性強行離散化為固定規則,必然丟失大量信息。規則方法也無法建模嘴唇作為軟體器官所具有的非線性、并行驅動和跨時間依賴特性,最終只能生成“正確但僵硬”的嘴型序列。

      相比之下,數據驅動方法能夠從真實人類與機器人發音數據中學習復雜的統計規律與隱含約束。胡宇航表示:“這從根本上突破了規則方法在泛化性、可擴展性和自然性上的瓶頸。”

      想要更像人,機器人需要“照鏡子”

      為了讓機器人更精準地復刻學習人類的嘴唇動作,胡宇航團隊巧妙地設計了兩階段“自監督學習系統”(Self-Supervised Learning, SSL):第一階段,機器人通過“照鏡子”建立自我模型;第二階段,它觀看人類視頻學習嘴唇運動規律。


      圖 | 用于機器人唇部同步的自監督學習框架(來源:論文)

      “兩階段設計的核心原因在于機器人與人類在外觀、結構和運動約束上的本質差異。”胡宇航解釋道。若跳過第一階段,直接讓機器人模仿人類視頻,將不可避免地學習到大量自身硬件無法執行的形變模式,例如人類皮膚的滑移、唇齒細節或肌肉驅動方式。這些錯誤映射最終會導致機器人動作失真、抖動或被系統性削弱。

      第一階段的“照鏡子”訓練,目的并非學習表情本身,而是讓模型明確“哪些運動在自身硬件與軟體結構下是可實現的”。通過隨機生成數千個面部表情并觀察鏡中反饋,系統建立起從視覺變化到自身可控空間的映射關系,為后續學習提供物理可行性的約束。

      在具備自我模型的基礎上,第二階段引入人類視頻的作用變得清晰:機器人學習人類嘴唇運動的統計規律與高層時序結構,并通過自我模型將這些規律投射到自身可執行的動作空間中。“這本質上是先解決‘我是誰、我能怎么動’,再解決‘人類是如何動的’。”胡宇航說。該策略有效避免了跨形態直接模仿帶來的域錯配問題,是實現自然、穩定且可泛化嘴唇運動的關鍵前提。


      圖 | 團隊機器人 Emo 照鏡子(來源:胡宇航)

      出色的跨語言泛化能力

      實驗結果展示了這套系統的出色泛化能力:它能在 11 種語言中實現自然的嘴唇同步,包括英語、法語、日語、韓語、西班牙語、意大利語、德語、俄語、中文、希伯來語和阿拉伯語。


      圖 | 多語言口型同步性能的測試結果(來源:論文)

      這種神奇的"跨語言"能力從何而來?胡宇航解釋道:“系統并未學習語言或音素本身,而是學習了人類發音過程中更底層的肌肉運動模式。”在兩階段自監督框架下,模型首先熟悉機器人自身嘴唇能做出哪些動作;隨后在觀看人類視頻時,它不再關注具體是哪種語言、哪個發音,而是去捕捉聲音節奏與嘴唇動作之間那些跨越語言邊界的共性規律。

      “這些關系在不同語言中表現為高度一致的運動模式,比如張合節律、閉合-釋放結構、過渡速度等。”換句話說,雖然各種語言的發音規則千差萬別,但人類嘴唇的運動方式終究受限于相同的生理結構。正因如此,系統學到的是聲音與動作之間更本質的對應關系,使它能夠自然地適應多種語言,甚至應對不同的語速和說話風格。

      盡管成果顯著,胡宇航坦言系統仍面臨技術挑戰,其中最典型的是硬輔音(如 /b/、/p/、/m/、/w/)的處理。這些音素之所以棘手,不僅因為發音速度快,更因為它們同時涉及多重難以精確建模的約束條件。

      以 /b/、/p/、/m/ 為例,發這幾個音時,嘴唇需要在極短時間內完成“閉合—保持—釋放”這一連串動作。閉合不夠緊或時機稍有偏差,人耳立刻就能察覺異樣。而 /w/ 更為復雜,不僅要求雙唇閉攏,還需要嘴唇前突、形成圓形,同時配合口腔形狀的連續變化。胡宇航補充,這意味著模型必須在毫秒級時間精度下,協調多個高度耦合的自由度,同時應對軟體接觸、非線性阻尼以及電機帶寬限制等物理因素。

      與元音或軟輔音那種平滑漸變的動作不同,硬輔音更像是一種"開關式"的動作——既有連續的運動軌跡,又有瞬間的接觸切換。這恰恰是當前數據驅動模型最容易出錯、機器人執行難度最高的地方。

      從實驗結果來看,當前方法在一些極端語音場景下表現欠佳,比如語速極快、多人同時說話、歌唱中的顫音,以及情緒激動時的表達。胡宇航認為,這反映了方法的本質邊界:"模型主要學習的是典型對話語境下聲學時序與嘴唇運動之間的關系。"一旦輸入偏離日常對話的范疇,系統性能便會下降。

      不過他也指出,這些失效案例恰恰為未來研究指明了方向:“這也為我們引入更豐富的對話與語音場景提供了思路。”隨著訓練數據的豐富和模型能力的提升,這些邊界場景的處理能力有望逐步改善。

      在采訪最后,DeepTech 問及這項技術是否會從唇部動作擴展到整個面部表情系統。

      “會的。”胡宇航給出肯定回答,“我們團隊的最終目標,是實現完整的類人交互。”如何協調唇部動作與眼神、眉毛等其他面部要素,形成統一而細膩的情感表達,正是團隊下一步要攻克的方向。這不僅是技術上的自然延伸,更是對人機交互本質的深度探索。當機器人能夠用整張臉來表達和理解情緒時,它與人類的關系將發生更深刻的轉變。

      論文地址:DOI: 10.1126/scirobotics.adx3017

      營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江蘇一男子為控制血糖,每天堅持走路9000步,半年后他的身體咋樣

      江蘇一男子為控制血糖,每天堅持走路9000步,半年后他的身體咋樣

      徐醫生健康講壇
      2026-03-26 13:57:18
      卡塔爾向伊朗交60億美元保護費?伊朗打擊升級:瞄準以色列往死里打

      卡塔爾向伊朗交60億美元保護費?伊朗打擊升級:瞄準以色列往死里打

      滄海旅行家
      2026-03-26 16:37:46
      穿越時空的檢測報告,黃天鵝的危機公關簡直是教科書級的反面教材

      穿越時空的檢測報告,黃天鵝的危機公關簡直是教科書級的反面教材

      魯先生的筆
      2026-03-26 20:58:41
      問界M6:離爆款還遠,離焦慮更近

      問界M6:離爆款還遠,離焦慮更近

      ZAKER新聞
      2026-03-25 22:49:46
      理解城市 | 開封文旅原來這樣“火”

      理解城市 | 開封文旅原來這樣“火”

      澎湃新聞
      2026-03-26 12:58:34
      美軍合作商CEO急眼,竟狂言“終將破解并癱瘓北斗信號”

      美軍合作商CEO急眼,竟狂言“終將破解并癱瘓北斗信號”

      觀察者網
      2026-03-25 14:58:54
      張雪峰離世1天后,才發現女兒名字取得暗藏深意,字字都有來頭

      張雪峰離世1天后,才發現女兒名字取得暗藏深意,字字都有來頭

      朗威談星座
      2026-03-25 17:12:14
      終身追捕,臺獨賴清德末路難逃!美情報界交底:大陸或將兵不血刃

      終身追捕,臺獨賴清德末路難逃!美情報界交底:大陸或將兵不血刃

      神祗與歌
      2026-03-25 15:24:19
      家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

      家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

      觀察鑒娛
      2026-03-21 12:39:12
      華為首款旗艦MPV!后輪轉向,綜合續航1250km+,智界V9一炮而紅

      華為首款旗艦MPV!后輪轉向,綜合續航1250km+,智界V9一炮而紅

      隔壁說車老王
      2026-03-26 08:12:16
      機場來伊份小蛋糕賣43元一個?品牌客服:實為43元一斤,機場門店價格高于一般門店

      機場來伊份小蛋糕賣43元一個?品牌客服:實為43元一斤,機場門店價格高于一般門店

      極目新聞
      2026-03-26 21:17:27
      原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

      原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

      證券時報e公司
      2026-03-26 22:23:23
      杜淳寵妻太狠了!王燦戴4條金手鏈,口紅整箱買像批發?

      杜淳寵妻太狠了!王燦戴4條金手鏈,口紅整箱買像批發?

      娛樂領航家
      2026-03-26 00:00:03
      不法之徒村田晃大,正面照曝光

      不法之徒村田晃大,正面照曝光

      新京報
      2026-03-26 11:18:17
      14歲初中生把干冰放冰箱,半夜爆炸致價值上萬冰箱報廢 家長:沒責備他

      14歲初中生把干冰放冰箱,半夜爆炸致價值上萬冰箱報廢 家長:沒責備他

      紅星新聞
      2026-03-24 23:25:19
      四川多所中學發布嚴正聲明

      四川多所中學發布嚴正聲明

      四川省教育廳
      2026-03-26 10:57:12
      78歲連路都走不穩還開演唱會,全網罵聲一片,她卻揚言回饋粉絲

      78歲連路都走不穩還開演唱會,全網罵聲一片,她卻揚言回饋粉絲

      洲洲影視娛評
      2026-01-28 12:23:18
      土耳其油輪遭無人機襲擊引發劇烈爆炸,載有14萬噸原油,曾被多方制裁

      土耳其油輪遭無人機襲擊引發劇烈爆炸,載有14萬噸原油,曾被多方制裁

      紅星新聞
      2026-03-26 17:20:06
      內塔尼亞胡:48小時內加緊摧毀伊朗軍工設施

      內塔尼亞胡:48小時內加緊摧毀伊朗軍工設施

      參考消息
      2026-03-26 15:47:05
      拼了!第80波打擊,拒絕停戰伊朗越打越狠,美軍航母基地集體被揍

      拼了!第80波打擊,拒絕停戰伊朗越打越狠,美軍航母基地集體被揍

      卷史
      2026-03-26 09:34:56
      2026-03-26 23:24:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16491文章數 514798關注度
      往期回顧 全部

      科技要聞

      美團發布外賣大戰后成績單:虧損超200億

      頭條要聞

      張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

      頭條要聞

      張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

      體育要聞

      申京努力了,然而杜蘭特啊

      娛樂要聞

      劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

      財經要聞

      油價"馴服"特朗普?一到100美元就TACO

      汽車要聞

      一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

      態度原創

      數碼
      親子
      本地
      房產
      公開課

      數碼要聞

      Intel IBOT加速技術揭秘!硬件不變 白嫖22%游戲性能

      親子要聞

      你好,我是饅頭,快開門!

      本地新聞

      救命,這只醬板鴨已經在我手機復仇了一萬遍

      房產要聞

      突發,三亞又有大批征遷補償方案出爐!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版