<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別傾聽「撲克臉」,UniLS框架來了,刷新數字人對話SOTA

      0
      分享至



      本文由來自盛大東京 AI 研究院、東京大學、和東京科學大學的研究者合作完成。作者團隊在數字人方向有長期積累。部分工作為共同第一作者 Xuangeng Chu (https://xg-chu.site) 和 Ruicong Liu (https://ruicongliu.github.io) 在盛大東京研究院擔任研究實習生時完成。

      在游戲 NPC、虛擬主播、在線客服等數字人對話場景中,傾聽時的 “撲克臉”問題一直是行業長期痛點 —— 虛擬人說話時口型可以做到精準同步,但傾聽時卻表情僵硬、毫無反應,嚴重影響對話的自然感和沉浸感。盛大 AI 研究院(東京)與東京大學聯合提出UniLS(Unified Listening and Speaking),首個僅憑雙軌音頻即可端到端同時驅動說話和傾聽面部動作的統一框架。該方法在說話精度上達到 SOTA,傾聽自然度分布指標提升高達 44.1%,同時支持 500+ FPS 的實時生成,已被 CVPR 2026 錄用。



      • 論文地址:https://arxiv.org/abs/2512.09327
      • 項目主頁: https://xg-chu.site/project_unils/
      • 代碼地址: https://github.com/xg-chu/UniLS
      • 數據地址: https://huggingface.co/datasets/xg-chu/UniLSTalkDataset

      背景

      構建逼真的對話式數字人需要同時處理說話和傾聽兩種狀態。說話時需要精準的口型同步和面部表情協調,傾聽時則需要展現自然的點頭、眨眼和微表情等互動反應。然而,現有方法大多只關注單向生成:speak-only 方法(如 ARTalk、DiffPoseTalk 等)僅生成說話動作,listen-only 方法僅生成傾聽反應,二者無法在統一框架內協同工作。

      唯一嘗試聯合建模的 DualTalk 依賴對方說話者的預計算面部序列作為額外輸入,導致系統非端到端、無法實時部署。UniLS 針對這一空白,提出將傾聽行為分解為 “內在運動先驗” 與 “外部音頻調制” 兩個獨立組成部分,通過兩階段訓練范式分別學習,僅以雙軌音頻作為輸入,端到端地生成雙方的面部動作。



      圖 1: 現有方法與本文提出的方案之間的對比。大多數之前的研究仍局限于單向生成,即僅針對 “說話” 或僅針對 “傾聽”。先前的 “說 - 聽” 交互方法需要先生成演講者 A 的面部序列,然后才能產生演講者 B 的動作。這種對演講者 A 生成過程的依賴,使其無法實現端到端訓練,并阻礙了實時性能。相比之下,本文方法提供了一個端到端框架,能夠實現統一且實時的 “說 - 聽” 動作生成。

      UniLS 的方法和設計

      1. 核心發現:音頻 - 動作關聯的不平衡

      為什么直接端到端訓練會導致傾聽僵硬?研究者通過對音頻特征與面部動作參數在 t-SNE 空間的分布分析揭示了根本原因。如下圖 1 所示,說話時音頻與面部動作高度關聯,二者在嵌入空間中緊密聚集、距離一致性強;而傾聽時面部動作與對方音頻的關聯非常微弱 —— 因為傾聽中的許多行為(如眨眼頻率、微表情、肌肉協調)本質上獨立于對方語音信號。

      這種不平衡導致聯合訓練時網絡能輕松為說話分支學到強映射,卻為傾聽分支接收到的監督信號不足,使其退化為安全的、低方差的靜態表情。這一發現直接啟發了 UniLS 的核心設計思路:不應將傾聽建模為音頻到動作的直接映射,而應分兩步走 —— 先學習運動本身的內在規律,再引入音頻進行調制。



      圖 2: 面部表情參數與對應音頻特征之間的相關性。對于說話狀態,音頻是指說話者自身的語音;對于傾聽狀態,音頻則來自對方的語音。

      2. 兩階段訓練框架

      Stage 1:無音頻生成器訓練 —— 學習內在運動先驗。第一階段在大規模非配對多場景視頻數據上訓練一個無音頻的自回歸生成器。訓練數據來自 CelebV、TalkingHead-1KH、TEDTalk、VFHQ 等多個數據集,涵蓋新聞播報、訪談、演講、日常對話等多種場景,共計 546.5 小時。面部動作使用 FLAME 3D 參數化模型表示(包含表情、頭部姿態和眼球注視),通過多尺度 VQ 編解碼器離散化。生成器以過去的運動 chunk 和風格嵌入為輸入預測下一個運動 chunk。由于完全不使用音頻,模型只能依賴運動本身的時序規律來預測未來,從而自然地學習到眨眼頻率、頭部微動、表情轉換等內在運動先驗。

      Stage 2:音頻驅動微調 —— 引入雙軌音頻調制。第二階段使用 Seamless Interaction 配對對話數據(251.5 小時說話 + 406.0 小時傾聽)對生成器進行微調。架構在 Stage 1 基礎上新增兩個交叉注意力層:一個關注說話者 A 自身的音頻(驅動口型同步和面部表情),另一個關注說話者 B 的音頻(調制傾聽反應)。Stage 1 的自注意力和 FFN 骨干權重通過 LoRA 高效微調,新增的交叉注意力層從頭訓練。這一設計既保留了 Stage 1 習得的豐富內在運動先驗,又賦予模型根據雙軌音頻信號分別調制說話和傾聽的能力。



      圖 3: 兩階段訓練策略概覽。第一階段: 在不使用音頻的情況下,基于非配對的多場景視頻數據訓練一個無音頻生成器。該模型根據過去的動作序列和風格嵌入,預測未來的動作塊。第二階段: 在配對的對話片段上對生成器進行微調。通過交叉注意力機制,將說話者 A 和說話者 B 的音頻作為條件輸入,從而生成由音頻驅動的 “說 - 聽” 動作。

      實驗結果

      1. 定量對比(Seamless Interaction 數據集)



      表 1: 在 Seamless Interaction 測試集上評估說話和聆聽時的面部動作。分別用金色和銀色表示第一名和第二名。

      表 1 的量化指標顯示 UniLS 在全部指標上取得最優:說話方面,LVE 降至 5.83、MHD 降至 1.89,表明模型不僅精確追蹤了音素 - 動作對應,還捕捉到了上臉參與和頭 - 頜協調運動等動態特征。傾聽方面,FDD 從 DualTalk 的 43.58 大幅降至 17.12,F-FID 從 13.143 降至 4.304,P-FID 從 0.079 降至 0.038,分布指標提升高達 44.1%,有效解決了傾聽僵硬問題。

      2. 用戶研究

      與 DualTalk 相比,超過 91% 的用戶偏好 UniLS 的傾聽反應自然度,90% 偏好其表情自然度,86% 偏好其口型同步質量。



      表 2: UniLS 的用戶研究結果。數字(%)表示用戶更喜歡本文方法而非各基線方法的比例。“同步” 衡量唇部同步性,而 “Exp”、“Re-act” 和 “Pose” 分別評估面部表情的自然度、聆聽反應和頭部姿勢。

      3. 實時性能

      在出色的生成質量之外,UniLS 在單張 RTX 5090 GPU 上以 560.6 FPS 運行(參數量 421.3M),顯著優于 ARTalk * 的 357.7 FPS(489.5M),而 DualTalk 由于非端到端設計無法支持實時。UniLS 在質量、速度與規模之間實現了最優平衡。

      總結

      UniLS 是首個能夠生成統一 “說 - 聽” 面部動作的端到端音頻驅動框架。通過對音頻與動作相關性的深入分析,作者發現了傳統端到端訓練中導致 “傾聽僵硬感”(listening stiffness)的根本原因。基于這一見解,該研究引入了一種兩階段訓練范式,將內部動作先驗的學習與音頻驅動的調制過程分離開來。在大型對話數據集上進行的大量實驗表明,UniLS 實現了優秀的口型同步準確度,豐富多樣且自然的傾聽表情和出色的實時性能。總而言之,UniLS 為對話式數字人奠定了基礎,并為極具互動感、逼真的 AI 人機交互開啟了新的可能性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

      伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

      夢想的現實
      2026-04-24 02:40:44
      21歲流浪少年偷東西撫養7歲男孩,后被法院判刑4年,后來怎樣

      21歲流浪少年偷東西撫養7歲男孩,后被法院判刑4年,后來怎樣

      莫地方
      2026-04-24 01:35:03
      北青:馬寧將以四官身份執法亞冠精英賽決賽,主裁坦塔舍夫

      北青:馬寧將以四官身份執法亞冠精英賽決賽,主裁坦塔舍夫

      懂球帝
      2026-04-23 18:46:34
      哈登缺席登機照引猜測,騎士備戰猛龍G3

      哈登缺席登機照引猜測,騎士備戰猛龍G3

      鴻錦籃球
      2026-04-23 08:13:08
      美伊談判懸而未決,伊斯蘭堡停滯中等待:交通停運,人們居家辦公

      美伊談判懸而未決,伊斯蘭堡停滯中等待:交通停運,人們居家辦公

      紅星新聞
      2026-04-23 12:38:15
      現在這形勢,大家做好長期打算吧!

      現在這形勢,大家做好長期打算吧!

      英國報姐
      2026-04-23 21:11:57
      俄議員:俄羅斯希望回購中國航母,中方務必拆掉武器停止軍用

      俄議員:俄羅斯希望回購中國航母,中方務必拆掉武器停止軍用

      風雨與陽光
      2026-04-23 13:51:06
      從虧損25W到盈利420W,只需反復牢記“錘子線買進,上吊線賣出”

      從虧損25W到盈利420W,只需反復牢記“錘子線買進,上吊線賣出”

      股經縱橫談
      2026-02-24 19:53:09
      杜蘭特突然中止訓練!右膝纏滿繃帶返回更衣室,生死戰前傳來最揪心消息

      杜蘭特突然中止訓練!右膝纏滿繃帶返回更衣室,生死戰前傳來最揪心消息

      隱于山海
      2026-04-23 12:42:56
      美國務院要求美在伊朗公民立即離境

      美國務院要求美在伊朗公民立即離境

      界面新聞
      2026-04-23 10:37:04
      人社部、教育部明確:中小學幼兒園教師招聘,放寬至38周歲(含)以下

      人社部、教育部明確:中小學幼兒園教師招聘,放寬至38周歲(含)以下

      南方都市報
      2026-04-23 14:34:07
      發現了嗎,越是分床睡、經濟AA制、不干涉對方隱私的夫妻,感情濃度往往越低,越把婚姻過成......

      發現了嗎,越是分床睡、經濟AA制、不干涉對方隱私的夫妻,感情濃度往往越低,越把婚姻過成......

      LULU生活家
      2026-04-21 19:20:03
      僅播6集就口碑大爆,評分高達9.0,終于又有好劇可以追了!

      僅播6集就口碑大爆,評分高達9.0,終于又有好劇可以追了!

      老吳教育課堂
      2026-04-23 17:03:36
      張雪遺憾落敗僅4天,人民日報發文,沒有夸贊,卻讓張雪口碑暴漲

      張雪遺憾落敗僅4天,人民日報發文,沒有夸贊,卻讓張雪口碑暴漲

      老吳教育課堂
      2026-04-23 18:58:07
      敢攔就開戰?美國給“臺獨”遞刀,中方:公海銷毀沒商量

      敢攔就開戰?美國給“臺獨”遞刀,中方:公海銷毀沒商量

      華山穹劍
      2026-01-19 21:32:59
      女子被保安扇臉后續:確診耳膜穿孔,當地人曝內情,更多惡行被扒

      女子被保安扇臉后續:確診耳膜穿孔,當地人曝內情,更多惡行被扒

      奇思妙想草葉君
      2026-04-23 23:52:54
      特朗普稱不急于結束與伊朗的戰爭

      特朗普稱不急于結束與伊朗的戰爭

      財聯社
      2026-04-24 03:16:16
      收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

      收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

      混沌錄
      2026-04-20 17:10:08
      中日破裂,這是53年來對日最強硬的外交表態!

      中日破裂,這是53年來對日最強硬的外交表態!

      見聞致
      2025-11-15 21:21:56
      恨一個人到極致是什么感覺?看網友講述真是心驚膽戰

      恨一個人到極致是什么感覺?看網友講述真是心驚膽戰

      侃神評故事
      2026-04-16 15:45:03
      2026-04-24 04:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12839文章數 142635關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      健康
      時尚
      數碼
      教育
      公開課

      干細胞如何讓燒燙傷皮膚"再生"?

      李昀銳:林深見木

      數碼要聞

      榮耀重新定義輕薄本,四月連發六款新品續航首超Mac

      教育要聞

      推薦一款高考志愿卡,五大功能助你解決志愿疑難

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产日韩精品久久| 少妇人妻系列无码专区视频| 男女吃奶做爰猛烈紧视频| 国产三级| 亚洲最大三级网站| 中文字幕av久久激情| 国产精品一区二区三区蜜臀| 亚洲AV之男人的天堂网站| 国产女人18毛片水真多| 长武县| 国内av网站| 综合色天天久久| 国产成人精品A视频| 蜜桃AV鲁一鲁| 欧美日韩第一区| 亚洲中文字幕日产无码| 抚松县| 十八禁在线观看视频播放免费| 91精品网| 一区二区三区无效卡| 午夜激情网站| 免费区欧美一级猛片| 人人妻人人澡人人爽| 欧美精品亚洲日韩a| 免费观看全黄做爰的视频| 四虎成人精品无码永久在线| 久久精品国产2020| 人人操人| 99国产精品99久久久久久| v中文在线| 亚洲综合在线成人| 九九国产| 欧美国产精品不卡在线观看| jlzz大jlzz大全免费| 亚洲大尺度在线观看| 亚洲精品色午夜无码专区日韩| 亚洲一区在线成人av| 少妇高潮太爽了在线视频| 国产九九在线视频| 东京热无码AV| 久久国产亚洲AV无码日韩|