<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別傾聽「撲克臉」,UniLS框架來了,刷新數字人對話SOTA

      0
      分享至



      本文由來自盛大東京 AI 研究院、東京大學、和東京科學大學的研究者合作完成。作者團隊在數字人方向有長期積累。部分工作為共同第一作者 Xuangeng Chu (https://xg-chu.site) 和 Ruicong Liu (https://ruicongliu.github.io) 在盛大東京研究院擔任研究實習生時完成。

      在游戲 NPC、虛擬主播、在線客服等數字人對話場景中,傾聽時的 “撲克臉”問題一直是行業長期痛點 —— 虛擬人說話時口型可以做到精準同步,但傾聽時卻表情僵硬、毫無反應,嚴重影響對話的自然感和沉浸感。盛大 AI 研究院(東京)與東京大學聯合提出UniLS(Unified Listening and Speaking),首個僅憑雙軌音頻即可端到端同時驅動說話和傾聽面部動作的統一框架。該方法在說話精度上達到 SOTA,傾聽自然度分布指標提升高達 44.1%,同時支持 500+ FPS 的實時生成,已被 CVPR 2026 錄用。



      • 論文地址:https://arxiv.org/abs/2512.09327
      • 項目主頁: https://xg-chu.site/project_unils/
      • 代碼地址: https://github.com/xg-chu/UniLS
      • 數據地址: https://huggingface.co/datasets/xg-chu/UniLSTalkDataset

      背景

      構建逼真的對話式數字人需要同時處理說話和傾聽兩種狀態。說話時需要精準的口型同步和面部表情協調,傾聽時則需要展現自然的點頭、眨眼和微表情等互動反應。然而,現有方法大多只關注單向生成:speak-only 方法(如 ARTalk、DiffPoseTalk 等)僅生成說話動作,listen-only 方法僅生成傾聽反應,二者無法在統一框架內協同工作。

      唯一嘗試聯合建模的 DualTalk 依賴對方說話者的預計算面部序列作為額外輸入,導致系統非端到端、無法實時部署。UniLS 針對這一空白,提出將傾聽行為分解為 “內在運動先驗” 與 “外部音頻調制” 兩個獨立組成部分,通過兩階段訓練范式分別學習,僅以雙軌音頻作為輸入,端到端地生成雙方的面部動作。



      圖 1: 現有方法與本文提出的方案之間的對比。大多數之前的研究仍局限于單向生成,即僅針對 “說話” 或僅針對 “傾聽”。先前的 “說 - 聽” 交互方法需要先生成演講者 A 的面部序列,然后才能產生演講者 B 的動作。這種對演講者 A 生成過程的依賴,使其無法實現端到端訓練,并阻礙了實時性能。相比之下,本文方法提供了一個端到端框架,能夠實現統一且實時的 “說 - 聽” 動作生成。

      UniLS 的方法和設計

      1. 核心發現:音頻 - 動作關聯的不平衡

      為什么直接端到端訓練會導致傾聽僵硬?研究者通過對音頻特征與面部動作參數在 t-SNE 空間的分布分析揭示了根本原因。如下圖 1 所示,說話時音頻與面部動作高度關聯,二者在嵌入空間中緊密聚集、距離一致性強;而傾聽時面部動作與對方音頻的關聯非常微弱 —— 因為傾聽中的許多行為(如眨眼頻率、微表情、肌肉協調)本質上獨立于對方語音信號。

      這種不平衡導致聯合訓練時網絡能輕松為說話分支學到強映射,卻為傾聽分支接收到的監督信號不足,使其退化為安全的、低方差的靜態表情。這一發現直接啟發了 UniLS 的核心設計思路:不應將傾聽建模為音頻到動作的直接映射,而應分兩步走 —— 先學習運動本身的內在規律,再引入音頻進行調制。



      圖 2: 面部表情參數與對應音頻特征之間的相關性。對于說話狀態,音頻是指說話者自身的語音;對于傾聽狀態,音頻則來自對方的語音。

      2. 兩階段訓練框架

      Stage 1:無音頻生成器訓練 —— 學習內在運動先驗。第一階段在大規模非配對多場景視頻數據上訓練一個無音頻的自回歸生成器。訓練數據來自 CelebV、TalkingHead-1KH、TEDTalk、VFHQ 等多個數據集,涵蓋新聞播報、訪談、演講、日常對話等多種場景,共計 546.5 小時。面部動作使用 FLAME 3D 參數化模型表示(包含表情、頭部姿態和眼球注視),通過多尺度 VQ 編解碼器離散化。生成器以過去的運動 chunk 和風格嵌入為輸入預測下一個運動 chunk。由于完全不使用音頻,模型只能依賴運動本身的時序規律來預測未來,從而自然地學習到眨眼頻率、頭部微動、表情轉換等內在運動先驗。

      Stage 2:音頻驅動微調 —— 引入雙軌音頻調制。第二階段使用 Seamless Interaction 配對對話數據(251.5 小時說話 + 406.0 小時傾聽)對生成器進行微調。架構在 Stage 1 基礎上新增兩個交叉注意力層:一個關注說話者 A 自身的音頻(驅動口型同步和面部表情),另一個關注說話者 B 的音頻(調制傾聽反應)。Stage 1 的自注意力和 FFN 骨干權重通過 LoRA 高效微調,新增的交叉注意力層從頭訓練。這一設計既保留了 Stage 1 習得的豐富內在運動先驗,又賦予模型根據雙軌音頻信號分別調制說話和傾聽的能力。



      圖 3: 兩階段訓練策略概覽。第一階段: 在不使用音頻的情況下,基于非配對的多場景視頻數據訓練一個無音頻生成器。該模型根據過去的動作序列和風格嵌入,預測未來的動作塊。第二階段: 在配對的對話片段上對生成器進行微調。通過交叉注意力機制,將說話者 A 和說話者 B 的音頻作為條件輸入,從而生成由音頻驅動的 “說 - 聽” 動作。

      實驗結果

      1. 定量對比(Seamless Interaction 數據集)



      表 1: 在 Seamless Interaction 測試集上評估說話和聆聽時的面部動作。分別用金色和銀色表示第一名和第二名。

      表 1 的量化指標顯示 UniLS 在全部指標上取得最優:說話方面,LVE 降至 5.83、MHD 降至 1.89,表明模型不僅精確追蹤了音素 - 動作對應,還捕捉到了上臉參與和頭 - 頜協調運動等動態特征。傾聽方面,FDD 從 DualTalk 的 43.58 大幅降至 17.12,F-FID 從 13.143 降至 4.304,P-FID 從 0.079 降至 0.038,分布指標提升高達 44.1%,有效解決了傾聽僵硬問題。

      2. 用戶研究

      與 DualTalk 相比,超過 91% 的用戶偏好 UniLS 的傾聽反應自然度,90% 偏好其表情自然度,86% 偏好其口型同步質量。



      表 2: UniLS 的用戶研究結果。數字(%)表示用戶更喜歡本文方法而非各基線方法的比例。“同步” 衡量唇部同步性,而 “Exp”、“Re-act” 和 “Pose” 分別評估面部表情的自然度、聆聽反應和頭部姿勢。

      3. 實時性能

      在出色的生成質量之外,UniLS 在單張 RTX 5090 GPU 上以 560.6 FPS 運行(參數量 421.3M),顯著優于 ARTalk * 的 357.7 FPS(489.5M),而 DualTalk 由于非端到端設計無法支持實時。UniLS 在質量、速度與規模之間實現了最優平衡。

      總結

      UniLS 是首個能夠生成統一 “說 - 聽” 面部動作的端到端音頻驅動框架。通過對音頻與動作相關性的深入分析,作者發現了傳統端到端訓練中導致 “傾聽僵硬感”(listening stiffness)的根本原因。基于這一見解,該研究引入了一種兩階段訓練范式,將內部動作先驗的學習與音頻驅動的調制過程分離開來。在大型對話數據集上進行的大量實驗表明,UniLS 實現了優秀的口型同步準確度,豐富多樣且自然的傾聽表情和出色的實時性能。總而言之,UniLS 為對話式數字人奠定了基礎,并為極具互動感、逼真的 AI 人機交互開啟了新的可能性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      可惜,大s永遠不會知道了,到最后,護著她兩個孩子的是婆婆張蘭

      可惜,大s永遠不會知道了,到最后,護著她兩個孩子的是婆婆張蘭

      喜歡歷史的阿繁
      2026-04-25 10:15:34
      當年張柏芝抱Lucas同行,身后竟是大S,同框畫面太美好

      當年張柏芝抱Lucas同行,身后竟是大S,同框畫面太美好

      老吳教育課堂
      2026-04-23 07:33:31
      山姆“爆雷”,3億中產炸了!

      山姆“爆雷”,3億中產炸了!

      新零售參考Pro
      2026-04-23 16:31:50
      56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

      56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

      揚子晚報
      2026-04-24 19:05:54
      完爆王少杰+碾壓焦泊喬!廣東新中鋒打成大腿,保底能進總決賽?

      完爆王少杰+碾壓焦泊喬!廣東新中鋒打成大腿,保底能進總決賽?

      緋雨兒
      2026-04-25 12:37:35
      退休18個月后,他主動走進紀委監委,不是被帶走,是自己去的。

      退休18個月后,他主動走進紀委監委,不是被帶走,是自己去的。

      生活魔術專家
      2026-04-25 12:54:34
      好裝、好有錢,被國產劇里的窮人氣笑了

      好裝、好有錢,被國產劇里的窮人氣笑了

      糊咖娛樂
      2026-04-21 18:45:21
      大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

      大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

      火山詩話
      2026-04-23 09:14:07
      5月1日物業新規正式執行!六大行為全面禁止,業主終于熬出頭了!

      5月1日物業新規正式執行!六大行為全面禁止,業主終于熬出頭了!

      復轉這些年
      2026-04-24 19:45:38
      菲律賓局勢生變,副總統突然跑出國,這一去,老杜家族恐流落海外

      菲律賓局勢生變,副總統突然跑出國,這一去,老杜家族恐流落海外

      董董歷史燴
      2026-04-25 12:00:41
      被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

      被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

      夜深愛雜談
      2025-12-02 20:51:10
      靠“漢芯一號”騙取11億研究經費,后逃到美國的陳進,結局如何?

      靠“漢芯一號”騙取11億研究經費,后逃到美國的陳進,結局如何?

      阿鳧愛吐槽
      2026-04-14 02:01:01
      我空降到家鄉擔任副省長,參加校友聚會,卻被班花的處長丈夫嘲笑

      我空降到家鄉擔任副省長,參加校友聚會,卻被班花的處長丈夫嘲笑

      紅豆講堂
      2025-04-16 10:47:03
      伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

      伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

      墨印齋
      2026-04-23 15:42:00
      阿聯酋對美下通牒,不答應條件就倒向中國?沙特也請中方主持大局

      阿聯酋對美下通牒,不答應條件就倒向中國?沙特也請中方主持大局

      蘭妮搞笑分享
      2026-04-25 12:56:50
      文班缺陣太子狂砍33分,榜眼27+10比肩科比,馬刺15分逆轉開拓者

      文班缺陣太子狂砍33分,榜眼27+10比肩科比,馬刺15分逆轉開拓者

      釘釘陌上花開
      2026-04-25 13:22:08
      吳法憲出獄后,安置在濟南,同時告訴他有四個安排

      吳法憲出獄后,安置在濟南,同時告訴他有四個安排

      歷史甄有趣
      2026-04-24 07:25:10
      美股納指暴漲1.63%創新高!中國核心資產狂歡,下周A股穩了?

      美股納指暴漲1.63%創新高!中國核心資產狂歡,下周A股穩了?

      慧眼看世界哈哈
      2026-04-25 13:41:23
      41歲女教師倒在辦公室后離世:“我有點累了”,成生命最后的遺言

      41歲女教師倒在辦公室后離世:“我有點累了”,成生命最后的遺言

      教師吧
      2026-04-25 09:05:07
      丁俊暉三度領先被趙心童反超,亨得利驚呼他要崩,結果讓皇帝噤聲

      丁俊暉三度領先被趙心童反超,亨得利驚呼他要崩,結果讓皇帝噤聲

      楊華評論
      2026-04-25 00:46:43
      2026-04-25 14:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142636關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      "蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

      頭條要聞

      "蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      旅游
      數碼
      藝術
      時尚
      教育

      旅游要聞

      2026年聊城市沿黃沿運文旅融合主流媒體采風活動|東阿阿膠城開城儀式氛圍感拉滿 一秒穿越古今

      數碼要聞

      3DMark macOS獨立版終于發布:不用蘋果商店、離線也能跑

      藝術要聞

      荒廢十多年!福建石獅“最美爛尾樓”,德國品牌接盤了

      火了30年的off-duty,不費力,才是真本事

      教育要聞

      第11課-Discomfort and difficulties 海外遇到困難怎么辦?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99热这里只有精品2| 日本韩国一级| 伊人久久大香线蕉AV网| 亚洲精品欧美综合二区| 成人免费无码毛片黄网| 51国产偷自视频区视频| 中方县| 麻豆国产成人av高清在线| 3p露脸在线播放| 九九精品视频在线免费观看| 国产一区二区三区美女| 加勒比东京热综合久久| 乱人伦人妻中文字幕| 日本在线视频网站www色下载 | 免费人欧美成又黄又爽的视频| 一二三四视频社区3在线高清| 日本特黄特黄刺激大片| 阜新| av一本久道久久波多野结衣| 另类一区| 97se亚洲精品一区| 熟妇与黑人一区二区三区乱码| 免费看欧美全黄成人片| 最近中文国语字幕在线播放| 国产一区二区三区禁18| 一个人看的免费高清www视频 | 影音先锋你懂得| 日韩精品中文字幕 一区| 国产精品午夜无码AV天美传媒| 大香伊蕉国产av| 国产AV一区二区三区| 中文字幕人妻熟女人妻| 91亚洲视频| 国产在线视频www色| 亚洲欧美v| 日本55丰满熟妇厨房伦| 人操人人| www亚洲无码| 人妻丰满熟妇av无码区波多野| 国产精品999999| 国产av一区二区三区|