![]()
機器之心發布
在 SIGGRAPH Asia 2025 期間,盛大集團(Shanda Group)旗下,盛大 AI 東京研究院(Shanda AI Research Tokyo)以展臺活動、BoF 學術討論與頂尖教授閉門交流等形式完成首次公開亮相,標志著盛大在數字人的 “交互智能(Interactive Intelligence)” 與世界模型的 “時空智能(Spatiotemporal Intelligence)” 等兩大方向的研究,正式登上國際頂級學術與產業舞臺。
這一全新范式是盛大集團創始人陳天橋長期愿景的直接體現。他多年來對腦科學與 AI 融合研究的戰略投入,以及在 TCCI 首屆 AI 驅動科學研討會(AIAS 2025)上系統闡述的 “發現式智能”(discovery intelligence)理念,共同強調了智能體認知基底的重要性。而「交互智能」的實現,也得益于盛大集團旗下 EverMind 團隊產品 EverMemOS 的能力互補,彰顯了集團內部強大的技術協同生態。然而,在將這一宏大構想付諸現實的道路上,整個行業正面臨著深刻的共同挑戰。
![]()
圖 1 盛大集團創始人陳天橋闡述 “腦科學與 AI 融合” 的戰略愿景,強調智能體認知基底的重要性。
問題的核心:
為何當下的數字人交互缺乏 “靈魂”?
盡管當前的數字人技術已經能夠創造出與真人無異的視覺形象,但用戶在與之互動時,普遍會感到一種難以言喻的 “空洞感” 或 “斷裂感”。這種交互上的 “靈魂缺失” 并非微不足道的瑕疵,而是導致數十億美元投資于視覺特效的數字資產,至今仍未能帶來真正有意義用戶粘性的根本原因。這種 “靈魂感” 的缺失,并非單一技術問題,而是源于三個層面的系統性挑戰:
長期記憶與人格一致性: 標準的通用大語言模型(LLM)在長時間對話中,往往難以維持穩定的人格設定,出現所謂的 “人格漂移”(persona drift)現象,導致敘事邏輯前后矛盾。真正的 “記憶” 不僅是對過往事件的回溯,更是維持個性、習慣和世界觀連貫性的基石。缺乏這一能力,數字人便無法形成可信賴的、持續的身份認同。
![]()
圖 2 盛大 AI 首席科學家鄭波博士深入剖析數字人 “靈魂缺失” 的核心難題,并確立了以 “交互智能” 和 “時空智能” 為核心的研究目標。
多模態情感表達的缺失: “靈魂感” 很大程度上源于人類豐富的非語言交流。然而,目前的數字人普遍存在 “僵尸臉(zombie-face)” 現象 —— 在傾聽或思考時面部僵硬,缺乏自然的微表情和反應。真正的沉浸感來自于語音語調、面部表情、眼神乃至肢體動作的協同作用,它們共同構成了情感表達的完整層次,而這正是當前技術的薄弱環節。
缺乏自主進化的能力: 大多數數字人本質上仍是一個被動的 “播放系統”,根據預設腳本或實時指令做出反應,而不能從交互中學習和成長。它們無法自主適應用戶偏好、修正錯誤認知或發展出新的行為模式。這種自我進化的能力,是智能體從 “模仿” 走向真正 “智能” 的關鍵分水嶺。
這三大挑戰共同作用,導致了當前數字人交互體驗的淺層化和碎片化,使用戶難以建立真正的情感連接。如何系統性地攻克這些難題,不僅是技術上的挑戰,更需要頂層的戰略遠見。
![]()
圖 3 香港大學教授、SIGGRAPH Asia 大會主席 Taku Komura (左) 與早稻田大學教授 Shigeo Morishima (右) 在盛大 AI 閉門研討會上發表致辭。
業界共鳴:
SIGGRAPH Asia 閉門研討會的深刻洞見
陳天橋的遠見得到了行業的驗證。解決上述挑戰的緊迫性,并非盛大 AI 的內部洞見,而是一個由行業頂尖頭腦共同鑄就的明確共識。2025 年 12 月 17 日,在香港 SIGGRAPH Asia 大會期間,恰逢其 Mio 技術報告于前一日(12 月 16 日)公開發布之際,盛大 AI 東京研究院(Shanda AI Research Tokyo)主辦了一場高端閉門晚宴及專題研討會。這場活動匯聚了來自學術界和產業界的頂尖專家,旨在通過思想的深度碰撞,共同擘畫數字人技術的未來藍圖,并即時探討 Mio 報告所帶來的突破性啟示。
與會的專家學者陣容強大,包括:
- Prof. Taku Komura (香港大學,Siggraph Asia 大會 General Chair)
- Prof. Shigeo Morishima (早稻田大學,日本數字人協會主席,真人自動化復刻到電影的第一人)
- Prof. Erwin Wu (東京科學大學)
- Prof. Xiangyu Yue (香港中文大學)
- Prof. Anyi Rao (香港科技大學)
- Prof. Yuan Liu (香港科技大學)
- Prof. Xiaoguang Han (香港中文大學)
![]()
圖 4 來自港大、港中大、港科大及東京科學大學的頂尖學者在 Panel 環節深度探討 “交互智能” 的未來。
在這場高水平的對話中,專家們達成了一個清晰的共識:當前數字人發展的瓶頸已從視覺表現力轉向了認知和交互邏輯。他們一致認為,未來數字人的核心競爭力將體現在其「交互智能」上,即必須具備長期記憶、多模態情感表達自主演進這三大關鍵能力。這三大支柱,由業界最敏銳的頭腦共同確立,正是 Mio 的核心模塊 —— 認知核心、多模態動畫師及自主演進框架 —— 被系統性地設計出來旨在解決的精確挑戰。
正是基于這樣的行業共識與自身長期的技術探索,盛大 AI 東京研究院系統性地推出了自己的解決方案。
Mio 的誕生:
盛大 AI 對「交互智能」的系統性解答
為了迎接這一行業共同的挑戰,盛大 AI 東京研究院正式推出了Mio(Multimodal Interactive Omni-Avatar)—— 一個旨在實現「交互智能」(Interactive Intelligence)的端到端系統性框架。Mio 的誕生標志著一個分水嶺時刻,其設計理念是將數字人從一個被動執行指令的 “木偶”,轉變為一個能夠自主思考、感知并與世界互動的智能伙伴。
![]()
圖 5 Mio 系統的端到端交互閉環演示 —— 從感知用戶情緒(User Input)到 Thinker 進行認知推理,再通過多模態模塊(Face/Body/Speech)生成撫慰性的反饋動作。
該框架由五個高度協同的核心模塊構成:
認知核心 (Thinker): 為克服標準 LLM 固有的 “失憶癥” 和人格漂移問題,Mio 的 “大腦”——Thinker 模塊 —— 采用了一種革命性的 “介于敘事時間的知識圖譜”(Diegetic Knowledge Graph)。該架構為每條信息標記了 “故事時間”,確保數字人絕不會 “劇透”。在 CharacterBox 基準測試中,其人格保真度超越了 GPT-4o,并在防止劇透測試中取得了近乎完美(超過 90%)的成績。同時,其 “無數據自訓練” 機制賦予了數字人通過自我博弈不斷進化的能力。
語音引擎 (Talker): 該模塊利用高效的離散化語音表征技術,能夠生成與當前情境、情緒和人格設定高度匹配的自然語音。它不僅保證了對話的流暢性,更是數字人情感表達的關鍵一環。
面部動畫師 (Facial Animator): 為徹底消除破壞沉浸感的 “僵尸臉” 現象,該模塊采用了一個統一的 “聽 - 說” 框架。無論是在說話還是傾聽,它都能生成生動、自然的微表情、眼神和頭部姿態。在用戶研究中,超過 90% 的參與者認為其傾聽反應優于業界領先的競品。
身體動畫師 (Body Animator): 為擺脫笨拙的預設動作,身體動畫師采用新穎的流式擴散模型(Streaming Diffusion),實時地將認知意圖轉化為流暢、連貫的全身動作。這項技術實現了前所未有的突破:在保持實時性的同時,其運動質量(FID 為 0.057)達到了與頂尖離線模型相媲美的水平。
渲染引擎 (Renderer): 作為最終的視覺呈現層,渲染引擎確保在任何動態和視角變化下,都能生成高保真且身份高度一致的視覺形象,將 “靈魂” 的內在活動忠實地外化為可信的視覺表現。
Mio 框架通過將這五個模塊無縫融合,實現了從認知推理到實時多模態體現(embodiment)的完整閉環,這不只是一次技術的迭代,而是一種全新的架構哲學,標志著數字人技術從 “形似” 向 “神似” 的決定性跨越。
未來展望與行動號召
Mio 的誕生,標志著數字人發展的一次范式轉移 —— 行業的關注焦點正從靜態的、孤立的外觀逼真度,轉向動態的、有意義的交互智能。這并非一個概念上的飛躍,而是可以被量化的巨大進步。在嚴謹的測試中,Mio 的整體交互智能分數(IIS)達到了 76.0,較之前的最優技術水平提升了整整 8.4 分,為行業樹立了新的性能標桿。
![]()
圖 6 Mio (紅色) 在認知共鳴、面部同步、肢體流暢度等各項指標上全面超越現有最優技術 (藍色),IIS 總分達到 76.0。
可以預見,「交互智能」將為虛擬陪伴、互動敘事、沉浸式游戲等領域帶來革命性的變革。未來的數字人將不再是冰冷的程序,而是能夠與我們建立深層情感連接、共同成長的智能伙伴。被動、無聲的虛擬形象時代已經結束。我們誠邀全球的研究者、開發者與創造者社區,與我們一道構建下一代擁有智能與靈魂的數字生命。現在,工具已在你們手中。
![]()
圖 7 盛大 AI 東京研究院團隊與全球頂尖學者在香港齊聚一堂,共同致力于構建下一代有靈魂的數字生命。
為了推動這一領域的共同進步,盛大 AI 東京研究院已將 Mio 項目的完整技術報告、預訓練模型和評估基準公開發布。
- 項目地址: https://shandaai.github.io/project_mio_page/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.