京東卷出新高度！硬剛復(fù)雜指令長時長、自由態(tài)數(shù)字人直播絲滑了

2026-03-31 14:13:44　來源: 機器之心Pro

北京舉報

分享至

編輯｜澤南

剛剛落幕的 2026 科技界「春晚」GTC 大會上，一個全行業(yè)的共識已經(jīng)形成：AI 正在進入智能體（Agent）時代。

然而，當(dāng)各大廠商都在瘋狂入局智能體時，一個尷尬的現(xiàn)實卻擺在面前：這些聰明的數(shù)字大腦，缺少一個「靈動」的「軀殼」。如果說「龍蝦」OpenClaw 已經(jīng)為 AI 智能體工作的范式打開了方向，那么解決 AI 怎么和人打交道的交互領(lǐng)域，技術(shù)還面臨著挑戰(zhàn)。

因涉及多個模態(tài)的轉(zhuǎn)換，為聰明的 AI 打造一副高表現(xiàn)力的「軀殼」，比想象中還要困難得多。

直到最近，京東數(shù)字人的一系列新研究打破了這一僵局。

京東 JoyAvatar 和 JoyAvatar-Flash 兩個數(shù)字人大模型，解決行業(yè)長期存在的文本指令控制力弱、多模態(tài)控制信號沖突、長時長生成能力不足等痛點問題，實現(xiàn)了長時長、自由態(tài)、實時互動的數(shù)字人生成效果，相關(guān)成果發(fā)表在了 arXiv 上，新一代數(shù)字人的性能全面超越了當(dāng)前 SOTA 模型，將效果推向了新的高度。

論文鏈接：https://arxiv.org/pdf/2602.00702，https://arxiv.org/abs/2512.11423
技術(shù)主頁：https://joyavatar.github.io/

它具有超強的文本控制能力：

提示詞：A little girl is first singing with a beaming smile, then she picks up a camera from the table, points it toward the viewer, and the flash goes of.

提示詞：A woman stands indoors, speaking to the camera. She begins by picking up a vase from a cabinet, then gazes at it contemplatively, and finally places it on a chair within the scene. (Keep the character fully in frame throughout.)

可以實現(xiàn)分鐘級時長的數(shù)字人合成：

京東 JoyAvatar 系列數(shù)字人模型有打破僵局的意義，展現(xiàn)出了代差級別的優(yōu)勢，徹底告別了數(shù)字人「站樁式播報」：它不僅能精準(zhǔn)理解「復(fù)雜指令」，絲滑做出全身復(fù)雜動作，還能完美配合動態(tài)鏡頭軌跡以及背景的無縫變化。更絕的是，哪怕是在這種大幅度、劇烈運動的過程中，它依然能保持唇形與輸入音頻的完美同步。

輸入指令「拿起巧克力吃掉」京東數(shù)字人能夠根據(jù)文本提示詞，流暢地完成整套抓取和咀嚼動作：

提示詞：The girl picks up the chocolate box, shows it to the viewer, then takes out a piece of chocolate and eats it.

輸入指令「放下手中的箱子」京東數(shù)字人不僅能平滑處理復(fù)雜的動作指令與背景流轉(zhuǎn)，還能在超過 20 秒的視頻生成中保持人物身份的穩(wěn)定：

提示詞：A man in the frame speaks to the camera while placing a toolbox on the ground, then climbs a ladder, keeping himself within the shot. He wears a white safety helmet, holds a black and yellow toolbox, with a room under renovation behind him. A ladder and a level are placed nearby.

京東數(shù)字人的三大技術(shù)創(chuàng)新

在生成式 AI 領(lǐng)域，數(shù)據(jù)是讓模型學(xué)習(xí)和理解的原材料。但收集大量既有劇烈肢體運動、又有清晰語音播報的高質(zhì)量視頻數(shù)據(jù)，其成本是極其高昂的。面對靜態(tài)播報數(shù)據(jù)的天然偏見，京東數(shù)字人團隊轉(zhuǎn)向了一條更為新穎的路徑：雙教師 DMD（分布匹配蒸餾）后訓(xùn)練

圖 1 雙教師 DMD 后訓(xùn)練框架圖

圖 2 數(shù)字人模型預(yù)訓(xùn)練框架圖

研究人員給數(shù)字人模型請來兩位「老師」，其中一位是「音頻教師」，由數(shù)字人基礎(chǔ)模型擔(dān)任，專攻口型和節(jié)奏；另一位則是「文本教師」，引入了視頻基礎(chǔ)大模型。由于視頻生成模型具備不錯的文本到視頻生成能力，能夠完美理解復(fù)雜的動作指令，通過這種分離式監(jiān)督、融合式學(xué)習(xí)的蒸餾機制，數(shù)字人模型在不增加任何新訓(xùn)練數(shù)據(jù)的前提下，直接繼承了其文本可控性。

讓數(shù)字人既要聽從劇本做出復(fù)雜動作，又要嚴(yán)絲合縫地對口型，在過去是一個難以兼顧的任務(wù)。因為在模型的潛在空間里，文本信號和音頻信號常常會相互打架 —— 文本要主導(dǎo)全身動作，音頻要主導(dǎo)面部肌肉，兩者一旦沖突，畫面就會崩潰失真。

為了解決這個多模態(tài)控制沖突，團隊創(chuàng)新性地提出了「動態(tài) CFG 調(diào)制策略」

研究人員發(fā)現(xiàn)，擴散模型在生成視頻時，全局的動作框架是在早期的高噪聲階段確定的，而口型這種細(xì)粒度的細(xì)節(jié)，是在后期的低噪聲階段雕琢出來的。所以數(shù)字人模型讓兩種信號「錯峰出行」：在生成早期，模型優(yōu)先聽文本的指令，先把跑跳、轉(zhuǎn)身等動作框架搭好。到了生成中后期，模型再把控制權(quán)優(yōu)先交給音頻，保證唇形同步。

這種巧妙的設(shè)計，讓文本和音頻兩種控制模態(tài)各司其職，互不干擾。

接下來還有一個更加面向?qū)嶋H的挑戰(zhàn)。數(shù)字人需要長時間直播，而對于 AI 的長視頻生成而言，最大的挑戰(zhàn)在于「身份漂移」—— 人物說著說著，臉或者衣服就變樣了。

JoyAvatar 給出的解法是歷史幀編碼模塊（FramePack）+ 偽最后一幀策略。在推理過程中，模型不斷將用戶的參考圖像作為「偽最后一幀」注入模型，就像給模型定了一個永遠(yuǎn)不會偏離的錨點。這使得數(shù)字人模型能夠支持 30 秒以上的長視頻生成，全程保持身份穩(wěn)定、動作流暢，徹底打破了傳統(tǒng)數(shù)字人模型幀閃爍、時長受限的短板。

為驗證技術(shù)領(lǐng)先性，京東數(shù)字人團隊將 JoyAvatar 模型（Ours）與業(yè)界主流 SOTA 閉源模型進行了主觀 GSB 評分對比。結(jié)果顯示，JoyAvatar 在文本遵從、唇形準(zhǔn)確度、ID 保持、視頻畫質(zhì)等核心維度均表現(xiàn)顯著優(yōu)勢，整體 GSB 評分分別達(dá)到 1.36（超 omnihuman-1.5）與 1.73（超 KlingAvatar2.0），技術(shù)實力得到權(quán)威驗證。(GSB計算方式: GSB=(Good+Same)/(Bad+Same))

圖 3 JoyAvatar 模型實驗結(jié)果

與此同時，京東數(shù)字人團隊還在數(shù)字人模型的推理速度優(yōu)化上做出了大量創(chuàng)新性設(shè)計，推出了 JoyAvatar-Flash 版本（https://arxiv.org/abs/2512.11423）。首先基于通過 CausVid 和 Self Forcing 等技術(shù)將雙向模型蒸餾成自回歸單向模型，并通過 4 步采樣、kv-cache 和多 GPU 并行推理實現(xiàn) 30FPS 的生成速度。

研究團隊還提出了漸進步數(shù)引導(dǎo)、運動條件注入、基于 cache 重置的無限 RoPE 等創(chuàng)新點，實現(xiàn)實時流式生成無限時長的高保真數(shù)字人視頻，并在視覺質(zhì)量、時序一致性與唇形同步等方面表現(xiàn)卓越。

場景與商業(yè)化

讓中小商家用得起「數(shù)字人直播」

底層技術(shù)一旦捅破了天花板，廣闊的應(yīng)用想象力就徹底打開了。數(shù)字人直播作為核心商業(yè)場景率先迎來體驗升級：無論是 7x24 小時連軸轉(zhuǎn)的電商直播帶貨，還是需要極強表現(xiàn)力的電商短視頻，整體內(nèi)容形態(tài)與交互體驗都將實現(xiàn)質(zhì)的升級。

隨著本次長時長、自由態(tài)、實時互動技術(shù)的突破，京東數(shù)字人的第一塊試金石就是京東自己的核心業(yè)務(wù) —— 數(shù)字人直播。

從引爆全網(wǎng)的「采銷東哥」數(shù)字人，到海爾、格力等一眾總裁數(shù)字人在直播間挑起大梁，再到對微表情和肢體動作要求極高的 Vivi 明星數(shù)字人，京東數(shù)字人早已在直播場景中完成了多輪實戰(zhàn)驗證，不斷打磨高表現(xiàn)力的直播交互能力。去年更是推出了「JoyAI 零幀起手」小程序，實現(xiàn)了萬物皆可說，讓每一個普通用戶也能「玩起來」，真正把硬核的 AI 技術(shù)變成了全民皆可玩的生產(chǎn)力工具。

結(jié)合新技術(shù)，京東數(shù)字人 JoyStreamer （產(chǎn)品名稱）在行業(yè)內(nèi)率先推出「自由態(tài)數(shù)字人」，針對家電家居、時尚服飾等五大行業(yè)推出精準(zhǔn)適配的數(shù)字人，支持自然走動、靈活擺姿，鏡頭跟隨、出畫入畫流暢，臉部遮擋也能保持高保真質(zhì)感，實現(xiàn)了更加自然靈動的交互形態(tài)。

「自由態(tài)數(shù)字人」直播間

對于普通用戶來說，新一代數(shù)字人主播可以在直播間走動，展示商品局部細(xì)節(jié)，甚至能進行多主播的復(fù)雜互動，這讓直播更加有趣了；而對于電商來說，這種視覺表現(xiàn)力上的質(zhì)變，直接拉長了用戶的停留時長。

京東打造了低門檻的數(shù)字人平臺。對于數(shù)量最多的中小商家而言，一聽到「影視級」、「高表現(xiàn)力」這樣的詞匯，第一反應(yīng)往往是用不起，這恰恰是 JoyStreamer 最大的商業(yè)殺手锏：京東的數(shù)字人直播能力目前免費開放，商家可以在自己的后臺進行一鍵配置，自定義模型，或是一比一還原真人主播的聲音。

基于此，JoyStreamer 推出的「數(shù)字人直播間復(fù)刻」能力，幫助商家最大化沉淀直播資產(chǎn)商家僅需上傳一段真人直播視頻素材，就可以快速生成一個形象、聲線、神態(tài)、直播間布景上都與真人主播高度一致的「數(shù)字分身」，將單次成功直播轉(zhuǎn)化為可長期復(fù)用的數(shù)字人直播資產(chǎn)。

新秀麗正是通過「直播間復(fù)刻」能力實現(xiàn)長期穩(wěn)定開播，帶來公域流量提升超 60%，直播間人均停留時長近 2 分鐘，充分驗證了該功能的商業(yè)價值。

在京東的平臺上，數(shù)字人與真人的直播是同場 pk 的，流量競爭正在推動數(shù)字人技術(shù)持續(xù)提升。每一次技術(shù)的升級迭代，包括數(shù)字人、語音、多模態(tài)能力，都能獲得幾萬商家的深度應(yīng)用和反饋。

目前，京東數(shù)字人 JoyStreamer 已服務(wù)超 7 萬家商家，規(guī)模行業(yè)領(lǐng)先，幾乎覆蓋京東全品類，數(shù)字人直播成為越來越多商家的標(biāo)配選擇。高表現(xiàn)力的數(shù)字人主播正從「嘗鮮工具」轉(zhuǎn)變?yōu)槔瓌?GMV 的核心增長引擎。

京東 AI 的「護城河」

環(huán)顧當(dāng)下的全球 AI 競爭格局，不難發(fā)現(xiàn)：整個行業(yè)正陷入一場燒錢的「算力軍備競賽」。

面對快速顯現(xiàn)的需求與前沿 AI 能力的探索，京東此刻卻顯得更加冷靜。京東相關(guān)負(fù)責(zé)人表示，大模型的發(fā)展必須從參數(shù)至上的舊范式，徹底轉(zhuǎn)向效率、成本與性能平衡的新范式。

這種克制與平衡的技術(shù)哲學(xué)，不僅體現(xiàn)在數(shù)字人身上，也貫穿于京東大模型的整體布局。以京東近期開源的通用基礎(chǔ)大模型 JoyAI-LLM Flash 為例，這款模型的總參數(shù)量為 480 億，在實際運行中通過動態(tài)稀疏路由技術(shù)只激活 3B 的參數(shù)，智能體任務(wù)的 token 消耗量只有競品模型的 1/5，并獲得了很好的效果。

在龐大的 AI 應(yīng)用端，大模型的知識廣度，必須配合極低的推理成本和極快的響應(yīng)速度，才能完美契合產(chǎn)業(yè)界對于經(jīng)濟與效果的訴求。

作為一家新型實體企業(yè)，京東擁有零售、物流、健康、工業(yè)等豐富的真實業(yè)務(wù)場景，同時具備可觀的數(shù)字技術(shù)和能力。目前，京東的 AI 技術(shù)已經(jīng)深度融入自身的超級供應(yīng)鏈，在超過 2000 個具體的業(yè)務(wù)場景中落地生根。

JoyStreamer 之所以能迅速迭代出高表現(xiàn)力的數(shù)字人直播能力，正是因為每天有數(shù)以萬計的商家在直播間里提需求、做反饋。這種基于真實商業(yè)場景的數(shù)據(jù)飛輪，是很多技術(shù)公司難以比擬的。

最后，我們都好奇數(shù)字人的下一步是什么。京東的技術(shù)負(fù)責(zé)人表示，讓數(shù)字人直播間內(nèi)的主播學(xué)會換裝、實現(xiàn)更豐富的跨主播互動，并最終實現(xiàn)零幻覺是他們努力的方向。目前在行業(yè)里，還沒有任何一個團隊解決了這些問題。

在京東的直播間里，這些富有表現(xiàn)力的數(shù)字軀殼還在快速成長，屬于京東 AI 的這場產(chǎn)業(yè)突圍戰(zhàn)，才剛剛拉開序幕。

文中視頻鏈接：https://mp.weixin.qq.com/s/GW3HL1HqbXl0LVj8BR-vtA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.