![]()
編輯|澤南
剛剛落幕的 2026 科技界「春晚」GTC 大會上,一個全行業(yè)的共識已經(jīng)形成:AI 正在進入智能體(Agent)時代。
然而,當(dāng)各大廠商都在瘋狂入局智能體時,一個尷尬的現(xiàn)實卻擺在面前:這些聰明的數(shù)字大腦,缺少一個「靈動」的「軀殼」。如果說「龍蝦」OpenClaw 已經(jīng)為 AI 智能體工作的范式打開了方向,那么解決 AI 怎么和人打交道的交互領(lǐng)域,技術(shù)還面臨著挑戰(zhàn)。
因涉及多個模態(tài)的轉(zhuǎn)換,為聰明的 AI 打造一副高表現(xiàn)力的「軀殼」,比想象中還要困難得多。
直到最近,京東數(shù)字人的一系列新研究打破了這一僵局。
京東 JoyAvatar 和 JoyAvatar-Flash 兩個數(shù)字人大模型,解決行業(yè)長期存在的文本指令控制力弱、多模態(tài)控制信號沖突、長時長生成能力不足等痛點問題,實現(xiàn)了長時長、自由態(tài)、實時互動的數(shù)字人生成效果,相關(guān)成果發(fā)表在了 arXiv 上,新一代數(shù)字人的性能全面超越了當(dāng)前 SOTA 模型,將效果推向了新的高度。
- 論文鏈接:https://arxiv.org/pdf/2602.00702,https://arxiv.org/abs/2512.11423
- 技術(shù)主頁:https://joyavatar.github.io/
它具有超強的文本控制能力:
提示詞:A little girl is first singing with a beaming smile, then she picks up a camera from the table, points it toward the viewer, and the flash goes of.
提示詞:A woman stands indoors, speaking to the camera. She begins by picking up a vase from a cabinet, then gazes at it contemplatively, and finally places it on a chair within the scene. (Keep the character fully in frame throughout.)
可以實現(xiàn)分鐘級時長的數(shù)字人合成:
京東 JoyAvatar 系列數(shù)字人模型有打破僵局的意義,展現(xiàn)出了代差級別的優(yōu)勢,徹底告別了數(shù)字人「站樁式播報」:它不僅能精準(zhǔn)理解「復(fù)雜指令」,絲滑做出全身復(fù)雜動作,還能完美配合動態(tài)鏡頭軌跡以及背景的無縫變化。更絕的是,哪怕是在這種大幅度、劇烈運動的過程中,它依然能保持唇形與輸入音頻的完美同步。
輸入指令「拿起巧克力吃掉」京東數(shù)字人能夠根據(jù)文本提示詞,流暢地完成整套抓取和咀嚼動作:
![]()
提示詞:The girl picks up the chocolate box, shows it to the viewer, then takes out a piece of chocolate and eats it.
輸入指令「放下手中的箱子」京東數(shù)字人不僅能平滑處理復(fù)雜的動作指令與背景流轉(zhuǎn),還能在超過 20 秒的視頻生成中保持人物身份的穩(wěn)定:
![]()
提示詞:A man in the frame speaks to the camera while placing a toolbox on the ground, then climbs a ladder, keeping himself within the shot. He wears a white safety helmet, holds a black and yellow toolbox, with a room under renovation behind him. A ladder and a level are placed nearby.
京東數(shù)字人的三大技術(shù)創(chuàng)新
在生成式 AI 領(lǐng)域,數(shù)據(jù)是讓模型學(xué)習(xí)和理解的原材料。但收集大量既有劇烈肢體運動、又有清晰語音播報的高質(zhì)量視頻數(shù)據(jù),其成本是極其高昂的。面對靜態(tài)播報數(shù)據(jù)的天然偏見,京東數(shù)字人團隊轉(zhuǎn)向了一條更為新穎的路徑:雙教師 DMD(分布匹配蒸餾)后訓(xùn)練
![]()
圖 1 雙教師 DMD 后訓(xùn)練框架圖
![]()
圖 2 數(shù)字人模型預(yù)訓(xùn)練框架圖
研究人員給數(shù)字人模型請來兩位「老師」,其中一位是「音頻教師」,由數(shù)字人基礎(chǔ)模型擔(dān)任,專攻口型和節(jié)奏;另一位則是「文本教師」,引入了視頻基礎(chǔ)大模型。由于視頻生成模型具備不錯的文本到視頻生成能力,能夠完美理解復(fù)雜的動作指令,通過這種分離式監(jiān)督、融合式學(xué)習(xí)的蒸餾機制,數(shù)字人模型在不增加任何新訓(xùn)練數(shù)據(jù)的前提下,直接繼承了其文本可控性。
讓數(shù)字人既要聽從劇本做出復(fù)雜動作,又要嚴(yán)絲合縫地對口型,在過去是一個難以兼顧的任務(wù)。因為在模型的潛在空間里,文本信號和音頻信號常常會相互打架 —— 文本要主導(dǎo)全身動作,音頻要主導(dǎo)面部肌肉,兩者一旦沖突,畫面就會崩潰失真。
為了解決這個多模態(tài)控制沖突,團隊創(chuàng)新性地提出了「動態(tài) CFG 調(diào)制策略」
研究人員發(fā)現(xiàn),擴散模型在生成視頻時,全局的動作框架是在早期的高噪聲階段確定的,而口型這種細(xì)粒度的細(xì)節(jié),是在后期的低噪聲階段雕琢出來的。所以數(shù)字人模型讓兩種信號「錯峰出行」:在生成早期,模型優(yōu)先聽文本的指令,先把跑跳、轉(zhuǎn)身等動作框架搭好。到了生成中后期,模型再把控制權(quán)優(yōu)先交給音頻,保證唇形同步。
這種巧妙的設(shè)計,讓文本和音頻兩種控制模態(tài)各司其職,互不干擾。
接下來還有一個更加面向?qū)嶋H的挑戰(zhàn)。數(shù)字人需要長時間直播,而對于 AI 的長視頻生成而言,最大的挑戰(zhàn)在于「身份漂移」—— 人物說著說著,臉或者衣服就變樣了。
JoyAvatar 給出的解法是歷史幀編碼模塊(FramePack)+ 偽最后一幀策略。在推理過程中,模型不斷將用戶的參考圖像作為「偽最后一幀」注入模型,就像給模型定了一個永遠(yuǎn)不會偏離的錨點。這使得數(shù)字人模型能夠支持 30 秒以上的長視頻生成,全程保持身份穩(wěn)定、動作流暢,徹底打破了傳統(tǒng)數(shù)字人模型幀閃爍、時長受限的短板。
為驗證技術(shù)領(lǐng)先性,京東數(shù)字人團隊將 JoyAvatar 模型(Ours)與業(yè)界主流 SOTA 閉源模型進行了主觀 GSB 評分對比。結(jié)果顯示,JoyAvatar 在文本遵從、唇形準(zhǔn)確度、ID 保持、視頻畫質(zhì)等核心維度均表現(xiàn)顯著優(yōu)勢,整體 GSB 評分分別達(dá)到 1.36(超 omnihuman-1.5)與 1.73(超 KlingAvatar2.0),技術(shù)實力得到權(quán)威驗證。(GSB計算方式: GSB=(Good+Same)/(Bad+Same))
![]()
圖 3 JoyAvatar 模型實驗結(jié)果
與此同時,京東數(shù)字人團隊還在數(shù)字人模型的推理速度優(yōu)化上做出了大量創(chuàng)新性設(shè)計,推出了 JoyAvatar-Flash 版本(https://arxiv.org/abs/2512.11423)。首先基于通過 CausVid 和 Self Forcing 等技術(shù)將雙向模型蒸餾成自回歸單向模型,并通過 4 步采樣、kv-cache 和多 GPU 并行推理實現(xiàn) 30FPS 的生成速度。
研究團隊還提出了漸進步數(shù)引導(dǎo)、運動條件注入、基于 cache 重置的無限 RoPE 等創(chuàng)新點,實現(xiàn)實時流式生成無限時長的高保真數(shù)字人視頻,并在視覺質(zhì)量、時序一致性與唇形同步等方面表現(xiàn)卓越。
場景與商業(yè)化
讓中小商家用得起「數(shù)字人直播」
底層技術(shù)一旦捅破了天花板,廣闊的應(yīng)用想象力就徹底打開了。數(shù)字人直播作為核心商業(yè)場景率先迎來體驗升級:無論是 7x24 小時連軸轉(zhuǎn)的電商直播帶貨,還是需要極強表現(xiàn)力的電商短視頻,整體內(nèi)容形態(tài)與交互體驗都將實現(xiàn)質(zhì)的升級。
隨著本次長時長、自由態(tài)、實時互動技術(shù)的突破,京東數(shù)字人的第一塊試金石就是京東自己的核心業(yè)務(wù) —— 數(shù)字人直播。
從引爆全網(wǎng)的「采銷東哥」數(shù)字人,到海爾、格力等一眾總裁數(shù)字人在直播間挑起大梁,再到對微表情和肢體動作要求極高的 Vivi 明星數(shù)字人,京東數(shù)字人早已在直播場景中完成了多輪實戰(zhàn)驗證,不斷打磨高表現(xiàn)力的直播交互能力。去年更是推出了「JoyAI 零幀起手」小程序,實現(xiàn)了萬物皆可說,讓每一個普通用戶也能「玩起來」,真正把硬核的 AI 技術(shù)變成了全民皆可玩的生產(chǎn)力工具。
結(jié)合新技術(shù),京東數(shù)字人 JoyStreamer (產(chǎn)品名稱)在行業(yè)內(nèi)率先推出「自由態(tài)數(shù)字人」,針對家電家居、時尚服飾等五大行業(yè)推出精準(zhǔn)適配的數(shù)字人,支持自然走動、靈活擺姿,鏡頭跟隨、出畫入畫流暢,臉部遮擋也能保持高保真質(zhì)感,實現(xiàn)了更加自然靈動的交互形態(tài)。
「自由態(tài)數(shù)字人」直播間
對于普通用戶來說,新一代數(shù)字人主播可以在直播間走動,展示商品局部細(xì)節(jié),甚至能進行多主播的復(fù)雜互動,這讓直播更加有趣了;而對于電商來說,這種視覺表現(xiàn)力上的質(zhì)變,直接拉長了用戶的停留時長。
京東打造了低門檻的數(shù)字人平臺。對于數(shù)量最多的中小商家而言,一聽到「影視級」、「高表現(xiàn)力」這樣的詞匯,第一反應(yīng)往往是用不起,這恰恰是 JoyStreamer 最大的商業(yè)殺手锏:京東的數(shù)字人直播能力目前免費開放,商家可以在自己的后臺進行一鍵配置,自定義模型,或是一比一還原真人主播的聲音。
基于此,JoyStreamer 推出的「數(shù)字人直播間復(fù)刻」能力,幫助商家最大化沉淀直播資產(chǎn)商家僅需上傳一段真人直播視頻素材,就可以快速生成一個形象、聲線、神態(tài)、直播間布景上都與真人主播高度一致的「數(shù)字分身」,將單次成功直播轉(zhuǎn)化為可長期復(fù)用的數(shù)字人直播資產(chǎn)。
新秀麗正是通過「直播間復(fù)刻」能力實現(xiàn)長期穩(wěn)定開播,帶來公域流量提升超 60%,直播間人均停留時長近 2 分鐘,充分驗證了該功能的商業(yè)價值。
![]()
在京東的平臺上,數(shù)字人與真人的直播是同場 pk 的,流量競爭正在推動數(shù)字人技術(shù)持續(xù)提升。每一次技術(shù)的升級迭代,包括數(shù)字人、語音、多模態(tài)能力,都能獲得幾萬商家的深度應(yīng)用和反饋。
目前,京東數(shù)字人 JoyStreamer 已服務(wù)超 7 萬家商家,規(guī)模行業(yè)領(lǐng)先,幾乎覆蓋京東全品類,數(shù)字人直播成為越來越多商家的標(biāo)配選擇。高表現(xiàn)力的數(shù)字人主播正從「嘗鮮工具」轉(zhuǎn)變?yōu)槔瓌?GMV 的核心增長引擎。
京東 AI 的「護城河」
環(huán)顧當(dāng)下的全球 AI 競爭格局,不難發(fā)現(xiàn):整個行業(yè)正陷入一場燒錢的「算力軍備競賽」。
面對快速顯現(xiàn)的需求與前沿 AI 能力的探索,京東此刻卻顯得更加冷靜。京東相關(guān)負(fù)責(zé)人表示,大模型的發(fā)展必須從參數(shù)至上的舊范式,徹底轉(zhuǎn)向效率、成本與性能平衡的新范式。
這種克制與平衡的技術(shù)哲學(xué),不僅體現(xiàn)在數(shù)字人身上,也貫穿于京東大模型的整體布局。以京東近期開源的通用基礎(chǔ)大模型 JoyAI-LLM Flash 為例,這款模型的總參數(shù)量為 480 億,在實際運行中通過動態(tài)稀疏路由技術(shù)只激活 3B 的參數(shù),智能體任務(wù)的 token 消耗量只有競品模型的 1/5,并獲得了很好的效果。
在龐大的 AI 應(yīng)用端,大模型的知識廣度,必須配合極低的推理成本和極快的響應(yīng)速度,才能完美契合產(chǎn)業(yè)界對于經(jīng)濟與效果的訴求。
作為一家新型實體企業(yè),京東擁有零售、物流、健康、工業(yè)等豐富的真實業(yè)務(wù)場景,同時具備可觀的數(shù)字技術(shù)和能力。目前,京東的 AI 技術(shù)已經(jīng)深度融入自身的超級供應(yīng)鏈,在超過 2000 個具體的業(yè)務(wù)場景中落地生根。
JoyStreamer 之所以能迅速迭代出高表現(xiàn)力的數(shù)字人直播能力,正是因為每天有數(shù)以萬計的商家在直播間里提需求、做反饋。這種基于真實商業(yè)場景的數(shù)據(jù)飛輪,是很多技術(shù)公司難以比擬的。
最后,我們都好奇數(shù)字人的下一步是什么。京東的技術(shù)負(fù)責(zé)人表示,讓數(shù)字人直播間內(nèi)的主播學(xué)會換裝、實現(xiàn)更豐富的跨主播互動,并最終實現(xiàn)零幻覺是他們努力的方向。目前在行業(yè)里,還沒有任何一個團隊解決了這些問題。
在京東的直播間里,這些富有表現(xiàn)力的數(shù)字軀殼還在快速成長,屬于京東 AI 的這場產(chǎn)業(yè)突圍戰(zhàn),才剛剛拉開序幕。
文中視頻鏈接:https://mp.weixin.qq.com/s/GW3HL1HqbXl0LVj8BR-vtA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.