<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      京東卷出新高度!硬剛復(fù)雜指令長時長、自由態(tài)數(shù)字人直播絲滑了

      0
      分享至



      編輯|澤南

      剛剛落幕的 2026 科技界「春晚」GTC 大會上,一個全行業(yè)的共識已經(jīng)形成:AI 正在進入智能體(Agent)時代。

      然而,當(dāng)各大廠商都在瘋狂入局智能體時,一個尷尬的現(xiàn)實卻擺在面前:這些聰明的數(shù)字大腦,缺少一個「靈動」的「軀殼」。如果說「龍蝦」OpenClaw 已經(jīng)為 AI 智能體工作的范式打開了方向,那么解決 AI 怎么和人打交道的交互領(lǐng)域,技術(shù)還面臨著挑戰(zhàn)。

      因涉及多個模態(tài)的轉(zhuǎn)換,為聰明的 AI 打造一副高表現(xiàn)力的「軀殼」,比想象中還要困難得多。

      直到最近,京東數(shù)字人的一系列新研究打破了這一僵局。

      京東 JoyAvatar 和 JoyAvatar-Flash 兩個數(shù)字人大模型,解決行業(yè)長期存在的文本指令控制力弱、多模態(tài)控制信號沖突、長時長生成能力不足等痛點問題,實現(xiàn)了長時長、自由態(tài)、實時互動的數(shù)字人生成效果,相關(guān)成果發(fā)表在了 arXiv 上,新一代數(shù)字人的性能全面超越了當(dāng)前 SOTA 模型,將效果推向了新的高度。

      • 論文鏈接:https://arxiv.org/pdf/2602.00702,https://arxiv.org/abs/2512.11423
      • 技術(shù)主頁:https://joyavatar.github.io/

      它具有超強的文本控制能力:

      提示詞:A little girl is first singing with a beaming smile, then she picks up a camera from the table, points it toward the viewer, and the flash goes of.

      提示詞:A woman stands indoors, speaking to the camera. She begins by picking up a vase from a cabinet, then gazes at it contemplatively, and finally places it on a chair within the scene. (Keep the character fully in frame throughout.)

      可以實現(xiàn)分鐘級時長的數(shù)字人合成:

      京東 JoyAvatar 系列數(shù)字人模型有打破僵局的意義,展現(xiàn)出了代差級別的優(yōu)勢,徹底告別了數(shù)字人「站樁式播報」:它不僅能精準(zhǔn)理解「復(fù)雜指令」,絲滑做出全身復(fù)雜動作,還能完美配合動態(tài)鏡頭軌跡以及背景的無縫變化。更絕的是,哪怕是在這種大幅度、劇烈運動的過程中,它依然能保持唇形與輸入音頻的完美同步。

      輸入指令「拿起巧克力吃掉」京東數(shù)字人能夠根據(jù)文本提示詞,流暢地完成整套抓取和咀嚼動作:



      提示詞:The girl picks up the chocolate box, shows it to the viewer, then takes out a piece of chocolate and eats it.

      輸入指令「放下手中的箱子」京東數(shù)字人不僅能平滑處理復(fù)雜的動作指令與背景流轉(zhuǎn),還能在超過 20 秒的視頻生成中保持人物身份的穩(wěn)定:



      提示詞:A man in the frame speaks to the camera while placing a toolbox on the ground, then climbs a ladder, keeping himself within the shot. He wears a white safety helmet, holds a black and yellow toolbox, with a room under renovation behind him. A ladder and a level are placed nearby.

      京東數(shù)字人的三大技術(shù)創(chuàng)新

      在生成式 AI 領(lǐng)域,數(shù)據(jù)是讓模型學(xué)習(xí)和理解的原材料。但收集大量既有劇烈肢體運動、又有清晰語音播報的高質(zhì)量視頻數(shù)據(jù),其成本是極其高昂的。面對靜態(tài)播報數(shù)據(jù)的天然偏見,京東數(shù)字人團隊轉(zhuǎn)向了一條更為新穎的路徑:雙教師 DMD(分布匹配蒸餾)后訓(xùn)練



      圖 1 雙教師 DMD 后訓(xùn)練框架圖



      圖 2 數(shù)字人模型預(yù)訓(xùn)練框架圖

      研究人員給數(shù)字人模型請來兩位「老師」,其中一位是「音頻教師」,由數(shù)字人基礎(chǔ)模型擔(dān)任,專攻口型和節(jié)奏;另一位則是「文本教師」,引入了視頻基礎(chǔ)大模型。由于視頻生成模型具備不錯的文本到視頻生成能力,能夠完美理解復(fù)雜的動作指令,通過這種分離式監(jiān)督、融合式學(xué)習(xí)的蒸餾機制,數(shù)字人模型在不增加任何新訓(xùn)練數(shù)據(jù)的前提下,直接繼承了其文本可控性。

      讓數(shù)字人既要聽從劇本做出復(fù)雜動作,又要嚴(yán)絲合縫地對口型,在過去是一個難以兼顧的任務(wù)。因為在模型的潛在空間里,文本信號和音頻信號常常會相互打架 —— 文本要主導(dǎo)全身動作,音頻要主導(dǎo)面部肌肉,兩者一旦沖突,畫面就會崩潰失真。

      為了解決這個多模態(tài)控制沖突,團隊創(chuàng)新性地提出了「動態(tài) CFG 調(diào)制策略」

      研究人員發(fā)現(xiàn),擴散模型在生成視頻時,全局的動作框架是在早期的高噪聲階段確定的,而口型這種細(xì)粒度的細(xì)節(jié),是在后期的低噪聲階段雕琢出來的。所以數(shù)字人模型讓兩種信號「錯峰出行」:在生成早期,模型優(yōu)先聽文本的指令,先把跑跳、轉(zhuǎn)身等動作框架搭好。到了生成中后期,模型再把控制權(quán)優(yōu)先交給音頻,保證唇形同步。

      這種巧妙的設(shè)計,讓文本和音頻兩種控制模態(tài)各司其職,互不干擾。

      接下來還有一個更加面向?qū)嶋H的挑戰(zhàn)。數(shù)字人需要長時間直播,而對于 AI 的長視頻生成而言,最大的挑戰(zhàn)在于「身份漂移」—— 人物說著說著,臉或者衣服就變樣了。

      JoyAvatar 給出的解法是歷史幀編碼模塊(FramePack)+ 偽最后一幀策略。在推理過程中,模型不斷將用戶的參考圖像作為「偽最后一幀」注入模型,就像給模型定了一個永遠(yuǎn)不會偏離的錨點。這使得數(shù)字人模型能夠支持 30 秒以上的長視頻生成,全程保持身份穩(wěn)定、動作流暢,徹底打破了傳統(tǒng)數(shù)字人模型幀閃爍、時長受限的短板。

      為驗證技術(shù)領(lǐng)先性,京東數(shù)字人團隊將 JoyAvatar 模型(Ours)與業(yè)界主流 SOTA 閉源模型進行了主觀 GSB 評分對比。結(jié)果顯示,JoyAvatar 在文本遵從、唇形準(zhǔn)確度、ID 保持、視頻畫質(zhì)等核心維度均表現(xiàn)顯著優(yōu)勢,整體 GSB 評分分別達(dá)到 1.36(超 omnihuman-1.5)與 1.73(超 KlingAvatar2.0),技術(shù)實力得到權(quán)威驗證。(GSB計算方式: GSB=(Good+Same)/(Bad+Same))



      圖 3 JoyAvatar 模型實驗結(jié)果

      與此同時,京東數(shù)字人團隊還在數(shù)字人模型的推理速度優(yōu)化上做出了大量創(chuàng)新性設(shè)計,推出了 JoyAvatar-Flash 版本(https://arxiv.org/abs/2512.11423)。首先基于通過 CausVid 和 Self Forcing 等技術(shù)將雙向模型蒸餾成自回歸單向模型,并通過 4 步采樣、kv-cache 和多 GPU 并行推理實現(xiàn) 30FPS 的生成速度。

      研究團隊還提出了漸進步數(shù)引導(dǎo)、運動條件注入、基于 cache 重置的無限 RoPE 等創(chuàng)新點,實現(xiàn)實時流式生成無限時長的高保真數(shù)字人視頻,并在視覺質(zhì)量、時序一致性與唇形同步等方面表現(xiàn)卓越。

      場景與商業(yè)化

      讓中小商家用得起「數(shù)字人直播」

      底層技術(shù)一旦捅破了天花板,廣闊的應(yīng)用想象力就徹底打開了。數(shù)字人直播作為核心商業(yè)場景率先迎來體驗升級:無論是 7x24 小時連軸轉(zhuǎn)的電商直播帶貨,還是需要極強表現(xiàn)力的電商短視頻,整體內(nèi)容形態(tài)與交互體驗都將實現(xiàn)質(zhì)的升級。

      隨著本次長時長、自由態(tài)、實時互動技術(shù)的突破,京東數(shù)字人的第一塊試金石就是京東自己的核心業(yè)務(wù) —— 數(shù)字人直播。

      從引爆全網(wǎng)的「采銷東哥」數(shù)字人,到海爾、格力等一眾總裁數(shù)字人在直播間挑起大梁,再到對微表情和肢體動作要求極高的 Vivi 明星數(shù)字人,京東數(shù)字人早已在直播場景中完成了多輪實戰(zhàn)驗證,不斷打磨高表現(xiàn)力的直播交互能力。去年更是推出了「JoyAI 零幀起手」小程序,實現(xiàn)了萬物皆可說,讓每一個普通用戶也能「玩起來」,真正把硬核的 AI 技術(shù)變成了全民皆可玩的生產(chǎn)力工具。

      結(jié)合新技術(shù),京東數(shù)字人 JoyStreamer (產(chǎn)品名稱)在行業(yè)內(nèi)率先推出「自由態(tài)數(shù)字人」,針對家電家居、時尚服飾等五大行業(yè)推出精準(zhǔn)適配的數(shù)字人,支持自然走動、靈活擺姿,鏡頭跟隨、出畫入畫流暢,臉部遮擋也能保持高保真質(zhì)感,實現(xiàn)了更加自然靈動的交互形態(tài)。

      「自由態(tài)數(shù)字人」直播間

      對于普通用戶來說,新一代數(shù)字人主播可以在直播間走動,展示商品局部細(xì)節(jié),甚至能進行多主播的復(fù)雜互動,這讓直播更加有趣了;而對于電商來說,這種視覺表現(xiàn)力上的質(zhì)變,直接拉長了用戶的停留時長。

      京東打造了低門檻的數(shù)字人平臺。對于數(shù)量最多的中小商家而言,一聽到「影視級」、「高表現(xiàn)力」這樣的詞匯,第一反應(yīng)往往是用不起,這恰恰是 JoyStreamer 最大的商業(yè)殺手锏:京東的數(shù)字人直播能力目前免費開放,商家可以在自己的后臺進行一鍵配置,自定義模型,或是一比一還原真人主播的聲音。

      基于此,JoyStreamer 推出的「數(shù)字人直播間復(fù)刻」能力,幫助商家最大化沉淀直播資產(chǎn)商家僅需上傳一段真人直播視頻素材,就可以快速生成一個形象、聲線、神態(tài)、直播間布景上都與真人主播高度一致的「數(shù)字分身」,將單次成功直播轉(zhuǎn)化為可長期復(fù)用的數(shù)字人直播資產(chǎn)。

      新秀麗正是通過「直播間復(fù)刻」能力實現(xiàn)長期穩(wěn)定開播,帶來公域流量提升超 60%,直播間人均停留時長近 2 分鐘,充分驗證了該功能的商業(yè)價值。



      在京東的平臺上,數(shù)字人與真人的直播是同場 pk 的,流量競爭正在推動數(shù)字人技術(shù)持續(xù)提升。每一次技術(shù)的升級迭代,包括數(shù)字人、語音、多模態(tài)能力,都能獲得幾萬商家的深度應(yīng)用和反饋。

      目前,京東數(shù)字人 JoyStreamer 已服務(wù)超 7 萬家商家,規(guī)模行業(yè)領(lǐng)先,幾乎覆蓋京東全品類,數(shù)字人直播成為越來越多商家的標(biāo)配選擇。高表現(xiàn)力的數(shù)字人主播正從「嘗鮮工具」轉(zhuǎn)變?yōu)槔瓌?GMV 的核心增長引擎。

      京東 AI 的「護城河」

      環(huán)顧當(dāng)下的全球 AI 競爭格局,不難發(fā)現(xiàn):整個行業(yè)正陷入一場燒錢的「算力軍備競賽」。

      面對快速顯現(xiàn)的需求與前沿 AI 能力的探索,京東此刻卻顯得更加冷靜。京東相關(guān)負(fù)責(zé)人表示,大模型的發(fā)展必須從參數(shù)至上的舊范式,徹底轉(zhuǎn)向效率、成本與性能平衡的新范式。

      這種克制與平衡的技術(shù)哲學(xué),不僅體現(xiàn)在數(shù)字人身上,也貫穿于京東大模型的整體布局。以京東近期開源的通用基礎(chǔ)大模型 JoyAI-LLM Flash 為例,這款模型的總參數(shù)量為 480 億,在實際運行中通過動態(tài)稀疏路由技術(shù)只激活 3B 的參數(shù),智能體任務(wù)的 token 消耗量只有競品模型的 1/5,并獲得了很好的效果。

      在龐大的 AI 應(yīng)用端,大模型的知識廣度,必須配合極低的推理成本和極快的響應(yīng)速度,才能完美契合產(chǎn)業(yè)界對于經(jīng)濟與效果的訴求。

      作為一家新型實體企業(yè),京東擁有零售、物流、健康、工業(yè)等豐富的真實業(yè)務(wù)場景,同時具備可觀的數(shù)字技術(shù)和能力。目前,京東的 AI 技術(shù)已經(jīng)深度融入自身的超級供應(yīng)鏈,在超過 2000 個具體的業(yè)務(wù)場景中落地生根。

      JoyStreamer 之所以能迅速迭代出高表現(xiàn)力的數(shù)字人直播能力,正是因為每天有數(shù)以萬計的商家在直播間里提需求、做反饋。這種基于真實商業(yè)場景的數(shù)據(jù)飛輪,是很多技術(shù)公司難以比擬的。

      最后,我們都好奇數(shù)字人的下一步是什么。京東的技術(shù)負(fù)責(zé)人表示,讓數(shù)字人直播間內(nèi)的主播學(xué)會換裝、實現(xiàn)更豐富的跨主播互動,并最終實現(xiàn)零幻覺是他們努力的方向。目前在行業(yè)里,還沒有任何一個團隊解決了這些問題。

      在京東的直播間里,這些富有表現(xiàn)力的數(shù)字軀殼還在快速成長,屬于京東 AI 的這場產(chǎn)業(yè)突圍戰(zhàn),才剛剛拉開序幕。

      文中視頻鏈接:https://mp.weixin.qq.com/s/GW3HL1HqbXl0LVj8BR-vtA

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      教師大勢已明朗:不出意外,2026年中國教師隊伍,會迎來4大變化

      教師大勢已明朗:不出意外,2026年中國教師隊伍,會迎來4大變化

      小談食刻美食
      2026-04-02 08:46:43
      這個男士是郭延軍,他的鼻子的寬度、面積、體積為普通人2倍以上

      這個男士是郭延軍,他的鼻子的寬度、面積、體積為普通人2倍以上

      歲月有情1314
      2026-04-01 11:25:58
      王傳君夫妻疑街頭爭吵!齊溪皺眉咄咄逼人,膀大腰圓被誤認(rèn)成保鏢

      王傳君夫妻疑街頭爭吵!齊溪皺眉咄咄逼人,膀大腰圓被誤認(rèn)成保鏢

      老塕是個手藝人
      2026-04-02 10:24:14
      兩地副市長,接連任上被查

      兩地副市長,接連任上被查

      上觀新聞
      2026-04-02 13:47:05
      一場119-113讓湖人無奈!首輪對陣基本出爐,火箭掌控季后賽格局

      一場119-113讓湖人無奈!首輪對陣基本出爐,火箭掌控季后賽格局

      八斗小先生
      2026-04-02 11:10:17
      李婉華:我和吳鎮(zhèn)宇同居8年,但凡他跟我求婚,我都不會另嫁他人

      李婉華:我和吳鎮(zhèn)宇同居8年,但凡他跟我求婚,我都不會另嫁他人

      悅君兮君不知
      2026-04-01 15:16:36
      A股,大級別的調(diào)整要來了?明天,周五行情分析

      A股,大級別的調(diào)整要來了?明天,周五行情分析

      明心
      2026-04-02 15:16:44
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      科學(xué)發(fā)掘
      2026-04-01 00:28:34
      視頻丨美防長涉內(nèi)幕交易丑聞持續(xù)發(fā)酵

      視頻丨美防長涉內(nèi)幕交易丑聞持續(xù)發(fā)酵

      國際在線
      2026-04-02 03:25:03
      出大事了,伊朗導(dǎo)彈精準(zhǔn)斬首,以軍生死未卜,大批美軍官被抬走?

      出大事了,伊朗導(dǎo)彈精準(zhǔn)斬首,以軍生死未卜,大批美軍官被抬走?

      蕭栝記錄風(fēng)土人情
      2026-04-02 10:33:09
      她的職業(yè)不應(yīng)成為被害的理由

      她的職業(yè)不應(yīng)成為被害的理由

      阿亮評論
      2026-04-01 11:00:10
      何鴻燊說:寧愿寵出個任性的女兒,也千萬不要逼出一個懂事的女兒

      何鴻燊說:寧愿寵出個任性的女兒,也千萬不要逼出一個懂事的女兒

      柳絮憶史
      2026-04-01 09:00:56
      誠狗封影帝!合作女同事全體出席!

      誠狗封影帝!合作女同事全體出席!

      貴圈真亂
      2026-04-02 12:35:00
      烏克蘭:我們從未襲擊過伊朗,伊朗的無人機卻每天都在轟炸我們

      烏克蘭:我們從未襲擊過伊朗,伊朗的無人機卻每天都在轟炸我們

      鷹眼Defence
      2026-04-01 16:55:25
      鄭麗文應(yīng)邀訪陸,24小時不到,一架美專機抵達(dá)島內(nèi),特朗普攤牌了

      鄭麗文應(yīng)邀訪陸,24小時不到,一架美專機抵達(dá)島內(nèi),特朗普攤牌了

      愛吃醋的貓咪
      2026-04-01 22:29:35
      庫班談東契奇交易:基德和GM做的決定,有人感情用事!基德回應(yīng)

      庫班談東契奇交易:基德和GM做的決定,有人感情用事!基德回應(yīng)

      你的籃球頻道
      2026-04-02 15:16:10
      陳小春和應(yīng)采兒在阿聯(lián)酋被偶遇!沒想到應(yīng)采兒這么高,真系靚!

      陳小春和應(yīng)采兒在阿聯(lián)酋被偶遇!沒想到應(yīng)采兒這么高,真系靚!

      智慧生活筆記
      2026-04-02 14:58:01
      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規(guī)則都變了

      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規(guī)則都變了

      生活魔術(shù)專家
      2026-04-02 04:30:39
      4月2、3日世界杯+CCTV5直播:F勒布倫VS王楚欽,孫穎莎VS蒯曼

      4月2、3日世界杯+CCTV5直播:F勒布倫VS王楚欽,孫穎莎VS蒯曼

      開成運動會
      2026-04-02 01:02:21
      西安路口致命事故后續(xù),引爆網(wǎng)友熱議的是黑衣男子插兜動作

      西安路口致命事故后續(xù),引爆網(wǎng)友熱議的是黑衣男子插兜動作

      觀察鑒娛
      2026-04-01 12:26:43
      2026-04-02 17:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12667文章數(shù) 142604關(guān)注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應(yīng)

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應(yīng)

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經(jīng)要聞

      電商售械三水光針 機構(gòu)倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態(tài)度原創(chuàng)

      旅游
      本地
      教育
      家居
      游戲

      旅游要聞

      河南中牟:地鐵直達(dá)赴春約 “微度假”成春日近郊游爆款

      本地新聞

      從學(xué)徒到世界冠軍,為什么說張雪的底氣在重慶?

      教育要聞

      天府新區(qū)調(diào)整劃片后,利好不止這個片區(qū)

      家居要聞

      歲月靜好 典雅新章

      嫌PS5太丑!玩家爆改:圓潤曲線被徹底削平 更硬朗

      無障礙瀏覽 進入關(guān)懷版