<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Soul App開源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk

      0
      分享至

      近期,Soul App AI團(tuán)隊(duì)(Soul AI Lab)已開源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk 。這是首個(gè)能夠?qū)崿F(xiàn)0.87s亞秒級超低延時(shí)、32fps高幀率,并支持超長視頻穩(wěn)定生成的14B數(shù)字人模型。

      在持續(xù)建設(shè)AI能力的過程中,Soul團(tuán)隊(duì)始終致力于通過技術(shù)創(chuàng)新實(shí)現(xiàn)更沉浸、多元的交互體驗(yàn)。此次開源新模型,除了在速度、效果、延遲和保真度上表現(xiàn)出色,更重要的是,為行業(yè)提供了切實(shí)可應(yīng)用的業(yè)務(wù)解決方案,推動大參數(shù)量實(shí)時(shí)生成式數(shù)字人邁入可具體商用落地階段。



      Project Page:

      Technical Report:

      Source Code: https://github.com/Soul-AILab/SoulX-FlashTalk

      HuggingFace:

      SoulX-FlashTalk亮點(diǎn):

      四大關(guān)鍵指標(biāo),重塑實(shí)時(shí)互動體驗(yàn)

      0.87s 亞秒級延時(shí),即時(shí)交互

      在實(shí)時(shí)視頻交互中,延遲是決定用戶體驗(yàn)的核心。SoulX-FlashTalk 憑借全棧加速引擎的極致優(yōu)化,成功將首幀視頻輸出的延時(shí)降至0.87s亞秒級。

      • “零延遲”即時(shí)反饋: 首次讓 14B 級大模型數(shù)字人具備了即時(shí)反應(yīng)能力,徹底消除了傳統(tǒng)大模型生成的“滯后感”。
      • 全場景交互: 無論是視頻通話中的即時(shí)對答、直播間彈幕的秒級互動,還是智能客服的實(shí)時(shí)響應(yīng),均能實(shí)現(xiàn)自然、流暢的深度對話。

      32fps 高幀率,重新定義“流暢”

      盡管搭載了 14B 參數(shù)量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高達(dá) 32 FPS。

      • 超越行業(yè)標(biāo)準(zhǔn):遠(yuǎn)超直播所需的 25 FPS 實(shí)時(shí)標(biāo)準(zhǔn),確保每一幀畫面都絲滑順暢。
      • 大模型,高性能:證明了 140 億參數(shù)大模型在經(jīng)過深度加速優(yōu)化后,依然可以擁有極佳的運(yùn)行效率。

      超長視頻穩(wěn)定清晰生成,告別畫面“崩壞”

      數(shù)字人視頻最怕在生成中出現(xiàn)人物面部不一致或顯著畫質(zhì)下降的問題。SoulX-FlashTalk 憑借獨(dú)家的自糾正雙向蒸餾技術(shù),解決了這一痛點(diǎn):

      • 無感糾錯(cuò),畫質(zhì)無損:引入多步回溯自糾正機(jī)制,模擬長序列生成的誤差傳播并進(jìn)行實(shí)時(shí)修正,就像為 AI 裝上了“實(shí)時(shí)校準(zhǔn)器”,主動恢復(fù)受損特征。
      • 超長視頻,穩(wěn)定生成: 不同于傳統(tǒng)的單向依賴,SoulX-FlashTalk 完全保留了雙向注意力機(jī)制,讓每一幀生成都能同時(shí)參考過去與隱含的未來上下文,從根本上壓制身份漂移,這意味著在超長直播中,主播的口型、面部細(xì)節(jié)和背景環(huán)境將始終保持一致,不會出現(xiàn)模糊或變形。

      全身動作交互:不只是“口型對齊”

      SoulX-FlashTalk 突破了傳統(tǒng)數(shù)字人僅能實(shí)現(xiàn)面部“對口型”的局限,帶來了更加真實(shí)自然的全身肢體動態(tài)表現(xiàn)。

      • 全身肢體動態(tài)合成: 不同于僅對臉部進(jìn)行局部重繪的方案,SoulX-FlashTalk 支持受音頻驅(qū)動的全身動作生成,產(chǎn)生真實(shí)自然的人體動態(tài)。
      • 高精細(xì)手部表現(xiàn): 基于14B DiT的強(qiáng)大建模能力,系統(tǒng)能夠有效消除手部畸形與運(yùn)動模糊,精準(zhǔn)呈現(xiàn)結(jié)構(gòu)清晰、紋理銳利的手部動作細(xì)節(jié)。
      • 靈動而不失穩(wěn)定: 在追求大幅度動態(tài)表現(xiàn)力的同時(shí),系統(tǒng)依然維持了極高的身份一致性(Subject-C 達(dá) 99.22),實(shí)現(xiàn)了動作靈活性與畫面穩(wěn)定性的完美平衡。

      核心方案:

      雙向蒸餾+多步回溯自糾正機(jī)制

      在行業(yè)中,傳統(tǒng)數(shù)字人生成方案大多面臨畫面生成時(shí)間長、延遲高、生成效果差、效果不穩(wěn)定、保真度低等問題。

      在這樣的背景下,SoulX-FlashTalk正式開源,為了平衡生成質(zhì)量與推理速度,團(tuán)隊(duì)采用了兩階段訓(xùn)練策略:

      第一階段:延遲感知時(shí)空適配 (Latency-Aware Spatiotemporal Adaptation),結(jié)合動態(tài)長寬比分桶策略進(jìn)行微調(diào),使模型適應(yīng)較低的分辨率和更短的幀序列;

      第二階段:自糾正雙向蒸餾 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架壓縮采樣步數(shù)并移除無分類器引導(dǎo)(CFG),實(shí)現(xiàn)加速;多步回溯自糾正機(jī)制,通過 autoregressively 合成連續(xù)分塊(最多 K個(gè)chunks),顯式模擬長視頻生成的誤差傳播;隨機(jī)截?cái)嗖呗?,在?xùn)練中在第 k(< K)個(gè)分塊數(shù)進(jìn)行反向傳播,實(shí)現(xiàn)高效且無偏的顯存友好優(yōu)化 。



      訓(xùn)練流程示意圖

      同時(shí),團(tuán)隊(duì)進(jìn)行實(shí)時(shí)推理加速系統(tǒng)優(yōu)化, 針對 8-H800 節(jié)點(diǎn)設(shè)計(jì)的全棧加速引擎實(shí)現(xiàn)了亞秒級延遲 ,包括了

      • 混合序列并行 (Hybrid Sequence Parallelism):整合 Ulysses 和 Ring Attention,使單步推理速度提升約5倍算子級優(yōu)化:采用針對Hopper架構(gòu)優(yōu)化的FlashAttention3,通過異步執(zhí)行進(jìn)一步減少 20% 的延遲
      • 3D VAE 并行化:引入空間切片并行解碼策略,實(shí)現(xiàn)VAE處理的5倍加速
      • 整鏈優(yōu)化:通過 torch.compile 實(shí)現(xiàn)全流程圖融合與內(nèi)存優(yōu)化

      值得注意的是,在Soul AI團(tuán)隊(duì)發(fā)布的技術(shù)報(bào)告中指出,傳統(tǒng)的單向(Unidirectional)模型在處理全局時(shí)間結(jié)構(gòu)時(shí)存在約束,容易導(dǎo)致時(shí)間不一致和身份漂移。因此,團(tuán)隊(duì)完全保留雙向注意力機(jī)制(All-to-All 交互),使模型能同時(shí)利用過去與隱含的未來上下文,顯著提升了生成的一致性與細(xì)節(jié)質(zhì)量 。



      SoulX-FlashTalk推理架構(gòu)流程圖

      AI+實(shí)時(shí)體驗(yàn)

      賦能行業(yè)多元業(yè)務(wù)場景

      從模型表現(xiàn)來看,通過在 TalkBench-Short 和 TalkBench-Long 數(shù)據(jù)集上的定量對比,展示了SoulX-FlashTalk在視覺質(zhì)量、同步精度及生成速度上的全面領(lǐng)先:

      在短視頻評測中,它以3.51的ASE和4.79的IQA刷新了視覺保真度記錄,并以1.47的Sync-C分?jǐn)?shù)表現(xiàn)出最優(yōu)的口型同步精準(zhǔn)度;在5分鐘以上的長視頻生成中,系統(tǒng)憑借雙向蒸餾策略有效抑制了同步漂移,取得了1.61的Sync-C優(yōu)異成績;此外,作為14B參數(shù)規(guī)模的大模型,它在長短視頻任務(wù)中均維持了32 FPS 的高吞吐量,不僅遠(yuǎn)超25 FPS的實(shí)時(shí)性基準(zhǔn),更在推理效率上顯著優(yōu)于行業(yè)同類主流模型。



      依托模型優(yōu)越的性能表現(xiàn),開源后,SoulX-FlashTalk將有機(jī)會在多領(lǐng)域、行業(yè)實(shí)際落地,創(chuàng)造更多價(jià)值。例如,在電商領(lǐng)域打造7×24小時(shí)AI直播間,特別是,此前傳統(tǒng)的數(shù)字人直播長時(shí)間運(yùn)行后常會出現(xiàn)嘴型對不上或畫質(zhì)模糊的問題,而SoulX-FlashTalk可以支持全天候的流暢視頻直播,即便是在高強(qiáng)度的實(shí)時(shí)互動中(如回復(fù)彈幕),也能保持如同真人出鏡的高保真畫質(zhì),極大降低直播成本。

      此外,在短視頻制作、AI教育、多元互動場景NPC交互、AI客服等方向,模型也提供了高質(zhì)量、可落地、可接入業(yè)務(wù)系統(tǒng)的解決方案。

      對Soul而言,SoulX-FlashTalk的發(fā)布也意味著團(tuán)隊(duì)進(jìn)入了開源新階段。去年10月底,Soul AI團(tuán)隊(duì)開源語音合成模型SoulX-Podcast,在發(fā)布后快速登頂開源社區(qū)平臺HuggingFace TTS(Text To Speech)趨勢榜,目前該模型在GitHub上收獲了超3100星標(biāo)。

      接下來,在聚焦語音對話合成、視覺交互等核心交互能力的提升,為用戶帶來更加沉浸、智能且富有溫度的交互體驗(yàn)的過程中,以持續(xù)推進(jìn)開源工作為契機(jī),Soul將積極與全球開發(fā)者攜手,共建生態(tài),為推動“ AI +社交”方向前沿能力建設(shè)貢獻(xiàn)力量。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      油價(jià)如果沖上100美元,A股最受益的10家公司

      油價(jià)如果沖上100美元,A股最受益的10家公司

      風(fēng)風(fēng)順
      2026-03-07 07:32:40
      絕了絕了!塔圖姆醫(yī)學(xué)奇跡!首秀大戰(zhàn)NBA狀元郎

      絕了絕了!塔圖姆醫(yī)學(xué)奇跡!首秀大戰(zhàn)NBA狀元郎

      籃球?qū)崙?zhàn)寶典
      2026-03-06 17:29:14
      專家:美以想要摧毀伊朗導(dǎo)彈能力難度很大

      專家:美以想要摧毀伊朗導(dǎo)彈能力難度很大

      參考消息
      2026-03-06 11:44:13
      究竟遜尼派與什葉派的區(qū)別是什么?

      究竟遜尼派與什葉派的區(qū)別是什么?

      難得君
      2026-03-07 09:53:43
      被問爆了!小龍蝦用什么電腦裝?選哪個(gè)模型省錢?這篇“養(yǎng)蝦”保姆級教程請收好

      被問爆了!小龍蝦用什么電腦裝?選哪個(gè)模型省錢?這篇“養(yǎng)蝦”保姆級教程請收好

      AI范兒
      2026-03-06 20:54:35
      委內(nèi)瑞拉恢復(fù)稀釋原油出口

      委內(nèi)瑞拉恢復(fù)稀釋原油出口

      財(cái)聯(lián)社
      2026-03-07 04:14:31
      被邪修的“養(yǎng)生壺用法”驚到了,思路打開后,成了辦公室神器!

      被邪修的“養(yǎng)生壺用法”驚到了,思路打開后,成了辦公室神器!

      美家指南
      2026-03-06 15:38:12
      中日關(guān)系跌至冰點(diǎn),日企卻用55.5%的暴漲,打了高市早苗一記耳光

      中日關(guān)系跌至冰點(diǎn),日企卻用55.5%的暴漲,打了高市早苗一記耳光

      李健政觀察
      2026-03-06 10:52:22
      越扒瓜越大!魯山舅舅與亡姐結(jié)婚再添猛料,遠(yuǎn)不止吃絕戶這么簡單

      越扒瓜越大!魯山舅舅與亡姐結(jié)婚再添猛料,遠(yuǎn)不止吃絕戶這么簡單

      夢史
      2026-03-07 09:26:14
      我如果在澳門賭場輸了一千萬,跑回內(nèi)地,不還了可以嗎

      我如果在澳門賭場輸了一千萬,跑回內(nèi)地,不還了可以嗎

      賤議你讀史
      2026-03-03 12:35:42
      美軍80分鐘抓總統(tǒng),張維為直言:這不是強(qiáng)勢,是弱勢

      美軍80分鐘抓總統(tǒng),張維為直言:這不是強(qiáng)勢,是弱勢

      深度報(bào)
      2026-03-06 21:13:21
      熬了8年!高速收費(fèi)終于定了,2026年起,車主上高速徹底變了

      熬了8年!高速收費(fèi)終于定了,2026年起,車主上高速徹底變了

      奇思妙想草葉君
      2026-03-06 23:23:57
      2026年最值得價(jià)值投資的十只個(gè)股

      2026年最值得價(jià)值投資的十只個(gè)股

      風(fēng)風(fēng)順
      2026-03-07 08:21:30
      楊尚昆和哈梅內(nèi)伊的“三無”會見,楊尚昆說了幾句轉(zhuǎn)身就走

      楊尚昆和哈梅內(nèi)伊的“三無”會見,楊尚昆說了幾句轉(zhuǎn)身就走

      犀利強(qiáng)哥
      2026-03-04 21:40:54
      首秀15+11+7+20!塔圖姆回來了!東部徹底變天了!

      首秀15+11+7+20!塔圖姆回來了!東部徹底變天了!

      貴圈真亂
      2026-03-07 10:55:02
      內(nèi)塔尼亞胡親口承認(rèn):中國在二戰(zhàn)給予特殊援助,震撼真相大揭秘!

      內(nèi)塔尼亞胡親口承認(rèn):中國在二戰(zhàn)給予特殊援助,震撼真相大揭秘!

      鍋鍋愛歷史
      2026-03-07 02:48:38
      王茜四字回應(yīng)《重案六組》翻拍,這大概是內(nèi)娛,挨過最狠的打臉了

      王茜四字回應(yīng)《重案六組》翻拍,這大概是內(nèi)娛,挨過最狠的打臉了

      娛文速遞
      2026-03-06 17:32:29
      4億成本,片方分賬3200萬,虧損超3.5億,2026年最慘電影誕生了

      4億成本,片方分賬3200萬,虧損超3.5億,2026年最慘電影誕生了

      電影票房預(yù)告片
      2026-03-05 23:47:12
      金毛的大麻煩來了:波斯圣火令,追殺的不只是一個(gè)人!

      金毛的大麻煩來了:波斯圣火令,追殺的不只是一個(gè)人!

      魔都姐姐雜談
      2026-03-06 12:49:40
      玩法已經(jīng)變了?中國大量進(jìn)口稀土,逆差近4萬噸,92億元了

      玩法已經(jīng)變了?中國大量進(jìn)口稀土,逆差近4萬噸,92億元了

      互聯(lián)網(wǎng).亂侃秀
      2026-01-23 11:51:34
      2026-03-07 11:40:49
      智能相對論 incentive-icons
      智能相對論
      智能和車,邊評邊測;未來和家,且品且鑒
      2461文章數(shù) 2411關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      中東局勢動蕩 歐盟"女外長"污蔑:中國趁機(jī)拿捏歐洲

      頭條要聞

      中東局勢動蕩 歐盟"女外長"污蔑:中國趁機(jī)拿捏歐洲

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄20年地下情 被扒得底朝天

      財(cái)經(jīng)要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      游戲
      藝術(shù)
      旅游
      數(shù)碼
      公開課

      0護(hù)甲蝎子是干凈的?TES假賽內(nèi)幕曝光:AD跟打野爆了

      藝術(shù)要聞

      Mark Grantham | 城市街景

      旅游要聞

      別急著登機(jī)!在青島機(jī)場,享受麥香與花香的春日微醺之旅

      數(shù)碼要聞

      英特爾酷睿Ultra 5 250K Plus處理器PassMark跑分曝光

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版