網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

不是，怎么有模型叫“老婆們”，還能視頻通話啊？

2026-04-17 00:09:07　來源: 差評XPIN

浙江舉報(bào)

分享至

“2030 年，打造出全球十億人愿意生活在其中的虛擬世界。”

這是三年前米哈游喊出的口號，世超當(dāng)初聽著也是小小激動了一把，但近幾年好像都沒啥動靜了，也就覺得這不過是給咱二次元畫的餅罷了。。。

但所謂“ 技術(shù)宅拯救世界 ”，米哈游在中二這方面從不讓人失望，前些天一個(gè)叫“LPM-1.0”的模型新鮮出爐，讓咱跟這張餅的距離又近了點(diǎn)兒。

LPM-1.0 （Large Performance Model）即大表演模型，由人工智能公司 Anuttacon 訓(xùn)練，背后正是米哈游聯(lián)合創(chuàng)始人蔡浩宇。

而在這次的視頻模型之前，他們還推出過二次元風(fēng)格非常濃郁的聊天模型“AnunNeko”，以及 AI 驅(qū)動的游戲“Whispers from the Star”。

這游戲隔壁的小發(fā)還玩兒過：，挺特殊的。

從這些產(chǎn)品的定位也能看出，Anuttacon 的初衷就是做 AI + 游戲的一些前沿嘗試。

所以這次的 LPM-1.0 也不例外，你看名字，LPM 不就是“老婆們”么，這模型就是朝著把你的二次元老婆們復(fù)活來的。

蔡喵就是蔡浩宇

當(dāng)然，玩笑歸玩笑，模型能力從官網(wǎng)放出的展示來看，可是一點(diǎn)兒不胡鬧，其中讓人印象最深的就是這非常絲滑的實(shí)時(shí)對話了。

演示里根據(jù)之前米家的虛擬角色形象“鹿鳴”構(gòu)建了個(gè)真人版，可以在網(wǎng)頁中和她實(shí)時(shí)對話。

這里切換語言到中文后，讓她推薦二次元游戲，可以看到回答的效果非常自然，雖然播音腔濃厚了點(diǎn)，但聲音和表情的對應(yīng)是融洽的。

而且不同于一般的視頻模型，這里的展示是有一種互動性，能持續(xù)進(jìn)行的。

這就是它的特殊之處了，LPM-1.0 的核心定位不是一次性的生成，而是持續(xù)性的表演，讓對話變得具有交互感。

所以與其說它是視頻生成模型，倒不如說它更像是之前數(shù)字人技術(shù)的升級版。

數(shù)字人其實(shí)大伙兒也不陌生，只要點(diǎn)開過上面這種直播間，里面的主播就是數(shù)字人，輸入指令，你甚至能讓主播“喵”一百聲。。。

別看上面這位口型都對不準(zhǔn)，背后燒的 Token 可不少。

為了支撐她跟觀眾實(shí)時(shí)互動，后臺需要一個(gè)低延遲語音對話 Agent，加上一套實(shí)時(shí)說話的人臉生成系統(tǒng)，還得再套一層直播推流和運(yùn)營控制臺，非常繁瑣。

而這次的 LPM-1.0 直接將前兩個(gè)部分整合了一下，直播互動更方便了。

官方也直接告訴大伙兒，模型主打的就是無限的視頻生成時(shí)長，只要你想，這對話能一直進(jìn)行下去。。。

既然是跟數(shù)字人技術(shù)對比，正好之前也有快手的 KlingAvatar-2.0 和字節(jié)的 OminiHuman 15，都是同類的生成模型，放在一起就能看出 LPM-1.0 的質(zhì)量怎么樣了。

這次的 LPM 模型分了兩種，一種是離線的 Base 模型，和普通的視頻模型一樣，給定提示詞去生成視頻；另一種就是 Online 模型，就是最開始演示的那樣，具有交互感，實(shí)時(shí)生成的模型了。

這里先拿離線的 Base 基礎(chǔ)模型來舉例，生成 720p 分辨率的仿直播視頻，別的不說，就“活人感”這方面還是很出色的。

在對比視頻里，最左邊的 LPM-1.0 跟另外幾個(gè)模型相比，生成時(shí)間更長，持續(xù)性以及面部表情都更加自然。

一方面，人物能夠根據(jù)說的話配合一些肢體動作；另一方面，跟音頻的配合也更緊密，不會像其他模型那樣被背景音樂干擾，去跟不屬于角色的聲音對嘴型。

不過美中不足的是，當(dāng)切換到實(shí)時(shí)生成的 Online 模型，還原真實(shí)直播場景時(shí)，效果就打了個(gè)折。

比如下面官方給的 Demo，就只有 480p 的分辨率，雖然看著還行，但確實(shí)不如離線模型生成的穩(wěn)定，動作大點(diǎn)就容易看出 AI 感。

再來看模型刻在名字里的表演，放到生成的視頻里，就是看人物的表情動作和情緒變化對不對得上。

畢竟咱也刷到過那種用力過猛的，或者動作肌無力的，只要表演的度把握不好，就容易出現(xiàn)偽人感。

看 Demo 對多種情緒的展示，絕望憤怒等情緒中規(guī)中矩，但一些波動比較小的情緒，像悲傷或者沮喪，面部細(xì)節(jié)還挺多的，表現(xiàn)的效果也非常自然。

不過，表演這塊兒人類還是很挑剔的，再加上蘿卜青菜各有所愛，所以到底哪種程度剛剛好咱也說不太準(zhǔn)兒。

但要是后面能給一些更細(xì)的，更可控的參數(shù)選項(xiàng)，這發(fā)揮空間就更大了。

那這么好玩兒的模型，Anuttacon 是怎么搓出來的呢？

其實(shí)這得歸功于 LPM 新的流式架構(gòu)了，這架構(gòu)非常靈活，而參數(shù)大概在 17B（170 億）左右，原生支持文本，語音和圖片輸入，原理上后期也能拓展到視頻輸入。

至于模型最重要的視覺能力，Anuttacon 則走了個(gè)捷徑，訓(xùn)練時(shí)是在阿里的開源模型 Wan 2.1-I2V 上的，效果拔群。

這也是開源的好處，節(jié)省出這些造輪子的功夫，也好給咱帶來更多好活兒。

除此之外，模型還原生支持“全雙工”的自然對話，就是既有“聽”的反饋，又有“說”的表演。

這依賴于新引入的交替式雙音頻注入機(jī)制：模型內(nèi)部的偶數(shù)層處理說話音頻，奇數(shù)層處理傾聽音頻。

說大白話就是把對話音頻拆成兩部分處理，一部分負(fù)責(zé)體現(xiàn)聆聽，另一部分負(fù)責(zé)表演說話，將交互拆成不同內(nèi)容進(jìn)行處理，更細(xì)了，也就更自然了。

當(dāng)然，模型輸出的形式還是視頻，所以和視頻模型一樣，怎么控制人物主體的一致性還是必須要解決的難題。

從模型的技術(shù)報(bào)告里能看出，他們的方案是不依賴單張圖片，而是拿 1 張全局圖、1-4 個(gè)身體多視角圖、1-8 種面部表情圖綜合起來控制。

除了加多參考圖，模型內(nèi)部還特意對表情圖和視角圖進(jìn)行了特征區(qū)分，換句話說就是模型在生成視頻時(shí)，能認(rèn)出特征的不同類型，不容易因?yàn)樘卣鳑_突而陷入混亂。

而在這些基礎(chǔ)上，還有一堆注意力細(xì)節(jié)的調(diào)控，以及特征錨點(diǎn)的設(shè)置，總之就是拼盡全力去確保人物做動作時(shí)不變形。

當(dāng)然，由于這模型演示的場景人物動作的幅度都比較小，樣本不多，所以其他情況的效果還有待實(shí)測，只能看后續(xù)有沒有其他模型按這個(gè)思路試試了。

那對話有了，人物也一致了，延遲是怎么降下來的呢？

其實(shí)也不復(fù)雜，就是先拿主干模型生成粗略的草稿，再拿細(xì)化模型填補(bǔ)面部和動作細(xì)節(jié)，分工明確，流水線式生成。

這么一來，推理步驟被壓縮成了 2+1，一共才三步，再加上一些流式編碼和并發(fā)執(zhí)行技術(shù)，整個(gè)對話過程的延遲被大幅降低。

在技術(shù)報(bào)告里，他們還透露了具體的架構(gòu)，就是用主干（Backbone）加細(xì)化（Refiner）的方式將原來龐大的擴(kuò)散模型轉(zhuǎn)換成了簡單的自回歸網(wǎng)絡(luò)。

而有了這些技術(shù)的助力，也就能支撐 LPM-1.0 去無限時(shí)長的實(shí)時(shí)（低延遲）對話了。

當(dāng)然，以上這些咱也只是云了一波，因?yàn)檫@次的發(fā)布并不是模型或者產(chǎn)品的發(fā)布，只是技術(shù)和樣例的展示。

換句話說，雖然一些技術(shù)思路以及視頻的效果都挺亮眼，但咱還用不到，而且到手里用起來具體什么樣也是未知。

不過就上面展示的效果來看，喜歡看直播的家人們有福了，因?yàn)橐院笃聊磺翱雌饋硇涡紊闹鞑ィ竺孀目赡苓B人都不是了。。。

撰文：風(fēng)華

編輯：早起 & 江江 & 面線

美編：煥妍

圖片、資料來源：

LPM技術(shù)報(bào)告，NVIDIA官網(wǎng)，X，小紅書，知乎，網(wǎng)絡(luò)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

21歲小伙賣豬肉幫助撫養(yǎng)6個(gè)弟妹：羨慕同齡人上大學(xué)或出去打工，希望爸媽別再生了

極目新聞 2026-04-21 22:03:17
5530 跟貼 5530
大爺駕駛MPV強(qiáng)穿掛壁公路，出來時(shí)全車被刮花

荔枝新聞 2026-04-22 05:14:55
139 跟貼 139

"取消午休改16點(diǎn)下班"火了上海人一針見血

魯中晨報(bào) 2026-04-22 14:28:23
19 跟貼 19

謝鋒:中國大蒜做夢也沒想到會被美列為"國家安全威脅"

極目新聞 2026-04-22 08:45:19
333 跟貼 333
中國軍艦大片震撼上新：雷達(dá)一開周圍都是透明的

環(huán)球網(wǎng)資訊 2026-04-22 09:00:22
1876 跟貼 1876

寧德時(shí)代麒麟凝聚態(tài)電池發(fā)布，最高續(xù)航1500公里

新京報(bào) 2026-04-21 20:38:22
2011 跟貼 2011

寧馬線開通場面太火爆，有乘客等三趟車沒擠上

現(xiàn)代快報(bào) 2026-04-22 14:20:23
64 跟貼 64
專家號剛放出就瞬間"秒空" 上海三甲醫(yī)院緊急報(bào)警

大風(fēng)新聞 2026-04-22 15:12:13
0 跟貼 0

黎巴嫩再成戰(zhàn)場民眾：在這沒有人沒有失去過親近的人

新京報(bào) 2026-04-20 08:22:24
888 跟貼 888
開封萬歲山現(xiàn)“啤酒交易所”，供應(yīng)商：實(shí)為啤酒自助銷售裝置，價(jià)格隨人數(shù)動態(tài)變化，還可選無酒精版

極目新聞 2026-04-21 19:55:58
307 跟貼 307
深圳福田燈光秀將暫停5個(gè)月，預(yù)計(jì)國慶回歸

南方都市報(bào) 2026-04-22 11:17:53
108 跟貼 108
茶顏悅色深圳店用機(jī)械臂搖奶茶，有人凌晨4點(diǎn)半排隊(duì)：炒到100一杯

星視頻 2026-04-22 11:46:47
134 跟貼 134
樓市去庫存成效正在顯現(xiàn)

經(jīng)濟(jì)日報(bào) 2026-04-22 06:55:13
145 跟貼 145
湖南一高中生200米跑出20.99秒破紀(jì)錄，教練：他曾想放棄高考去打工

瀟湘晨報(bào) 2026-04-22 13:16:27
72 跟貼 72
乘聯(lián)分會：4月1-19日全國乘用車市場零售62.7萬輛同比下降26%

財(cái)聯(lián)社 2026-04-22 16:38:09
1 跟貼 1
中國外骨骼助外籍女子重新邁步，好友喜極而泣

學(xué)申論的談妹 2026-04-22 15:56:22
37 跟貼 37
股市三點(diǎn)鐘丨滬指收漲0.52%，重返4100點(diǎn)！兩市合計(jì)成交額2.56萬億元

北京商報(bào) 2026-04-22 15:28:05
10 跟貼 10
英國議會通過法案，2008年后出生者終身不得購煙

澎湃新聞 2026-04-22 14:53:04
62 跟貼 62
國家疾控局：4月以來流感病毒和鼻病毒呈上升趨勢

央視新聞客戶端 2026-04-22 15:13:09
81 跟貼 81
海軍宿州艦沂蒙山艦抵達(dá)上海將于明日對民眾開放

看看新聞Knews 2026-04-22 17:28:22
4 跟貼 4
億縷陽光｜在春天邂逅美好

環(huán)球網(wǎng)資訊 2026-04-21 20:39:50
144 跟貼 144
格力回應(yīng)鋁線電機(jī)爭議：相關(guān)工程機(jī)已停產(chǎn)，海信稱靠多三兩銅多500元時(shí)代已終結(jié)

紅星資本局 2026-04-21 20:40:16
0 跟貼 0
男子玩18米高蹦極時(shí)摔傷，景區(qū)稱項(xiàng)目目前未營業(yè)，當(dāng)事人：已起訴景區(qū)和第三方運(yùn)營公司

極目新聞 2026-04-22 18:52:26
0 跟貼 0
大家提前做好準(zhǔn)備吧！

tuzhuxi 2026-04-22 18:53:19
0 跟貼 0
茂名一地：地下車庫不能安裝充電樁？真相來了

粵西生活圈 2026-04-22 19:00:02
0 跟貼 0
云南一幼童十余天反復(fù)咳痰帶血，氣管內(nèi)取出8厘米活體蠕動螞蟥

澎湃新聞 2026-04-22 11:02:28
0 跟貼 0
長春經(jīng)開區(qū)：這個(gè)地鐵口車位被“倉庫車”包年了？

吉刻新聞 2026-04-22 18:55:13
0 跟貼 0

當(dāng)年害得游戲廳倒閉的罪魁禍?zhǔn)祝閷UG的使用者早已不在人世

差評XPIN

用知識和觀點(diǎn)Debug the world！

10614文章數(shù) 489596關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

時(shí)尚

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個(gè)毀掉你生活的不良習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

不是，怎么有模型叫“老婆們”，還能視頻通話啊？

198元!中國玩家有福:史上最佳游戲之一官中設(shè)定集來了

三甲醫(yī)院科主任被舉報(bào)"巨額財(cái)產(chǎn)來源不明" 舉報(bào)人發(fā)聲

三甲醫(yī)院科主任被舉報(bào)"巨額財(cái)產(chǎn)來源不明" 舉報(bào)人發(fā)聲

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

復(fù)婚無望！baby黃曉明陪小海綿零交流

伊朗拒絕出席 特朗普宣布延長停火期限

對話梅濤：沒有視頻底座，具身智能走不遠(yuǎn)

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

春色滿城關(guān)不住｜白鵑梅浪漫盛放，吳山藏了一片四月雪

港姐張寶兒乳腺炎痛如石，老公幫忙亦無效，另1原因?yàn)榇笞修k退學(xué)

初夏穿赫本的白褲子，清新又高級！

重磅！中招自主招生政策發(fā)布

伊朗拒絕出席特朗普宣布延長停火期限