![]()
隆重亮相
日前(4月10日),米哈游創始人蔡浩宇旗下AI公司Anuttacon的員工Ailing Zeng突然在X上公布了其新一代AI生成模型LPM1.0,并在arXiv發布了相關論文。
該員工介紹,LPM1.0是一個基于視頻的角色表演模型。相較于其他視頻生成模型而言,LPM1.0在表演質量、情感對話、精準唇同步、身份保持以及逼真自然度等方面更有優勢。此外,其還提到在將圖像轉化為表演視頻中,LPM1.0能作為對話代理、直播角色和游戲NPC的視覺引擎。
![]()
而據論文內容,我們能夠發現更多關于LPM 1.0的資料。據悉,LPM 1.0是針對現有視頻模型在兼顧高表現力、實時推斷和長時身份穩定性這三個方面的挑戰所研發的,一款專注于單人全雙工視聽對話的角色表演大模型。他們通過嚴格篩選,構建了一個多模態以人為中心的數據集,并訓練17B參數的Base LPM,通過多模態調理實現高度可控、身份一致性的性能。并將其提煉成Online LPM,從而實現低延遲、無限長度的交互。
![]()
LPM 1.0 從用戶音頻生成視頻,從合成音頻生成語音視頻,并配有文本提示,全部以實時速度實現,且具有身份穩定、無限長度的生成能力。因此,LPM 1.0 能夠作為對話代理、直播角色和游戲 NPC 的可視化引擎。
官網顯示,LPM 1.0 的核心能力便是全棧實時視頻生成框架。特性包括四個方面。其一是身份保持,其通過全局外觀參考、多視角身體圖像和面部表情范例等精細化的條件輸入實現了專業級身份保持,避免了模型對牙齒、表情皺紋、側面輪廓和不可見身體外觀等未見細節的幻覺生成。
![]()
其二是多模態可控性,LPM 1.0 不僅可以通過文本,還可以通過音頻和圖像統一在單次生成中,實現對角色表演的精細導演級控制。
![]()
其三是角色泛化,LPM 1.0可以接受任意風格角色作為輸入,包括寫實真人、2D動漫、3D游戲角色和非人形生物等等。
![]()
最后則是其獨特的長時穩定性,LPM 1.0 的在線流式架構能夠在幾小時、幾天、甚至幾年的時間內,保持穩定、身份一致的生成,并支持無限時長的視頻生成。
![]()
在具體的表演場景上,LPM 1.0 涵蓋對話,說話,演唱,聆聽等多個方面。
![]()
在具體的性能方面,Base LPM 能夠支持高保真高表現力離線生成,720p 分辨率的視頻。在長時直播視頻生成中,能夠提供高保真度,唇形同步等多個核心優勢,且相較于Kling-Avatar 2.0 和 OmniHuman 1.5 最長僅生成 30 秒,LPM 支持任意時長生成。
![]()
在LPM 1.0的應用場景中,官方特意表明了其在交互式NPC與游戲角色嗎,以及游戲陪伴等游戲相關領域的應用。實際上這也與米哈游近年來在AI領域的發展相契合。在一文中,競核便詳細討論了米哈游當前在AI領域的引用情況。
![]()
值得一提的是,LPM 1.0 目前仍處于研究階段。團隊也明確表示,沒有計劃向公眾發布模型權重、源代碼、在線演示、AP1、產品或任何相關服務。同時也表示該模型不會開源,也不會對外提供使用。他們稱只有在充分的安全保障措施和負責任使用框架切實到位之后,才會考慮開放。
![]()
??
*爆料丨合作丨招聘:點擊或戳微信號 luoxuanwan111![]()
點推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.