字節跳動的模型又上新了!
這兩天「四木相對論」發現,即夢AI在官方社交媒體上發布了一條預告片。預告片中的信息顯示,采用了全新的多模態視頻生成模型OmniHuman馬上要在即夢中上線。
效果聽起來也是有點炸裂——有了這個模型,用戶僅需輸入一張圖片和一段音頻,就可以生成一條生動的視頻。

圖片來自即夢AI視頻號內容截圖
![]()
圖片來自即夢AI視頻號內容截圖
一段音頻+一張圖片,生成風格靈活的視頻
OmniHuman的技術報告(地址:https://omnihuman-lab.github.io/)展示了它的各種效果。
技術主頁信息顯示,OmniHuman為字節跳動自研的閉源模型,能夠支持肖像、半身以及全身等不同尺寸的圖片輸入,并根據輸入的音頻,在視頻中讓人物生成與之匹配的動作,包括演講、唱歌、樂器演奏以及移動。

唱歌

演講
其他的case展示出,人物視頻生成中常見的手勢崩壞,也有顯著的改善。此外,它對動漫、3D卡通等非真人圖片輸入的支持效果也不錯,生成的視頻能保持特定風格和原有的運動模式。

動漫風
整體來看,OmniHuman的生成效果已經具有較高的自然度。
更安全的使用方式
有一些出乎意料的是,為防止該項技術被不當利用,字節跳動技術團隊在主頁中特別標注稱,OmniHuman將不會對外提供下載。
![]()
技術報告
看來只能蹲一波即夢了。
即夢AI的相關負責人透露,這個模型目前已具備較好的表現,但在生成影視真實級別的視頻上仍存在一定提升空間。
所以,由即夢支持的多模態視頻生成功能,會在即夢上以小范圍內測的形式進行調優調整,并逐步開放。
該負責人同時表示,即夢還會對這一功能設置嚴格的安全審核機制,并且對輸出的視頻標注水印以作提醒,確保AI發揮正面、積極的作用,助力視頻創作者更好地實現想象力的表達。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.