前幾天即夢在 Web 端上線他們的數字人 Omnihuman 1.5 版本。
今天來做個測試,同時有個教程教大家怎么用圖像模型配合生成名人數字人視頻。
相較于之前的 Omnihuman 1.0,這次不只是上傳音頻和圖片他幫你生成帶有唇形同步的動態視頻,1.5 的控制能力大幅提升,你可以定義視頻中的人物表演和運動方式。
幾乎搞定了原來 AI 視頻不好做的人物表現部分內容。
![]()
可以看到在設置部分多了一個動作描述的提示詞輸入,極大的拓展了數字人的使用場景,基本上可以當一個自定義程度極高的 Veo3 來使用了,你可以控制畫面內容、人物、情緒、音色以及運動和運鏡方式。
昨天用這個做了一個比較搞的片子,最近不是模仿名人營銷很火嗎,我做了一個讓喬布斯賣破拖鞋的演講,這種具有熱門視覺標定和反差感的視頻非常容易火。
我們先用幾個基礎測試來看一下 Omnihuman 1.5 的能力。
然后我會教一下大家如何用即夢圖片 4.0 和數字人 1.5 配合生成這種連貫的數字人視頻。
這次更新最明顯的一個改動就是數字人不再死板,我們可以通過動作控制讓鏡頭和人物動起來,包括不只是主角也包括其他人物。
比如上面這個案例,我們就可以讓女子先抬頭,到一個合適可以看到嘴唇的角度,然后再開始說話,同時鏡頭也在旋轉到她的正臉,背后的其他人也在正常行走,這是純粹的唇形同步模型不能做到的。
另外這次的模型升級在多風格化以及非人形生物的唇形同步上效果也變得非常的自然。
這里這種平面插畫的眼睛、嘴部和面部運動都非常自然而且生動,同時依然可以搭配他的動作比如抬手走動等,鏡頭平移的時候新出現的畫面風格也跟原來的很好的保持一致。
這次更新的另一個優勢是對表情和表演的響應也更得加的好,上面的提示詞為:
女人先以平靜神情看向鏡頭,眼神柔和輕聲開口;隨即露出諷刺的表情,眉梢微挑、嘴角單側上揚;短促輕笑后肩部微松;轉為溫和講述,目光上揚,右手輕觸前景桌上的紙船;最后前傾半步以低語收束,食指輕抵唇邊作“噓”。
可以看到他響應的很好,先是面無表情的說話,然后變成諷刺的表情,之后非常順暢的在輕笑之后變得溫和,然后人物后撤開始看向紙船,最后噓的動作也做了。
整個視頻長達 16 秒,這個長度和提示詞詞遵循已經非常厲害了,市面上可以做到這么穩定的保持人像 ID 不變同時精準的提示詞遵循的幾乎沒有。
這次更新還有一個優勢就是可以控制同一場景多人的對話和表現,我們可以指定聲音是由哪個角色發出的,這個一下就讓模型的可用性拓展了很多。
比如這里我們就可以做兩人的對唱視頻,多人對話劇情也可以做了,搭配即夢 4 的改圖能力去調整鏡頭的重點很容易就可以最常見的對話劇情,比某些只會一個固定鏡頭的電視劇強多了。
從上面這幾個測試也可以看到,以往類似模型那種夸張的嘴型問題也一定程度上得到了解決,不再是所有角色說話嘴都張的很大了,模型現在會根據聲音內容和提示詞去調整,表現自然了非常多。
現在來看數字人教程的部分。
即夢的數字人 1.5 雖然可控和操作簡單是蹺蹺板的兩個部分,一般來說可控的模型操作就會相對復雜,所以還是需要一些門檻的。
我們可以看到數字人 1.5 做條視頻需要準備三部分內容,首先是首幀的圖片,然后就是音頻,最后就是對應的動作和情緒提示詞。
如果你需要這個視頻更加的生動,就必然不可能一直用一個視角和背景,所以我們需要更多的分鏡圖片和對音頻進行切分,這樣會讓畫面更生動。
這里我建議你先準備一個表格將每個分鏡的這三個部分寫好,然后我們看怎么去準備。
![]()
然后我們來講一下基礎的操作:
圖像這里沒啥問題你直接上傳首幀圖片就可以。
![]()
音頻這里說法比較多:
如果你自己沒有準備音頻的話,你需要直接選擇音頻部分,這時候即夢一般會根據你上傳的角色推薦一個音色,當然你也可以自己選擇,選擇完成后在說話內容這里直接打字寫上要說的話就行。
當然你也可以在音色選擇的彈窗「我的音色」這里去克隆你想用的音色,只需要 5 秒音頻就行。
![]()
如果你自己有音頻,這時候你需要點擊下面的「上傳音頻」按鈕,音頻就會回填,這時候角色說這部分就變成你上傳的音頻了不能打字。
![]()
另外還有一種情況是,你上傳的畫面里有多個角色,這時候即夢就會自動檢測到,你就可以選擇是圖片中的哪個角色在說話,可以選單個,也可以選全部。
比如他檢測到我這張圖片有兩個人,就會有三個選項,而且會有對應角色的切圖,很直觀。
![]()
最后是動作描述,這里可以用他們推薦的提示詞模板,盡量遵循清晰、不矛盾、少否定,多寫具體的內容,少用文學化和形容詞表達。
提示詞模板:
鏡頭運動 + 說話角色情緒 + 說話狀態(說話/哭泣/唱歌/...) + 具體動作 + (可選)背景事件/其他角色的動作
![]()
了解完基礎操作之后我們就需要開始準備素材了,首先我們克隆一下喬布斯的音色,你可以用即夢自帶的克隆功能,也可以自己用更大的數據量操作,我這里用的自己克隆的。
![]()
然后就是第一張圖片,我上面的分鏡表格這里顯示我們需要一張黑色背景的,提示詞:Black stage medium shot. Steve Jobs facing the camera,The background is a pure black PPT screen.
![]()
然后我們還需要一張拖鞋產品圖,哈哈,這里我用即夢生成的,提示詞寫像蘋果 PPT 就行。
蘋果風格發布會 PPT,一直非常破的破拖鞋,上面產品名字寫著“iFlip One”
![]()
只有這兩個畫面太單調了怎么辦,這個時候就得用即夢 4.0 的圖像編輯能力了。
我們直接將原來第一張圖的黑色 PPT 背景變成剛做的拖鞋 PPT。
![]()
當然第三個分鏡將會基于第二張圖去修改,直接給我們的拖鞋加上掛鉤,同時改掉 PPT 上的文字。
![]()
這樣三張非常模擬喬布斯發布會場景的圖片就做出來的,是不是已經有那個味了。
然后我們將所有臺詞分成三段生成,第一段是提出懸念,然后第二段展示拖鞋,第三段介紹掛鉤和發售。
![]()
然后按照剛才的介紹的基礎操作分別將圖片上傳,然后寫上表格里面的語音和對應的運鏡及動作就行。
![]()
等待視頻的完成,之后的事情你們應該都會了,用剪映之類的把三段合成一段視頻就行。
這種方式比單鏡頭的數字人效果要好非常多,同時通過切分鏡頭避免了超長鏡頭導致的長生成時間和 ID 保持不住的問題,再來看一下我們的結果:
近年來 AI 視頻模型飛速發展,一直以來視頻模型就是視頻模型,唇形同步模型就是唇形同步模型,這樣正常影視流程中最常見的動作運鏡以及人物表演,被區分成了兩個部分。
過去我們面對 AI 視頻模型,就像在跟一個才華橫溢但性格古怪的藝術家合作。你給出「一個悲傷的女人在雨中行走」這樣的提示詞,然后祈禱它能理解你心中的「悲傷」是克制的還是崩潰的,「行走」是踉蹌的還是決絕的。每一次生成都像開盲盒,創作者被迫成為賭徒去抽卡。
Omnihuman 1.5 呈現的狀態更像是一臺精密的導演監視器:首幀畫面 = 場景設定、音頻內容 = 臺詞劇本、動作提示 = 分鏡腳本、多角色控制 = 群戲調度。把創作從玄學變成了工程學。
當然 AI 指令精確之后,對于創作者的要求也變高了,那些更懂表演、調度具備「應該讓它執行什么指令」的導演思維的人更能發揮這個模型的價值。
據悉,新模型9月30日也將同步上線即夢手機端,屆時在軟件商店更新最新版本即夢app,就能體驗。
如果覺得藏師傅的內容對你有幫助的話,可以幫忙點個贊和喜歡,也可以??轉給你具有導演思維的朋友,謝謝各位
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.