![]()
上周接了個做短視頻的客戶,她在用即夢做數字人內容,思路是對的,想把自己的照片生成會說話的數字人,直接套在口播視頻里用。
但她發給我的成片,問題很明顯。數字人的嘴巴在動,但幅度像在咀嚼,頭完全不動,整個人像一張貼了動態嘴唇的照片,說是數字人,看起來更像換臉濾鏡翻車現場。
她說自己試了七八個版本,提示詞就寫了一句"讓人物開口說話",跑出來的效果一次比一次奇怪。
我看完她的提示詞,問題一眼就看出來了,她給的信息太少,模型根本不知道你要的是"真人感",還是"動畫感",于是它自己做了決定,而它的決定,通常不是你想要的那個。
1. 先鎖定畫面質感,告訴模型你要的是哪種"真實"。
很多人寫圖生視頻的提示詞,上來就描述動作,跳過了最底層的質感設定。這一步不做,模型的默認輸出會偏向動畫或影視感,跟照片級真人之間有一道明顯的質感斷層。
我給她的指令里,開頭加了兩個質感詞:Photorealistic和high fidelity,前者鎖定照片級真實,后者要求高保真細節還原。這兩個詞不是裝飾,是給模型劃定渲染方向的邊界,少了它們,模型在"風格選擇"上就會漂移。同時加了4K分辨率要求,配合fluid motion(動作流暢),把質感和運動邏輯同時鎖死。
這一層約束的作用,是讓模型知道:你要的不是動畫,是照片走出來的真人。
2. 把動作拆成時間軸,用"順序邏輯"替代模糊描述。
"讓人物點頭說話",這句話對模型來說太抽象了。點頭是哪種幅度?說話嘴型是隨意的還是精準對口型的?這些模型都會自己填空,而它填的答案,就是你看到的那個翻車效果。
我把動作拆成了三個連貫階段,用明確的時間順序來約束模型的生成邏輯。第一階段,人物做一個夸張的深度點頭,特別強調下巴向下移向胸口的垂直幅度,然后把頭抬回來,這個動作要有明顯的起伏感。第二階段,左右搖頭,動作連貫銜接在點頭之后。第三階段,自然張嘴,嘴唇隨意移動,模擬日常說話的松弛狀態,而不是字正腔圓的播音腔。
三個階段用"然后""緊接著""最后"串聯,給模型一個清晰的動作時間軸,它就不會把所有動作疊在一起,或者隨機省略某一段。
還有一個細節,很多人忽略:人物的表情基底。我在指令里專門加了"表情警覺且清醒,自然眨眼"這一條。數字人最容易出現的問題之一,就是眼神空洞、表情僵死,即使嘴在動,整體看起來也像假人。加上眨眼和表情描述,是在給模型一個"這是活的"的信號。
她用原來那句提示詞跑出來的視頻,嘴動、頭不動、眼神渙散,跑了8個版本,沒有一個能用。用定制后的指令,第一次出圖就過了,點頭幅度自然,說話嘴型松弛,眨眼節奏正常,她說"終于像個真人了"。
現在她的數字人內容已經在正常發布,用這套指令框架跑圖,基本穩定在兩三次出成品。省掉的時間,她拿去多剪了幾條視頻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.