網易首頁 > 網易號 > 正文申請入駐

靜態圖片變數字人，即夢指令定制2個核心約束，動作自然不僵硬

2026-04-05 00:25:03　來源: 太公筆調

廣東舉報

分享至

上周接了個做短視頻的客戶，她在用即夢做數字人內容，思路是對的，想把自己的照片生成會說話的數字人，直接套在口播視頻里用。

但她發給我的成片，問題很明顯。數字人的嘴巴在動，但幅度像在咀嚼，頭完全不動，整個人像一張貼了動態嘴唇的照片，說是數字人，看起來更像換臉濾鏡翻車現場。

她說自己試了七八個版本，提示詞就寫了一句"讓人物開口說話"，跑出來的效果一次比一次奇怪。

我看完她的提示詞，問題一眼就看出來了，她給的信息太少，模型根本不知道你要的是"真人感"，還是"動畫感"，于是它自己做了決定，而它的決定，通常不是你想要的那個。

1. 先鎖定畫面質感，告訴模型你要的是哪種"真實"。

很多人寫圖生視頻的提示詞，上來就描述動作，跳過了最底層的質感設定。這一步不做，模型的默認輸出會偏向動畫或影視感，跟照片級真人之間有一道明顯的質感斷層。

我給她的指令里，開頭加了兩個質感詞：Photorealistic和high fidelity，前者鎖定照片級真實，后者要求高保真細節還原。這兩個詞不是裝飾，是給模型劃定渲染方向的邊界，少了它們，模型在"風格選擇"上就會漂移。同時加了4K分辨率要求，配合fluid motion（動作流暢），把質感和運動邏輯同時鎖死。

這一層約束的作用，是讓模型知道：你要的不是動畫，是照片走出來的真人。

2. 把動作拆成時間軸，用"順序邏輯"替代模糊描述。

"讓人物點頭說話"，這句話對模型來說太抽象了。點頭是哪種幅度？說話嘴型是隨意的還是精準對口型的？這些模型都會自己填空，而它填的答案，就是你看到的那個翻車效果。

我把動作拆成了三個連貫階段，用明確的時間順序來約束模型的生成邏輯。第一階段，人物做一個夸張的深度點頭，特別強調下巴向下移向胸口的垂直幅度，然后把頭抬回來，這個動作要有明顯的起伏感。第二階段，左右搖頭，動作連貫銜接在點頭之后。第三階段，自然張嘴，嘴唇隨意移動，模擬日常說話的松弛狀態，而不是字正腔圓的播音腔。

三個階段用"然后""緊接著""最后"串聯，給模型一個清晰的動作時間軸，它就不會把所有動作疊在一起，或者隨機省略某一段。

還有一個細節，很多人忽略：人物的表情基底。我在指令里專門加了"表情警覺且清醒，自然眨眼"這一條。數字人最容易出現的問題之一，就是眼神空洞、表情僵死，即使嘴在動，整體看起來也像假人。加上眨眼和表情描述，是在給模型一個"這是活的"的信號。

她用原來那句提示詞跑出來的視頻，嘴動、頭不動、眼神渙散，跑了8個版本，沒有一個能用。用定制后的指令，第一次出圖就過了，點頭幅度自然，說話嘴型松弛，眨眼節奏正常，她說"終于像個真人了"。

現在她的數字人內容已經在正常發布，用這套指令框架跑圖，基本穩定在兩三次出成品。省掉的時間，她拿去多剪了幾條視頻。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.