![]()
一個做古風(fēng)短劇文生圖的客戶找到我,她跟我吐槽,舊版的指令,每次生成的畫面人物外形飄忽不定,同一個女主,這一幀是高髻玉簪,下一幀變成散發(fā),服裝顏色也對不上,根本沒法用。
我看了她用的舊版指令,問題很集中,出在三個地方,也是我優(yōu)化的主要發(fā)力點。
1、人物描述分散在劇情里,AI每次都在"猜"
通用指令的寫法是跟著劇情走,人物描述混在場景里,這一句寫背景,那一句順帶提一下服裝,AI每次讀取的信息是碎的,生成時自然會"腦補(bǔ)"補(bǔ)全,補(bǔ)出來的結(jié)果就是每次都不一樣。
我給她定制的新指令,核心改動是把人物外形從劇情里剝離出來,單獨建立視覺檔案,性別、年齡、發(fā)型、服飾、氣質(zhì),每一項都固定死,寫成標(biāo)準(zhǔn)格式,不允許模糊描述。
檔案建好之后,后面每一條畫面提示詞都強(qiáng)制調(diào)用這份檔案,不是"婉婉走進(jìn)來",而是"一位少女(18歲,黑長發(fā)高髻、淡玉簪,穿著月白色淡雅長裙,神情冷漠)走進(jìn)來",完整描述跟著人物走,AI沒有發(fā)揮空間。
2、提示詞結(jié)構(gòu)不統(tǒng)一,場景信息缺失導(dǎo)致畫面飄
她用舊版指令跑出來的畫面提示詞格式不統(tǒng)一,長短不一,有的只寫了動作,有的只寫了環(huán)境,沒有固定結(jié)構(gòu),AI生成時會隨機(jī)填充缺失的信息,風(fēng)格和光影每張都在變。
我在指令里加了場景結(jié)構(gòu)模板,強(qiáng)制要求每一條畫面的提示詞必須包含五個要素:人物含括號描述、動作加神態(tài)、時間光影、背景環(huán)境、鏡頭語言,缺一不可。
這樣每條提示詞的信息密度是齊的,AI生成時沒有可以自由發(fā)揮的空白,畫面風(fēng)格才能穩(wěn)下來。
3、沒有空鏡頭規(guī)范,非人物畫面處理混亂
短劇里有大量轉(zhuǎn)場和空鏡,比如院落、燭光、馬車遠(yuǎn)景,這類鏡頭原來的指令沒有專門的寫法,客戶要么跳過,要么隨便寫幾個字,生成出來的空鏡和主鏡頭風(fēng)格完全對不上。
我加了空鏡頭的標(biāo)準(zhǔn)寫法,遇到無人畫面,格式固定為"無人,空鏡頭,……",后面照樣寫完時間光影和背景環(huán)境,保持和主鏡頭一致的信息結(jié)構(gòu),整體視覺才連得上。
優(yōu)化前(客戶用的舊版指令):"婉婉站在院子里,天色將暮,她看著遠(yuǎn)處發(fā)呆。"
優(yōu)化后(定制指令輸出):"一位少女(18歲,黑長發(fā)高髻、淡玉簪,穿著月白色淡雅長裙,神情清冷疏離)靜立院中,側(cè)身望向遠(yuǎn)處,黃昏暖光從側(cè)面打來,青磚院落、遠(yuǎn)山剪影,中景構(gòu)圖,逆光側(cè)拍。"
客戶用新的指令跑了一組50張連續(xù)畫面,人物外形一致率顯著提高。文生圖的人物一致性,不是靠模型記憶,是靠指令把信息鎖死。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.