![]()
文生圖指令和文字創(chuàng)作指令有一個(gè)根本性的差異:文字創(chuàng)作的失敗是內(nèi)容失控,文生圖的失敗是權(quán)重失控。
每一個(gè)詞、每一個(gè)描述,在模型內(nèi)部都對(duì)應(yīng)一個(gè)生成權(quán)重。
指令寫得越長(zhǎng),權(quán)重越分散,模型越容易在不同描述之間做出它自己的優(yōu)先級(jí)判斷,而它的判斷往往和你的意圖不一致。
這是文生圖指令定制的底層邏輯,也是理解指令的優(yōu)點(diǎn)和缺點(diǎn)的前提。
我結(jié)合給童裝電商老板定制的豆包文生圖提示詞,拆解5個(gè)坑和對(duì)應(yīng)的解決思路:
1、面部特征保持不住:指令在做無(wú)效授權(quán)
"人物面部特征需嚴(yán)格基于我上傳的參考圖面部特征",這句話,一般會(huì)在文生圖提示詞中反復(fù)出現(xiàn),但它是一句無(wú)效授權(quán)。
問(wèn)題不在于這句話說(shuō)錯(cuò)了,而在于它說(shuō)的是結(jié)果,沒(méi)有說(shuō)機(jī)制。
尤其豆包在處理參考圖時(shí),面部特征的提取權(quán)重遠(yuǎn)低于文字描述權(quán)重。
當(dāng)提示詞中,同時(shí)出現(xiàn)"參考圖面部特征"和"五官精致柔和,皮膚白皙,圓臉蛋,笑起來(lái)露出整齊的乳牙"這些文字描述時(shí),模型會(huì)優(yōu)先響應(yīng)文字,把參考圖當(dāng)成風(fēng)格參考而非面部藍(lán)本。
很多通用的模版式的指令恰好犯了這個(gè)錯(cuò)誤。
它在同一段里既引用參考圖又用文字重新描述五官,等于給模型發(fā)出了兩套相互競(jìng)爭(zhēng)的面部信號(hào)。
模型不知道該聽誰(shuí)的,結(jié)果是兩套都參考、兩套都不準(zhǔn)。
如果它是個(gè)活人,一定會(huì)內(nèi)心嘀咕,wo kao,我好難啊。
優(yōu)化思路是做減法:如果要保持參考圖面部,就只寫"嚴(yán)格復(fù)刻參考圖面部特征,禁止重新生成面部",刪掉所有文字性的五官描述。
文字描述和參考圖引用只能保留一套,留兩套就是在內(nèi)部制造噪音。
2、衣服細(xì)節(jié)保持不住:描述維度和模型擅長(zhǎng)維度錯(cuò)位
很多人做服裝電商類的提示詞,都會(huì)在服裝描述上花大量篇幅,但是仔細(xì)看會(huì)發(fā)現(xiàn),描述的維度主要是版型、顏色、節(jié)日感這類整體印象型描述,而不是局部錨點(diǎn)型描述。
整體印象型描述的問(wèn)題是:它告訴模型這件衣服應(yīng)該給人什么感覺,但沒(méi)有告訴模型具體哪些細(xì)節(jié)不能動(dòng)。
比如,春節(jié)期間,很多電商老板都在用豆包生成有春節(jié)喜慶氛圍感的圖片。
那么模型在響應(yīng)"節(jié)日喜慶感"這個(gè)指令時(shí),會(huì)根據(jù)自己對(duì)喜慶、對(duì)童裝的理解去生成,而不是忠實(shí)復(fù)刻參考圖或文字描述的具體細(xì)節(jié)。
針對(duì)這個(gè)問(wèn)題,有效的描述方式是逐一鎖定關(guān)鍵視覺錨點(diǎn):
領(lǐng)口的具體形狀、袖口的裝飾方式、圖案的位置和顏色分布、面料的質(zhì)感特征。
每一個(gè)錨點(diǎn)都是一個(gè)約束,錨點(diǎn)越多,模型偏離的空間越小。
同時(shí)一定不要想當(dāng)然地在負(fù)向描述里寫"禁止修改衣服的細(xì)節(jié)",負(fù)向描述是用來(lái)排除錯(cuò)誤結(jié)果的,不是用來(lái)鎖定正確細(xì)節(jié)的。
鎖定細(xì)節(jié)要靠正向描述的精度,不能靠負(fù)向描述的禁止。
這是很多通用套版指令結(jié)構(gòu)上的一個(gè)根本性誤解。
3、皮膚發(fā)黃和光感失控:場(chǎng)景描述和光源描述沒(méi)有分層
皮膚發(fā)黃是豆包在生成亞洲兒童時(shí)的一個(gè)高頻失誤,(備注:我并不是說(shuō)黃色不高級(jí),更不涉及人種問(wèn)題,僅針對(duì)畫面質(zhì)感分析)根源不在于膚色描述不夠,而在于場(chǎng)景光源描述污染了膚色權(quán)重。
為了營(yíng)造場(chǎng)景的氛圍感,很多提示詞會(huì)在場(chǎng)景描述里寫"溫暖的暖色調(diào)"、"溫暖而柔和"、"燈光透過(guò)紗簾灑下",這些描述都在向模型傳遞暖色光源信號(hào)。
但是,模型在響應(yīng)暖色光源時(shí),會(huì)自動(dòng)對(duì)皮膚做暖色渲染,結(jié)果就會(huì)導(dǎo)致人物的皮膚發(fā)黃。
這是一個(gè)信息層污染問(wèn)題:場(chǎng)景氛圍描述和人物膚色描述被放在同一優(yōu)先級(jí)里,模型無(wú)法區(qū)分哪個(gè)層的信息該覆蓋哪個(gè)層。
優(yōu)化方向是把場(chǎng)景光源描述和人物膚色描述做物理隔離:
場(chǎng)景氛圍可以是暖色調(diào),但在人物描述段落里單獨(dú)加入"人物皮膚在暖光環(huán)境下保持自然白皙,光源打在皮膚上產(chǎn)生自然高光而非暖黃色染色"。
這兩個(gè)描述針對(duì)不同的生成層,不會(huì)互相覆蓋。
4、氛圍感不足:場(chǎng)景是道具堆砌,不是氛圍建構(gòu)
很多文生圖提示詞對(duì)場(chǎng)景描述的寫法是:列出道具,說(shuō)明擺放位置,說(shuō)明顏色和質(zhì)感。
這是一種道具清單式寫法,它告訴模型場(chǎng)景里有什么,但沒(méi)有告訴模型這些東西組合在一起應(yīng)該讓人感受到什么。
"茶桌上放著一套精致的茶具,旁邊擺放著幾本古老的書籍和一瓶剛采摘的綠茶葉"——這句話是一個(gè)擺設(shè)說(shuō)明書,不是一個(gè)氛圍描述。
模型在響應(yīng)這類描述時(shí),會(huì)忠實(shí)地生成這些物品,但不會(huì)主動(dòng)建構(gòu)它們之間的氛圍關(guān)系。
真正有效的氛圍描述需要做兩件事:先給出情緒定性,再用細(xì)節(jié)印證。
不是"茶桌上有茶具",而是"空間里有一種午后安靜的慵懶感,陽(yáng)光斜打在木質(zhì)茶桌上,茶具的釉面反射出細(xì)碎的光斑"。
情緒在前,道具在后,道具是情緒的證據(jù),不是場(chǎng)景的清單。
5、負(fù)向描述的結(jié)構(gòu)性誤用
最后我再?gòu)?qiáng)調(diào)一下負(fù)向描述,很多文生圖提示詞的負(fù)向描述寫得很詳細(xì),但存在一個(gè)結(jié)構(gòu)性問(wèn)題:負(fù)向描述被用來(lái)做正向約束。
"禁止修改衣服的細(xì)節(jié)"、"禁止女童手里拿別的款式的衣服"、"禁止半身"——這些都是正向約束,描述的是"應(yīng)該生成什么",放在負(fù)向描述里是無(wú)效的。
負(fù)向描述的機(jī)制是降低某類特征出現(xiàn)的概率,它只能排除,不能鎖定。
正確的分工是:正向描述鎖定應(yīng)該有什么,負(fù)向描述排除不應(yīng)該有什么。
如果把大量"應(yīng)該有什么"的約束塞進(jìn)負(fù)向描述,導(dǎo)致正向權(quán)重不夠集中,負(fù)向描述又承擔(dān)了超出它能力范圍的工作,兩邊都打了折扣。
針對(duì)這個(gè)問(wèn)題,優(yōu)化方向是重新分揀:
把所有關(guān)于衣服細(xì)節(jié)、姿勢(shì)、構(gòu)圖的正向要求移回正向描述段,負(fù)向描述只保留真正需要排除的類別,成人化體態(tài)、畫面分屏、背景雜亂、手指變形這類模型高頻失誤。
負(fù)向描述越精簡(jiǎn),它對(duì)高頻錯(cuò)誤的排除效果越強(qiáng),寫得越滿,每條的權(quán)重越低。
以上就是我在給服裝電商老板定制豆包文生圖提示詞的過(guò)程中,總結(jié)的實(shí)操經(jīng)驗(yàn),希望對(duì)你有所啟發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.