大家好,我是歸藏。
今天帶來可靈 2.1 首尾幀模型的測試和使用教程,重點是教你解決首尾幀視頻最難的兩部分圖片生成和提示詞生成,尤其后面提示詞價值很高,都能做產品了建議收藏。
前幾天可靈給超級創作者開了 2.1 模型的首尾幀視頻生成的權限,抽時間試了一下。
發現這個模型對于提示詞理解和遵循以及圖片轉換的自然度都搞得太好了,基本上在首尾幀這個功能上已經到頂了。
知道有朋友習慣先質疑在質疑,先看結果。
所有分鏡都是一次生成沒有抽卡,就是素材拼接沒有剪輯,只有簡單變速。
是不是很好,而且這條視頻我從頭到尾基本只用了半小時就搞定了,等待視頻生成的時候還能干別的。
這時候很多朋友就要說了:“就會騙我們,為啥我用的時候就得瘋狂抽卡”。
我也反思了一下原因,在模型能力很強的情況下依然需要抽卡和沒辦法獲得好素材的原因主要有兩個:
首先是沒辦法獲得合適的圖片
雖然可靈 2.1 首尾幀已經強到了完全無關的兩張圖片也可以順滑的轉換,比如下面這個視頻。但是肯定不像前后關聯的圖片帶給觀眾的沖擊強。

第二點就是有了圖片之后不會寫提示詞
你獲得了兩張合適的圖片,本能的意識到兩者是有關聯的,但是具體如何有美感和自然的從首幀變到尾幀自己是沒有辦法詳細的描述的,所以就造成了你覺得變化的過程不符合自己的要求,只能通過不斷抽卡祈禱出現奇跡。
![]()
所以今天藏師傅就教一下從獲取合適的圖片素材以及如何寫提示詞兩方面生成優質的首尾幀視頻,順便看看可靈 2.1 的首尾幀模型有多強大。
如何獲得合適的圖片
首先我們來看一下如何獲取用來做首尾幀視頻生成的合適圖片,我自己平時主要用三個方法:相同提示詞抽卡、修改提示詞抽卡、使用 FLUX Kontext 等圖像編輯模型對圖片進行編輯。
首先是相同提示詞抽卡:
由于是相同提示詞并且很多模型在同時生成多張的時候種子是一致的,所以多張圖中很容易找到相似度很高的圖片,非常適合用來做展示類的首尾幀視頻。
比如我上面視頻里面的每個角色展示的分鏡就是相同提示詞生成的,我找了兩個面部和形體相似但是背景和服裝不同的兔子來完成展示,可以看到可靈過渡的非常好,尤其是面部,給人感覺連貫性很強。
仿古畫,版畫,水墨,古風,筆觸感,大師級構圖,可愛俏皮的兔子精,白發發髻,神話,詭譎,奇幻,山海經,毛絨絨白色裝飾,黑色背景, 
修改提示詞抽卡:
如果我們要做畫面中主要人物或者物品的移動或者消失出現,一個合適的方法就是,先寫出尾幀的提示詞,生成圖片后根據需求更改其中的一部分就行。
比如這個富士山和汽車的畫面就是先有汽車停在富士山下的提示詞,然后在刪掉汽車的部分完成的。
首幀提示:mount fuji on the background centered,, professional color grading, 4k, shot on RED camera, wallpaper quality 尾幀提示:two R34 nissan skylines, stunning, with mount fuji on the background centered,, professional color grading, 4k, shot on RED camera, wallpaper quality 
使用圖像編輯模型編輯:
以前想要編輯圖片基本只能局部重繪,但是局部重繪局限性非常大,索性我們最近有了不少可用的圖像編輯模型。
通過自然語言就可以編輯圖片,這樣我們就能實現對圖片的精確控制,制作出各種特效。
比如將扁平的 Logo 圖片變成有豐富材質和背景的視頻,我就是拿了一張 Logo 圖片然后用圖片編輯模型讓他加上材質更換背景。
最后在用可靈 2.1 首尾幀生成視頻的時候可以看到從扁平到金屬材質的過程可靈還加上了非常順滑的過渡一點不突兀。

也可以讓某個人物拿上東西或者放下東西,這個在電商場景非常實用。
比如下面這個就是用原始的模特圖片和后面拿上產品的圖片生成的,模特和產品都可以保持一致性,可用性相當高,而且可靈生成的時候完全沒有常見的手部細節問題。
![]()

當然我們也可以用這個方式去做非常炫酷的文字特效。
比如我這里就先生成了一個金屬文字的 KLING,然后用圖像編輯模型修改文字,分別變成了 2.1 和 First Last Frame,然后用可靈 2.1 首尾幀能力生成兩個視頻,拼起來就是連貫的文字變化特效。

當然,我們也可以加上更加豐富的變化,比如每個分鏡不止文字會變化文字材質和周圍環境也發生變化,整個表現力會更加豐富,而且可靈 2.1 不止響應了文字本身的變化,環境的變化也跟文字是同步的。

圖像編輯常見的人物或者玩偶變裝特效也很好玩,比如這里讓 Labubu 做個簡單變裝。

如何生成首尾幀視頻的提示詞
我上面所有的首尾幀的提示詞沒一個是我自己寫的,完全是 AI 生成的。
先給大家用來生成首尾幀視頻的提示詞,然后教一下大家提示詞為什么這么寫。將你想要生成的首尾幀圖片和這個提示詞一起扔給任何一個頭部的多模態模型就可以了。
這個提示詞可以生效也是因為可靈 2.1 的首尾幀提示詞理解和遵循能力大幅增強的緣故。
藏師傅的首尾幀提示詞生成提示:
你是一位頂尖的創意視頻導演和VFX(視覺特效)概念藝術家。你的任務是為AI視頻生成模型設計一個從【起始幀】到【結束幀】的轉場過程。
你的核心目標是:構思并用一段話清晰、具體地描述這個動態視覺變化。
在構思時,請遵循以下創作框架:
第一步:分析差異 快速判斷【起始幀】和【結束幀】的差異程度。
A類 - 關聯性強: 主體或場景基本一致,只是狀態、風格或環境發生改變(例如,同一個人換了衣服,同一個場景從白天到黑夜)。
B類 - 差異巨大: 主體和場景完全不同(例如,一只貓在客廳 → 一艘飛船在太空)。
第二步:選擇轉場策略
如果屬于 A類,優先采用“原地演變”的策略。讓變化直接發生在主體和環境上,盡量不使用或只使用微弱的攝像機移動。
如果屬于 B類,采用“運鏡驅動轉場”的策略。必須使用一種明確的攝像機移動(如推、拉、搖、移、旋轉)來引導過渡,讓鏡頭運動成為連接兩個不相干畫面的橋梁。
第三步:構思具體變化(從以下工具箱中選擇組合)
主體變化: 主體如何改變?(形態變化、材質替換、服裝更替、分解重組、消失或出現)。
環境變化: 背景如何改變?(時間流逝、季節更替、空間切換、從現實變為幻想)。
風格/特效變化: 用什么視覺風格或特效來包裝這個過程?(例如,畫面逐漸像素化后重組、被火焰/水流吞噬后顯現、轉變為水彩/油畫風格、出現光效粒子)。
輸出規則:
將你的最終構思整合為一個連貫的段落。
描述要具體、直接,充滿畫面感。專注于“我們看到了什么”,而不是“我們感覺到了什么”。
嚴格遵守你在第二步中選擇的攝像機移動策略。
避免使用模糊的比喻和過于文學化的修辭。
現在,請根據我提供的【起始幀】(圖片A)和【結束幀】(圖片B),生成你的轉場描述。
看下這個提示詞有多強,他會自動判斷兩張圖片的差異度,然后根據差異的不同采取不同的提示詞生成策略。
需要注意的是這個提示詞生成的視頻提示需要模型有非常強的提示詞理解和遵循能力,所以目前應該只有可靈 2.1 效果比較好。
比如這種兩張圖片有相關性的,他就會優先用原地演變的原則主要重點放在主體和環境身上,讓人物穿衣服,背景的植物生長來完成首尾幀的轉換。
畫面開始時,少女俯身在地,隨著她緩緩抬起上身,她身后的盆景松樹也開始悄然生長,枝干以肉眼可見的速度變得更加粗壯和舒展,同時,少女裙擺和發髻上的孔雀羽飾也隨之展開。當她完全坐直,將目光從地面移向前方時,背景的光線由柔和的漫射光轉變為明亮的聚光,將她和生長后的松樹輪廓勾勒得更為清晰,而她身旁原先獨立的假山石已經和松樹的根部融為一體,成為她坐下的石臺。整個過程中,攝像機非常緩慢地向左平移,最終將人物與生長后的樹木一同置于畫面中心,完成了構圖的變化。 
如果兩張圖片差異巨大甚至完全無關怎么辦,他就會要求模型加上運鏡進行過渡,讓連貫的鏡頭表現變成鏈接兩張圖片的橋梁,而且模型也會自己加上一些特效變化讓一個具體的材質引導畫面變化,一下就讓兩張圖片有了聯系。
比如這里的狐貍和龍差別很大,模型就讓狐貍的綢帶變為了流動的濃墨融合進了水墨的巨龍身體里面,一下就讓兩者有了關聯,比如你就會想狐貍是不是就是巨龍的一個化身,而且我都沒想到這個轉場可靈 2.1 可以搞定。
鏡頭首先聚焦于狐妖腰間飄動的一條彩色綢帶,隨著一股無形的風起,這條綢帶掙脫束縛,向畫面深處和高處飛去。攝像機立即啟動,以一個平滑的弧線運鏡緊緊跟隨這條綢帶。在高速運動中,綢帶的絲綢質感逐漸溶解,其上的多彩顏色開始褪去并融合成單一的、流動的濃墨。與此同時,背景中的亭臺樓閣在動態模糊中被迅速替換為灰色的、翻涌的云海。當綢帶完全轉化為一道粗壯的墨跡時,它的表面開始浮現出細密的黑色鱗片紋理,并繼續在云霧中延展、壯大,演化為龍的身體。鏡頭沿著這條由綢帶演變而來的龍身繼續向前推進并上搖,最終穿出云層,定格在【結束幀】中那顆巨大威嚴的龍頭上,它的一對金瞳在陰沉的云海中赫然亮起。 
這套提示詞也不是 LLM 憑空產生的,而是我跟模型討論的結果。
我先規定了一些基礎的提示詞生成原則,比如運鏡不要太多,文學性修辭和比喻不要太多,產出了一個基礎的要求。
然后就開始跟模型討論兩張圖片變化的本質其實就是模型對“過程”和“變化”的理解與想象。
然后就開始遍歷到底兩張圖片之間會有哪些變化和過程,遍歷了一下發現確實是可以窮盡的,然后在對這么多狀態進行分類和組合,最后得出了常見的變化和組合主體變化 + 環境變化或者風格變化 + 特效變化這兩種。
結合結合這兩者的特點和我前面的提示詞書寫要求,結合生成了最終的提示詞,如果你以后想寫自己的提示詞也可以參考這個思路。
![]()
好了教程基本上已經寫完了,我們來總結一下藏師傅這套可靈 2.1 首尾幀的通關攻略。
- 三張王牌拿圖法(同提示詞抽卡、改提示詞抽卡、FLUX Kontext 編輯)
- 一條萬能提示詞,讓多模態模型替你寫提示詞
但真正的價值不在這里,而在你接下來 10 分鐘要做的兩件事。
第一件事:把「流程」固化成「資產」
把今天所有步驟打包成一個模板:首幀圖鏈接 | 尾幀圖鏈接 | 差異分類(A/B)| 生成提示詞 | 成片鏈接。以后任何新項目,直接往模板里填圖,10 秒出提示詞,半小時出片。這套模板可能就是你未來三個月的睡后生產力。
第二件事:把「特效」升維成「敘事」
首尾幀的本質不是「過渡」,而是「因果」。狐貍 → 巨龍:綢帶化墨只是視覺鉤子,真正的敘事是「妖狐渡劫化龍」。少女 → 盆景:樹長人坐只是動態美感,真正的敘事是「人景共生」。當你用「因果」而不是「過渡」去寫提示詞,觀眾看到的就不是特效,而是故事。從「特效師」變成「敘事者」,你的視頻單價至少翻 5 倍。
工具會迭代,模型會升級,但「流程資產化 + 敘事升維」這兩件事永遠不過時。現在,輪到你把「可靈 2.1 首尾幀」寫進自己的復利曲線了。
最后如果覺得藏師傅這套方法對你有幫助的話,歡迎幫我點個贊或者喜歡,也可以轉發??需要的朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.