AI新浪潮觀察
12min read
人人都能當電影導演?萬相 2.6 殺瘋了:角色扮演、分鏡控制,硬剛 Sora2
極客老友2025/12/18
![]()
摘要
有創意,就能人人當導演的時代真的來了。
作者|Cynthia
編輯| 鄭玄
還記得國慶期間朋友圈被 Sora 2 APP 支配的恐懼嗎?
那時候,一定沒人想到,這個出場即炸場的產品,同樣出道即巔峰。
向來以天為單位不斷刷新 sota 表現的大模型市場,唯獨在視頻生成上,此后足足兩個多月,無論是谷歌 veo3.1 還是 Runway 推出的模型,都沒能再現 Sora 2 在多人物不崩臉這個小細節上的穩定表現。
直到 12 月 16 日阿里萬相 2.6 正式發布。在追齊 Sora 2 體驗,并且推出獨有的音頻驅動生視頻能力之外;萬相 2.6 的這次升級更是將視角對準了多模態內容創作中多鏡頭切換、內容一致性的各種真實痛點,做到了讓專業創作的乙方少加幾次班,普通的 C 端內容創作愛好者 0 成本上手。
那么萬相 2.6 體驗究竟如何?它能否和 Sora2 一戰?一定程度上,回答了這些問題,也就回答了未來多模態大模型究竟去往何方的核心命題。
01
萬相 2.6 究竟做對了什么?
12 月 16 日,阿里旗下萬相 2.6 正式發布,我們第一時間拿到了內測資格。
我們發現,這個涵蓋文生視頻、圖生視頻和角色扮演功能,圖像生成和文生圖共 5 款模型的組合拳產品,從功能亮點和功能豐富度角度來看,萬相 2.6 已經是當之無愧國內的佼佼者 , 根據權 威大模型評測集 LMArena 的測試數據顯示,萬相圖生視頻位居國內第一 。
因為相比老對手 Sora 通過寫實生成效果引發全球轟動的野心;萬相這次 2.6 版本的能力升級其實主打就一個詞,實用,并且把所有升級點砸向了影視制作、廣告設計、短視頻創作的真實痛點。
內容創作圈最頭疼的,莫過于一致性崩塌。在傳統動畫行業,吉卜力工作室為了保證角色形象不跑偏、風格一致,會為了一部電影,幾百位畫師耗時兩年畫十幾萬張畫稿,4 秒鏡頭能磨 1 年。而 AI 生成的噩夢,恰恰是前一秒主角還是圓臉,下一秒變成錐子臉,說話時嘴型和臺詞完全脫節。
針對這個痛點,萬相 2.6 這次升級直接把聲畫一致性拉滿,成為國內首個支持角色定制 + 音色同步的模型 :用戶輸入一段視頻,AI 就能精準復刻角色的五官、動作甚至說話語氣,就算是雙人合拍,也不會出現臉飄到別人頭上、鏡頭切換主角直接變臉的烏龍。
解決了一致性,下一個攔路虎是復雜場景的多角色呈現。
目前 Sora 2 與萬相 2.6,是全球唯二實現該功能的模型。并且,萬相 2.6 還能結合剛才提到的角色、聲音一致性能力,讓 AI 真正具備了一定的復雜畫面生成能力。
而建立在一致性、多角色的基礎之上,鏡頭調度和燈光審美往往是人類高質量視頻內容的靈魂。
被奉為經典的宮廷劇《金枝欲孽》片頭,導演通過一段不到 5 秒的鏡頭切換里,以及演員站位的變化,就說明了五個主要人物之間的關系與感情糾葛,二十多年過去,至今仍被奉為神級鏡頭調度。
王家衛電影的氛圍感與幽微的人物情緒流動,也有一半功勞要歸給燈光師的精準控光。
但以前 AI 生成視頻,要么鏡頭銜接生硬,要么角色突然瞬移,上一鏡在左邊,下一鏡直接出現在右邊,更不用提各種精美的打光,以及氛圍的塑造。
萬相 2.6 的「智能分鏡調度」很好地解決了以上問題,通過支持「總體描述 + 鏡頭序號 + 時間戳 + 分鏡內容」的公式化輸入,比如「第 1 鏡 [0-3 秒] 遠景推近,第 2 鏡 [3-5 秒] 特寫」,AI 不僅能嚴格執行,還能保證跨鏡的場景、角色、氛圍統一,再也不會出現「上一鏡穿紅衣,下一鏡變藍裙」的低級錯誤。
其實,萬相早從 2.2 版本起,就已經能通過精細的燈光控制、環境細節呈現,支持日光、月光、硬光、柔光等精細調節,讓 AI 生成的內容從「能看」升級到有「審美」,具備專業級內容生成能力。
光說不練假把式,我們帶著挑刺的心態實測了整整三天,從角色定制到多鏡敘事,從視頻生成到圖片創作,摸清了它「讓人人皆可做導演」的真實水平,以及 技術 demo 與生產級工具之間的差距。
02
視頻能力實測:
人人都能生成神級鏡頭
過去很多行業測試,為了保證效果,經常會讓 AI 生成一些無聲視頻,或者畫面簡單的動畫風素材,再或者干脆就是一個幾乎靜止的背景中,只有一個小幅度動作的簡單運動主體(甚至都不敢把主體設置為人或者動物這樣有復雜肌理和動作的形象)。
這次對萬相 2.6 的測試,我們不搞虛的,把一致性、多鏡頭、音畫同步、長視頻、審美,這些真實行業痛點、難點全都測一遍。
測試一:多鏡頭敘事
一直以來,多鏡頭敘事都是電影高級感的核心來源之一。這里我參考《哪吒》的畫風,給了一段復雜場景、多主體的多鏡頭切換的提示詞:
鏡頭一:低角度遠景,鏡頭快速推進 3s
畫面內容:仙境般的云端建筑群在云霧中若隱若現,一群白鶴自左向右舒展翅膀,掠過層層樓閣的屋檐
視覺效果:疊加中強度動態模糊,伴隨輕微追焦微顫,焦點鎖定鶴群與建筑輪廓
鏡頭二:中近景中速推進 + 追焦微顫 3s
畫面內容:近距離捕捉白鶴羽翼貼近檐角的流暢軌跡,鏡頭緊跟鶴群運動方向。視覺效果的動態模糊逐漸減弱,追焦微顫幅度保持輕微,強化畫面銜接感
鏡頭三:無縫轉場,特寫,鏡頭恒定不動 0.3s
畫面內容:白鶴羽翼擦過最外側屋檐翹角的瞬間,以檐角硬輪廓完全遮擋畫面。無額外特效,保留自然光影,確保轉場干凈利落
鏡頭四:主體聚焦,從近景→特寫,鏡頭緩慢推近 3s
畫面內容:轉場后聚焦檐角頂端,橘貓端坐舔爪(近景),隨后推至特寫,呈現舔爪細膩動作與毛發質感。畫面清晰,焦點全程鎖定橘貓
鏡頭五:特寫變中近景中速推進 + 追焦微顫 4s
畫面內容:橘貓被打擾,停止舔毛,看了一眼鏡頭后,跳下屋檐,動作輕巧,追焦微顫幅度保持輕微,強化畫面銜接感。
這里的難點在于:首先是畫面足夠復雜,畫面中主體來回切換,從飛翔的白鶴到舔毛的橘貓,再到跳下屋檐的橘貓,而伴隨主體的動作變化,鏡頭也在同步于遠景-中景-特寫-中景中來回切換。
可以看到,生成的視頻里,生成的視頻里,《哪吒》式的東方寫意美學被精準落地:云霧是漸變的水墨質感,云端建筑的飛檐翹角帶著古風的韻味。白鶴運動的鏡頭即使高速推進沒有絲毫卡頓,動態模糊恰好放大了闖入仙境的沉浸感;后續橘貓舔爪的毛發細節栩栩如生,鏡頭也會隨著橘貓的眼神變化而出現畫面的移動。
最難能可貴的是,三次大的鏡頭切換(白鶴→舔爪橘貓→跳檐橘貓)沒有出現任何突兀感:鶴群的飛行軌跡是天然的視覺引導線,檐角轉場是承上啟下的視覺橋梁,橘貓的動作變化則成為鏡頭運動的點睛之筆。整體完全復刻電影級無縫銜接,沒有任何卡頓或脫節。
測試二:長視頻+審美
一直以來,AI 生成視頻都不難,但生成穩定、漂亮、可用的長視頻卻一直是困擾依舊的痛點。
萬相 2.6 支持最長 15 秒生成(角色扮演功能 10 秒),這個時長看似不長,但剛好戳中核心場景:短視頻場景,15 秒是黃金時長、廣告片場景,30 秒廣告可拆成 2 個 15 秒片段、而在短劇片段,10-15 秒就能完成男主歪嘴一笑、龍王歸位,一眾吃瓜群眾從白眼鄙視瞬間切換驚恐討好的爽劇經典套路。
這里我們測試一個專業服裝拍攝的商用級場景,提示詞如下:
鏡頭一:0-3 秒,中景→近景。林間光斑透過樹葉灑落,美女身著米白色棉麻長裙,緩步走在鋪滿落葉的小徑,裙擺隨步伐輕晃 暖調柔光,畫面靜謐,聚焦棉麻面料的垂墜感,輕柔風聲、樹葉沙沙聲
鏡頭二:3-7 秒,特寫→中近景。風拂過,特寫衣角翻飛的弧度,棉麻紋理清晰可見;鏡頭拉回,松鼠蹲在她腳邊啄食。自然光影,無多余特效,突出面料透氣飄逸。風聲漸柔,加入輕微呼吸聲
鏡頭三:7-12 秒,近景→特寫。美女抬手輕拂額前碎發,笑容舒展,小鹿從林間探出頭,與她對視;鏡頭聚焦面料貼膚的舒適狀態畫面柔和,焦點在面料與人物神態之間切換, 背景音漸弱,預留口號空間
鏡頭四:12-15 秒,中景定格。美女站在林間轉身,裙擺隨風輕揚,小動物環繞身旁,畫面定格在面料飄動的瞬間 暖光漸變柔和,畫面干凈治愈。背景音清晰女聲:「好面料,會呼吸」。
這里的難點在于,除了美之外,棉麻質感難還原纖維肌理,還要考慮自然垂墜與光影通透感,否則容易顯塑料感,此外,畫面中的小動物互動增加了整體畫面復雜度,而森林光影也需要在光斑、光線折射等細節做到真實且有美感。
行業人都懂,過去這種級別的畫面,以前要找外景、模特、燈光師,拍攝 + 后期至少 3 天,現在用萬相 2.6,輸入提示詞幾分鐘生成,直接能當成片交付。
此外,值得一提的是,萬相 2.6 除了生成的視頻質感高,操作門檻還極低。寫出以上專業級分鏡腳本,其實只要按照官方給出的【總體描述 + 鏡頭序號 + 時間戳 + 分鏡內容提示詞】指令指引,就能實現智能分鏡調度功能。而這種能精準控制每個角色的動作順序和畫面鏡頭調配的能力,在短視頻劇情創作、IP 衍生內容生產中簡直是降維打擊。
測試三:基于參考視頻的人物,搞定人物一致性+音畫同步。
這里我選用的輸入素材是一段林黛玉的特寫,以及模版中已有的關羽形象,來一段名著大亂燉。
提示詞如下: 暮春清晨,隆中茅廬外竹林青翠,薄霧如紗,屋內隱約傳來撫琴之聲。鏡頭先以全景定格——諸葛亮身著月白道袍,臨窗而坐,指尖撥弄琴弦,琴聲悠揚;
鏡頭突然切換為快速跟拍,@ 關羽走進柴門,鏡頭推進至中近景,大步流星到諸葛亮面前,,說「我回來了了」
鏡頭隨著諸葛亮的眼光移動橫切,@ 林黛玉 中近景緩緩入畫。特寫中眼眸流轉著幾分嗔怨與疏離:「早知他來,我便不來了。」
最終鏡頭切回諸葛亮收尾。
這里的難點在于:我給出了兩個需要參考的主角,以及一個沒有任何參考只有文字描述構建的諸葛亮形象,并且每個主角都多次引用在提示詞不同位置,需要 AI 保持一致的情況下,精準控制主角行為。
可以看到,借助模態聯合建模能力,萬相 2.6 生成的視頻里,時序動態(比如關羽的走路姿勢)、情緒變化(比如林黛玉嗔怪的神情)全都和參考視頻幾乎一致,最驚艷的是:人物的嘴型和臺詞嚴絲合縫,聲音質感沒有半點 AI 塑料感。
另外,相同的人物角色,我又嘗試直接給 AI 一段參考的黛玉的聲音,讓它自主生成視頻,可以看到,我把背景音樂以及黛玉的語氣改變之后,她整個人的神態也會隨之變得生動活潑,并且口型與聲音完全匹配。
而這段視頻里,對比 Sora2,萬相 2.6 的差異化優勢也很明顯:前者雖然支持長視頻,但缺乏音頻驅動生視頻的功能,你沒法讓 Sora2 參考一段人聲,生成對應角色的說話視頻。而萬相 2.6 直接把聲音 + 畫面綁定的能力,對于廣告片、短劇、虛擬人直播等商用場景來說,實用性直接拉滿。
03
圖像能力實測:
設計圈的效率革命來了
如果說萬相 2.6 的視頻功能已經有了初步踏足專業影視圈的能力,那其圖像能力可以說已經足以精準拿捏設計圈。
圖像層面,萬相 2.6 的核心升級,都圍繞商用級展開:解決企業用戶最關心的圖文一體化排版、多圖創意融合、商用級一致性、美學要素遷移與鏡頭光影精確控制等細節。
我們用兩個真實商業場景做了實測,結果發現:以前需要設計師、插畫師、排版師協作一周的活兒,現在一個人用萬相 2.6 輸入指令,幾小時甚至幾分鐘就能搞定,而且細節精準到可以直接商業交付。
測試一:基于多張圖片的圖文混排
過去,內容創作圈的三重折磨在于:寫文案的不懂設計,做設計的不懂文案,排版的夾在中間反復拉扯。比如出版社做繪本,要找作家寫故事、插畫師畫配圖、排版師調格式,三者風格要統一、內容要契合,光溝通修改就要耗半個月。
現在用萬相 2.6,只要寫這樣一段提示詞:
創作一本關于環保的兒童繪本,插畫風格為治愈系水彩風,色彩以藍白為主,每頁插畫要和文字內容精準對應,整體風格統一。故事內容:1、在遙遠的北極,小北極熊樂樂發現冰面越來越小;2、樂樂遇見了迷路的鯨魚,鯨魚告訴它「人類在保護地球」;3、樂樂決定到處走走看;4、一年后,樂樂回到家鄉,冰面變寬了,還多了很多小伙伴。
提示詞背后的難點在于考驗 AI 的邏輯理解 + 設計統籌能力:①要先拆解長文本的敘事結構,4 個段落之間劇情不能張冠李戴;②要保持插畫風格、色彩、角色形象的高度統一,不能第一頁是圓耳朵,第三頁變成尖耳朵。
![]()
可以看到,生成的繪本不僅風格、色彩、角色完全一致,就連提示詞中沒有寫到的文字意境也做了精準表達,比如第一頁的小北極熊站在破碎的冰面上,眼神迷茫;第四頁的冰面寬闊,小伙伴一起玩耍,氛圍溫暖。
而這也意味著,不管是繪本創作、公眾號推文還是知識付費課件,后續都能實現文案輸入→成品輸出的一步到位,省去了找圖 + 修圖 + 排版的全流程,效率提升至少 10 倍。
測試二:商用級一致性 + 多圖創意融合
過去,品牌方的物料噩夢在于,真人拍攝,經常因為各種情況耽誤拍攝進度,需要場地加錢、模特加錢、各種設備重新報批申請;而用 AI 批量生成宣傳圖,AI 又像在開盲盒,只是想把產品圖、背景圖、參考風格圖融合成一張海報,也會出現產品比例失調,背景和風格割裂,嚴重影響品牌識別度的問題。
針對這些,我們設計一段針對性測試。提示詞: 生成美妝品牌宣傳圖,要求:①核心產品為上傳的口紅(參考圖 1),保持產品外觀、logo、包裝細節完全一致;②融合上傳的花的照片(參考圖 2),背景為花瓣飄落的場景;③產品垂直擺放在畫面中央,周圍散落 3-5 朵花,花瓣紋理清晰;④色調光影有大片質感。
![]()
生成一張之后,我們再要求其搭配一個模特,試用產品。
![]()
提示詞背后的難點在于,讓 AI 同時實現精準控制 + 創意融合的雙重考驗:既要要確保產品的外觀、logo、包裝細節在兩張圖里分毫不差(這里我專門選擇了 YSL 這樣的復雜 logo,并且 YSL 的口紅膏體為相對少見的方形,其他 AI 在生成時,很容易把膏體變成常見的圓形);還要保證多圖融合難在要把產品圖、背景圖、風格圖有機結合,不能讓產品像貼在背景上。
可以看到,生成的兩張宣傳圖直接達到商用級標準。不僅所有要素之間也融合自然,并且做到了花朵背景和大片風格完美銜接完全不搶戲,主體產品突出,甚至金屬包裝會反射花瓣的光影這樣的細節都做到了完美還原,毫無 AI 的痕跡。
這對品牌方來說,這意味著「一次設定,無限復用」,不僅可以做無限的創意搭配,還能保證品牌形象的統一性,效率革命近在眼前。
04
尾聲
當然,萬相 2.6 不是完美的。我們實測中發現幾個小問題:比如視頻最長只能 15 秒,對于需要長敘事的場景還是不夠;非常復雜動作,比如翻跟頭 + 復雜舞蹈動作,偶爾會出現肢體變形。但這幾乎也是全行業目前亟需解決的問題。
但萬相 2.6 乃至 Sora2 們微小的不足,掩蓋不了一個行業真相:AI 視頻生成正在從技術炫技進入落地加速階段。AI 帶來的,本質上是對內容創作生產關系的重構:不僅有大量專業影視制作平臺在用 AI 制作漫劇、短劇,社交平臺更是涌現了一批博主用 AI 制作的小貓打架、小說動畫小短片在各種平臺爆火。
基于萬相 2.6 模型核心能力,千問 APP 上線「AI 小劇場」玩法,國內首次實現「角色合拍」能力,用戶可與朋友或名人輕松同框出演 AI 短片。
而在這一過程中,人類只需保留想象力、審美以及創意,而剩余的執行細節,可以全部交給 AI。
這一次,有創意,就能人人當導演的時代真的來了。
萬相 2.6Sora2千問 APP
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.