網易首頁 > 網易號 > 正文申請入駐

人人都能當電影導演？萬相 2.6 殺瘋了：角色扮演、分鏡控制，硬剛 Sora2

2025-12-18 16:30:45　來源: 極客公園

北京舉報

分享至

AI新浪潮觀察

12min read

人人都能當電影導演？萬相 2.6 殺瘋了：角色扮演、分鏡控制，硬剛 Sora2

極客老友2025/12/18

摘要

有創意，就能人人當導演的時代真的來了。

作者｜Cynthia

編輯｜鄭玄

還記得國慶期間朋友圈被 Sora 2 APP 支配的恐懼嗎？

那時候，一定沒人想到，這個出場即炸場的產品，同樣出道即巔峰。

向來以天為單位不斷刷新 sota 表現的大模型市場，唯獨在視頻生成上，此后足足兩個多月，無論是谷歌 veo3.1 還是 Runway 推出的模型，都沒能再現 Sora 2 在多人物不崩臉這個小細節上的穩定表現。

直到 12 月 16 日阿里萬相 2.6 正式發布。在追齊 Sora 2 體驗，并且推出獨有的音頻驅動生視頻能力之外；萬相 2.6 的這次升級更是將視角對準了多模態內容創作中多鏡頭切換、內容一致性的各種真實痛點，做到了讓專業創作的乙方少加幾次班，普通的 C 端內容創作愛好者 0 成本上手。

那么萬相 2.6 體驗究竟如何？它能否和 Sora2 一戰？一定程度上，回答了這些問題，也就回答了未來多模態大模型究竟去往何方的核心命題。

萬相 2.6 究竟做對了什么？

12 月 16 日，阿里旗下萬相 2.6 正式發布，我們第一時間拿到了內測資格。

我們發現，這個涵蓋文生視頻、圖生視頻和角色扮演功能，圖像生成和文生圖共 5 款模型的組合拳產品，從功能亮點和功能豐富度角度來看，萬相 2.6 已經是當之無愧國內的佼佼者，根據權威大模型評測集 LMArena 的測試數據顯示，萬相圖生視頻位居國內第一。

因為相比老對手 Sora 通過寫實生成效果引發全球轟動的野心；萬相這次 2.6 版本的能力升級其實主打就一個詞，實用，并且把所有升級點砸向了影視制作、廣告設計、短視頻創作的真實痛點。

內容創作圈最頭疼的，莫過于一致性崩塌。在傳統動畫行業，吉卜力工作室為了保證角色形象不跑偏、風格一致，會為了一部電影，幾百位畫師耗時兩年畫十幾萬張畫稿，4 秒鏡頭能磨 1 年。而 AI 生成的噩夢，恰恰是前一秒主角還是圓臉，下一秒變成錐子臉，說話時嘴型和臺詞完全脫節。

針對這個痛點，萬相 2.6 這次升級直接把聲畫一致性拉滿，成為國內首個支持角色定制 + 音色同步的模型：用戶輸入一段視頻，AI 就能精準復刻角色的五官、動作甚至說話語氣，就算是雙人合拍，也不會出現臉飄到別人頭上、鏡頭切換主角直接變臉的烏龍。

解決了一致性，下一個攔路虎是復雜場景的多角色呈現。

目前 Sora 2 與萬相 2.6，是全球唯二實現該功能的模型。并且，萬相 2.6 還能結合剛才提到的角色、聲音一致性能力，讓 AI 真正具備了一定的復雜畫面生成能力。

而建立在一致性、多角色的基礎之上，鏡頭調度和燈光審美往往是人類高質量視頻內容的靈魂。

被奉為經典的宮廷劇《金枝欲孽》片頭，導演通過一段不到 5 秒的鏡頭切換里，以及演員站位的變化，就說明了五個主要人物之間的關系與感情糾葛，二十多年過去，至今仍被奉為神級鏡頭調度。

王家衛電影的氛圍感與幽微的人物情緒流動，也有一半功勞要歸給燈光師的精準控光。

但以前 AI 生成視頻，要么鏡頭銜接生硬，要么角色突然瞬移，上一鏡在左邊，下一鏡直接出現在右邊，更不用提各種精美的打光，以及氛圍的塑造。

萬相 2.6 的「智能分鏡調度」很好地解決了以上問題，通過支持「總體描述 + 鏡頭序號 + 時間戳 + 分鏡內容」的公式化輸入，比如「第 1 鏡 [0-3 秒] 遠景推近，第 2 鏡 [3-5 秒] 特寫」，AI 不僅能嚴格執行，還能保證跨鏡的場景、角色、氛圍統一，再也不會出現「上一鏡穿紅衣，下一鏡變藍裙」的低級錯誤。

其實，萬相早從 2.2 版本起，就已經能通過精細的燈光控制、環境細節呈現，支持日光、月光、硬光、柔光等精細調節，讓 AI 生成的內容從「能看」升級到有「審美」，具備專業級內容生成能力。

光說不練假把式，我們帶著挑刺的心態實測了整整三天，從角色定制到多鏡敘事，從視頻生成到圖片創作，摸清了它「讓人人皆可做導演」的真實水平，以及技術 demo 與生產級工具之間的差距。

視頻能力實測：

人人都能生成神級鏡頭

過去很多行業測試，為了保證效果，經常會讓 AI 生成一些無聲視頻，或者畫面簡單的動畫風素材，再或者干脆就是一個幾乎靜止的背景中，只有一個小幅度動作的簡單運動主體（甚至都不敢把主體設置為人或者動物這樣有復雜肌理和動作的形象）。

這次對萬相 2.6 的測試，我們不搞虛的，把一致性、多鏡頭、音畫同步、長視頻、審美，這些真實行業痛點、難點全都測一遍。

測試一：多鏡頭敘事

一直以來，多鏡頭敘事都是電影高級感的核心來源之一。這里我參考《哪吒》的畫風，給了一段復雜場景、多主體的多鏡頭切換的提示詞：

鏡頭一：低角度遠景，鏡頭快速推進 3s

畫面內容：仙境般的云端建筑群在云霧中若隱若現，一群白鶴自左向右舒展翅膀，掠過層層樓閣的屋檐

視覺效果：疊加中強度動態模糊，伴隨輕微追焦微顫，焦點鎖定鶴群與建筑輪廓

鏡頭二：中近景中速推進 + 追焦微顫 3s

畫面內容：近距離捕捉白鶴羽翼貼近檐角的流暢軌跡，鏡頭緊跟鶴群運動方向。視覺效果的動態模糊逐漸減弱，追焦微顫幅度保持輕微，強化畫面銜接感

鏡頭三：無縫轉場，特寫，鏡頭恒定不動 0.3s

畫面內容：白鶴羽翼擦過最外側屋檐翹角的瞬間，以檐角硬輪廓完全遮擋畫面。無額外特效，保留自然光影，確保轉場干凈利落

鏡頭四：主體聚焦，從近景→特寫，鏡頭緩慢推近 3s

畫面內容：轉場后聚焦檐角頂端，橘貓端坐舔爪（近景），隨后推至特寫，呈現舔爪細膩動作與毛發質感。畫面清晰，焦點全程鎖定橘貓

鏡頭五：特寫變中近景中速推進 + 追焦微顫 4s

畫面內容：橘貓被打擾，停止舔毛，看了一眼鏡頭后，跳下屋檐，動作輕巧，追焦微顫幅度保持輕微，強化畫面銜接感。

這里的難點在于：首先是畫面足夠復雜，畫面中主體來回切換，從飛翔的白鶴到舔毛的橘貓，再到跳下屋檐的橘貓，而伴隨主體的動作變化，鏡頭也在同步于遠景-中景-特寫-中景中來回切換。

可以看到，生成的視頻里，生成的視頻里，《哪吒》式的東方寫意美學被精準落地：云霧是漸變的水墨質感，云端建筑的飛檐翹角帶著古風的韻味。白鶴運動的鏡頭即使高速推進沒有絲毫卡頓，動態模糊恰好放大了闖入仙境的沉浸感；后續橘貓舔爪的毛發細節栩栩如生，鏡頭也會隨著橘貓的眼神變化而出現畫面的移動。

最難能可貴的是，三次大的鏡頭切換（白鶴→舔爪橘貓→跳檐橘貓）沒有出現任何突兀感：鶴群的飛行軌跡是天然的視覺引導線，檐角轉場是承上啟下的視覺橋梁，橘貓的動作變化則成為鏡頭運動的點睛之筆。整體完全復刻電影級無縫銜接，沒有任何卡頓或脫節。

測試二：長視頻+審美

一直以來，AI 生成視頻都不難，但生成穩定、漂亮、可用的長視頻卻一直是困擾依舊的痛點。

萬相 2.6 支持最長 15 秒生成（角色扮演功能 10 秒），這個時長看似不長，但剛好戳中核心場景：短視頻場景，15 秒是黃金時長、廣告片場景，30 秒廣告可拆成 2 個 15 秒片段、而在短劇片段，10-15 秒就能完成男主歪嘴一笑、龍王歸位，一眾吃瓜群眾從白眼鄙視瞬間切換驚恐討好的爽劇經典套路。

這里我們測試一個專業服裝拍攝的商用級場景，提示詞如下：

鏡頭一：0-3 秒，中景→近景。林間光斑透過樹葉灑落，美女身著米白色棉麻長裙，緩步走在鋪滿落葉的小徑，裙擺隨步伐輕晃暖調柔光，畫面靜謐，聚焦棉麻面料的垂墜感，輕柔風聲、樹葉沙沙聲

鏡頭二：3-7 秒，特寫→中近景。風拂過，特寫衣角翻飛的弧度，棉麻紋理清晰可見；鏡頭拉回，松鼠蹲在她腳邊啄食。自然光影，無多余特效，突出面料透氣飄逸。風聲漸柔，加入輕微呼吸聲

鏡頭三：7-12 秒，近景→特寫。美女抬手輕拂額前碎發，笑容舒展，小鹿從林間探出頭，與她對視；鏡頭聚焦面料貼膚的舒適狀態畫面柔和，焦點在面料與人物神態之間切換, 背景音漸弱，預留口號空間

鏡頭四：12-15 秒，中景定格。美女站在林間轉身，裙擺隨風輕揚，小動物環繞身旁，畫面定格在面料飄動的瞬間暖光漸變柔和，畫面干凈治愈。背景音清晰女聲：「好面料，會呼吸」。

這里的難點在于，除了美之外，棉麻質感難還原纖維肌理，還要考慮自然垂墜與光影通透感，否則容易顯塑料感，此外，畫面中的小動物互動增加了整體畫面復雜度，而森林光影也需要在光斑、光線折射等細節做到真實且有美感。

行業人都懂，過去這種級別的畫面，以前要找外景、模特、燈光師，拍攝 + 后期至少 3 天，現在用萬相 2.6，輸入提示詞幾分鐘生成，直接能當成片交付。

此外，值得一提的是，萬相 2.6 除了生成的視頻質感高，操作門檻還極低。寫出以上專業級分鏡腳本，其實只要按照官方給出的【總體描述 + 鏡頭序號 + 時間戳 + 分鏡內容提示詞】指令指引，就能實現智能分鏡調度功能。而這種能精準控制每個角色的動作順序和畫面鏡頭調配的能力，在短視頻劇情創作、IP 衍生內容生產中簡直是降維打擊。

測試三：基于參考視頻的人物，搞定人物一致性+音畫同步。

這里我選用的輸入素材是一段林黛玉的特寫，以及模版中已有的關羽形象，來一段名著大亂燉。

提示詞如下：暮春清晨，隆中茅廬外竹林青翠，薄霧如紗，屋內隱約傳來撫琴之聲。鏡頭先以全景定格——諸葛亮身著月白道袍，臨窗而坐，指尖撥弄琴弦，琴聲悠揚；

鏡頭突然切換為快速跟拍，@ 關羽走進柴門，鏡頭推進至中近景，大步流星到諸葛亮面前，，說「我回來了了」

鏡頭隨著諸葛亮的眼光移動橫切，@ 林黛玉中近景緩緩入畫。特寫中眼眸流轉著幾分嗔怨與疏離：「早知他來，我便不來了。」

最終鏡頭切回諸葛亮收尾。

這里的難點在于：我給出了兩個需要參考的主角，以及一個沒有任何參考只有文字描述構建的諸葛亮形象，并且每個主角都多次引用在提示詞不同位置，需要 AI 保持一致的情況下，精準控制主角行為。

可以看到，借助模態聯合建模能力，萬相 2.6 生成的視頻里，時序動態（比如關羽的走路姿勢）、情緒變化（比如林黛玉嗔怪的神情）全都和參考視頻幾乎一致，最驚艷的是：人物的嘴型和臺詞嚴絲合縫，聲音質感沒有半點 AI 塑料感。

另外，相同的人物角色，我又嘗試直接給 AI 一段參考的黛玉的聲音，讓它自主生成視頻，可以看到，我把背景音樂以及黛玉的語氣改變之后，她整個人的神態也會隨之變得生動活潑，并且口型與聲音完全匹配。

而這段視頻里，對比 Sora2，萬相 2.6 的差異化優勢也很明顯：前者雖然支持長視頻，但缺乏音頻驅動生視頻的功能，你沒法讓 Sora2 參考一段人聲，生成對應角色的說話視頻。而萬相 2.6 直接把聲音 + 畫面綁定的能力，對于廣告片、短劇、虛擬人直播等商用場景來說，實用性直接拉滿。

圖像能力實測：

設計圈的效率革命來了

如果說萬相 2.6 的視頻功能已經有了初步踏足專業影視圈的能力，那其圖像能力可以說已經足以精準拿捏設計圈。

圖像層面，萬相 2.6 的核心升級，都圍繞商用級展開：解決企業用戶最關心的圖文一體化排版、多圖創意融合、商用級一致性、美學要素遷移與鏡頭光影精確控制等細節。

我們用兩個真實商業場景做了實測，結果發現：以前需要設計師、插畫師、排版師協作一周的活兒，現在一個人用萬相 2.6 輸入指令，幾小時甚至幾分鐘就能搞定，而且細節精準到可以直接商業交付。

測試一：基于多張圖片的圖文混排

過去，內容創作圈的三重折磨在于：寫文案的不懂設計，做設計的不懂文案，排版的夾在中間反復拉扯。比如出版社做繪本，要找作家寫故事、插畫師畫配圖、排版師調格式，三者風格要統一、內容要契合，光溝通修改就要耗半個月。

現在用萬相 2.6，只要寫這樣一段提示詞：

創作一本關于環保的兒童繪本，插畫風格為治愈系水彩風，色彩以藍白為主，每頁插畫要和文字內容精準對應，整體風格統一。故事內容：1、在遙遠的北極，小北極熊樂樂發現冰面越來越小；2、樂樂遇見了迷路的鯨魚，鯨魚告訴它「人類在保護地球」；3、樂樂決定到處走走看；4、一年后，樂樂回到家鄉，冰面變寬了，還多了很多小伙伴。

提示詞背后的難點在于考驗 AI 的邏輯理解 + 設計統籌能力：①要先拆解長文本的敘事結構，4 個段落之間劇情不能張冠李戴；②要保持插畫風格、色彩、角色形象的高度統一，不能第一頁是圓耳朵，第三頁變成尖耳朵。

可以看到，生成的繪本不僅風格、色彩、角色完全一致，就連提示詞中沒有寫到的文字意境也做了精準表達，比如第一頁的小北極熊站在破碎的冰面上，眼神迷茫；第四頁的冰面寬闊，小伙伴一起玩耍，氛圍溫暖。

而這也意味著，不管是繪本創作、公眾號推文還是知識付費課件，后續都能實現文案輸入→成品輸出的一步到位，省去了找圖 + 修圖 + 排版的全流程，效率提升至少 10 倍。

測試二：商用級一致性 + 多圖創意融合

過去，品牌方的物料噩夢在于，真人拍攝，經常因為各種情況耽誤拍攝進度，需要場地加錢、模特加錢、各種設備重新報批申請；而用 AI 批量生成宣傳圖，AI 又像在開盲盒，只是想把產品圖、背景圖、參考風格圖融合成一張海報，也會出現產品比例失調，背景和風格割裂，嚴重影響品牌識別度的問題。

針對這些，我們設計一段針對性測試。提示詞：生成美妝品牌宣傳圖，要求：①核心產品為上傳的口紅（參考圖 1），保持產品外觀、logo、包裝細節完全一致；②融合上傳的花的照片（參考圖 2），背景為花瓣飄落的場景；③產品垂直擺放在畫面中央，周圍散落 3-5 朵花，花瓣紋理清晰；④色調光影有大片質感。

生成一張之后，我們再要求其搭配一個模特，試用產品。

提示詞背后的難點在于，讓 AI 同時實現精準控制 + 創意融合的雙重考驗：既要要確保產品的外觀、logo、包裝細節在兩張圖里分毫不差（這里我專門選擇了 YSL 這樣的復雜 logo，并且 YSL 的口紅膏體為相對少見的方形，其他 AI 在生成時，很容易把膏體變成常見的圓形）；還要保證多圖融合難在要把產品圖、背景圖、風格圖有機結合，不能讓產品像貼在背景上。

可以看到，生成的兩張宣傳圖直接達到商用級標準。不僅所有要素之間也融合自然，并且做到了花朵背景和大片風格完美銜接完全不搶戲，主體產品突出，甚至金屬包裝會反射花瓣的光影這樣的細節都做到了完美還原，毫無 AI 的痕跡。

這對品牌方來說，這意味著「一次設定，無限復用」，不僅可以做無限的創意搭配，還能保證品牌形象的統一性，效率革命近在眼前。

尾聲

當然，萬相 2.6 不是完美的。我們實測中發現幾個小問題：比如視頻最長只能 15 秒，對于需要長敘事的場景還是不夠；非常復雜動作，比如翻跟頭 + 復雜舞蹈動作，偶爾會出現肢體變形。但這幾乎也是全行業目前亟需解決的問題。

但萬相 2.6 乃至 Sora2 們微小的不足，掩蓋不了一個行業真相：AI 視頻生成正在從技術炫技進入落地加速階段。AI 帶來的，本質上是對內容創作生產關系的重構：不僅有大量專業影視制作平臺在用 AI 制作漫劇、短劇，社交平臺更是涌現了一批博主用 AI 制作的小貓打架、小說動畫小短片在各種平臺爆火。

基于萬相 2.6 模型核心能力，千問 APP 上線「AI 小劇場」玩法，國內首次實現「角色合拍」能力，用戶可與朋友或名人輕松同框出演 AI 短片。

而在這一過程中，人類只需保留想象力、審美以及創意，而剩余的執行細節，可以全部交給 AI。

這一次，有創意，就能人人當導演的時代真的來了。

萬相 2.6Sora2千問 APP

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.