網易首頁 > 網易號 > 正文申請入駐

阿里云潘奕如：為創意加速，AI 重構短漫劇全流程解決方案

2026-03-30 11:47:07　來源: 新腕兒

北京舉報

分享至

新腕兒漫劇大會報道

新腕兒漫劇大會結束后，近期將陸續發布嘉賓們的演講內容。

3月20日，在新腕兒漫劇大會上，阿里云AI解決方案專家潘奕如上臺分享關于《為創意加速，阿里云短漫劇行業的解決方案分享》的主題演講。

以下為演講全文：

大家好，我今天分享的主題是《為創意加速，阿里云短漫劇行業的解決方案分享》，內容是比較偏干貨，主要給大家講一下阿里模型的基本情況，還有我們新模型的預告。

首先講一下我們萬相視覺模型生成的能力，第二部分會講到短漫劇行業的一個最佳實踐，第三部分主要講我們在短漫劇行業的生態資源。

先看一下我們整個產品大圖。我們基座模型第一部分做的原生多模態，支持文本、語音、圖像、視頻等多模態數據輸入、輸出；第二部分中，是我們整個模型基本迭代，能力持續進步。通過文本、音頻、視頻多模態數據對齊的聯合訓練，強化學習提升畫面生成質感、視頻動態和指令遵循的能力。第三個就是視頻生成部分，每次都會迭代、生成領域，還有編輯領域的迭代。

在生成領域，我們主要是為了遵循優化程度、美學質感、物理規律，保持人物的一致性，包括對整體畫面元素的精準控制及局部編輯。

除了視頻生成模型，我們也可以迭代生圖模型，我稍后會對新模型做詳細介紹。

上面的第二層在各行各業都可以看到萬相模型的身影，尤其在2025年，我們在短漫劇行業有了很多的頭部客戶，包括內容、消費電子、社交等領域，我們都有標桿客戶。

視頻生成的2.6版本，就是原生多模態模型，偏向專業創作者本身升級。分為三部分，我們主要是支持15秒時長，還有參考角色生視頻做了創新。

圖像生成方面，我們有通用的文生圖、圖生圖、圖像編輯，主要是像復雜的圖文排版、構圖創意這類商用生圖，都用到我們的圖像模型。

有了這個后，我們省去了后期配音的過程，我們直接上傳人物的視頻，參考人物形象、聲音，所以我們整體加速了漫劇生成的流程。

下面就是我們的一些模型功能，一個是多鏡頭智能調度，可以看到通過分鏡1、分鏡2提示詞這樣的描述。

這個就是我們通過這個描述做的一個多鏡頭的效果。這個是我們用智能分鏡的功能，就相當于我們的模型有一個參數可以控制是否開啟智能分鏡，開啟后即使對于小白用戶不會寫專業的分鏡提示詞，也能夠生成連貫的多鏡頭視頻。

像這種智能多鏡和多人對話的場景，在15秒的時長下，對于人物一致性和多人的口型、人臉一致性保持要求比較高，而我們在這個場景中受到各種用戶的認可。

這個主要是給大家看一下我們在一些ASMR音效。因為現在這種視頻模型的主流發展是音畫同步的，除了這種人物的聲音BGM、還有這種ASMR，比如說做這種電商帶貨視頻，還有做這種音效生成，我們的聲音特質非常逼真。

這個我們千問Image 2.0的預告，在過年前發布的模型，這個模型其實主要是幾個特點：

一個是更專業的文字渲染能力，大家有一種體感是，國外的生圖模型如Nano Banana在中文文字的渲染方面不足，但是國內的這些模型中，其實我們在更專業的中文文字渲染中，包括商用PPT、海報、復雜流程圖，現在都有了更強的能力。

第二是我們出圖分辨率是2K，之前差不多是720和1080P，現在直接就是用是商用高清2K分辨率。

第三是更強語義遵循能力，除了文生圖，圖生圖，圖像編輯，在一個模型就能做到。

我們優化的模型架構和推理加速，現在以更小的模型擁有更快的推理速度，出圖速度在10秒內。

像做這種3D漫畫生圖，還有2D分鏡生圖，效果基本上在國內生圖里是第一梯隊。像做真人劇的時候，這種生圖，人的肌膚紋理質感、表情的細膩程度、光影都達到了商用。

下面是新模型預熱，我們迭代后會在這幾個指標上加強。因為我們有更多的多模態數據和強化學習訓練，在畫質、聲音、動態表現，風格化生成和一致性控制這些維度都大幅提升。

另外，模型的功能層面也有更強的能力，更適配短漫劇的創作流程，包括首尾幀生視頻，還有九宮格分鏡生視頻、還有主體與音色參考，視頻編輯支持對全局或局部元素的編輯，視頻復刻是時序特征遷移，支持參考視頻中動作、特效、運鏡、風格的復刻。

對于整個漫劇創作來說，我們能力的提升意味著更高的可控性，還有更大的創作空間，能夠讓創作者做出更精彩的內容。

下一步看一下短漫劇的實踐。其實這部分對于大部分漫劇公司來說，是很成熟的工作流。當大家工作流都相同的情況下，如何能在工作流中生成更好的內容？

用文本模型Qwen3-Max在整個小說內容中提取出角色、場景，并生成分鏡故事板，在這個環節中，我們通過強大的文本處理能力，將小說分鏡的畫面描述、人物的對話，還有生圖的Prompt都結構化生成，通過生成角色圖、場景圖作為資產，再使用圖像編輯模型生成分鏡圖，使用好的圖像編輯模型能更好的把控整個分鏡環境質感。最后在用圖生視頻，可以用到Wan2.2或者是2.6首幀生視頻、R2V，最后一步去做剪輯、合成和添加解說。

整個工作流里，如果能每個環節用到SOTA模型，整個畫面內容會有更好的體驗。

下一個是我們「Wan2.6萬物可主演：典型創作流程」，現在不光可以參考視頻生成結果，還可以多圖參考。傳統生成一個角色設定圖、道具設定圖、場景設定圖，三張圖生成一個分鏡片段，或者三個參考視頻，參考視頻維度會更加立體，把聲音一起作為參考。

這是一個「典型創作流程」，比如角色設定圖有兩個人物、道具加場景，用R2A后就能夠生成一個視頻。看了這么多漫劇行業客戶用AI后，現階段AI核心是劇本創作和漫劇制作，尤其劇本創作，是通過大量網文IP以文本模型進行劇本改寫，包括劇本分鏡生成，到漫劇制作環節，這個環節中的分鏡生成部分是最為重要的，且需要由分鏡師去觀察整個分鏡生成情況，效果不符合要求需要重新生成。

隨著模型能力提升，分鏡抽卡成功率越來越高，其實在后期剪輯部分，可以用到視頻編輯模型，比如動作復刻、角色替換等。這樣的話，我們整個工作流每個環節都能夠去被AI賦能、提效，由原來只文本加視頻到現在有編輯模型后，整個鏈路都能夠讓AI賦能。

現在通過視頻模型，大概就是在各類平臺上，從最開始的2D、3D漫劇到現在的解說漫、真人短劇，我們現在又轉向AI仿真人劇。

下面是我們客戶在抖音平臺上一些AI仿真人短劇作品。

接下來給大家看下我們在AIGC創作領域米蘭冬奧會的效果，是我們找超創聯合米蘭冬奧會做的AIGP主題大會：

收錄一些優質的超創作品，像過年的動畫：

我們超創群體不僅是中國的創作者，Wan在美國硅谷也有很多超創群體喜歡我們的模型。可以看下國外創作者的作品：

這是我們在12月份Wan2.6首發時，聯合海外超創群體一起做的首發視頻，現在新模型也快發布了，后面如果會場上有各位嘉賓對我們新模型感興趣的話，可以聯系我們商務同學參與新模型測試邀請。

另外就是我們短漫劇扶持活動，如果有漫劇承制方想拉IP資源，可以從書旗幫助到大家。平臺資源主要是優酷漫劇、支付寶漫劇、淘寶漫劇，商務具體活動可以跟商務同學對接。

我今天的演講就是給大家做一下新模型的預熱，讓大家對更強的視頻模型和創作領域有進一步了解，如果對我們的Wan更感興趣，可以去體驗一下新模型。謝謝大家！

了解短劇，請關注新腕兒。

加入新腕兒社群請掃碼。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.