新腕兒漫劇大會報道
新腕兒漫劇大會結束后,近期將陸續發布嘉賓們的演講內容。
3月20日,在新腕兒漫劇大會上,阿里云AI解決方案專家潘奕如上臺分享關于《為創意加速,阿里云短漫劇行業的解決方案分享》的主題演講。
![]()
以下為演講全文:
大家好,我今天分享的主題是《為創意加速,阿里云短漫劇行業的解決方案分享》,內容是比較偏干貨,主要給大家講一下阿里模型的基本情況,還有我們新模型的預告。
![]()
首先講一下我們萬相視覺模型生成的能力,第二部分會講到短漫劇行業的一個最佳實踐,第三部分主要講我們在短漫劇行業的生態資源。
![]()
先看一下我們整個產品大圖。我們基座模型第一部分做的原生多模態,支持文本、語音、圖像、視頻等多模態數據輸入、輸出;第二部分中,是我們整個模型基本迭代,能力持續進步。通過文本、音頻、視頻多模態數據對齊的聯合訓練,強化學習提升畫面生成質感、視頻動態和指令遵循的能力。第三個就是視頻生成部分,每次都會迭代、生成領域,還有編輯領域的迭代。
在生成領域,我們主要是為了遵循優化程度、美學質感、物理規律,保持人物的一致性,包括對整體畫面元素的精準控制及局部編輯。
除了視頻生成模型,我們也可以迭代生圖模型,我稍后會對新模型做詳細介紹。
上面的第二層在各行各業都可以看到萬相模型的身影,尤其在2025年,我們在短漫劇行業有了很多的頭部客戶,包括內容、消費電子、社交等領域,我們都有標桿客戶。
![]()
視頻生成的2.6版本,就是原生多模態模型,偏向專業創作者本身升級。分為三部分,我們主要是支持15秒時長,還有參考角色生視頻做了創新。
![]()
圖像生成方面,我們有通用的文生圖、圖生圖、圖像編輯,主要是像復雜的圖文排版、構圖創意這類商用生圖,都用到我們的圖像模型。
有了這個后,我們省去了后期配音的過程,我們直接上傳人物的視頻,參考人物形象、聲音,所以我們整體加速了漫劇生成的流程。
下面就是我們的一些模型功能,一個是多鏡頭智能調度,可以看到通過分鏡1、分鏡2提示詞這樣的描述。
這個就是我們通過這個描述做的一個多鏡頭的效果。這個是我們用智能分鏡的功能,就相當于我們的模型有一個參數可以控制是否開啟智能分鏡,開啟后即使對于小白用戶不會寫專業的分鏡提示詞,也能夠生成連貫的多鏡頭視頻。
![]()
像這種智能多鏡和多人對話的場景,在15秒的時長下,對于人物一致性和多人的口型、人臉一致性保持要求比較高,而我們在這個場景中受到各種用戶的認可。
這個主要是給大家看一下我們在一些ASMR音效。因為現在這種視頻模型的主流發展是音畫同步的,除了這種人物的聲音BGM、還有這種ASMR,比如說做這種電商帶貨視頻,還有做這種音效生成,我們的聲音特質非常逼真。
![]()
這個我們千問Image 2.0的預告,在過年前發布的模型,這個模型其實主要是幾個特點:
一個是更專業的文字渲染能力,大家有一種體感是,國外的生圖模型如Nano Banana在中文文字的渲染方面不足,但是國內的這些模型中,其實我們在更專業的中文文字渲染中,包括商用PPT、海報、復雜流程圖,現在都有了更強的能力。
第二是我們出圖分辨率是2K,之前差不多是720和1080P,現在直接就是用是商用高清2K分辨率。
第三是更強語義遵循能力,除了文生圖,圖生圖,圖像編輯,在一個模型就能做到。
![]()
我們優化的模型架構和推理加速,現在以更小的模型擁有更快的推理速度,出圖速度在10秒內。
像做這種3D漫畫生圖,還有2D分鏡生圖,效果基本上在國內生圖里是第一梯隊。像做真人劇的時候,這種生圖,人的肌膚紋理質感、表情的細膩程度、光影都達到了商用。
![]()
下面是新模型預熱,我們迭代后會在這幾個指標上加強。因為我們有更多的多模態數據和強化學習訓練,在畫質、聲音、動態表現,風格化生成和一致性控制這些維度都大幅提升。
另外,模型的功能層面也有更強的能力,更適配短漫劇的創作流程,包括首尾幀生視頻,還有九宮格分鏡生視頻、還有主體與音色參考,視頻編輯支持對全局或局部元素的編輯,視頻復刻是時序特征遷移,支持參考視頻中動作、特效、運鏡、風格的復刻。
![]()
對于整個漫劇創作來說,我們能力的提升意味著更高的可控性,還有更大的創作空間,能夠讓創作者做出更精彩的內容。
下一步看一下短漫劇的實踐。其實這部分對于大部分漫劇公司來說,是很成熟的工作流。當大家工作流都相同的情況下,如何能在工作流中生成更好的內容?
用文本模型Qwen3-Max在整個小說內容中提取出角色、場景,并生成分鏡故事板,在這個環節中,我們通過強大的文本處理能力,將小說分鏡的畫面描述、人物的對話,還有生圖的Prompt都結構化生成,通過生成角色圖、場景圖作為資產,再使用圖像編輯模型生成分鏡圖,使用好的圖像編輯模型能更好的把控整個分鏡環境質感。最后在用圖生視頻,可以用到Wan2.2或者是2.6首幀生視頻、R2V,最后一步去做剪輯、合成和添加解說。
整個工作流里,如果能每個環節用到SOTA模型,整個畫面內容會有更好的體驗。
![]()
下一個是我們「Wan2.6萬物可主演:典型創作流程」,現在不光可以參考視頻生成結果,還可以多圖參考。傳統生成一個角色設定圖、道具設定圖、場景設定圖,三張圖生成一個分鏡片段,或者三個參考視頻,參考視頻維度會更加立體,把聲音一起作為參考。
![]()
這是一個「典型創作流程」,比如角色設定圖有兩個人物、道具加場景,用R2A后就能夠生成一個視頻。看了這么多漫劇行業客戶用AI后,現階段AI核心是劇本創作和漫劇制作,尤其劇本創作,是通過大量網文IP以文本模型進行劇本改寫,包括劇本分鏡生成,到漫劇制作環節,這個環節中的分鏡生成部分是最為重要的,且需要由分鏡師去觀察整個分鏡生成情況,效果不符合要求需要重新生成。
![]()
隨著模型能力提升,分鏡抽卡成功率越來越高,其實在后期剪輯部分,可以用到視頻編輯模型,比如動作復刻、角色替換等。這樣的話,我們整個工作流每個環節都能夠去被AI賦能、提效,由原來只文本加視頻到現在有編輯模型后,整個鏈路都能夠讓AI賦能。
現在通過視頻模型,大概就是在各類平臺上,從最開始的2D、3D漫劇到現在的解說漫、真人短劇,我們現在又轉向AI仿真人劇。
![]()
下面是我們客戶在抖音平臺上一些AI仿真人短劇作品。
![]()
![]()
接下來給大家看下我們在AIGC創作領域米蘭冬奧會的效果,是我們找超創聯合米蘭冬奧會做的AIGP主題大會:
![]()
收錄一些優質的超創作品,像過年的動畫:
![]()
我們超創群體不僅是中國的創作者,Wan在美國硅谷也有很多超創群體喜歡我們的模型。可以看下國外創作者的作品:
![]()
這是我們在12月份Wan2.6首發時,聯合海外超創群體一起做的首發視頻,現在新模型也快發布了,后面如果會場上有各位嘉賓對我們新模型感興趣的話,可以聯系我們商務同學參與新模型測試邀請。
另外就是我們短漫劇扶持活動,如果有漫劇承制方想拉IP資源,可以從書旗幫助到大家。平臺資源主要是優酷漫劇、支付寶漫劇、淘寶漫劇,商務具體活動可以跟商務同學對接。
![]()
我今天的演講就是給大家做一下新模型的預熱,讓大家對更強的視頻模型和創作領域有進一步了解,如果對我們的Wan更感興趣,可以去體驗一下新模型。謝謝大家!
![]()
了解短劇,請關注新腕兒。
加入新腕兒社群請掃碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.