年初這一波多模態更新來得很密:1月31日快手把可靈(Kling)推到3.0,2月7日字節發布Seedance 2.0,2月10日字節的Seedream 5.0和阿里的Qwen-Image-2.0又把“文生圖/圖像編輯”底座補了一刀。
華創證券研究所的姚蕾12日在報告里的判斷很直接——視頻生成不再只是炫技,而是在往能進工作流的工具演化:“AI視頻生成正在從盲盒式娛樂向精準工業化生產跨越。”商業化遲遲起不來的癥結,歸到“抽卡”導致的邊際成本不可控:同樣的需求要反復生成、反復返工,廢片率吞掉時間和預算。
![]()
這次可靈3.0和Seedance 2.0的升級重點,不是單純拼畫質,而是把可控性抬到優先級更高的位置:跨鏡頭主體一致性、復雜指令的語義遵循、以及“生成后還能改”的編輯能力,合在一起去壓低廢片率。研報的結論是:技術跨越讓AI視頻具備進入規模化B端工作流的基礎,電商廣告、短劇/漫劇制作會更早感受到沖擊。
往下推,報告把影響拆成兩層:一層是產品路線分化——字節更像在做“效率基建”,快手更偏“專業敘事”;另一層是供給側革命重算成本結構——內容生產的邊際成本越來越像算力成本。對應到投資線索,研報把受益方向落到內容IP、內容版權、AI視頻工具/模型,以及云與平臺的推理側需求上。
真正被解決的,是“抽卡”帶來的不可控成本
報告反復強調一個邏輯鏈:過去AI視頻難以商用,不是“做不出來”,而是“做出來太不穩”。同樣的腳本、同樣的素材和提示詞,成片質量波動大,逼著創作者用更多輪生成去賭結果,邊際成本就失控了。
報告認為新一代模型的意義在于把“生成能力”往后放了一位,把“可控性”放到前臺:通過原生多模態架構、指令對齊,以及對主體一致性/語義遵循的強化,把廢片率壓下去,整體視頻生產成本才會跟著掉下來。商業化的門檻因此被重新劃線——從“能不能做”變成“能不能穩定交付”。
可靈3.0押注“大片感”:物理擬真與長邏輯敘事更優先
研報把可靈3.0的關鍵詞歸為兩件事:基礎能力的系統升級,以及生成與編輯的一體化(Omni)。
在視頻側,可靈3.0的升級點主要落在:多鏡頭/連續動作場景下的主體一致性更強;復雜文本指令解析更細;多人同框時的指代混亂被緩解,并強調了“文本與視覺角色精準映射”(包括多語種、方言口音演繹與口型神態自然)。
Omni模式是另一個被重點拿出來講的變化:在已生成內容基礎上做局部可控修改,減少“推倒重來”。報告還提到兩項更偏專業創作的能力:一是可創建視頻主體(提取角色特征與原聲音色,做精準口型匹配與驅動);二是原生自定義分鏡能力,并把單次生成時長提升至15秒,允許在鏡頭級別指定時長、景別、視角、敘事內容和運鏡方式。
![]()
圖片側,可靈圖片3.0也被當作“工作流補全”的一環:最多支持10張參考圖以鎖定主體輪廓、核心元素與色調基調;多參考圖可自由指定元素并做增刪改;支持批量組圖輸出,用于故事板/素材包制作;同時強化高清輸出與細節表現。
![]()
Seedance 2.0把視頻做成“可編排”的工業工具
報告對Seedance 2.0的定位更像“工業化標準”:基礎層面更強調物理規律合理、動作自然、指令理解精準、風格保持穩定;并突出三類能力——一致性優化(從人臉到服裝、字體細節、場景跳變等);高難度運鏡與動作的可控復刻;創意模板/復雜特效的精準復刻。
![]()
更關鍵的是交互范式。研報認為Seedance 2.0用“@素材名”指定圖片/視頻/音頻用途,實質是在把黑盒式生成拆解成可控的生產流程:模型可以分別提取@視頻的運鏡、@圖片的細節、@音頻的節奏,從而顯著降低“廢片率”。
報告給出的使用與限制也更貼近“生產約束”:支持圖片輸入≤9張;視頻輸入≤3個且總時長不超過15秒;音頻支持MP3上傳≤3個且總時長不超過15秒;混合輸入總上限12個文件;生成時長≤15秒(可選4-15秒);并提供自帶音效/配樂輸出。入口上,“首尾幀”和“全能參考”對應不同的素材組織方式。
字節走“效率基建”,快手走“專業敘事”,阿里更偏電商垂直
研報對競爭格局的判斷不太看“跑分排名”,更在意廠商戰略分野。
報告把字節的路線概括為低門檻、低成本的工具化、泛化能力,類似“剪映”的高級形態,目標是降低全網內容生產成本并反哺生態;快手可靈則押注物理模擬、復雜場景真實感與角色一致性,更適合影視Demo、電影劇情等對連貫性要求高的專業內容;阿里千問在圖像模型高保真更新的方向上更偏垂直場景(電商),強化商品數字化相關能力。
這三條路指向的不是同一種商業模式:一條追求規模化吞吐,一條追求高質量敘事交付,一條追求垂直行業的“可用即生產”。
內容供給側革命:邊際成本向算力成本收斂,IP反而更稀缺
商業化推演里,報告把“供給側革命”講得很激進:圖像與視頻基座能力雙重提升后,內容生產的邊際成本會越來越趨向算力成本。
短期它更看好兩類變化:營銷/電商服務商的素材產出效率提高,帶來毛利改善;漫劇、短劇行業可能出現產能爆發。中長期則把矛盾推向IP端——當內容更容易被生產,稀缺性的定價會更集中到IP上:頭部IP及衍生品價值更高,腰部IP也可能通過AI視頻化實現價值重估。與此同時,擁有強算力基礎設施(云)和閉環流量場景(平臺)的巨頭,會更直接吃到推理側頻繁調用帶來的紅利。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.