![]()
新智元報道
編輯:LRST
【新智元導讀】在AI視頻創(chuàng)作過程中,創(chuàng)作者常因頻繁切換多種工具而疲憊,導致創(chuàng)作熱情消磨。近期,多所高校聯(lián)合開源的UniVA框架,像一位「AI導演」,能整合多種視頻工具,提供從腳本到成片的一站式自動化體驗,改變傳統(tǒng)「抽卡」式創(chuàng)作,支持多輪交互和主動糾錯,還能實現(xiàn)風格遷移、前傳創(chuàng)作等功能,為視頻創(chuàng)作帶來高效與便捷。
在AI視頻賽道「卷生卷死」的 2025 年,我們似乎陷入了一個「工具繭房」:為了做一個完美的視頻,我們用ChatGPT生成指令,用Nano Banana生成圖,用SAM做分割,用Sora或Kling生成視頻,發(fā)現(xiàn)怎么一個特效也編輯不好,再導進AE做特效……
要完成一個視頻內容的創(chuàng)作,需要來回周轉、調用大量的工具。
完成這一切后,身心已然俱疲,當初因靈感迸發(fā)而生的激動與創(chuàng)作熱情,也在這套繁瑣流程中被消耗殆盡。
我們不缺強大的模型,我們缺的是一個能把這些工具「串」有機地起來的腦子。
近期新加坡管理大學、羅切斯特大學、倫敦大學學院、新加坡國立大學、香港中文大學、斯坦福大學聯(lián)合開源的UniVA (Universal Video Agent),嘗試解決這一系列的問題!
UniVA不是一個單一的視頻生成模型,而是一個全能型通用視頻智能體框架。
![]()
論文地址:https://arxiv.org/abs/2511.08521
代碼倉庫: https://github.com/univa-agent/univa
項目官網: http://univa.online/
它像一位不知疲倦的「AI 導演」,能夠聽懂你的復雜需求,自主規(guī)劃路徑,統(tǒng)籌調用市面上最強的視頻工具,為你提供從腳本到成片的一站式自動化體驗。
UniVA 不做「抽卡」工具,它要做的是下一代視頻生產的智能引擎。
拒絕「抽卡」
極致自動、主動交互的創(chuàng)作體驗
![]()
Highly Automated, Interactive, Proactive Video Creation
傳統(tǒng)的視頻AI是「單指令單任務」:你輸入一句Prompt,它給你一段視頻,如果不滿意?只能修改Prompt重新生成(抽卡)。
UniVA徹底改變了這種交互方式,基于Plan-Act(規(guī)劃-執(zhí)行)雙智能體架構,讓UniVA擁有了「思考」的能力。
全自動規(guī)劃 (Automated Planning) :UniVA的Planner Agent會自動將模糊需求拆解為結構化的分鏡腳本,并將任務分發(fā)給Executor Agent執(zhí)行。
主動式服務 (Proactive Assistance) :不僅僅是執(zhí)行命令,如果你的指令中有歧義,或者生成的中間結果不達標,UniVA 會進行自我反思 (Self-Reflection)。它會主動問你或自動修正錯誤,而不是把爛攤子丟給你。
多輪交互共創(chuàng) (Interactive Co-creation) :UniVA能記住多輪對話的上下文。你可以像和剪輯師聊天一樣修改視頻,讓創(chuàng)作變成一場流暢的協(xié)作。
Case 1:一句話生成商業(yè)大片
指令:生成一個面包店廣告,包含揉面特寫、撒花瓣慢動作、顧客笑容及 Brand Logo。
UniVA:Planner 智能拆解劇本 -> 批量生成分鏡(揉面、撒花、顧客) -> 智能剪輯 -> 植入 Logo
結果:邏輯清晰、包含多個分鏡的 20 秒完整商業(yè)廣告成片。
告別割裂
全能、統(tǒng)一的工業(yè)級生產引擎
![]()
Omnipotent, Unified, Industrial-Grade Video Production Engine
UniVA的野心不止于「生成」,而是要解決工業(yè)級視頻生產中的核心痛點:一致性與連貫性。
基于MCP (Model Context Protocol) 協(xié)議,UniVA構建了一個模塊化的工具全家桶,實現(xiàn)了真正的All-in-One:
打破能力孤島:UniVA將視頻理解 (Understanding)、生成 (Generation)、編輯 (Editing)、分割 (Segmentation) 四大能力融為一體。它能先「看懂」視頻里的主角是誰,再精準地把他「摳」出來,最后進行「重繪」。
工業(yè)級一致性:依靠獨創(chuàng)的分層記憶機制 (Hierarchical Memory)(包含全局知識、任務上下文、用戶偏好),UniVA 解決了長視頻創(chuàng)作中最大的難題——角色這一秒是長發(fā),下一秒變短發(fā)。它能精準錨定角色特征 (Entity Anchor),確保多鏡頭敘事中的人物、物體和風格高度統(tǒng)一。
任意條件生成:無論是文生視頻、圖生視頻,還是基于現(xiàn)有視頻改寫「前傳」或「續(xù)集」,UniVA 都能輕松駕馭。它甚至能讀取一段視頻的風格,然后將其無損遷移到另一段完全不同的視頻中。
Case 2:風格遷移,劇情無損
指令:保持這段視頻的劇情和動作不變,把它變成中國水墨畫風格。
UniVA:視頻理解模塊提取動作骨架 -> 調用風格化工具重繪 -> 像素級對齊。
結果:完美復刻原視頻動態(tài)的水墨大片,無閃爍、無變形。
參考輸入視頻
Univa生成的視頻
Case 3:無中生有,前傳創(chuàng)作
指令:基于這個視頻,創(chuàng)作一段它的「前傳」。
UniVA:提取角色形象與性格 -> 倒推故事邏輯 -> 生成全新劇情。
結果:人物設定完全一致的全新故事線,實現(xiàn)了真正的「長程記憶」創(chuàng)作。
參考輸入視頻
UniVA生成視頻
擁抱未來
完全開源,定義下一代視頻Agent生態(tài)
![]()
OpenSource & Extensible Ecosystem
下一代視頻AI的未來不應被封閉在某個大廠的API墻內,因此,UniVA選擇完全開源。
基于MCP的無限擴展UniVA的架構設計是即插即用的。
研究人員集成了Runway或Seedance,明天如果有更強的開源模型出現(xiàn)(比如Sora API),開發(fā)者只需編寫一個簡單的MCP驅動,UniVA就能立刻獲得新能力,它是一個會隨著社區(qū)共同進化的「活系統(tǒng)」。
![]()
為了推動行業(yè)發(fā)展,研究人員同步開源了UniVA-Bench評測基準,首個針對「視頻 Agent」的評測基準,不再只看生成質量,而是全面評估智能體的規(guī)劃能力、工具調用效率、多步推理準確性。
參考資料:
https://arxiv.org/abs/2511.08521
秒追ASI
?點贊、轉發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.