上周我趕赴北京新聞廣播,做了一期關于AI生成視頻的節目。
我們討論的核心問題是,當前人工智能生成視頻的技術已發展到何種程度?是否已能實現以假亂真?
為了直觀展現這一技術現狀,我和主持人設計了一個小互動環節。我拿出來手機,給她展示了三段視頻,請她分辨其中哪些是實拍內容,哪些是AI生成的。
![]()
圖注:你們猜猜哪個是AI數字人?
主持人認真觀察后,給出了答案,我告訴她完全錯誤。她當時十分震驚,坦言道:“咱們認識這么久,我居然沒看出來這是你的數字人。”
這個小互動很能說明問題:相比過去兩年,如今AI生成視頻的技術已有了質的飛躍。借助擴散模型的逐幀優化和NeRF技術的3D場景構建,生成內容的連貫性和真實感大幅提升。連專業媒體人都難以分辨,足以證明技術進步之快。
這也正是我們今天探討這個話題的必要性所在——當AI生成視頻的逼真度達到如此水平,其技術影響與應用邊界都值得深入關注。
那么,AI生成視頻到底將應用在哪些領域?未來我們將如何厘清AI生成視頻和現實創作的邊界?人機協作的范式應該是怎樣的?
針對這些話題,我們展開了較為深度的對談。以下是對談干貨整理,今天也分享出來,供大家參考。
1、主持人:近年來,AI視頻生成技術的發展令人矚目。請您先為我們講講,從技術層面來看,目前AI視頻生成取得了哪些重大突破?
丁道師:簡單來說,這兩年的突破,主要在于對真實世界的理解。
舉個簡單的例子,以Sora為例,有人咬了一口面包,面包上出現了咬掉的缺口,而之前的視頻生成工具不具備這樣的理解真實世界的能力。吃一口面包,面包缺了一塊角,這就是咱們真實世界的物理規則,現在居然被Sora理解并且呈現了出來。
再舉個例子,當你扔一個球時,它會沿著一個拋物線軌跡飛行,并最終落地。Sora可以模擬這個過程,考慮到重力、空氣阻力以及球的初始速度和角度。這是以往的同類型產品,所不具備的。
技術層面的變化,帶來了應用場景的突破。舉個例子,去年央視推出了國內首部文生視頻AI動畫片《千秋詩頌》,引發了巨大關注。在同等預算條件下,按照傳統動畫制作流程計算,制作《千秋詩頌》至少需要8個月時間。而在我國自主AIGC技術支撐以及總臺海量視音頻的語料庫助力下,依托大模型,該片的制作周期縮短至4個月。相較于傳統動畫制作,大大提升了制作效率。
還有現在熱門的一個賽道--短劇,也開始大規模用AI參與制作了。
2、主持人:在生成較長時長的視頻時,AI 常出現內容不連貫、邏輯混亂等問題,AI幻覺在視頻生成上可能更明顯,您認為當前阻礙 AI 視頻生成進一步發展的最大技術難點是什么?是模型的訓練效率、對復雜場景和動作的精準模擬,還是其他方面?
丁道師:確實,AI如同人類一樣,它也會出錯、出現工作懈怠,結果具有一定隨機性。這就要求我們學會管理AI,以應對未來的無限可能。
關于AI生產視頻的技術難題,如果在以前,我們會說訓練效率的低下限制了模型對復雜場景的學習能力,復雜場景的高維度需求又反過來加劇了生成效率與質量的矛盾,同時還存在 “時空一致性”“語義邏輯” 等更底層的技術鴻溝。
現在看來,問題只剩下了一個,那就是“時間”。隨著時間的推移,我們現在看到的諸多問題,都會解決。而且這個時間不用特別久,AI生產視頻的能力幾乎每個月都在以肉眼可見的速度提升。
3、主持人:從百度“蒸汽機”、字節跳動即夢、快手可靈AI,到智譜清影、生數科技Vidu、MiniMax海螺AI,互聯網巨頭與初創企業都相繼布局AI視頻生成模型。還有在電影工業中的應用。快手上個月發布財報顯示,可靈AI的收入在二季度超過2.5億元,相比一季度大幅增長。而且可靈比一眾大語言模型更早在國內跑通付費模式。您怎么看AI視頻生成的商業變現能力?
丁道師:AI 視頻生成商業變現的核心邏輯在于兩點:第一,它能否比傳統視頻制作大幅提升效率;第二,它能否實現比傳統視頻制作更高的品質。
從第一點來看,AI 視頻生成在效率上的優勢已毋庸置疑,提升幅度遠超傳統方式;但第二點 “品質更高”,目前仍需打個問號。不過當下的趨勢是,效率優勢在不斷強化,而品質不足的難點也在逐步解決。綜合這兩點來看,AI 視頻生成已具備大規模商業變現的可能性。
那么未來哪些領域會大規模應用 AI 生成視頻呢?
第一個領域是影視制作,涵蓋長視頻、短視頻及短劇制作。這不僅是大型公司的機會,比如央視之前制作的《千秋詩頌》,河南也正計劃用人工智能制作《愚公移山》相關長電影,目前預告片已經出來;許多小型公司、小團隊(此前提到過不少專注短劇制作的),也已在大規模使用付費 AI 軟件制作相關視頻。
第二個重要領域是游戲與動漫。游戲制作向來耗時漫長,而如今即便是大型 3A 游戲制作中的 CG 動畫、各類交互動畫,都可借助人工智能生成,至少能通過 AI 進行輔助制作。
這里我再補充一個案例:去年我在上海出差時,曾在一場活動中見到知名導演陸川,當時他就明確表達了對用人工智能制作電影的濃厚興趣。這一細節也從側面說明,專業影視制作領域已開始嘗試 AI 技術的應用。
一旦影視娛樂、電子游戲、動漫,以及我們日常的創意營銷、廣告制作等領域,都開始大規模使用 AI 生成視頻,那么這個領域的商業變現空間,將遠超當前呈現的規模。現在我們覺得快手某季度 AI 相關業務營收 2.5 億元已是了不起的成績,但三年后再看,這個數字后面加個 0 可能都不止。
4、主持人:隨著AI視頻生成技術的普及,辨別視頻真假成為了重要課題。在圖像和視頻分析中,有哪些特征或指標可以作為判斷視頻是否由AI生成的依據?在日常生活中,沒有專業工具的情況下,如何通過一些簡單的方法來初步判斷視頻的真實性呢?
丁道師:截止今天,人工智能生成的視頻其實還是比較容易識別的。其動作畫面整體仍存在一定的生硬感與粗糙感,甚至會出現一些基本的常識性錯誤。
舉個例子,前段時間某品牌生成的AI圖片中,花生被畫成生長在地面上,但實際花生是生長在地下的,這明顯違背了基本的科學常識。再比如在細節方面,其精細度不足:比如繪制的人物形象,可能存在畸形的情況,或者出現七個手指頭;又或者在畫面動態展示時,人物的頭發、衣物等會突然消失,諸如此類。
目前,這類AI生成視頻其實還是比較容易識別的。但正如我們之前所討論的,隨著時間的推移,未來AI技術必定能生成足以以假亂真、肉眼無法識別的內容。屆時,不僅肉眼無法分辨,甚至可能無法通過工具識別,這將是一個巨大的挑戰。因此,相關的監管措施必須及時跟上。
5、主持人:相應的監管如何跟上呢?
丁道師:從今年9月1日起,由國家網信辦、工信部、公安部、廣電總局聯合制定的《人工智能生成合成內容標識辦法》正式落地。
敲重點。
第一、以后AI生成的各種東西,像文字、圖片、視頻等,都得 “亮明身份”,會加上明顯或暗藏的標識,讓大家知道它是AI造的。
第二、不管是做AI內容的平臺,還是傳播這些內容的平臺,都有各自加標識、核驗標識的責任,一環扣一環規范 AI內容傳播。
第三、要是沒按這辦法來,網信、電信、公安、廣電這些部門會按各自職責,依據相關法規處理。
從制作到傳播,再到相關處罰,都明確規范了AI生成內容的規范,以后那些用AI生成的內容,都會標注類似“本文/本圖/本視頻涉及人工智能生成內容,請仔細辨別”這樣的提示,這一標注可能十分醒目,讓觀眾一眼就能識別,避免被誤導,明確所看內容并非通過傳統拍攝、寫作等方式產出。
6、主持人:您對AI視頻生成的未來發展有哪些展望?
丁道師:我期待的,是一種“人機協同”的模式。既不否定AI的價值,也不讓AI掌管一切。
應構建這樣的平衡機制。創作前期,人類主導創意構思,確定故事內核、人物設定與整體風格,AI提供創意啟發與素材參考;創作中期,AI快速生成初稿、分鏡等,人類把控質量,對情節邏輯、情感表達等進行優化;創作后期,人類審核內容,確保合規與文化價值,AI輔助完成剪輯、特效等基礎工作,以此實現人機優勢互補。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.