哈嘍,大家好,我是小方,今天,我們主要來看看,如今網絡上那些足以亂真的AI視頻,到底是怎么“變”出來的,以及這項技術的最新動態究竟到了哪一步。
![]()
![]()
如果你在2024年看過早期AI生成的視頻,多半會覺得動作別扭、畫面閃爍,而且全是“啞劇,但到了2025年,局面徹底變了,OpenAI的Sora、谷歌的Veo 3這些模型生成的十幾秒片段,在清晰度和連貫性上已經讓人難辨真假。
![]()
更關鍵的突破在于聲音,此前,AI生成視頻和生成音頻是兩個分離的步驟,合成后常常口型對不上,而谷歌Veo 3的核心創新,在于它能像理解畫面一樣理解聲音,將音頻和視頻數據壓縮成一個整體來處理,實現真正的“聲畫同生”,用DeepMind CEO哈薩比斯的話說,這標志著“我們正在走出視頻生成的無聲時代”。
![]()
這一切的背后,都繞不開一個核心——擴散模型。你可以把它想象成一個擁有超凡學習能力的“去噪大師”。
![]()
![]()
![]()
![]()
研究人員把視頻在時間和空間上切成一個個小方塊,就像把一部電影拆成一串“視覺詞匯”,Transformer則負責理解這些“詞匯”之間的前后關系,確保生成的視頻在時間流上是邏輯自洽的,正是擴散模型和Transformer的結合,才造就了Sora等模型能生成時間、空間都穩定的視頻。
![]()
![]()
![]()
AI視頻生成的技術躍遷,本質上是將創造力工具前所未有地民主化,它正在重塑從好萊塢大片到個人短片的整個內容創作圖譜。
![]()
盡管伴隨噪音與能耗的挑戰,但這項技術本身如同當年的攝像機或電腦特效,核心仍取決于使用它的人。未來,屬于那些能用AI表達獨特創意、傳遞真實情感的故事講述者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.