開源項目地址:https://github.com/hpcaitech/Open-Sora
中文文檔:https://github.com/hpcaitech/Open-Sora/blob/main/docs/README_zh.md
不久前,OpenAI的Sora憑借其令人贊嘆的視頻生成效果迅速走紅,成為眾多文字到視頻模型中的佼佼者,引起了全球的關注。緊接著,Colossal-AI團隊推出了一項新的開源方案“Open-Sora 1.0”,該方案全面覆蓋了訓練過程,包括數據處理、所有訓練細節以及模型檢查點,旨在與全球AI愛好者攜手共進,開創視頻創作的新紀元。現在,就讓我們先來看一看“Open-Sora 1.0”模型生成的美景視頻。
海浪拍打在海灘和懸崖:
![]()
漫天繁星流轉:
![]()
午夜的繁華街頭:
![]()
在海中遨游的海龜:
![]()
Open-Sora技術只是冰山一角。Colossal-AI團隊已經全面開源了模型架構、訓練模型檢查點、所有訓練與數據準備過程的細節、視頻演示和教程,供所有對文字到視頻模型感興趣的人在GitHub上自由學習和使用。
Open-Sora的復現計劃
Open-Sora的復現計劃借鑒了Stable Video Diffusion(SVD)工作,分為三個階段:
1. 大規模圖像預訓練:第一階段通過大規模圖像預訓練,利用成熟的文字到圖像模型幫助降低視頻預訓練的成本。借助互聯網上豐富的大規模圖像數據和先進的文字到圖像技術,能夠訓練出高質量的文字到圖像模型,作為視頻預訓練下一階段的初始化權重。同時,由于缺乏高質量的時空VAE,Open-Sora使用Stable Diffusion模型預訓練空間VAE。這種策略不僅確保了初始模型的優越性能,也顯著降低了視頻預訓練的總體成本。
2. 大規模視頻預訓練:第二階段通過大規模視頻預訓練,增強模型的泛化能力,有效掌握視頻的時間序列關聯。這一階段需要使用大量的視頻數據訓練,以確保視頻主題的多樣性,從而提高模型的泛化能力。
3. 高質量視頻數據微調訓練:第三階段通過對高質量視頻數據的微調,顯著提高了生成視頻的質量。第三階段使用的視頻數據量比第二階段少一個數量級,但視頻的持續時間、分辨率和質量都更高。通過這種方式的微調,實現了視頻生成從短到長、從低分辨率到高分辨率、從低保真度到高保真度的高效擴展。每個階段的訓練都是在前一階段的權重基礎上繼續進行。與從零開始的單階段訓練相比,多階段訓練通過逐步擴大數據規模,更高效地實現了高質量視頻生成的目標。
在復現過程中,Colossal-AI團隊使用了64個H800 GPU進行訓練。第二階段的訓練量共計2808 GPU小時,約等于7000美元;第三階段的訓練量為1920 GPU小時,約等于4500美元,最后成功地將Open-Sora復現過程的成本控制在約10000美元。
數據預處理
為了進一步降低Sora復現的門檻和復雜性,Colossal-AI團隊還提供了便捷的視頻數據預處理腳本,包括公開視頻數據集的下載、基于鏡頭連續性的長視頻分割成短視頻片段,以及使用開源大型語言模型LLaVA生成細粒度提示詞,使您可以輕松開始Sora復現預訓練。![]()
Open-Sora提供的批量視頻字幕生成代碼可以在3秒內使用兩個GPU為一個視頻生成字幕,質量接近GPT-4V。最終的視頻-文字對可以直接用于訓練。借助開源的代碼,用戶可以輕松快速地在自己的數據集上生成訓練所需的視頻-文字對,大大降低了啟動Sora復現項目的技術門檻和準備工作。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.