![]()
新智元報(bào)道
編輯:Aeneas
【新智元導(dǎo)讀】視頻生成領(lǐng)域的「DeepSeek時(shí)刻」來(lái)了!清華開(kāi)源TurboDiffusion,將AI視頻生成從「分鐘級(jí)」硬生生拉進(jìn)「秒級(jí)」實(shí)時(shí)時(shí)代,單卡200倍加速讓普通顯卡也能跑出大片!
就在剛剛,AI圈的DeepSeek Moment又來(lái)了!
清華大學(xué)TSAIL實(shí)驗(yàn)室攜手生數(shù)科技,重磅發(fā)布并開(kāi)源了視頻生成加速框架TurboDiffusion。
這個(gè)框架一出,立刻在全球AI社區(qū)引發(fā)熱議。OpenAI、Meta、vLLM等多個(gè)機(jī)構(gòu)和開(kāi)源社區(qū)的研究者、工程師紛紛點(diǎn)贊、轉(zhuǎn)發(fā)。
為何TurboDiffusion會(huì)引起這么大的反響?
用一句話總結(jié):在幾乎不影響生成質(zhì)量的前提下,它讓視頻生成的速度直接飆升了100–200倍!
這一刻起,AI視頻正式從「分鐘級(jí)」生成,進(jìn)入「實(shí)時(shí)生成」時(shí)代!
![]()
![]()
![]()
左右滑動(dòng)查看
TurboDiffusion是什么?為啥這么強(qiáng)?
隨著AI大模型的發(fā)展,視頻生成正成為繼圖像、文本之后最重要的AI內(nèi)容創(chuàng)作方向之一。
然而,現(xiàn)實(shí)中我們卻時(shí)常會(huì)發(fā)現(xiàn),盡管模型性能很強(qiáng),但生成卻很慢!
即使是頂配GPU,如H100,在不加速的情況下生成一個(gè)短視頻,仍需數(shù)分鐘,這嚴(yán)重影響了落地應(yīng)用的體驗(yàn)。更何況大多數(shù)創(chuàng)作者只有RTX 5090或4090這種消費(fèi)級(jí)顯卡。
因此,能否在不犧牲質(zhì)量的前提下,大幅加速生成過(guò)程,成為AI視頻能否走入日常創(chuàng)作流程的關(guān)鍵。
這時(shí)TurboDiffusion的誕生,就非常生逢其時(shí)了。
![]()
Github:https://github.com/thu-ml/TurboDiffusion
技術(shù)報(bào)告:https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf
近日,清華大學(xué)聯(lián)合生數(shù)科技,開(kāi)源了視頻生成加速框架TurboDiffusion。
它是一個(gè)專(zhuān)為Diffusion模型加速而生的工具,尤其擅長(zhǎng)處理視頻生成場(chǎng)景。
它的出現(xiàn),就像一臺(tái)渦輪引擎,在一張RTX 5090顯卡上,就能實(shí)現(xiàn)100-200倍的速度提升。
無(wú)論是從圖生成視頻(I2V),還是從文本生成視頻(T2V),它都能高效應(yīng)對(duì)。
甚至在高分辨率、長(zhǎng)時(shí)長(zhǎng)視頻生成中,也依然能保持驚人的加速表現(xiàn)。
![]()
實(shí)測(cè):多大模型,都能跑得飛快
TurboDiffusion的驚艷表現(xiàn),不只是理論數(shù)據(jù)。在多個(gè)視頻生成模型上的實(shí)測(cè)加速效果,都讓人驚掉下巴。
下圖顯示了TurboDiffusion的強(qiáng)大生成效果。
以1.3B大小的模型生成5秒的視頻生成為例,使用標(biāo)準(zhǔn)的官方實(shí)現(xiàn)生成這段5秒的視頻需要184秒的時(shí)間。
TurboDiffusion生成的視頻內(nèi)容在視覺(jué)上無(wú)明顯差異,但卻只需1.9秒。
這就意味著在同等條件下,TurboDiffusion框架僅用1.9秒就完成了生成,速度提升約97倍。
![]()
![]()
這段貓咪自拍的圖生視頻,使用的是14B大小的圖生視頻模型,生成5秒的720P分辨率的視頻,雖然畫(huà)面質(zhì)量較好,但使用官方標(biāo)準(zhǔn)實(shí)現(xiàn)的話耗時(shí)極其嚴(yán)重(4549s,超過(guò)1小時(shí)),難以滿(mǎn)足任何實(shí)時(shí)或互動(dòng)類(lèi)場(chǎng)景。
而TurboDiffusion的加速結(jié)果,在視頻中做到了水下自拍、戴墨鏡貓咪沖浪等元素都完整保留,而生成時(shí)間僅為38秒。也就是14B大小的圖生視頻模型生成5秒的720P視頻,TurboDiffusion可以在單張RTX 5090幾乎無(wú)損端到端加速119倍。
加速后視頻畫(huà)質(zhì)變化極小,然而速度提升卻高達(dá)約120倍(4549s → 38s)!
這表明,即使在超大模型+高分辨率+圖生視頻場(chǎng)景中,TurboDiffusion依然可以帶來(lái)數(shù)量級(jí)的推理加速效果。
![]()
![]()
對(duì)于14B大小的文生視頻模型生成5秒的720P分辨率視頻,TurboDiffusion可以在單張RTX 5090上幾乎無(wú)損端到端加速200倍。
![]()
更驚人的是,在Vidu模型上使用TurboDiffusion中包含的技術(shù),也可以在不損失視頻生成質(zhì)量的前提下獲得極高的推理加速效果。
比如,在Vidu模型上生成8秒、1080P的高清視頻,原本需要900秒,使用TurboDiffusion后,只需8秒,真正實(shí)現(xiàn)「所見(jiàn)即所得」!
視頻 1(未加速)
用時(shí):450秒
視頻 2(加速后)
用時(shí):4秒
視頻 3(未加速)
用時(shí):900秒
視頻 4(加速后)
用時(shí):8秒
揭秘四大核心黑科技
TurboDiffusion之所以能跑得這么快,靠的是以下四大黑科技加持:
1.SageAttention:低比特量化注意力加速
傳統(tǒng)Transformer注意力層在高分辨率視頻場(chǎng)景中,計(jì)算開(kāi)銷(xiāo)巨大。TurboDiffusion采用清華自主研發(fā)的SageAttention技術(shù),進(jìn)行了低比特量化注意力加速,充分壓榨了顯卡性能,極致提速。
GitHub鏈接:https://github.com/thu-ml/SageAttention
2.Sparse-LinearAttention(SLA):稀疏注意力加速
在稀疏計(jì)算方面,TurboDiffusion引入了SLA(Sparse-Linear Attention)。
由于稀疏計(jì)算與低比特Tensor Core加速是正交的,SLA可以構(gòu)建在SageAttention之上,顯著減少了全連接矩陣乘法的冗余計(jì)算,在推理過(guò)程中進(jìn)一步獲得數(shù)倍的額外加速。
GitHub鏈接:https://github.com/thu-ml/SLA
3.rCM步數(shù)蒸餾加速:更少步生成
來(lái)自NVIDIA開(kāi)源實(shí)驗(yàn)室的rCM,是一種先進(jìn)的步數(shù)蒸餾方法。它通過(guò)訓(xùn)練,讓少量的采樣步驟也能恢復(fù)與原模型一致的質(zhì)量。
這種方法能進(jìn)行步數(shù)蒸餾加速,減少推理過(guò)程中的「擴(kuò)散步數(shù)」,降低延遲而不損失畫(huà)質(zhì)。
比如,原始Diffusion需要50–100步,rCM可壓縮到4-8步。
GitHub鏈接:https://github.com/NVlabs/rcm
4.W8A8 INT8量化:線性層加速
TurboDiffusion在線性層采用了W8A8的INT8量化策略,這樣,就將模型權(quán)重和激活映射到8位整數(shù)空間,并在128×128的塊粒度上進(jìn)行分塊量化,兼顧了速度與精度,而且還顯著降低了推理功耗與內(nèi)存占用。
這4項(xiàng)核心技術(shù)均由清華大學(xué)TSAIL團(tuán)隊(duì)聯(lián)合生數(shù)科技自主研發(fā),對(duì)AI多模態(tài)大模型的技術(shù)突破與產(chǎn)業(yè)落地具有里程碑式的價(jià)值與深遠(yuǎn)影響力。其中,SageAttention更是全球首個(gè)實(shí)現(xiàn)注意力計(jì)算量化加速的技術(shù)方案,已被工業(yè)界大規(guī)模部署應(yīng)用。
例如,SageAttention已成功集成至NVIDIA推理引擎Tensor RT,同時(shí)完成在華為昇騰、摩爾線程S6000等主流GPU平臺(tái)的部署與落地。此外,騰訊混元、字節(jié)豆包、阿里Tora、生數(shù)Vidu、智譜清影、百度飛槳、昆侖萬(wàn)維、Google Veo3、商湯、vLLM等國(guó)內(nèi)外頭部科技企業(yè)及團(tuán)隊(duì),均已在核心產(chǎn)品中應(yīng)用該技術(shù),憑借其卓越性能創(chuàng)造了可觀的經(jīng)濟(jì)效益。
如何上手?
TurboDiffusion使用起來(lái)非常方便,高效推理代碼圖生視頻、文生視頻的模型參數(shù)(Checkpoints)都已開(kāi)源。
![]()
因?yàn)槭褂煤?jiǎn)便,哪怕你不是煉丹大佬,也能一鍵生成視頻:
1. 安裝TurboDiffusion倉(cāng)庫(kù)中的Python包
地址:https://github.com/thu-ml/TurboDiffusion
2. 下載對(duì)應(yīng)模型的Checkpoints(支持圖生視頻/文生視頻),如TurboWan2.1-T2V-14B-720P。
3. 調(diào)用倉(cāng)庫(kù)中提供的推理腳本,直接生成視頻
--save_path ./outputs/demo.mp4總之,代碼與模型全部開(kāi)源,開(kāi)箱即用!
DeepSeek Moment,真來(lái)了
如今,AI視頻生成正站在大爆發(fā)的門(mén)檻上,誰(shuí)能掌握速度,就能引領(lǐng)未來(lái)。
TurboDiffusion的推出,不僅是一項(xiàng)工程突破,更是一道劃時(shí)代的分水嶺。
從分鐘級(jí)等待到秒級(jí)實(shí)時(shí)生成,從高門(mén)檻專(zhuān)業(yè)領(lǐng)域到人人可用的內(nèi)容創(chuàng)作工具,AI視頻正駛?cè)肟燔?chē)道,而TurboDiffusion,正是那臺(tái)加速引擎。
別再等待未來(lái),未來(lái)已來(lái)。立即體驗(yàn)TurboDiffusion,讓你的視頻生成「飛」起來(lái)吧!
項(xiàng)目地址:https://github.com/thu-ml/TurboDiffusion
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.