品玩12月1日訊,字節(jié)跳動(dòng)近日推出120億參數(shù)的多模態(tài)大語(yǔ)言模型Vidi2,專注于視頻理解與生成。該模型支持?jǐn)?shù)小時(shí)長(zhǎng)視頻處理,可自動(dòng)梳理敘事邏輯、生成短視頻或電影片段,并實(shí)現(xiàn)精準(zhǔn)時(shí)空定位——直接輸出特定物體或人物的時(shí)間戳與邊界框。
Vidi2具備三大技術(shù)優(yōu)勢(shì):高精度時(shí)空定位(STG)、文本-視覺(jué)-音頻聯(lián)合理解,以及在超長(zhǎng)視頻檢索與問(wèn)答任務(wù)中顯著領(lǐng)先商業(yè)模型(IoU指標(biāo)提升17.5%)。目前,其能力已集成至TikTok產(chǎn)品,如Smart Split智能剪輯與AI Outline劇本生成。
依托TikTok十億級(jí)用戶數(shù)據(jù)閉環(huán),Vidi2有望加速AI對(duì)專業(yè)視頻創(chuàng)作流程的重構(gòu),并推動(dòng)實(shí)時(shí)生成與復(fù)雜場(chǎng)景理解等方向發(fā)展。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.