快手在視頻上的布局越來越全面了啊,這幾天開源了 Kwai Keye-VL-1.5-8B 模型。
除了支持圖像識別以外,視頻理解能力也很強,加上 8B 的大小非常適合本地部署用來做視頻標注和內容識別。
我試了一下,給了一個是描述視頻畫面內容以及查找分鏡時間和每個分鏡的內容描述都做的不錯。
模型主要優勢有:
短視頻理解:在Video-MME的短視頻子集測試中,Keye-VL-1.5-8B獲得81.2的高分,超過了GPT-4o及同類模型。
視頻定位能力:能夠在一個26秒的短視頻中,將目標物(如包)出現的時間段精確定位到0.1秒級別
視覺推理能力:能夠理解視頻中相對復雜的行為動機比如論文案例里面可以從兩只狗的行為推測動機。
模型核心創新主要有下面幾個方面:
針對視頻內容動態且信息密集的特點,Keye-VL-1.5 提出了一種新穎的“Slow-Fast”視頻編碼策略,以有效平衡空間分辨率和時間覆蓋率。
慢速通路以高分辨率處理視覺變化顯著的關鍵幀,而快速通路則以較低分辨率但更高的時間覆蓋率處理相對靜態的幀。
另外模型采用了精心設計的四階段漸進式預訓練流程,系統性地將模型的上下文長度從8K擴展到128K,可以理解更加復雜的視覺信息。
在后訓練階段為解決冷啟動問題,模型設計了一個五步自動化流水線來生成高質量的長鏈思考數據,包括數據收集、問題重寫、多路徑推理生成、雙層質量評估和人工指導改進。
引入了“漸進式提示采樣”機制來處理困難樣本,即當模型多次回答錯誤時,在提示中給予不同層級的提示,以提高訓練效率和模型推理能力
項目地址:github.com/Kwai-Keye/Keye
這里嘗試:huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B
論文:arxiv.org/pdf/2509.01563
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.