![]()
智東西
作者 陳駿達
編輯 李水青
智東西11月28日報道,剛剛,快手開源其新一代旗艦多模態大模型Keye-VL-671B-A37B。該模型基于DeepSeek-V3-Terminus打造,擁有6710億個參數,在保持基礎模型通用能力的前提下,對視覺感知、跨模態對齊與復雜推理鏈路進行了升級,實現了較強的多模態理解和復雜推理能力。
Keye-VL-671B-A37B有多強?我們先用幾個案例來感受下。下面的圖中有幾張電影票?多數人看完第一眼可能會脫口而出:“三張。”
![]()
不過,Keye-VL-671B-A37B的觀察更為仔細,結合票據上的文字,它能判斷出其實圖中僅有兩張電影票,最上面那一張是爆米花小吃券。查看思考過程后,可發現它不僅準確識別畫面中每張票據的文字、標識和版式差異,更能進一步推理:左邊和中間的票據符合電影票的核心特征,右側票據無座位信息、無影片場次標注,實為疊放的食品兌換券,并非電影票。
除了圖像理解能力以外,Keye-VL-671B-A37B同樣擁有強大的視頻理解和推理能力。當被問及下方視頻的鏡頭是怎樣變化時,它能識別出“藍色雙層電車”、“Louis Vuitton”、“Tiffany & Co”等核心元素,并輸出鏡頭變化的細節。
![]()
快手公布了Keye-VL-671B-A37B與其他VL模型的性能對比。在通用視覺理解和視頻理解兩大核心領域,Keye-VL-671B-A37B的整體表現超過了字節的Seed1.5-VL think、阿里的Qwen3-VL 235B-A22B等前沿VL模型。
![]()
在涵蓋STEM、推理、通用問答、視頻理解、OCR和純文本等能力的26項主流基準測試上,Keye-VL-671B-A37B斬獲18項最高得分。
![]()
目前,Keye-VL-671B-A37B已經正式開源,可在Hugging Face和GitHub下載體驗。
Github:
https://github.com/Kwai-Keye/Keye
HuggingFace:
https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
一、三階段完成預訓練,僅使用300B高質量數據
Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作為大語言模型基座初始化,具備更強的文本推理能力,視覺模型采Keye-ViT初始化,這一組件來自Keye-VL-1.5,二者通過MLP層進行橋接。Keye-VL-1.5是快手今年9月初開源的一款多模態大模型,擁有80億個參數,支持128k tokens擴展上下文。
Keye-VL-671B-A37B的預訓練涵蓋三個階段,以系統化構建模型的多模態理解與推理能力。模型復用Keye-VL-1.5的視覺編碼器,該編碼器已經通過8B大小的模型在1T token的多模態預訓練數據上對齊,具備較強的基礎感知能力。
快手篩選了大約300B高質量數據預訓練數據,這與其他大模型動輒以“T(萬億)”計算的訓練數據差異很大。快手稱,希望以有限計算資源高效構建模型的核心感知基礎,確保視覺理解能力扎實且計算成本可控。
Keye-VL-671B-A37B的預訓練分三步走:
第一階段:凍結ViT和LLM,只訓練隨機初始化的Projector,保證視覺、語言特征能初步做對齊。
第二階段:打開全部參數進行預訓練。
第三階段:在更高質量的數據上做退火訓練,提升模型的細粒度感知能力。
Keye的多模態預訓練數據是通過一套自動化的數據管線來構建的。快手對數據做了嚴格過濾、重采樣,并加入VQA數據增強,讓數據能覆蓋像OCR、圖表、表格這些常見且復雜的視覺格式,提升模型的感知質量和泛化能力。
在退火階段,快手加入了DeepSeek-V3-Terminus生成的思維鏈數據,讓模型在繼續強化視覺感知的同時,不會丟掉原本強大的推理能力。
二、采用多階段后訓練策略,驗證混合CoT數據效果更好
Keye-VL-671B-A37B的后訓練由監督微調(SFT)、冷啟動和強化學習三個步驟組成,訓練任務涵蓋視覺問答、圖表理解、富文本OCR、數學、代碼、邏輯推理等。
在SFT階段,Keye-VL-671B-A37B技術團隊使用了更多的多模態和純文本長思維鏈數據,對模型的純文本能力進行回火并增強多模態能力。在冷啟動階段,采用推理數據增強模型的推理能力,在強化學習階段,采用復雜推理數據提升模型的think和no_think(思考與非思考)能力,并加入視頻數據,增強模型的視頻理解能力。
Keye-VL-671B-A37B技術團隊對數據集中指令(Instruct)數據和長思維鏈(Long-CoT)數據的配比進行反復實驗,以突破此前監督微調范式片面依賴指令數據的局限性。
這一過程中,快手驗證了混合模式(Instruct + Long-CoT)相對于單一模式(Instruct)的優越性,即在SFT數據集中加入更多長思維鏈推理數據,有利于提升模型整體性能,以及改善后續訓練穩定性。
loss曲線顯示,在SFT階段加入更多的CoT數據可以顯著降低冷啟動階段的訓練loss。
![]()
在多個benchmark上的性能對比也表明,混合CoT數據訓練的模型相比于指令微調的模型取得了明顯的性能提升。
![]()
在冷啟動階段,CoT數據的質量對于提升模型的推理能力至關重要,而純文本模型的推理過程往往冗長而且存在大量重復,為了緩解過度思考的問題,Keye-VL-671B-A37B技術團隊開發了嚴格的數據篩選流程,過濾掉存在冗余反思行為的思維鏈。
![]()
在Keye-VL-1.5-8B上的實驗結果顯示,過濾冗余數據對于模型的推理能力和感知能力均有增益。
![]()
三、強化學習采用Qwen3同款算法,并打造專用Verifier模型
強化學習階段,快手沒有使用傳統的GRPO強化學習算法。GRPO是token-level(token層)的建模,在訓練MoE模型時存在不穩定性。
在Keye-VL-671B-A37B的訓練中,快手采用GSPO(Group Sequence Policy Optimization)作為底層強化學習算法,進行sequence-level(序列層)的建模,提升可驗證獎勵強化學習(RLVR)訓練的穩定性。值得注意的是,該算法是阿里Qwen3系列模型的核心算法之一。
對于強化學習而言,獎勵信號的質量至關重要。在Keye-VL-671B-A37B的強化學習系統中,快手首先訓練了專門的Verifier(驗證器),用于驗證模型輸出思考過程的邏輯性,以及最終答案與標準答案的一致性,Verifier模型采用Keye-VL-1.5 8B作為基座,訓練過程包括SFT和RL兩個階段。
在SFT階段,既有簡單的二分類任務,即直接判斷生成的答案是否與參考答案一致,也有更復雜的分析任務,需要Verifier模型采用think-answer的格式分析模型生成的回復的邏輯性和正確性。
在RL階段,技術團隊首先在大規模偏好數據上訓練,然后利用人工標注的高質量數據集進行退火,提高Verifier模型的精度。
為了考察Verifier模型對于生成結果的檢測精度,技術團隊抽取了10000條訓練數據以及模型生成的答案,對比Verifier模型和Qwen-2.5-VL 72B Instruct模型的檢測精度,在人工抽樣的150條Keye-Verifier與Qwen判別結果不一致的數據中,Keye正確的數目達到了128條,Qwen占22條。
基于Keye-VL-preview的預實驗顯示,Keye-Verifier提供的獎勵信號,相對于基于規則匹配的獎勵信號,使Keye-VL-preview在多個開源感知benchmark上的平均準確率提升了1.45%,在三個多模態數學數據集上的平均準確率提升了1.33%。
為了篩選高難度樣本,快手利用Keye-VL-1.5-8B作為過濾器,在候選數據集上采樣并用Verifier模型計算準確率,僅保留正確率在25%~75%之間的數據用于訓練。在RL數據集中,快手加入了更多視頻數據以提升模型的視頻理解能力。
結語:多模態模型,邁向會“辦事兒”的未來
快手稱,未來,Keye-VL系列模型將在提升基礎模型能力的同時,進一步融合多模態Agent能力,走向更“會用工具、能解復雜問題”的形態。模型的多輪工具調用能力會得到增強,讓它能夠在真實任務中自主調用外部工具,完成搜索、推理、整合。
同時,快手也會推進“think with image”、“think with video”等關鍵方向,使模型不僅能看懂圖像與視頻,還能圍繞它們進行深度思考與鏈式推理,在復雜的視覺信號中發掘關鍵信息。最終,快手希望打造出更通用、更可靠、更強推理的下一代多模態系統。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.