網易首頁 > 網易號 > 正文申請入駐

國產最強多模態寶座又易主？671B參數練就“火眼金睛”，基于DeepSeek打造

2025-11-28 18:37:19　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯李水青

智東西11月28日報道，剛剛，快手開源其新一代旗艦多模態大模型Keye-VL-671B-A37B。該模型基于DeepSeek-V3-Terminus打造，擁有6710億個參數，在保持基礎模型通用能力的前提下，對視覺感知、跨模態對齊與復雜推理鏈路進行了升級，實現了較強的多模態理解和復雜推理能力。

Keye-VL-671B-A37B有多強？我們先用幾個案例來感受下。下面的圖中有幾張電影票？多數人看完第一眼可能會脫口而出：“三張。”

不過，Keye-VL-671B-A37B的觀察更為仔細，結合票據上的文字，它能判斷出其實圖中僅有兩張電影票，最上面那一張是爆米花小吃券。查看思考過程后，可發現它不僅準確識別畫面中每張票據的文字、標識和版式差異，更能進一步推理：左邊和中間的票據符合電影票的核心特征，右側票據無座位信息、無影片場次標注，實為疊放的食品兌換券，并非電影票。

除了圖像理解能力以外，Keye-VL-671B-A37B同樣擁有強大的視頻理解和推理能力。當被問及下方視頻的鏡頭是怎樣變化時，它能識別出“藍色雙層電車”、“Louis Vuitton”、“Tiffany & Co”等核心元素，并輸出鏡頭變化的細節。

快手公布了Keye-VL-671B-A37B與其他VL模型的性能對比。在通用視覺理解和視頻理解兩大核心領域，Keye-VL-671B-A37B的整體表現超過了字節的Seed1.5-VL think、阿里的Qwen3-VL 235B-A22B等前沿VL模型。

在涵蓋STEM、推理、通用問答、視頻理解、OCR和純文本等能力的26項主流基準測試上，Keye-VL-671B-A37B斬獲18項最高得分。

目前，Keye-VL-671B-A37B已經正式開源，可在Hugging Face和GitHub下載體驗。

Github：

https://github.com/Kwai-Keye/Keye

HuggingFace：

https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

一、三階段完成預訓練，僅使用300B高質量數據

Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作為大語言模型基座初始化，具備更強的文本推理能力，視覺模型采Keye-ViT初始化，這一組件來自Keye-VL-1.5，二者通過MLP層進行橋接。Keye-VL-1.5是快手今年9月初開源的一款多模態大模型，擁有80億個參數，支持128k tokens擴展上下文。

Keye-VL-671B-A37B的預訓練涵蓋三個階段，以系統化構建模型的多模態理解與推理能力。模型復用Keye-VL-1.5的視覺編碼器，該編碼器已經通過8B大小的模型在1T token的多模態預訓練數據上對齊，具備較強的基礎感知能力。

快手篩選了大約300B高質量數據預訓練數據，這與其他大模型動輒以“T（萬億）”計算的訓練數據差異很大。快手稱，希望以有限計算資源高效構建模型的核心感知基礎，確保視覺理解能力扎實且計算成本可控。

Keye-VL-671B-A37B的預訓練分三步走：

第一階段：凍結ViT和LLM，只訓練隨機初始化的Projector，保證視覺、語言特征能初步做對齊。

第二階段：打開全部參數進行預訓練。

第三階段：在更高質量的數據上做退火訓練，提升模型的細粒度感知能力。

Keye的多模態預訓練數據是通過一套自動化的數據管線來構建的。快手對數據做了嚴格過濾、重采樣，并加入VQA數據增強，讓數據能覆蓋像OCR、圖表、表格這些常見且復雜的視覺格式，提升模型的感知質量和泛化能力。

在退火階段，快手加入了DeepSeek-V3-Terminus生成的思維鏈數據，讓模型在繼續強化視覺感知的同時，不會丟掉原本強大的推理能力。

二、采用多階段后訓練策略，驗證混合CoT數據效果更好

Keye-VL-671B-A37B的后訓練由監督微調（SFT）、冷啟動和強化學習三個步驟組成，訓練任務涵蓋視覺問答、圖表理解、富文本OCR、數學、代碼、邏輯推理等。

在SFT階段，Keye-VL-671B-A37B技術團隊使用了更多的多模態和純文本長思維鏈數據，對模型的純文本能力進行回火并增強多模態能力。在冷啟動階段，采用推理數據增強模型的推理能力，在強化學習階段，采用復雜推理數據提升模型的think和no_think（思考與非思考）能力，并加入視頻數據，增強模型的視頻理解能力。

Keye-VL-671B-A37B技術團隊對數據集中指令（Instruct）數據和長思維鏈（Long-CoT）數據的配比進行反復實驗，以突破此前監督微調范式片面依賴指令數據的局限性。

這一過程中，快手驗證了混合模式（Instruct + Long-CoT）相對于單一模式（Instruct）的優越性，即在SFT數據集中加入更多長思維鏈推理數據，有利于提升模型整體性能，以及改善后續訓練穩定性。

loss曲線顯示，在SFT階段加入更多的CoT數據可以顯著降低冷啟動階段的訓練loss。

在多個benchmark上的性能對比也表明，混合CoT數據訓練的模型相比于指令微調的模型取得了明顯的性能提升。

在冷啟動階段，CoT數據的質量對于提升模型的推理能力至關重要，而純文本模型的推理過程往往冗長而且存在大量重復，為了緩解過度思考的問題，Keye-VL-671B-A37B技術團隊開發了嚴格的數據篩選流程，過濾掉存在冗余反思行為的思維鏈。

在Keye-VL-1.5-8B上的實驗結果顯示，過濾冗余數據對于模型的推理能力和感知能力均有增益。

三、強化學習采用Qwen3同款算法，并打造專用Verifier模型

強化學習階段，快手沒有使用傳統的GRPO強化學習算法。GRPO是token-level（token層）的建模，在訓練MoE模型時存在不穩定性。

在Keye-VL-671B-A37B的訓練中，快手采用GSPO（Group Sequence Policy Optimization）作為底層強化學習算法，進行sequence-level（序列層）的建模，提升可驗證獎勵強化學習（RLVR）訓練的穩定性。值得注意的是，該算法是阿里Qwen3系列模型的核心算法之一。

對于強化學習而言，獎勵信號的質量至關重要。在Keye-VL-671B-A37B的強化學習系統中，快手首先訓練了專門的Verifier（驗證器），用于驗證模型輸出思考過程的邏輯性，以及最終答案與標準答案的一致性，Verifier模型采用Keye-VL-1.5 8B作為基座，訓練過程包括SFT和RL兩個階段。

在SFT階段，既有簡單的二分類任務，即直接判斷生成的答案是否與參考答案一致，也有更復雜的分析任務，需要Verifier模型采用think-answer的格式分析模型生成的回復的邏輯性和正確性。

在RL階段，技術團隊首先在大規模偏好數據上訓練，然后利用人工標注的高質量數據集進行退火，提高Verifier模型的精度。

為了考察Verifier模型對于生成結果的檢測精度，技術團隊抽取了10000條訓練數據以及模型生成的答案，對比Verifier模型和Qwen-2.5-VL 72B Instruct模型的檢測精度，在人工抽樣的150條Keye-Verifier與Qwen判別結果不一致的數據中，Keye正確的數目達到了128條，Qwen占22條。

基于Keye-VL-preview的預實驗顯示，Keye-Verifier提供的獎勵信號，相對于基于規則匹配的獎勵信號，使Keye-VL-preview在多個開源感知benchmark上的平均準確率提升了1.45%，在三個多模態數學數據集上的平均準確率提升了1.33%。

為了篩選高難度樣本，快手利用Keye-VL-1.5-8B作為過濾器，在候選數據集上采樣并用Verifier模型計算準確率，僅保留正確率在25%~75%之間的數據用于訓練。在RL數據集中，快手加入了更多視頻數據以提升模型的視頻理解能力。

結語：多模態模型，邁向會“辦事兒”的未來

快手稱，未來，Keye-VL系列模型將在提升基礎模型能力的同時，進一步融合多模態Agent能力，走向更“會用工具、能解復雜問題”的形態。模型的多輪工具調用能力會得到增強，讓它能夠在真實任務中自主調用外部工具，完成搜索、推理、整合。

同時，快手也會推進“think with image”、“think with video”等關鍵方向，使模型不僅能看懂圖像與視頻，還能圍繞它們進行深度思考與鏈式推理，在復雜的視覺信號中發掘關鍵信息。最終，快手希望打造出更通用、更可靠、更強推理的下一代多模態系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.