網易首頁 > 網易號 > 正文申請入駐

多模態思維鏈如何重塑 AI 與短視頻的未來

2025-11-27 10:36:29　來源: InfoQ

北京舉報

分享至

作者｜文彬，快手高級算法專家

策劃｜AICon 全球人工智能開發與應用大會

審核 | 羅燕珊

傳統多模態模型在動態視頻理解與復雜推理場景面臨嚴峻挑戰。快手開源的 Keye-VL 模型在多模態思維鏈技術實現突破，具備獨特的 auto-think（自動思考決策）、agentic-think（代理工具思考）等先進能力，在視頻理解領域，尤其是短視頻理解方面，展現出業界領先的性能。

在 AICon 全球人工智能開發與應用大會·深圳站，快手高級算法專家文彬分享了《Keye-VL 在多模態思維鏈領域的探索》，從多模態思維鏈技術出發，解析 Keye-VL 多模態大模型的核心技術，并分享 Keye-VL 在快手短視頻社區的落地應用。

12 月 19～20 日的 AICon 北京站將錨定行業前沿，聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新，邀您共同深入探討：如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統，讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

詳細日程見：

https://aicon.infoq.cn/202512/beijing/schedule

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）。

今天我的分享將圍繞四個方面展開：多模態思維鏈的技術革新、Keye-VL 多模態思維鏈的探索、多模態思維鏈在快手社區的落地應用，以及未來的技術方向。

1 多模態思維鏈的技術革新與價值

思維鏈技術最初被定義為一種 Prompt 策略，用于引導大語言模型逐步分析問題，再給出最終答案。后續技術人員發現這一個技術方案非常的有效，才慢慢遷移到了大模型語言的迭代中。

圖 1

在多模態場景下，思維鏈技術的發展經歷了多個階段。最早期思維鏈仍以文本推理為主。大家可以看到（圖 1）左邊上面的這個流程圖，輸入的部分其實是 Multi medium 的形式，包含了文本、圖片、視頻、語音等等。但是大模型在分析的過程中只會輸出一段文本的 Token 序列，然后再得到最終的答案。傳統的問答系統在解決復雜數學題時，都是用純文本的信息實現逐步推導并求解答案。

隨著技術的發展，尤其是在今年 3 月份 OpenAI 發布 O3 模型之后，多模態思維鏈進入了圖文交錯推理的階段。模型的輸入依然是多模態信息，但在思考的過程中是可以實現圖文交錯。例如，在（圖 1）左下角的鏈路中，在醫療影像分析的場景下，當輸入 CT 影像和患者病史時，多模態大模型不僅可以生成分析報告，還能夠精準標注病灶位置，將圖像與文本信息巧妙結合進行推理。

最終我們覺得可以達到多模態綜合推理的成熟階段，在那個階段可能我們輸入是多模態，輸出也是文本圖像等多樣的形式，可以把理解、生成這樣的任務很好地統一起來。

為了幫助大家更直觀地理解思維鏈技術，我準備了兩個示例。

圖 2

第一個是純文本場景。（圖 2）右上角的例子是數學推理問題：給定 A、B、C、D、E 五個碗，需要求出其中哪一個碗的數字之和最大。純文本思維鏈會逐步分析每個碗的數字之和，再通過比較得出最終答案 A。這個其實就很符合我們人類思考的鏈路。

第二個示例是多模態的一個思維鏈。提的問題是“鳥巢中有幾顆蛋？”多模態大模型首先會給出一個目標的定位坐標，然后我們會把坐標對應的區域裁剪并放大，再給到多模態大模型，它會去進行一個二次的校驗，當它發現每個區域都是蛋且屬于不同實例時就會得到最終的答案。

由此可以發現，引入思維鏈技術后，多模態大模型與人類的對齊程度顯著提升，推理過程更加具備可解釋性，同時也更為具體。

在介紹了多模態思維鏈的定義與示例之后，接下來要介紹我們為什么要探索思維鏈？

首先，自去年以來，OpenAI 發布 O1 模型以及 DeepSeek 發布 R1 模型后，我們發現思維鏈技術真的能夠顯著提升模型的智能上限。像在數學和代碼等場景中，這類模型能夠達到甚至部分超越普通人類的水平。

第二個方面，在復雜圖表分析和視頻深度理解等多模態場景中，現有多模態大模型的精度仍然不足，尚未達到商用水平。基于上述兩點考慮，若要在未來持續提升多模態大模型的性能并推動落地，就必須重點發展多模態思維鏈技術。

關于多模態思維鏈的定義，是指模型在處理圖片、聲音、文本等混合信息的問題時，能夠像人類一樣“邊看邊聽，邊想邊說”，可以重新審視，甚至是反復去定位信息源的重要部分，然后再進行一步步思考得出結論的過程。

圖 3

上圖（圖 3）展示了兩個傳統多模態大模型表現不佳的案例。左側這個例子是問 Gemini：2014 年計算與無線兩個領域對半導體的需求分別是多少。 Gemini 只能給出大概的估計，無法提供準確數值。但如果我們引入多模態思維鏈后，它就可以先定位到計算和無線這兩個領域分別的需求是多少，然后再求和就行了。

右側這個例子（圖 3）則是問基督城哪個月的降水量最多。Gemini 直接給了一個錯誤答案，且他給的降水量也是錯誤的。同樣的，如果我們引入了思維鏈的技術，那我們就可以先分析每一個月的降水量是多少，然后再進行一個比較，這樣他的思考過程更清晰，答案的話可靠性也會更高一些。

接下來我會給大家介紹多模態思維鏈的一些發展歷程。

下圖中（圖 4）左上角展示了多模態推理的演變過程。 stage 1 是以感知為核心的推理。例如，在 2023 年前后的多模態大模型，基本就是 stage 1，當我們問一個圖里面男孩戴的帽子是什么顏色的時候，多模特大模型不需要推理，只需要關注視覺信息本身就可以給出一個答案。這種情況下多模態大模型幾乎可以說沒有推理這個概念。

圖 4

在 stage 2 ，我們是以語言為中心的短推理的過程，就像剛才提到的，當我們的多模態大模型在遇到一個數學題的時候，如果你提示它一步一步分析再給出答案。那它也會去分析，但可能整個鏈路會比較短，大概就在幾百個 Token 以內。那到了第三個階段，其實主要是得益于大語言模型 O1、R1 的發布，多模態領域成功借鑒了他們的經驗并迭代了一系列深度思考的多模態大模型，在這個階段，當我們面對一些復雜的數學題的時候，多模態大模型的思考鏈路可以從幾千到上萬的 Token 不等，相較于 stage 2 的話會有一個大幅提升。

在未來多模態發展到 stage 4 的時候，市面上主流的多模態模型應該是原生多模態的推理模型，輸入可能是視覺、文本、視頻這種多模態的融合信息，然后在推理的時候它也可以生成圖像、文字以及音頻等不同模態，實現真正的具身智能。

經過一兩年的發展，多模態思維鏈的訓練范式已基本固定，大致分為冷啟動和強化學習兩個階段。冷啟動階段主要構造領域內的長思維鏈式數據，引導模型學習深度思考的范式，否則模型難以從 0 到 1 直接去激發它這個能力；強化學習階段則引入更加精細化的獎勵信號，并結合前沿的強化學習算法（如 GRPO、GSPO、DPO 等），大幅提升多模態大模型的推理質量與結果精度。

圖上右側（圖 4）是一些純文本思維鏈的落地案例。得益于純文本思維鏈這種簡單的思考形式，多模態大模型只需要輸出文本序列就能實現高效推理。因此這也是學術界和工業界最先得到驗證和發展的思維方式。純文本的思維鏈技術在音頻的 QA、視覺的 QA，圖片定位以及視頻定位等場景都有不錯的學術產出。

而多模態思維鏈，則進一步結合了視覺與文本推理，生成圖文交錯的思維鏈，推動人工智能向更接近人類認知水平的方向演進。其訓練范式與前述冷啟動和強化學習一致，但在思維鏈形式上實現了創新，即圖文交錯。

圖 5

例如圖 5 左下角的案例，當我們給了一張圖，然后去詢問這個卡車門上的網址是多少的時候，模型會先進行一個純文本的分析，然后給出粗略的一個位置，那我們會把這個對應的位置裁剪，然后放大，再通過 visual encoder 的方式作為大語言模型思考的上下文，它會逐步地再通過文本思考再定位到一個更精細化的位置。這樣最后當我們把網址所在的區域丟給模型，它生成答案的置信度就會變得非常高。

可以看到，多模態思維鏈引入之后，當模型面對很復雜的任務時，可以一步一步去拆解，最終得到非常置信的答案。

圖 5 的 Image Reasoning 給的是迷宮案例。給定一個物體的起點及其后續的動作序列，我們需要去預估它最終會停在什么位置，那引入了多模態的思維鏈，它完全可以去模擬這個物體下一個動作之后所在的位置，去描繪出它的行為軌跡，最終我們就可以得到一個精確答案。

最后一個案例是視頻推理任務，詢問“這個房間中有多少個沙發？” 模型會先抽取包含沙發的這些視頻幀，然后得到視頻幀之后再去定位到視頻幀里面沙發的位置，它會把對應的區域都裁剪出來，然后再放大，再去判定這些沙發哪一些其實是同一個物體，做完去重之后就會給到一個精準的答案。

上述案例表明，在面對復雜且難以直接求解的問題時，多模態大模型可以通過多模態思維鏈的形式來將問題拆解為多個步驟，從而使推理過程更為簡化。

2 Keye-VL 多模態思維鏈核心技術解析

接下來介紹我們 Keye-VL 團隊在多模態思維鏈上做了哪些探索？首先帶大家了解下 Auto Think，這是一項創新方案，它能夠使多模態大模型自主判斷何時需要啟動深度思考。

提出這一機制的原因在于，現實場景中相當一部分多模態任務本身較為簡單，若在此類任務中普遍啟用深度思考，會造成計算資源的浪費。而在復雜任務中啟用深度思考，則既能確保結果的可靠性，又能使整體效率可控。

為賦予模型 AutoThink 能力，我們引入了兩個不同的階段，分別叫Mix-Mode SFT和Mix-Mode RL。Mix-Mode SFT 階段的目標在于使模型掌握不同的推理模式，所以我們在訓練中引入了 /think 模式的長思維鏈數據與 instruct 版本的 /no_think 數據進行混合訓練；第二步會根據題目的難易程度生成相應的 auto_think 數據，在 SFT 階段幫助基座模型更好地掌握 auto think 的格式，題目難度的判斷過程由自研 LLM 生成，并通過特殊的標記格式“ XXX ”進行區分。

在Mix-Mode RL 階段，我們通過引入混合 reward 機制，在評估最終答案是否準確的前提下也會校驗模型生成的 CoT 質量是否優質，懲罰低質思考過程。比如它的思考很冗余，針對某一個問題反復的去思考，那這種就要扣分。還有它的思考是錯誤的，比如計算步驟有錯誤，那這種也是要扣分。

最后還有邏輯的自洽性，我們會發現在訓練的過程中，有的時候模型的思考過程是錯的，但是答案反而對了，或者思考過程是對的，答案卻錯了。針對這種不一致的情況我們也會做懲罰。

在引入了 Mix-Mode 的強化學習之后，我們就發現基座模型在強化學習階段真正掌握何時該啟動深度思考，在效果和效率上達到平衡。

在引入Mix-Mode的強化學習機制后，Keye-VL 基座模型能夠逐漸學會根據任務特征選擇推理模式：在復雜任務中啟用深度推理，在簡單任務中采用簡短推理，從而在效果與效率之間實現平衡。

下圖（圖 6）展示了在 No_Think 模式與 Think 模式下，Keye-VL 是怎么去解決問題的。

圖 6

左側示例展示了一個引用勾股定理計算直角邊長度的問題。模型在 Analysis 階段就會分析說這個問題只需應用勾股定理就可以求得 x，所以它就直接用了一個很短的 Token 序列就把答案給求到了。

那右邊這個問題就相對復雜一些，給到了兩個半圓，然后要求對應的陰影部分的面積，這里面其實需要模型掌握特定的幾何性質，以及半圓和弦之間的關系，它是需要很多個計算步驟才能得到答案的，所以模型就采用了 think 的模式。

接下來我們從評測數據來看，引入 Mix-Mode 后對機制的提升有多大。通過在自建的多模態內容理解任務以及開源基準 OpenCompass 等評測集上進行測試，我們發現基座模型在 no_think 模式下的性能得到了顯著提升。

接下來，我們深入挖掘一下 AutoThink 模型在不同任務中智能觸發深度思考的決策表現。

圖 7

從圖 7 表格中可以清晰地看到，模型是如何根據任務的復雜度來判定是否啟用深度思考的。在 MathVista 和 MMStar 這類偏向多模態推理的 Benchmark 上，模型啟用深度思考的比例約為 35%。而在幻覺和 OCR 等偏向感知類的任務中，模型更傾向于直接采用 no_think 模式。

接下來，我將介紹另外一項技術Agentic Think，這項技術的核心目標是使模型具備自主編寫代碼以處理圖像的能力。其整體流程共分為五個環節：

用戶輸入：用戶提供原始輸入，可能是圖片或涉及計算的請求。
核心處理模塊：模型根據輸入內容進行理解和判斷是否需要生成代碼。
代碼生成與執行：模型輸出對應的代碼提交至安全沙盒環境，包括圖像旋轉、裁剪、縮放、對比度增強以及數學計算等操作。
沙盒處理
- 沙盒負責代碼的格式修正及輸入輸出錯誤的檢測和處理，確保代碼的安全和正確執行；
- 在嚴格時間限制內運行代碼，執行圖像操作或計算任務；
- 運行結果（處理后的圖像或計算輸出）反饋給模型。
輸出結果
- 模型根據沙盒反饋，輸出最終的推理結果或圖像。

Agentic Think 的技術路線主要分為三個部分：

構建多樣化監督微調數據集：覆蓋無代碼圖像操作、高復雜度裁剪、旋轉校正、對比度增強、復雜代碼計算及多輪交互場景，助力模型全面掌握多模態任務
引入混合強化學習數據與優化算法。標注了一批高難度的感知數據用于強化學習訓練，同時提除了自動溫度設置的采樣策略，在 code 生成結果設置 temperature 為 0，在文本生成階段恢復為默認值。同時對獎勵機制進行相應的優化。
搭建高質量且安全的代碼執行沙盒：自動管理代碼細節和圖像邊界，保障模型生成代碼高效穩定執行，減輕編碼負擔。

在此我們也非常高興地宣布，Agentic Think 技術迎來了一個重要的里程碑——Thyme 模型開源了。在這里我們為大家提供了 Thyme 模型相關的資源的完整路徑。開源 Thyme 模型，也標志著我們讓模型學會自己寫代碼處理圖像的技術正式向社區開放，然后也期待與大家一起推動這一領域的發展。

接下來介紹一下我們在強化學習方面的探索，主要是如何通過精心設計的獎勵函數來提升模型的推理上限。

其實只要做過強化學習，大家可能都知道最核心的可能就兩點，第一點是怎么保證獎勵信號是精準的、是完備的。第二個點是強化算法到底是不是最先進的。

圖 8

那我們主要的工作就是構建完備的獎勵機制并將 reward 的信號大致分為了兩大類。

第一類是硬約束，比如「輸出格式的校驗」、「輸出長度的約束」以及「IoU 計算」等約束，完全可以通過代碼去計算并評定對錯，無需大語言模型去判斷。

第二類是軟約束，比如語言風格的判定（例如古詩或文言文風格）、生成內容的流暢度，以及生成的思維鏈與最終答案之間的一致性。這類指標無法通過代碼直接度量，因此需依賴大語言模型進行評估。

圖 8 右側是一個復雜指令遵循的例子。當收到一個復雜的 prompt 時， policy model 就會生成一段回復，Reward System 按照硬約束和軟約束進行分流。硬約束的部分比如像長度的判定、關鍵詞判定、段落判定以及輸出格式判定等約束，都可以用代碼校驗。但是類似語言風格判定、語義元素判定等約束都只能通過大語言模型判定。最終 Reward System 會把硬約束和軟約束的得分匯總起來再加權。

在硬約束方面，驗證相對容易；而在軟約束方面，核心在于建立一個能夠進行有效評分的模型。為此，我們探索了全新的獎勵模型，用于對模型輸出結果進行精確打分。在此任務定義下，模型會對同一問題生成多個候選答案，當給定兩個答案時，獎勵模型需判定哪一個更優。其判定邏輯包括依次確認兩個答案是否正確，若均正確，則進一步比較哪個思考過程更加簡潔、合理。

在探索過程中，我們還觀察到獎勵模型在引入強化學習算法優化后還涌現出了一定的反思能力。例如，它在初步分析時可能錯誤地判定了優劣，但在后續分析中能夠糾正先前的判斷。

基于上述技術探索，Keye-VL 模型在推理能力方面取得了顯著提升。不僅在開源的多模態推理 benchmark 上取得了顯著提升；而且在通用圖文與視頻理解任務上，相較于僅經 SFT 訓練的模型，也展現出可量化的性能改進。

3 多模態思維鏈在快手社區的落地

當前，短視頻社區的審核主要面臨以下幾方面挑戰：

第一，缺乏有效的評測基準。這使得審核效果難以科學衡量。相比之下，大語言模型（如 R1、O1）能夠快速發展，很大程度上得益于數學和代碼領域存在豐富的評測基準，使研發人員能夠基于這些標準進行高效迭代；

第二，數據質量與成本問題。大語言模型的進步同樣得益于數學與代碼領域擁有大量高質量數據來源。數學方面可依賴豐富的教育資源，代碼方面則可借助開源社區（如 GitHub、Hugging Face）提供的大規模優質數據。然而，在短視頻審核場景中，優質數據稀缺，如果依賴人工標注，成本將十分高昂。此外，不同標注人員的尺度存在差異，導致一致性難以保證。相比之下，若引入多模態大模型進行審核，則能夠在不同樣本間保持一致的判定尺度，結果更具可控性；

第三，違規內容快速迭代。在快手平臺，每日新增短視頻數量達到數千萬甚至上億，完全依賴人工審核并不可行。同時，違規內容的形式與手段不斷變化，傳統分類模型難以及時應對新的違規類型；

針對上述挑戰，我們分析了現有解決方案的局限性，并提出了KuaiMod方案，這個工作也榮獲KDD 2025 最佳論文提名。核心理念是讓多模態大模型成為審核策略的核心決策者，從而重塑內容審核體系。方案的創新點主要體現在以下三個方面：

第一，構建并開源劣質內容基準評測體系。我們建立了快手專屬的分類體系，涵蓋 4 大類與 15 個細粒度類別，包括低俗、暴力等常見劣質內容。同時發布了包含 1000 條樣本的高質量測試集，該數據集經過 4–5 輪人工標注驗證，確保高置信度，并為行業提供了可復用的評估標準。

第二，提出自動化內容判別方案。在自動化內容判別方面，我們基于思維鏈構造了審核場景下的深度思考數據集，并結合冷啟動和強化學習方法進行訓練。經過部署后，模型可處理快手社區中分發量較高的頭部視頻，線上測試結果顯示其審核準確率已可媲美人工，且社區整體用戶舉報率下降了 20%，所有正向指標均未受到影響。

第三，動態熱點實時適配機制。在動態熱點適配方面，我們針對違規形式不斷演變的特點，引入基于用戶反饋的強化學習機制。系統每日收集用戶反饋數據，并結合模型判定識別難例樣本，構建高質量的偏好配對數據。通過 DPO 進行日級別迭代，實現模型的實時更新，對動態違規內容的打擊效果較傳統模型有顯著提升。

在KuaiMod的實現中，我們采用大規模監督微調與直接偏好對齊。在監督微調階段，模型輸入涵蓋視頻幀、標題、ASR/OCR 等內容。在推理過程中，引入可控思維鏈機制，通過狀態轉換生成對應的推理步驟與判定結果。

接下來介紹我們在短視頻內容體系建設方面的另一項重要成果，即KC-MMbench 的開源。這個 Benchmark 的核心價值在于覆蓋了短視頻場景中的多個核心任務。剛說的KuaiMod主要聚焦于短視頻審核，而 KC-MMBench 則拓展至六大任務，具體包括：

4 Think with Video

最后跟大家介紹一下，我們未來的技術方向想做“Think with Video”，就是從傳統的多模態的理解邁向動態的世界理解，這項技術的一個核心突破在于它突破了靜態圖文交互的限制，可以賦予 AI 對動態視頻的深度理解能力，可以構建視頻與文本交錯的立體的思維鏈。

以下是一個具體示例：某視頻展示了克里斯蒂安·貝爾生平作品的合集。針對該視頻，大模型需要回答“貝爾在何種年齡出演過蝙蝠俠系列電影”。該任務涉及多個推理環節：首先，模型需要掌握貝爾的出生年份；其次，需要準確識別合集片段中哪些屬于蝙蝠俠系列；最后，還需識別視頻中細粒度的 OCR 信息，例如各部蝙蝠俠電影的上映時間。與以往僅對圖像局部區域進行裁剪和分析不同，該過程要求模型直接對長視頻中的特定片段進行分析。

在該方向下，存在兩個主要技術難點：

長上下文理解能力。處理超長視頻時，每幀可能轉化為數千個視覺 Token，若采用密集抽幀，上下文長度將急劇膨脹。然而，現有多模態大模型的上下文處理能力仍存在限制。
精確定位能力。類似于在文本中“大海撈針”，模型需在冗長的視頻數據中準確定位關鍵信息，這個任務難度極高。

若能突破上述難點，模型將能夠準確定位蝙蝠俠電影上映時間，并據此推理出貝爾出演時的年齡，從而得到正確答案。可以預見，未來的推理任務將更加復雜，更貼近真實場景。我們也將持續致力于 Think with Video 的能力迭代，并計劃在未來進行開源，與業界同行展開更深入的交流。

嘉賓介紹

文彬，現任快手高級算法專家，負責 Keye-VL 多模態大模型后訓練階段的研發。研究方向涵蓋多模態大模型監督微調 (SFT)、人類偏好對齊 (RLHF)、多模態思維鏈以及強化學習等領域，相關學術成果在 CVPR、ICML、ICLR 以及 NeurIPS 等 CCF-A 類會議上發表。作為核心貢獻者參與的 Keye-VL-8B-Preview 模型開源項目獲得業界高度關注，在 Hugging Face 平臺模型下載量已突破 200,000 次。

AI 重塑組織的浪潮已至，Agentic 企業時代正式開啟！當 AI 不再是單純的輔助工具，而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

把握行業變革關鍵節點，12 月 19 日 - 20 日，AICon 全球人工智能開發與應用大會（北京站）即將重磅啟幕！本屆大會精準錨定行業前沿，聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新，邀您共同深入探討：如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統，讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.