網易首頁 > 網易號 > 正文申請入駐

AI「看不懂」、「做不好」視頻的問題，混元用「MTSS」解決了

2026-04-28 16:19:27　來源: 機器之心Pro

河北舉報

分享至

導讀：騰訊混元團隊提出了 Multi-Stream Scene Script（MTSS），一種全新的視頻描述范式 —— 將傳統的 "一段話描述整個視頻" 升級為 "多流結構化劇本"，通過 Stream Factorization 和 Relational Grounding 兩大核心原則，讓視頻描述既忠實又可擴展，在視頻理解和生成任務中均取得顯著提升。

論文標題：Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
論文鏈接：https://arxiv.org/abs/2604.11244

多分鏡、ID 保持、音畫同出…… 當視頻生成模型開始具備這些核心能力時，一個容易被忽略的瓶頸開始浮出水面：你拿什么來描述一段視頻，才能獲得更好的效果？

當前主流的做法，是把視覺、聽覺、人物、場景、鏡頭運動等所有信息，全部揉進一段密密麻麻的自然語言段落里 —— 這就是所謂的 Monolithic Caption，我們姑且叫它「流水賬」式描述。

這種寫法的問題，其實和寫劇本一樣直觀：把演員表、分鏡表、音效表全寫在一篇散文里，導演沒法用，演員看不懂，后期更沒法改。

那有沒有可能，給視頻寫一份真正的、更高效的「結構化劇本」？

騰訊混元團隊給出的答案是：MTSS——Multi-Stream Scene Script。

「流水賬」到底差在哪？

三個繞不開的問題

要理解 MTSS 為什么值得關注，得先看看傳統 Monolithic Caption 在實際應用中到底碰到了什么墻。

語義冗余與歧義。同一角色在不同鏡頭中被反復描述，容易產生不一致的身份引用。一段話里出現三次 "穿西裝的男人"，到底是不是同一個人？模型不確定，生成出來也就容易串。
可擴展性差。想改一個局部細節 —— 比如換個鏡頭運動、加一段音效 —— 可能需要重寫整段描述才能保持敘事連貫性。牽一發動全身，效率極低。
對小模型不友好。密集交織的信息增加了認知負擔，小參數模型很難從中有效學習。大模型或許還能湊合理解，換成 7B 級別的開源模型，表現就斷崖式下跌。

這些不是理論上的困難 —— 當你想要實現多分鏡生成、跨鏡頭身份保持、音畫同出時，「流水賬」就成了最大的瓶頸。

不寫流水賬，改寫分鏡劇本：

「MTSS」怎么設計的？

MTSS 的核心思想非常直觀：不寫流水賬，改寫 JSON 格式的分鏡頭劇本。它的兩大核心設計原則：Stream Factorization 與 Relational Grounding。

Stream Factorization：把一段視頻拆成四條并行的信息流

MTSS 將復雜的音視頻動態剝離開來，變成四個專門的、并行的信息流，并互相引用，實現了對視頻信息更本質的表達方式：Reference Stream（資產信息）—— 特征錨點核心；Event Stream（事件信息）—— 發生了什么；Shot Stream（鏡頭信息）—— 如何呈現；Global Stream（全局信息）—— 全局信息。

Relational Grounding：讓四條流 "活" 起來

僅僅分解是不夠的 —— 孤立的信息流無法形成連貫的腳本。MTSS 通過 Relational Grounding 在兩個維度上重新建立聯系：身份錨定實現實體全局引用，時間錨定實現多軌道并行對齊。

這樣一來，修改任何一條流中的局部信息（如改變一個角色的臺詞），不會影響其他流的內容，真正實現了「局部編輯，全局一致」。

與 Monolithic Caption 的效果對比

與傳統 Monolithic Caption 相比，MTSS 具備以下核心優勢：

符合視頻數據本質形式：解耦身份（Who）、事件（What）、呈現（How）等，并彼此精準關聯。
全局一致性：全局身份信息統一管理與引用，避免反復的冗余描述帶來誤差。
易擴展、易理解：從時間和空間對視頻進行結構化拆解，降低理解難度，實現局部編輯。
專業剪輯技巧表達：支持 ReactionShot（"說話人 - 聽眾" 模式）、L-Cut（聲音延續）、J-Cut（聲音先行）等專業剪輯技巧。

理解與生成兩手抓：

MTSS 到底有多能打？

說一千道一萬，不如數據說話。針對 MTSS 范式設計的有效性驗證，團隊在視頻理解和視頻生成兩個賽道上都進行了詳盡的實驗和評估。

視頻理解：格式一換，效果就來

在實驗設計上，團隊同時評估了 Zero-shot Prompting（直接讓模型輸出 MTSS 格式）和 Supervised Fine-tuning（在 MTSS 數據上微調）兩種使用方式，從而將「格式本身的優勢」和「訓練帶來的優勢」進行了有效分離。

遵循 MTSS 范式，Zero-shot Prompting 即可帶來普遍提升
MTSS 范式設計顯著降低認知負擔，使得小模型效果提升更加顯著
適當的 SFT 能夠釋放 MTSS 范式設計的最大潛力
MTSS 對推理的提升幅度遠超對描述任務本身的提升
One More Thing：MTSS 作為 "認知腳手架" 縮小模型差距

視頻生成：從「理解端的描述格式」到「生成端的控制接口」

隨著視頻生成模型發展至具備多分鏡、ID 注入保持、音畫同出等核心能力，如何高效地讓視頻生成模型具備這些能力，數據表達是最關鍵變量之一。

為了驗證 MTSS 范式對視頻生成模型的有效性和高效性，團隊以音畫同出的開源模型 LTX-2 為基礎，進行了適配訓練驗證。主要改動包括：Shot-Aware Structured Attention（鏡頭感知結構化注意力）和Identity Customization（身份定制模塊）。

效果分析：

多分鏡：MTSS 的 Shot 時間戳提供了有效的分鏡信號，輕量級的 Attention 模塊即可帶來強有力的約束。
ID 注入保持：MTSS 的分流設計與跨鏡頭 Reference Grounding 機制對 ID 注入保持提升顯著。
音畫同出：MTSS Event Stream 中顯式的 “line” 字段和 “description” 字段為音頻生成提供了清晰的 "說什么" 和 "怎么說" 的指令，從根本上改變了音頻輸出的性質，從近乎隨機的環境噪聲轉變為語義正確的對話。

結語：從「流水賬」到「劇本時代」

長期以來，視頻理解、視頻生成領域一直試圖讓模型通過海量的 "糙數據" 自己去領悟視頻規律。然而，MTSS 工作證明了：更接近數據本質的表達范式能釋放出遠超架構微調的紅利。

MTSS 不僅是一種 Caption 數據格式，它更像是一個友好的 "認知腳手架"，幫助人類和模型更輕易地理解視頻、生成視頻。

雖然我們仍然面臨視角劇烈變化時仍有角色身份維持的挑戰，但 MTSS 無疑為下一代可控、超長、多鏡頭聯合音視頻生成大模型指明了一條極具潛力的數據工程道路。告別 "流水賬"，迎接 "劇本時代"，視頻大模型正在進入更加專業化的工業級工作流。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.