<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI「看不懂」、「做不好」視頻的問題,混元用「MTSS」解決了

      0
      分享至



      導讀:騰訊混元團隊提出了 Multi-Stream Scene Script(MTSS),一種全新的視頻描述范式 —— 將傳統的 "一段話描述整個視頻" 升級為 "多流結構化劇本",通過 Stream Factorization 和 Relational Grounding 兩大核心原則,讓視頻描述既忠實又可擴展,在視頻理解和生成任務中均取得顯著提升。



      • 論文標題:Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
      • 論文鏈接:https://arxiv.org/abs/2604.11244

      多分鏡、ID 保持、音畫同出…… 當視頻生成模型開始具備這些核心能力時,一個容易被忽略的瓶頸開始浮出水面:你拿什么來描述一段視頻,才能獲得更好的效果?

      當前主流的做法,是把視覺、聽覺、人物、場景、鏡頭運動等所有信息,全部揉進一段密密麻麻的自然語言段落里 —— 這就是所謂的 Monolithic Caption,我們姑且叫它「流水賬」式描述。

      這種寫法的問題,其實和寫劇本一樣直觀:把演員表、分鏡表、音效表全寫在一篇散文里,導演沒法用,演員看不懂,后期更沒法改。

      那有沒有可能,給視頻寫一份真正的、更高效的「結構化劇本」?

      騰訊混元團隊給出的答案是:MTSS——Multi-Stream Scene Script。



      「流水賬」到底差在哪?

      三個繞不開的問題

      要理解 MTSS 為什么值得關注,得先看看傳統 Monolithic Caption 在實際應用中到底碰到了什么墻。

      • 語義冗余與歧義。 同一角色在不同鏡頭中被反復描述,容易產生不一致的身份引用。一段話里出現三次 "穿西裝的男人",到底是不是同一個人?模型不確定,生成出來也就容易串。
      • 可擴展性差。 想改一個局部細節 —— 比如換個鏡頭運動、加一段音效 —— 可能需要重寫整段描述才能保持敘事連貫性。牽一發動全身,效率極低。
      • 對小模型不友好。 密集交織的信息增加了認知負擔,小參數模型很難從中有效學習。大模型或許還能湊合理解,換成 7B 級別的開源模型,表現就斷崖式下跌。

      這些不是理論上的困難 —— 當你想要實現多分鏡生成、跨鏡頭身份保持、音畫同出時,「流水賬」就成了最大的瓶頸。

      不寫流水賬,改寫分鏡劇本:

      「MTSS」怎么設計的?

      MTSS 的核心思想非常直觀:不寫流水賬,改寫 JSON 格式的分鏡頭劇本。它的兩大核心設計原則:Stream Factorization 與 Relational Grounding。



      Stream Factorization:把一段視頻拆成四條并行的信息流

      MTSS 將復雜的音視頻動態剝離開來,變成四個專門的、并行的信息流,并互相引用,實現了對視頻信息更本質的表達方式:Reference Stream(資產信息)—— 特征錨點核心;Event Stream(事件信息)—— 發生了什么;Shot Stream(鏡頭信息)—— 如何呈現;Global Stream(全局信息)—— 全局信息

      Relational Grounding:讓四條流 "活" 起來

      僅僅分解是不夠的 —— 孤立的信息流無法形成連貫的腳本。MTSS 通過 Relational Grounding 在兩個維度上重新建立聯系:身份錨定實現實體全局引用,時間錨定實現多軌道并行對齊

      這樣一來,修改任何一條流中的局部信息(如改變一個角色的臺詞),不會影響其他流的內容,真正實現了「局部編輯,全局一致」。

      與 Monolithic Caption 的效果對比

      與傳統 Monolithic Caption 相比,MTSS 具備以下核心優勢:

      • 符合視頻數據本質形式:解耦 身份(Who)、事件(What)、呈現(How)等,并彼此精準關聯。
      • 全局一致性:全局身份信息統一管理與引用,避免反復的冗余描述帶來誤差。
      • 易擴展、易理解:從時間和空間對視頻進行結構化拆解,降低理解難度,實現局部編輯。
      • 專業剪輯技巧表達:支持 ReactionShot("說話人 - 聽眾" 模式)、L-Cut(聲音延續)、J-Cut(聲音先行)等專業剪輯技巧。



      理解與生成兩手抓:

      MTSS 到底有多能打?

      說一千道一萬,不如數據說話。針對 MTSS 范式設計的有效性驗證,團隊在視頻理解和視頻生成兩個賽道上都進行了詳盡的實驗和評估。

      視頻理解:格式一換,效果就來

      在實驗設計上,團隊同時評估了 Zero-shot Prompting(直接讓模型輸出 MTSS 格式)和 Supervised Fine-tuning(在 MTSS 數據上微調)兩種使用方式,從而將「格式本身的優勢」和「訓練帶來的優勢」進行了有效分離。

      • 遵循 MTSS 范式,Zero-shot Prompting 即可帶來普遍提升
      • MTSS 范式設計顯著降低認知負擔,使得小模型效果提升更加顯著
      • 適當的 SFT 能夠釋放 MTSS 范式設計的最大潛力
      • MTSS 對推理的提升幅度遠超對描述任務本身的提升
      • One More Thing:MTSS 作為 "認知腳手架" 縮小模型差距





      視頻生成:從「理解端的描述格式」到「生成端的控制接口」

      隨著視頻生成模型發展至具備多分鏡、ID 注入保持、音畫同出等核心能力,如何高效地讓視頻生成模型具備這些能力,數據表達是最關鍵變量之一。

      為了驗證 MTSS 范式對視頻生成模型的有效性和高效性,團隊以音畫同出的開源模型 LTX-2 為基礎,進行了適配訓練驗證。主要改動包括:Shot-Aware Structured Attention(鏡頭感知結構化注意力)Identity Customization(身份定制模塊)



      效果分析:

      • 多分鏡:MTSS 的 Shot 時間戳提供了有效的分鏡信號,輕量級的 Attention 模塊即可帶來強有力的約束。
      • ID 注入保持:MTSS 的分流設計與跨鏡頭 Reference Grounding 機制對 ID 注入保持 提升顯著。
      • 音畫同出:MTSS Event Stream 中顯式的 “line” 字段和 “description” 字段為音頻生成提供了清晰的 "說什么" 和 "怎么說" 的指令,從根本上改變了音頻輸出的性質,從近乎隨機的環境噪聲轉變為語義正確的對話。

      結語:從「流水賬」到「劇本時代」

      長期以來,視頻理解、視頻生成領域一直試圖讓模型通過海量的 "糙數據" 自己去領悟視頻規律。然而,MTSS 工作證明了:更接近數據本質的表達范式能釋放出遠超架構微調的紅利。

      MTSS 不僅是一種 Caption 數據格式,它更像是一個友好的 "認知腳手架",幫助人類和模型更輕易地理解視頻、生成視頻。

      雖然我們仍然面臨視角劇烈變化時仍有角色身份維持的挑戰,但 MTSS 無疑為下一代可控、超長、多鏡頭聯合音視頻生成大模型指明了一條極具潛力的數據工程道路。告別 "流水賬",迎接 "劇本時代",視頻大模型正在進入更加專業化的工業級工作流。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “望月鱔劇毒,誤食必死”,望月鱔比毒蛇還要毒?什么是望月鱔?你們有遇到過嗎?

      “望月鱔劇毒,誤食必死”,望月鱔比毒蛇還要毒?什么是望月鱔?你們有遇到過嗎?

      農夫也瘋狂
      2026-04-26 11:01:20
      葉柯被網友拍下生圖,模樣大變有些嚇人!被吐槽:像低配版唐嫣

      葉柯被網友拍下生圖,模樣大變有些嚇人!被吐槽:像低配版唐嫣

      娛樂團長
      2026-04-26 14:55:48
      深夜重磅!今天,伊朗贏得重大喜訊

      深夜重磅!今天,伊朗贏得重大喜訊

      阿振觀點
      2026-04-28 00:17:31
      名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

      名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

      懂球帝
      2026-04-28 09:32:05
      通富微電、長電科技、華天科技、晶方科技,最新年報含金量誰高?

      通富微電、長電科技、華天科技、晶方科技,最新年報含金量誰高?

      長風價值掘金
      2026-04-28 15:27:54
      退休女人最難熬的是什么?63歲阿姨:那不是一般的苦,只有自己懂

      退休女人最難熬的是什么?63歲阿姨:那不是一般的苦,只有自己懂

      熱心柚子姐姐
      2026-04-28 16:05:18
      一字跌停!002779,被證監會立案

      一字跌停!002779,被證監會立案

      新浪財經
      2026-04-28 15:11:09
      細到能在米粒上寫字,OpenAI讓人對所有截圖的信任歸零了

      細到能在米粒上寫字,OpenAI讓人對所有截圖的信任歸零了

      知危
      2026-04-27 10:49:27
      相親態度反轉!女生得知對方在上海、北京有房后,直言彩禮沒意義

      相親態度反轉!女生得知對方在上海、北京有房后,直言彩禮沒意義

      火山詩話
      2026-04-27 06:09:22
      太尷尬!網傳西安年入百萬小伙因堅持婚檢,與女友談崩,真相扎心

      太尷尬!網傳西安年入百萬小伙因堅持婚檢,與女友談崩,真相扎心

      火山詩話
      2026-04-25 18:24:26
      4月28日,人社部召開發布會,退休人員養老金調整通知公布了嗎?

      4月28日,人社部召開發布會,退休人員養老金調整通知公布了嗎?

      閱微札記
      2026-04-28 16:51:09
      美國政壇要出大事了:萬斯大概率要當選總統。

      美國政壇要出大事了:萬斯大概率要當選總統。

      阿振觀點
      2026-04-21 05:22:52
      王紫璇,這次敞開了胸膛,別說沒玩意兒!

      王紫璇,這次敞開了胸膛,別說沒玩意兒!

      飛娛日記
      2026-04-19 09:15:49
      美以炸了40天白干!伊朗導彈越打越多,10國扭頭看向中國:該你上

      美以炸了40天白干!伊朗導彈越打越多,10國扭頭看向中國:該你上

      說歷史的老牢
      2026-04-27 15:53:14
      1949年重慶抓獲四野頭號叛徒,林彪聽到名字當場拍桌:立刻派專機押回來

      1949年重慶抓獲四野頭號叛徒,林彪聽到名字當場拍桌:立刻派專機押回來

      史海孤雁
      2026-03-21 19:14:20
      黃一鳴丑聞持續升級!網友扒出真實目的,王思聰可能是背鍋俠

      黃一鳴丑聞持續升級!網友扒出真實目的,王思聰可能是背鍋俠

      奇思妙想草葉君
      2026-04-27 15:50:29
      相親女方要求我幫她3個弟弟買車,我說可以,她直接選中90萬寶馬

      相親女方要求我幫她3個弟弟買車,我說可以,她直接選中90萬寶馬

      藝鑒在線
      2026-04-26 10:25:28
      太心疼!馬筱梅哭到停更,帶娃逃回臺灣:憑啥要我和孩子遭這罪?

      太心疼!馬筱梅哭到停更,帶娃逃回臺灣:憑啥要我和孩子遭這罪?

      蕭狡科普解說
      2026-04-28 15:21:07
      上海一粗心主人把小狗遺忘鎖在車里,小狗狂按喇叭幸運獲救!

      上海一粗心主人把小狗遺忘鎖在車里,小狗狂按喇叭幸運獲救!

      上觀新聞
      2026-04-28 15:01:07
      老舊小區裝電梯,住頂樓的我用掏心窩子的真心話,給出拒絕原因

      老舊小區裝電梯,住頂樓的我用掏心窩子的真心話,給出拒絕原因

      裝修秀
      2026-04-28 10:55:03
      2026-04-28 18:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12881文章數 142638關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      14歲男生殺害女同學被判無期 聽到宣判時幾乎面無表情

      頭條要聞

      14歲男生殺害女同學被判無期 聽到宣判時幾乎面無表情

      體育要聞

      季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      政治局會議:加強算力網等規劃建設

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      藝術
      旅游
      本地
      親子
      公開課

      藝術要聞

      深圳極具未來感的“外星”建筑亮相

      旅游要聞

      共奏“花漾”協奏曲!浦東多地同繪“花”樣文商旅體展融合圖景

      本地新聞

      用青花瓷的方式,打開西溪濕地

      親子要聞

      2026-2027年全球母嬰市場及中國母嬰產業出海機遇報告

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一区二区精品久久岳| 汪清县| 视频一区二区三区刚刚碰| 大桥未久亚洲无av码在线| 成人国产一区二区三区| 两个人日本www免费版| 亚洲欲妇| 久久视频这里只精品| 97人妻免费公开视频| 亚洲乱码一区二区三区视色| 日本伊人色综合网| 久久热这里只有精品国产| 国产v片| 最近2019中文字幕在线| 99国产欧美精品久久久蜜芽| 拉萨市| 国产又色又爽又刺激在线观看 | 一本久道久久综合狠狠躁av| 天天做天天爱天天综合网2021| 乌兰县| 久久综合五月丁香六月丁香| 五月婷婷成人| 亚洲综合无码一区二区三区| 伊人久久精品| 日韩AV色| 国产乱子伦真实精品!| 毛片大全真人在线| 秋霞电影网| 国产中文字幕一区二区| 国产微拍一区二区三区四区| 在线 国产 精品 蜜芽| 99人体免费视频| 国产成人无码A区视频在线观看| 亚洲成a人v在线蜜臀| 亚洲乱码中文字幕综合久久 | 丝袜美腿亚洲一区在线| 国产超高清麻豆精品传媒麻豆精品| 无码专区中文字幕视频在线| 日本不卡视频| 男男车车的车车网站w98免费| 亚洲精品乱码久久久久久v|