<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華大學和微軟聯手破解視頻理解難題:讓AI像人一樣"看懂"長視頻

      0
      分享至


      長視頻時代已經到來,從抖音快手到B站YouTube,我們每天都在觀看著大量的視頻內容。然而,當我們試圖讓人工智能也能像人類一樣理解這些視頻時,卻遇到了一個棘手的問題。這就好比讓一個人只能通過幾張照片來理解一部兩小時的電影情節一樣困難。

      這項由清華大學的李佳洛和微軟亞洲研究院的李斌、李佳豪、陸燕等研究者共同完成的研究發表于2025年12月3日,論文編號為arXiv:2512.04000v1。研究團隊提出了一個名為DIG(DIvide, then Ground)的創新框架,專門用于解決大型多模態模型在長視頻理解方面的關鍵挑戰。

      要理解這個問題的復雜性,不妨回到我們日常生活中的一個場景。當你看一部電影時,有些問題需要你了解整部電影的劇情走向,比如"這部電影的主題是什么?"而有些問題只需要你關注某個特定片段,比如"主角用什么武器打敗了反派?"人類在觀看時能夠自然地調整注意力焦點,但現有的AI系統卻很難做到這一點。

      當前的大型多模態模型在處理長視頻時面臨著兩大核心挑戰。首先是計算資源的限制,就像試圖在一張小紙條上記錄一本厚厚字典的所有內容一樣,模型的上下文長度有限,無法處理過多的視頻幀。其次是計算成本的問題,處理密集的視頻令牌需要消耗大量計算資源,這就好比用顯微鏡逐個檢查每一粒沙子來尋找鉆石一樣效率低下。

      現有的解決方案主要采用查詢感知的幀選擇方法,即根據問題的內容來智能選擇最相關的視頻幀。雖然這種方法在理論上很有前景,但在實踐中卻帶來了巨大的計算開銷。研究團隊發現,并非所有類型的問題都需要如此復雜的搜索機制。

      研究團隊通過大量實驗發現了一個重要規律:隨著輸入幀數量的增加,模型的性能并不總是單調遞增的。相反,性能會先上升然后下降,這個現象就像烹飪時調味料的使用一樣——適量能提升口感,過量反而會破壞整體效果。更重要的是,這種性能變化模式在不同類型的問題上表現出明顯差異。

      基于這個發現,研究團隊提出了一個關鍵的問題分類方法,將視頻問題分為兩大類:全局查詢和局部查詢。全局查詢就像是問"這道菜的整體風味如何?",需要對整個視頻有全面的理解;而局部查詢則像是問"廚師在第三分鐘時加了什么調料?",只需要關注特定的時間段或事件。

      通過對多個數據集的深入分析,研究團隊發現了一個令人驚訝的現象:對于全局查詢,簡單的均勻采樣方法已經能夠達到很好的效果,而復雜的查詢感知選擇方法并沒有帶來顯著提升。這就好比在觀賞一幅畫作時,如果你想了解整體的藝術風格,只需要均勻地掃視各個部分就足夠了,不需要用放大鏡仔細檢查每個細節。

      相反,對于局部查詢,隨著輸入幀數量的增加,模型性能會顯著下降。這是因為大量無關的幀信息會像噪音一樣干擾模型對特定內容的識別。這種情況下,查詢感知的幀選擇就變得至關重要,就像在嘈雜的音樂會現場,你需要專門的設備來捕捉特定樂器的聲音一樣。

      基于這些深刻洞察,研究團隊開發了DIG框架,這是一個能夠根據問題類型自動調整策略的智能系統。DIG的工作流程可以比作一個經驗豐富的圖書管理員,首先判斷讀者的需求類型,然后采用最適合的檢索策略。

      DIG的第一步是問題類型識別,這個過程就像一個智能分診系統。當用戶輸入一個關于視頻的問題時,系統會使用大語言模型來分析問題的性質。這個分析過程采用了鏈式思維的方法,就像一個偵探逐步分析線索一樣:首先理解問題的基本含義,然后推測視頻的可能類型,接著識別問題中的具體指向性元素,最后綜合判斷這是一個全局問題還是局部問題。

      對于全局問題,DIG采用標準的均勻采樣策略,這就像用廣角鏡頭拍攝風景照一樣,確保畫面的各個部分都能被覆蓋到。這種方法不僅效率高,而且效果好,因為全局問題本身就需要對整個視頻有全面的了解。

      對于局部問題,DIG啟動了一個專門設計的多階段處理流程。這個流程的第一步是內容自適應幀選擇,簡稱CAFS。傳統的方法往往采用固定的采樣策略,就像按照固定的時間間隔拍照一樣,這種方法的問題是無法適應視頻內容的變化。CAFS則更像一個聰明的攝影師,能夠根據場景的重要性來決定何時按下快門。

      CAFS的工作原理基于視頻內容的語義相似性分析。系統首先使用DINOv2這一先進的視覺特征提取器來分析視頻中每一幀的內容,這個過程就像給每一幀照片貼上內容標簽一樣。然后,系統計算相鄰幀之間的相似度差異,當差異顯著增大時,就意味著場景發生了重要變化,這些變化點就像是故事情節的轉折點。

      通過識別這些關鍵的變化點,CAFS能夠將整個視頻自然地分割成多個語義一致的片段,就像將一本小說按照章節來劃分一樣。在每個片段中,系統選擇最具代表性的幀作為"代表幀"(r-frame),這些代表幀就像是每個章節的重點摘要。

      接下來是獎勵分配階段,這個階段的目的是評估每個代表幀與用戶問題的相關性。與傳統方法使用相對簡單的相似度計算不同,DIG采用了大型多模態模型本身來進行這種評估。這就像請一位經驗豐富的電影評論家來判斷每個場景與特定主題的相關性一樣,能夠提供更加準確和深入的判斷。

      評估過程采用了雙維度評分機制。系統不僅考慮當前幀對回答問題的直接用處,還會評估這一幀是否暗示相鄰幀可能包含重要的補充信息。這種設計非常巧妙,因為許多復雜問題的答案往往需要多個相關場景的信息來共同構建,就像拼圖一樣,單獨的一片可能看不出全貌,但它能提示我們其他相關拼圖片的位置。

      有了每個代表幀的相關性評分后,系統進入視頻細化階段。這個階段采用了一種創新的迭代篩選算法,而不是傳統的固定閾值Top-K選擇方法。算法會反復計算當前候選幀集合的平均分,然后保留高于平均分的幀,這個過程會持續到候選集合穩定為止。這種方法就像是一個自適應的篩選器,能夠根據具體情況自動調整篩選標準。

      最后一步是片段組合,系統會將選中的代表幀及其周圍的時間窗口合并成一個精煉的視頻片段。這個過程考慮到了時間連續性的重要性,因為很多視頻理解任務需要連續的動作或對話信息。就像制作電影預告片一樣,系統會保留最精彩和最相關的連續片段,而不是零散的單獨幀。

      研究團隊在三個權威的長視頻理解基準測試上驗證了DIG的效果,這些測試包括MLVU、LongVideoBench和VideoMME。實驗結果顯示,DIG在幾乎所有設置下都顯著優于現有的基準方法。特別值得注意的是,即使在極高的幀數設置下(比如256幀),DIG仍然能夠保持穩定的性能提升,而其他方法的性能往往會開始下降。

      在MLVU數據集上,使用32幀設置時,DIG在Qwen2.5-VL-7B模型上實現了7.68%的性能提升,在LongVideoBench上實現了4.51%的提升。這些提升在人工智能領域已經是相當顯著的進步。更重要的是,DIG展現出了優秀的可擴展性,當輸入幀數增加到256幀時,性能提升變得更加明顯。

      研究團隊還進行了詳細的消融實驗來驗證各個組件的作用。結果顯示,CAFS方法在選擇代表幀方面明顯優于傳統的均勻采樣,特別是對于較長的視頻,這種優勢更加明顯。這是因為長視頻中的信息密度分布往往是不均勻的,簡單的均勻采樣可能會錯過重要信息或包含太多冗余內容。

      在獎勵分配方面,使用大型多模態模型進行相關性評估比傳統的CLIPScore方法表現更好。這個發現很有意義,因為它表明,更強大的模型不僅能夠提供更好的最終推理能力,也能夠提供更準確的中間判斷。這就像請一位專家既當顧問又當執行者一樣,能夠確保整個過程的質量。

      時間窗口長度的選擇也經過了仔細的優化。實驗顯示,窗口長度為2時效果最佳,這個設置在保證信息完整性和避免噪音引入之間找到了最佳平衡點。太小的窗口可能會丟失重要的上下文信息,而太大的窗口則可能引入不相關的干擾信息。

      從計算效率的角度來看,DIG雖然增加了一定的處理開銷,但這種開銷是合理的,特別是考慮到顯著的性能提升。與其他查詢感知方法相比,DIG的計算開銷要小得多。更重要的是,通過問題類型識別,系統能夠為全局問題選擇高效的均勻采樣策略,這樣就避免了不必要的計算浪費。

      這項研究的意義遠超技術本身。隨著視頻內容的爆發式增長,自動視頻理解技術變得越來越重要。無論是內容推薦、自動字幕生成、還是視頻搜索,都需要AI系統能夠準確理解視頻內容。DIG提供的這種問題感知的處理策略,為構建更智能、更高效的視頻理解系統奠定了重要基礎。

      研究團隊的工作還揭示了一個更深層的洞察:不同類型的任務可能需要完全不同的處理策略,而一刀切的方法往往不是最優解。這個思路不僅適用于視頻理解,也可能啟發其他多模態理解任務的研究。

      展望未來,這項技術可能會被廣泛應用到各種實際場景中。比如,在教育領域,AI助手可以更好地理解教學視頻的內容,為學生提供精準的知識點提取和問答服務。在娛樂領域,視頻平臺可以更準確地分析用戶觀看的內容,提供更個性化的推薦。在安防領域,監控系統可以更智能地識別和分析關鍵事件。

      總的來說,這項由清華大學和微軟聯合完成的研究為長視頻理解這一重要問題提供了一個既實用又高效的解決方案。通過巧妙地將問題分類和自適應處理相結合,DIG不僅提升了性能,還為未來的研究提供了新的思路。對于那些希望深入了解這項技術細節的讀者,可以通過論文編號arXiv:2512.04000v1查閱完整的研究論文。

      Q&A

      Q1:什么是DIG框架?

      A:DIG是清華大學和微軟開發的長視頻理解框架,它能根據問題類型自動選擇最合適的處理策略。對于需要整體理解的問題,它使用簡單高效的均勻采樣;對于需要關注特定片段的問題,它會智能選擇最相關的視頻幀來處理。

      Q2:DIG比現有方法好在哪里?

      A:DIG的最大優勢是能夠區分不同類型的問題并采用相應策略。實驗顯示,在32幀設置下,DIG在主要測試數據集上的性能提升達到4-7%,而且即使在256幀的高密度輸入下仍能保持穩定提升,這是其他方法難以做到的。

      Q3:這項技術有什么實際應用價值?

      A:DIG技術可以廣泛應用于視頻內容分析、自動字幕生成、視頻搜索和推薦系統等領域。它能讓AI更準確地理解長視頻內容,為教育、娛樂、安防等行業提供更智能的視頻處理能力,特別是在處理長時間視頻內容時效果顯著。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WOC!楊瀚森排在NBA聯盟第3...

      WOC!楊瀚森排在NBA聯盟第3...

      左右為籃
      2025-12-12 12:29:32
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      華人在國內的錢,想匯出來難了!

      華人在國內的錢,想匯出來難了!

      以希臘之名
      2025-12-09 18:10:47
      因中國游客減少,日本一溫泉12月損失超1800萬,現已停業

      因中國游客減少,日本一溫泉12月損失超1800萬,現已停業

      隨波蕩漾的漂流瓶
      2025-12-12 18:30:08
      解放軍進入臺海,美航母早已跑路,統一已成定局,鄭麗文開始追責

      解放軍進入臺海,美航母早已跑路,統一已成定局,鄭麗文開始追責

      朝子亥
      2025-12-12 12:00:03
      特朗普和克林頓等在列!美國民主黨陸續公開愛潑斯坦的相關照片!

      特朗普和克林頓等在列!美國民主黨陸續公開愛潑斯坦的相關照片!

      AI商業論
      2025-12-13 10:35:59
      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      葉青足球世界
      2025-12-10 21:18:51
      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      小魚愛魚樂
      2025-12-12 08:39:41
      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      新時代的兩性情感
      2025-12-03 12:59:07
      柬埔寨是世界最貧窮的國家之一,但統治該國的洪森家族卻富可敵國

      柬埔寨是世界最貧窮的國家之一,但統治該國的洪森家族卻富可敵國

      大道無形我有型
      2025-09-05 11:31:52
      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      寒律
      2025-12-13 10:53:35
      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      好乒乓
      2025-12-13 11:27:55
      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      明月光
      2025-12-11 22:04:44
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      中國政府已經暫停大型粒子加速器計劃!

      中國政府已經暫停大型粒子加速器計劃!

      達文西看世界
      2025-12-11 17:05:23
      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      果殼
      2025-12-10 16:09:31
      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      查爾菲的筆記
      2025-12-10 18:11:47
      蘋果iOS 26.2正式版發布:負一屏終于不卡頓 動效Q彈絲滑

      蘋果iOS 26.2正式版發布:負一屏終于不卡頓 動效Q彈絲滑

      快科技
      2025-12-13 08:16:07
      2025-12-13 12:07:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      6531文章數 542關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應爭議,否認出軌贈送香水

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      游戲
      親子
      藝術
      時尚
      家居

      《生化危機9》里昂保時捷座駕車牌號竟藏匿彩蛋

      親子要聞

      打卡得能湖才懂為何家長繞道周末都要來(附上實用遛娃攻略)

      藝術要聞

      砸50億!從網紅小城到摩天地標!230米淄博第一高樓

      導演們,該有危機意識了!野生創作正在崛起

      家居要聞

      溫潤質感 打造干凈空間

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黑人大战欲求不满人妻| 最新A片| 免费观看在线A级毛片| 精品久久一区| 亚洲av第一页| 洋洋av| 国产精品成人观看视频国产奇米 | 午夜体验区| 无码18禁成人免费| 欧洲天堂网| 国产精品爽爽久久久久久| 欧美日韩精品久久久免费观看| 成人免费无遮挡无码黄漫视频| 人妻?无码?中出| 东乌珠穆沁旗| 欧美老熟妇喷水| 亚洲女同精品中文字幕| 日本人妻中文| 亚洲精品影院| 汝南县| 精品无码中文视频在线观看| 欧美 日韩 国产 成人 在线观看| 亚洲欧美日韩高清一区二区三区| 免费专区——色哟哟| 亚洲无码资源| 成人网站免费看黄a站视频| 国产女人高潮毛片| 久久国产亚洲精品无码| 丁香五月激情图片| 丝袜人妻66AV| 五月天黄色网| 人成午夜免费视频在线观看| 最新的国产成人精品2020| 亚洲熟女精品中文字幕m| 石棉县| 国产又色又爽无遮挡免费动态图| 2021国产在线视频| 国产在线精品熟女 | 久久久久厕拍| AV中文天堂| 猫咪www免费人成网站|