![]()
摘要 / 導語:在具身智能與視頻理解飛速發展的今天,如何讓 AI 真正 “看懂” 復雜的操作步驟?北京航空航天大學陸峰教授團隊聯合東京大學,提出視頻理解新框架。該工作引入了 “狀態(State)” 作為視覺錨點,解決了抽象文本指令與具象視頻之間的對齊難題,已被人工智能頂級會議 AAAI 2026 接收。
在當今的視頻理解和具身智能領域,教 AI 理解 “做菜” 或 “修理電器” 等程序性活動具有重要意義。然而,當這一需求遭遇現有的圖文對齊范式時,一個難以忽視的「語義鴻溝」(Semantic Gap)橫亙在研究者面前。
現有的程序性視頻學習方法面臨數據困境:要么依賴極其昂貴的時間密集型標注,難以擴展;要么利用 WikiHow 等外部知識庫進行弱監督學習,將視頻幀與 “任務(Task)” 或 “步驟(Step)” 的文本描述強行對齊。
但弱監督的方式仍然存在優化空間:抽象的語言描述與具體的視覺像素之間存在斷層。當文本指令是 “切橙子”(Cut oranges)時,視頻中呈現的是橙子從完整狀態到果肉外露的連續視覺形態變化,而非明確的動作過程。二者之間的不匹配導致模型難以準確識別和理解視頻所表達的實際過程。
為了解決這一問題,北京航空航天大學陸峰教授團隊,聯合東京大學黃逸飛博士推出了 TSS(Task-Step-State)框架。其核心洞見在于重構了過程性知識的層級結構:引入「狀態」(State)這一視覺接地層,并提出了一種漸進式 “層級展開”(Hierarchy Unfolding)的漸進式預訓練策略。
![]()
- 標題:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
- 作者:趙靜晗,黃逸飛,陸峰
- 機構:北京航空航天大學,東京大學
- 論文鏈接:https://arxiv.org/pdf/2511.20073
- 代碼倉庫:https://github.com/zhao-jinghan/TSS-unfolding
在傳統的弱監督訓練中,模型試圖直接建立視覺內容與 “任務” 或 “步驟” 描述的聯系。但在視頻中,“步驟” 往往是一個粗糙且抽象的動作過程,而視覺傳感器捕捉到的是物體視覺狀態的連續改變。這種「信息錯位」導致了現有方法的局限性。
TSS 核心架構:以「狀態」為錨點,層層遞進
TSS 框架創新性地提出了一種三層知識結構,巧妙地利用 “狀態” 填補了語義鴻溝。
![]()
傳統的 “任務 - 步驟” 二元結構過于抽象。TSS 利用大語言模型(LLM)生成了第三層語義 —— 狀態(State)。 TSS 將每個步驟擴展為一組狀態快照(Snapshot):
- 初始狀態:橙子是完整的,橙子和刀沒有接觸。
- 中間狀態:刀切入橙皮,橙子不再完整。
- 結束狀態:橙子果肉外露,變為切片。
我們可以把這理解為給 AI 配了一副 “顯微鏡”: 原本 AI 只能聽到模糊的指令 “切它”,現在 AI 能通過 TSS 框架清晰地看到物體屬性的具體變化。這些狀態描述是視覺可感知的(Visually-grounded),能夠直接作為錨點,將抽象的步驟鎖死在具體的視頻幀上。
![]()
擁有了三層結構后,如何訓練模型?TSS 摒棄了粗暴的 “混合訓練”,提出了一種符合認知規律的漸進式 “層級展開”(Hierarchy Unfolding)策略。
這不僅是一個訓練技巧,更是一種 “分析 - 綜合” 的哲學: 研究團隊設計了一條 Task → Step → State → Step → Task 的 U 型學習路徑。
- 向下扎根(Analysis): 從高層任務出發,一路向下學習,直到模型能精準識別最底層的 “狀態”。這迫使模型將注意力集中在具體的視覺證據上。
- 向上反哺(Synthesis): 在掌握了扎實的視覺細節后,模型帶著 “狀態” 的知識回歸高層,重新審視 “步驟” 和 “任務”。
這種雙向流動良好的利用了 TSS 框架內在的邏輯聯系,其中步驟是關鍵狀態的轉變,而一系列關鍵狀態則構成了總體的任務。
工程實現:基于大模型的「智能增強」
- 自動化生成:核心的 “狀態” 描述無需人工逐一標注,而是通過 GPT 等大模型基于現有 WikiHow 文本數據推理生成,極大降低了數據成本。
- 輕量化微調:訓練輕量級 Adapter 模塊,作為預訓練階段的高效擴展組件,提升模型表征能力。
實驗驗證:全面超越 SOTA
研究團隊在 COIN 和 CrossTask 數據集上進行了下游任務(任務識別,步驟識別,步驟預測)的測試。
實驗結果表明:
- 方法優越性: 該方法在 COIN 和 CrossTask 的三大下游任務上的性能均超越了基線模型(表 3)。
- 核心機制有效性:引入 “狀態” 層作為視覺錨點,并配合漸進式的預訓練策略,是提升模型程序性視頻理解能力的關鍵驅動力(表 2)。
![]()
![]()
為了探究 TSS 層級架構中最優的知識學習順序,并驗證底層 “狀態” 信息能否反向輔助高層語義的理解,作者設計了一組對比實驗(表 2)。
其中,各 Path 代表了不同的訓練路徑:
- Path 1:Task only
- Path 2:Task→Step
- Path 3:Task→Step→State
- Path 4:Task→Step→State→Task
- Path 5:Task→Step→State→Step
- Path 6:Task→Step→State→Task→Step
Task→Step→State 是自上而下的過程,而 Path-5 和 Path-6 構建了分析 - 綜合的閉環,在學習底層狀態后,繼續向上回溯。
如表 2 所示,對比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step),后者在各項指標上均有顯著提升。這證明了讓模型學習 “狀態”(即物體在動作前后的具體變化),可以反哺模型對 “步驟” 的理解,使特征表示更具視覺落地性(Visually-grounded)。
同時,Mix-Train(聯合訓練)的效果介于 Path-1 和 Path-2 之間(表 2),弱于該方法提出的 Path-5。這證明了 TSS 框架中的層級結構(任務 - 步驟 - 狀態)存在內在邏輯,通過漸進式引導,模型能更好地建立各層級間的關聯,而不是將其視為黑盒數據。
總結
在 AI Agent 需要執行復雜操作的背景下,僅僅 “聽懂指令” 是不夠的,必須 “看懂后果”。TSS 證明了,通過顯式地建模物體狀態變化,我們可以有效地彌合自然語言與物理世界之間的鴻溝。
這種 “以狀態為錨點,自底向上構建理解” 的思路,為未來構建既懂高層規劃、又能精準執行細節的智能系統提供了新的探索思路。目前,該論文代碼已開源,歡迎社區關注與試用。
作者介紹
- 趙靜晗:北京航空航天大學碩士研究生,研究方向為視頻理解等。
- 黃逸飛:東京大學博士后,研究方向為第一視角視頻、眼動、具身智能等。
- 陸峰:北京航空航天大學教授,研究方向為眼動、第一視角視頻、共身智能等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.