<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北航、東京大學填補AI「語義鴻溝」,如何找到「狀態」錨點?

      0
      分享至



      摘要 / 導語:在具身智能與視頻理解飛速發展的今天,如何讓 AI 真正 “看懂” 復雜的操作步驟?北京航空航天大學陸峰教授團隊聯合東京大學,提出視頻理解新框架。該工作引入了 “狀態(State)” 作為視覺錨點,解決了抽象文本指令與具象視頻之間的對齊難題,已被人工智能頂級會議 AAAI 2026 接收。

      在當今的視頻理解和具身智能領域,教 AI 理解 “做菜” 或 “修理電器” 等程序性活動具有重要意義。然而,當這一需求遭遇現有的圖文對齊范式時,一個難以忽視的「語義鴻溝」(Semantic Gap)橫亙在研究者面前。

      現有的程序性視頻學習方法面臨數據困境:要么依賴極其昂貴的時間密集型標注,難以擴展;要么利用 WikiHow 等外部知識庫進行弱監督學習,將視頻幀與 “任務(Task)” 或 “步驟(Step)” 的文本描述強行對齊。

      但弱監督的方式仍然存在優化空間:抽象的語言描述與具體的視覺像素之間存在斷層。當文本指令是 “切橙子”(Cut oranges)時,視頻中呈現的是橙子從完整狀態到果肉外露的連續視覺形態變化,而非明確的動作過程。二者之間的不匹配導致模型難以準確識別和理解視頻所表達的實際過程。

      為了解決這一問題,北京航空航天大學陸峰教授團隊,聯合東京大學黃逸飛博士推出了 TSS(Task-Step-State)框架。其核心洞見在于重構了過程性知識的層級結構:引入「狀態」(State)這一視覺接地層,并提出了一種漸進式 “層級展開”(Hierarchy Unfolding)的漸進式預訓練策略。



      • 標題:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
      • 作者:趙靜晗,黃逸飛,陸峰
      • 機構:北京航空航天大學,東京大學
      • 論文鏈接:https://arxiv.org/pdf/2511.20073
      • 代碼倉庫:https://github.com/zhao-jinghan/TSS-unfolding

      在傳統的弱監督訓練中,模型試圖直接建立視覺內容與 “任務” 或 “步驟” 描述的聯系。但在視頻中,“步驟” 往往是一個粗糙且抽象的動作過程,而視覺傳感器捕捉到的是物體視覺狀態的連續改變。這種「信息錯位」導致了現有方法的局限性。

      TSS 核心架構:以「狀態」為錨點,層層遞進

      TSS 框架創新性地提出了一種三層知識結構,巧妙地利用 “狀態” 填補了語義鴻溝。



      傳統的 “任務 - 步驟” 二元結構過于抽象。TSS 利用大語言模型(LLM)生成了第三層語義 —— 狀態(State)。 TSS 將每個步驟擴展為一組狀態快照(Snapshot):

      • 初始狀態:橙子是完整的,橙子和刀沒有接觸。
      • 中間狀態:刀切入橙皮,橙子不再完整。
      • 結束狀態:橙子果肉外露,變為切片。

      我們可以把這理解為給 AI 配了一副 “顯微鏡”: 原本 AI 只能聽到模糊的指令 “切它”,現在 AI 能通過 TSS 框架清晰地看到物體屬性的具體變化。這些狀態描述是視覺可感知的(Visually-grounded),能夠直接作為錨點,將抽象的步驟鎖死在具體的視頻幀上。



      擁有了三層結構后,如何訓練模型?TSS 摒棄了粗暴的 “混合訓練”,提出了一種符合認知規律的漸進式 “層級展開”(Hierarchy Unfolding)策略。

      這不僅是一個訓練技巧,更是一種 “分析 - 綜合” 的哲學: 研究團隊設計了一條 Task → Step → State → Step → Task 的 U 型學習路徑。

      • 向下扎根(Analysis): 從高層任務出發,一路向下學習,直到模型能精準識別最底層的 “狀態”。這迫使模型將注意力集中在具體的視覺證據上。
      • 向上反哺(Synthesis): 在掌握了扎實的視覺細節后,模型帶著 “狀態” 的知識回歸高層,重新審視 “步驟” 和 “任務”。

      這種雙向流動良好的利用了 TSS 框架內在的邏輯聯系,其中步驟是關鍵狀態的轉變,而一系列關鍵狀態則構成了總體的任務。

      工程實現:基于大模型的「智能增強」

      • 自動化生成:核心的 “狀態” 描述無需人工逐一標注,而是通過 GPT 等大模型基于現有 WikiHow 文本數據推理生成,極大降低了數據成本。
      • 輕量化微調:訓練輕量級 Adapter 模塊,作為預訓練階段的高效擴展組件,提升模型表征能力。

      實驗驗證:全面超越 SOTA

      研究團隊在 COIN 和 CrossTask 數據集上進行了下游任務(任務識別,步驟識別,步驟預測)的測試。

      實驗結果表明:

      • 方法優越性: 該方法在 COIN 和 CrossTask 的三大下游任務上的性能均超越了基線模型(表 3)。
      • 核心機制有效性:引入 “狀態” 層作為視覺錨點,并配合漸進式的預訓練策略,是提升模型程序性視頻理解能力的關鍵驅動力(表 2)。





      為了探究 TSS 層級架構中最優的知識學習順序,并驗證底層 “狀態” 信息能否反向輔助高層語義的理解,作者設計了一組對比實驗(表 2)。

      其中,各 Path 代表了不同的訓練路徑:

      • Path 1:Task only
      • Path 2:Task→Step
      • Path 3:Task→Step→State
      • Path 4:Task→Step→State→Task
      • Path 5:Task→Step→State→Step
      • Path 6:Task→Step→State→Task→Step

      Task→Step→State 是自上而下的過程,而 Path-5 和 Path-6 構建了分析 - 綜合的閉環,在學習底層狀態后,繼續向上回溯。

      如表 2 所示,對比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step),后者在各項指標上均有顯著提升。這證明了讓模型學習 “狀態”(即物體在動作前后的具體變化),可以反哺模型對 “步驟” 的理解,使特征表示更具視覺落地性(Visually-grounded)。

      同時,Mix-Train(聯合訓練)的效果介于 Path-1 和 Path-2 之間(表 2),弱于該方法提出的 Path-5。這證明了 TSS 框架中的層級結構(任務 - 步驟 - 狀態)存在內在邏輯,通過漸進式引導,模型能更好地建立各層級間的關聯,而不是將其視為黑盒數據。

      總結

      在 AI Agent 需要執行復雜操作的背景下,僅僅 “聽懂指令” 是不夠的,必須 “看懂后果”。TSS 證明了,通過顯式地建模物體狀態變化,我們可以有效地彌合自然語言與物理世界之間的鴻溝。

      這種 “以狀態為錨點,自底向上構建理解” 的思路,為未來構建既懂高層規劃、又能精準執行細節的智能系統提供了新的探索思路。目前,該論文代碼已開源,歡迎社區關注與試用。

      作者介紹

      • 趙靜晗:北京航空航天大學碩士研究生,研究方向為視頻理解等。
      • 黃逸飛:東京大學博士后,研究方向為第一視角視頻、眼動、具身智能等。
      • 陸峰:北京航空航天大學教授,研究方向為眼動、第一視角視頻、共身智能等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為何中國急需實施“休養生息”戰略?

      為何中國急需實施“休養生息”戰略?

      西虹市閑話
      2025-12-09 14:22:19
      87歲范曾喜得獨子后續:曝和兒女斷絕關系原因,還是范一夫聰明!

      87歲范曾喜得獨子后續:曝和兒女斷絕關系原因,還是范一夫聰明!

      古希臘掌管松餅的神
      2025-12-11 13:08:12
      贏麻了!徐萌讓87歲范曾當爹并斷絕女兒、繼子關系,打理全部產業

      贏麻了!徐萌讓87歲范曾當爹并斷絕女兒、繼子關系,打理全部產業

      火山詩話
      2025-12-11 13:27:15
      心理咨詢師鄭穎穎去世,年僅46歲未婚,死前遺言:希望公司倒閉

      心理咨詢師鄭穎穎去世,年僅46歲未婚,死前遺言:希望公司倒閉

      180視角
      2025-12-11 11:30:20
      真該退役了!本賽季令人失望的6大巨星,喬治上榜!第一沒有懸念

      真該退役了!本賽季令人失望的6大巨星,喬治上榜!第一沒有懸念

      籃球掃地僧
      2025-12-11 14:47:42
      訂1600元一晚的別墅套餐,還沒住進去,妻子摔骨折了

      訂1600元一晚的別墅套餐,還沒住進去,妻子摔骨折了

      瀟湘晨報
      2025-12-11 19:47:43
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      突傳噩耗!他在上海逝世,創立的“小扁擔精神”享譽中外,一生獲獎無數

      突傳噩耗!他在上海逝世,創立的“小扁擔精神”享譽中外,一生獲獎無數

      新民晚報
      2025-12-11 16:53:33
      關鍵時刻,特朗普、馬克龍、斯塔默、默茨通話

      關鍵時刻,特朗普、馬克龍、斯塔默、默茨通話

      極目新聞
      2025-12-11 15:18:16
      共度危機!皇馬4人公開力挺阿隆索:100%支持他 沒人放棄

      共度危機!皇馬4人公開力挺阿隆索:100%支持他 沒人放棄

      葉青足球世界
      2025-12-11 19:31:34
      41歲女演員郭碧婷回應與向佐分居兩地:不用嫁雞隨雞、嫁狗隨狗,他只用和孩子維持感情就好;坦言婆婆向太給了自己和孩子很多錢

      41歲女演員郭碧婷回應與向佐分居兩地:不用嫁雞隨雞、嫁狗隨狗,他只用和孩子維持感情就好;坦言婆婆向太給了自己和孩子很多錢

      極目新聞
      2025-12-11 17:04:37
      戰爭三年,給俄羅斯帶來了什么?俄軍的精銳部隊幾乎打光了……

      戰爭三年,給俄羅斯帶來了什么?俄軍的精銳部隊幾乎打光了……

      翻開歷史和現實
      2025-12-09 09:46:10
      蔣萬安鄭麗文再發聲,公開反對兩岸統一,兩岸關系或迎歷史性風險

      蔣萬安鄭麗文再發聲,公開反對兩岸統一,兩岸關系或迎歷史性風險

      南權先生
      2025-12-11 16:09:09
      貴州女老師趙慶梅被判死刑,全班22名男生受害,僅2人幸免

      貴州女老師趙慶梅被判死刑,全班22名男生受害,僅2人幸免

      瑾瑜聊情感
      2025-08-27 13:12:29
      一炮“送走”柬埔寨副司令,泰軍三軍壓境,不把洪森打服誓不罷休

      一炮“送走”柬埔寨副司令,泰軍三軍壓境,不把洪森打服誓不罷休

      大國知識局
      2025-12-10 22:21:12
      泰國發現情況不對,第三國勢力進場幫柬埔寨?泰軍用中文發表聲明

      泰國發現情況不對,第三國勢力進場幫柬埔寨?泰軍用中文發表聲明

      觸摸史跡
      2025-12-11 20:19:07
      官媒親宣,34歲韋東奕再破天花板,辦公室內景曝光,新水杯未開封

      官媒親宣,34歲韋東奕再破天花板,辦公室內景曝光,新水杯未開封

      烏娛子醬
      2025-12-11 16:37:45
      范曾87歲生子,打破了中國男性最高齡生育紀錄

      范曾87歲生子,打破了中國男性最高齡生育紀錄

      深度財線
      2025-12-11 15:52:54
      為什么校園問題越來越多?社會壓力 → 家庭失衡 → 情緒傳導 → 學校爆發

      為什么校園問題越來越多?社會壓力 → 家庭失衡 → 情緒傳導 → 學校爆發

      知識圈
      2025-12-11 18:45:23
      折價千萬賣房,東方雨虹頻頻“高買低賣”售房背后

      折價千萬賣房,東方雨虹頻頻“高買低賣”售房背后

      新京報
      2025-12-10 22:50:14
      2025-12-12 01:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11898文章數 142509關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      男子訂1600元一晚的別墅套餐 妻子摔骨折鋼板陪伴終生

      頭條要聞

      男子訂1600元一晚的別墅套餐 妻子摔骨折鋼板陪伴終生

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      游戲
      教育
      本地
      旅游
      家居

      KeSPA杯:T1打不過HLE,還打不過你NS?Scout對Faker處于下風

      教育要聞

      來上課了——完型填空與課內詞匯用法精講(三)第2段

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      旅游要聞

      第二十七屆哈爾濱冰雪大世界主塔封頂

      家居要聞

      歐式風格 純粹優雅氣質

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲激情一区二区三区视频| 吴川市| 夜夜欢视频| 久久精品亚洲日本波多野结衣| 青青草国产成人99久久| 精品国产乱码久久久久夜深人妻| 亚洲色欲久久久综合网东京热| 国产精品久久久久三级| 珲春市| 亚洲AV无码乱码在线观看性色| 国产精品中文| 97人人澡| 亚洲AV一卡| 国产精品自在自线视频| 在线日韩一区二区| 亚洲人妻无码一区| 夜夜撸日日干| 午夜剧场黄色| 天堂v亚洲国产v第一次| 亚洲成人无码AV| 亚洲成人www| 中文字字幕在线中文乱码| 廊坊市| 亚洲综合网国产精品一区| 92国产福利午夜757小视频| 91露脸| 国产成人AV| 久久久综合九色合综| 成人视频在线观看18| 四虎av| 兴仁县| 女人裸体性做爰视频| 亚洲qingse中文字幕久久| 女人AV天堂| 四虎亚洲无码| 婷婷久久久亚洲欧洲日产国码av| 亚洲av影院一区二区三区| 91大神视频破解版在线观看| 超碰热| 人人摸人人搞人人透| 久久波多野结衣av|