<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      深度學習驅(qū)動下的姿態(tài)估計、跟蹤與動作識別:技術(shù)進展與挑戰(zhàn)

      0
      分享至

      人體姿態(tài)分析正如一把鑰匙,正在解鎖人機交互的嶄新境界。從游戲玩家沉浸式體驗到智能安防無死角監(jiān)控,從運動員精準訓練到零售店鋪智能布局,這項技術(shù)正悄然改變我們的生活方式。隨著深度學習技術(shù)的飛速發(fā)展,姿態(tài)捕捉的精準度已達前所未有的高度,使基于姿態(tài)的應用從概念走向現(xiàn)實。本文將帶您深入探索這一領(lǐng)域的三大核心任務:姿態(tài)估計、姿態(tài)跟蹤和動作識別,揭示它們之間的內(nèi)在聯(lián)系,剖析各類方法的優(yōu)勢與局限,并展望未來發(fā)展方向,為您揭開人體姿態(tài)分析世界的神秘面紗。


      姿態(tài)解碼術(shù)

      姿態(tài)估計技術(shù)是計算機視覺領(lǐng)域中的一項關(guān)鍵任務,目標是從圖像或視頻中識別出人體關(guān)鍵點的位置。隨著深度學習的發(fā)展,這一技術(shù)已經(jīng)取得了顯著進步。目前,姿態(tài)估計方法主要分為二維和三維兩大類,而每一類又可以根據(jù)處理對象分為單人和多人姿態(tài)估計。

      在二維單人姿態(tài)估計中,有兩種主流方法:基于回歸和基于熱圖的方法。基于回歸的方法直接從圖像特征預測關(guān)鍵點坐標,代表作品DeepPose將姿態(tài)估計定義為卷積神經(jīng)網(wǎng)絡(luò)回歸任務,通過級聯(lián)回歸器逐步優(yōu)化姿態(tài)估計結(jié)果。這種方法具有速度快的優(yōu)勢,但在精度上常常不如基于熱圖的方法。

      基于熱圖的方法則先生成熱圖,再基于熱圖推斷關(guān)鍵點位置。Stacked Hourglass Network(SHN)通過一系列的下采樣和上采樣步驟,生成最終的預測結(jié)果,顯示出極高的有效性。這類方法可以明確學習空間信息,生成熱圖概率,從而實現(xiàn)更高的精度。不過,它們也面臨著量化誤差問題,這是由將連續(xù)坐標值映射到離散下采樣熱圖而導致的。

      隨著技術(shù)的進步,一些研究者嘗試結(jié)合兩種方法的優(yōu)勢。例如,DistilPose提出通過令牌蒸餾編碼器和模擬熱圖,將基于熱圖的知識從教師模型轉(zhuǎn)移到基于回歸的學生模型。

      當我們將目光轉(zhuǎn)向多人姿態(tài)估計時,問題變得更加復雜。多人姿態(tài)估計必須處理全局(人類級別)和局部(關(guān)鍵點級別)依賴關(guān)系,涉及不同級別的語義粒度。主流解決方案包括自上而下和自下而上兩種框架,以及近年來興起的一階段方法。

      自上而下的方法先檢測圖像中的所有人,再對每個檢測到的邊界框應用單人姿態(tài)估計技術(shù)。這種方法直接利用現(xiàn)有的單人姿態(tài)估計技術(shù),但如果人物檢測器失敗,就很難恢復。此外,運行時間與圖像中的人數(shù)成正比,人越多,計算成本越高。

      相比之下,自下而上的方法先檢測所有身體部位或關(guān)鍵點,再將它們與相應的主體關(guān)聯(lián)。OpenPose通過部位親和力場(PAFs)首次提出自下而上的關(guān)聯(lián)分數(shù)表示,這是一組2D向量場,編碼肢體在圖像域上的位置和方向。這種方法在早期承諾方面更加穩(wěn)健,并有可能將運行時間復雜度與圖像中的人數(shù)解耦。但它們不直接利用來自其他身體部位和個人的全局上下文線索。

      一階段方法則旨在開發(fā)完全端到端的方法,統(tǒng)一兩個分離的子問題。通過消除自上而下和自下而上方法引入的中間操作(如分組、ROI、邊界框檢測、NMS),一階段方法繞過了兩種方法的主要缺點。GroupPose只使用簡單的transformer解碼器,追求效率,而ED-pose通過實現(xiàn)每個框檢測用一個解碼器并將它們級聯(lián)形成端到端框架,使模型收斂更快,更精確且可擴展。


      當我們從圖像擴展到視頻序列時,就涉及到視頻中的姿態(tài)估計。這比圖像中的姿態(tài)估計更具挑戰(zhàn)性,因為人體姿態(tài)和前景外觀(如服裝和自遮擋)變化很大。基于處理效率的考慮,視頻中的單人姿態(tài)估計方法可分為逐幀方法和基于抽樣幀的方法。

      逐幀方法專注于為視頻序列中的每一幀單獨估計姿態(tài),通常通過融合來自連接的連續(xù)幀、應用3D時間卷積、使用密集光流和姿態(tài)傳播來捕獲時間信息。雖然它們可以從基于圖像的姿態(tài)估計中受益,但計算復雜度較高。

      基于抽樣幀的方法則旨在根據(jù)從選定幀估計的姿態(tài)恢復所有姿態(tài)。例如,DeciWatch提出了一種新的"采樣-去噪-恢復"管道,統(tǒng)一采樣不到10%的視頻幀進行估計?;诓蓸訋烙嫷淖藨B(tài)通過Transformer架構(gòu)去噪,其余姿態(tài)也通過另一個Transformer網(wǎng)絡(luò)恢復。雖然這種方法提高了效率,但也引發(fā)了如何獲取樣本幀和恢復姿態(tài)的問題。

      在三維姿態(tài)估計方面,技術(shù)路線可分為一階段和兩階段方法。一階段方法直接從圖像推斷3D姿態(tài),不估計2D姿態(tài)表示。兩階段方法則先估計2D姿態(tài),再將2D姿態(tài)提升到3D姿態(tài)。由于2D姿態(tài)檢測的可靠性,兩階段方法通常優(yōu)于一階段方法。

      對于圖像中的3D多人姿態(tài)估計,同樣存在自上而下、自下而上和一階段三種方法。自上而下的方法依賴可靠的人物檢測和單人方法,但計算成本隨人數(shù)增加而增加,且忽略了人際關(guān)系度量。自下而上的方法享有線性計算的優(yōu)勢,但對人類尺度變化敏感。因此,一階段方法在3D圖像/視頻中的多人姿態(tài)估計中更受青睞。

      軌跡追蹤法

      姿態(tài)跟蹤旨在從視頻中估計人體姿態(tài)并跨幀鏈接這些姿態(tài)以獲得多個跟蹤器。它與基于視頻的姿態(tài)估計相關(guān),但需要捕獲跨幀估計姿態(tài)的關(guān)聯(lián),這與基于視頻的姿態(tài)估計不同。使用前面介紹過的姿態(tài)估計方法,姿態(tài)跟蹤的主要任務變成了姿態(tài)鏈接。姿態(tài)鏈接的基本問題是測量相鄰幀中姿態(tài)對之間的相似性,這通?;跁r間信息(如光流、時間平滑先驗)和圖像中的外觀信息來測量。

      當談到單人姿態(tài)跟蹤時,方法可分為后處理方法和集成方法。后處理方法單獨估計每一幀的姿態(tài),然后對不同幀的估計姿態(tài)進行相關(guān)性分析,以減少不一致并生成平滑結(jié)果。趙等人提出了一種迭代方法,結(jié)合了馬爾可夫模型,包含兩個子模型分別用于空間解析和時間解析。空間解析用于估計一幀中的候選人體姿態(tài),而時間解析確定隨時間變化最可能的姿態(tài)部位位置。

      集成方法則在單一框架內(nèi)統(tǒng)一姿態(tài)估計和視覺跟蹤。視覺跟蹤確保姿態(tài)的時間一致性,而姿態(tài)估計增強了被跟蹤身體部位的準確性。通過結(jié)合視覺跟蹤和姿態(tài)估計的優(yōu)勢,集成方法實現(xiàn)了更好的結(jié)果。趙等人提出的兩步迭代方法將姿態(tài)估計和視覺跟蹤結(jié)合到一個統(tǒng)一框架中,相互補償:姿態(tài)估計提高視覺跟蹤的準確性,視覺跟蹤結(jié)果促進姿態(tài)估計。兩個步驟交替進行以獲得最終姿態(tài)。

      與單人姿態(tài)跟蹤不同,多人姿態(tài)跟蹤涉及人際互動的測量,這會給跟蹤過程帶來挑戰(zhàn)。跟蹤人數(shù)未知,人際互動可能導致遮擋和重疊。與多人姿態(tài)估計類似,現(xiàn)有方法可分為自上而下和自下而上兩類。


      自上而下的方法首先檢測幀中人體的整體位置和邊界框,然后估計每個人的關(guān)鍵點。最后,估計的人體姿態(tài)根據(jù)不同幀中姿態(tài)之間的相似性進行關(guān)聯(lián)。Girdhar等人提出了一種兩階段方法,用于估計和跟蹤復雜多人視頻中的人體關(guān)鍵點。該方法利用Mask R-CNN進行幀級姿態(tài)估計,檢測人物管并在預測的管中估計關(guān)鍵點,然后執(zhí)行人物級跟蹤模塊,使用輕量級優(yōu)化連接隨時間變化的估計關(guān)鍵點。

      自下而上的方法首先檢測人體關(guān)鍵點,然后將關(guān)鍵點分組到個體中。Iqbal等人提出了一種方法,在單一公式中聯(lián)合建模多人姿態(tài)估計和跟蹤。他們用時空圖表示視頻中檢測到的身體關(guān)節(jié),通過求解整數(shù)線性規(guī)劃將圖劃分為子圖,對應于每個人體姿態(tài)的可能軌跡。

      當前,自上而下的方法在準確性和跟蹤速度上都優(yōu)于自下而上的方法,因此大多數(shù)最先進的方法都遵循自上而下的方法。這主要是因為自上而下的方法通過將復雜任務簡化并改善關(guān)鍵點分配的準確性,增強了單幀姿態(tài)估計,盡管當人類候選者數(shù)量很大時可能會增加計算成本。

      在三維姿態(tài)跟蹤方面,方法可分為多階段和一階段方法。多階段方法通常涉及2D/3D姿態(tài)估計、從2D到3D姿態(tài)的提升和3D姿態(tài)鏈接等多個步驟。這些任務被視為獨立的子任務。例如,Bridgeman等人進行了獨立的2D姿態(tài)檢測,并通過快速貪婪算法關(guān)聯(lián)不同相機視圖之間的2D姿態(tài)檢測。然后使用關(guān)聯(lián)的姿態(tài)生成并跟蹤3D姿態(tài)。

      一階段方法則旨在訓練單一端到端框架,聯(lián)合估計和鏈接3D姿態(tài),這可以將多階段方法中子任務的錯誤傳播回視頻輸入圖像像素。例如,Reddy等人引入了Tessetrack,在單一可學習的端到端框架中聯(lián)合推斷空間和時間中的3D姿態(tài)重建和關(guān)聯(lián)。VoxelTrack引入了一種考慮遮擋的多視圖特征融合策略來鏈接姿態(tài),它聯(lián)合估計并從多視圖圖像構(gòu)建的基于3D體素的表示中跟蹤3D姿態(tài)。沒有遮擋的情況下,基于來自不同視圖的融合表示,通過二分圖匹配鏈接姿態(tài)。

      雖然兩種方法在3D多人姿態(tài)跟蹤上都取得了良好的性能,但第一種方法獨立解決每個子問題會導致性能下降。2D姿態(tài)估計容易受到噪聲的影響,特別是在存在遮擋的情況下;3D估計的準確性取決于2D估計和所有視圖的關(guān)聯(lián);遮擋引起的不可靠外觀特征影響3D姿態(tài)跟蹤的準確性。因此,近年來第二種方法在3D多人姿態(tài)跟蹤中變得更加突出。

      總體來看,姿態(tài)估計和跟蹤技術(shù)通過深度學習取得了顯著進步。自上而下和自下而上的方法各有優(yōu)缺點,而一階段端到端方法則提供了更加統(tǒng)一的解決方案,避免了中間步驟帶來的誤差傳播。隨著視頻序列中三維多人姿態(tài)估計技術(shù)的發(fā)展,我們能夠更加準確地捕捉人體動作,為各種應用場景提供可靠的技術(shù)支持。


      動作解讀術(shù)

      基于姿態(tài)的動作識別是計算機視覺領(lǐng)域的重要研究方向,它致力于從人體姿態(tài)信息中識別出人的行為動作類型。這項技術(shù)可以分為兩大類:基于估計姿態(tài)的動作識別和基于骨架的動作識別。前者使用RGB視頻作為輸入,利用從中估計出的姿態(tài)進行動作分類;后者則直接使用骨架數(shù)據(jù)作為輸入,這些骨架數(shù)據(jù)通常由動作捕捉設(shè)備、飛行時間相機或結(jié)構(gòu)光相機等傳感器獲取。

      在基于估計姿態(tài)的動作識別中,有些方法采用兩階段策略,即先使用現(xiàn)有的姿態(tài)估計方法從視頻中生成姿態(tài),再利用姿態(tài)特征進行動作識別。P-CNN就是一個典型案例,它提取受人體姿態(tài)調(diào)節(jié)的外觀和光流特征用于動作識別。Mohammadreza團隊則設(shè)計了一個身體部位分割網(wǎng)絡(luò)來生成姿態(tài),然后將其應用到多流3D-CNN中,整合姿態(tài)、光流和RGB視覺信息進行動作識別。

      為了避免依賴姿態(tài)估計圖中不準確的姿態(tài),劉團隊將姿態(tài)估計圖聚合成姿態(tài)和熱圖,然后對它們進行演化以實現(xiàn)動作識別。Moon團隊提出了一種算法,整合外觀和預估計的姿態(tài)信息進行動作識別。Shah團隊設(shè)計了關(guān)節(jié)運動推理網(wǎng)絡(luò)(JMRN),通過在每個視頻幀上運行姿態(tài)檢測器后生成的姿態(tài),更好地捕捉關(guān)節(jié)間的依賴關(guān)系。

      這類方法將姿態(tài)估計和動作識別視為兩個獨立的任務,因此動作識別性能可能受到不準確姿態(tài)估計的影響。Duan團隊提出了PoseConv3D,通過現(xiàn)有姿態(tài)估計器估計2D姿態(tài)并沿時間維度堆疊2D熱圖形成3D熱圖體積,然后通過3D CNN對這些熱圖進行分類識別動作。Sato團隊則提出了一種用戶提示引導的零樣本學習方法,基于目標域無關(guān)的關(guān)節(jié)特征,這些關(guān)節(jié)特征由現(xiàn)有的多人姿態(tài)估計技術(shù)預先提取。

      另一種思路是聯(lián)合解決姿態(tài)估計和動作識別任務。Luvizon團隊提出了一個多任務CNN,基于外觀和姿態(tài)特征聯(lián)合進行靜態(tài)圖像的姿態(tài)估計和視頻序列的動作識別??紤]到姿態(tài)估計和動作識別任務的不同輸出格式,F(xiàn)oo團隊設(shè)計了統(tǒng)一姿態(tài)序列(UPS)多任務模型,將基于文本的動作標簽和基于坐標的姿態(tài)構(gòu)建成異構(gòu)輸出格式,以同時處理這兩個任務。

      相比之下,基于骨架的動作識別直接利用骨架數(shù)據(jù)作為輸入,這種數(shù)據(jù)對光照變化具有魯棒性,且不受相機位置和主體外觀的影響。隨著深度學習技術(shù)的發(fā)展,基于骨架的動作識別已經(jīng)從手工特征轉(zhuǎn)向了基于深度學習的特征?;诓煌纳疃葘W習網(wǎng)絡(luò),這類方法可以分為基于CNN、基于RNN、基于GCN和基于Transformer的方法。

      基于CNN的方法在骨架序列中更好地捕捉空間信息。它們通常先將骨架序列轉(zhuǎn)換為偽圖像,其中骨架序列的時空信息被嵌入到顏色和紋理中。Du團隊將關(guān)節(jié)點的笛卡爾坐標映射到RGB坐標,然后將骨架序列量化為圖像用于特征提取和動作識別。為了減少透視變換導致的關(guān)節(jié)間遮擋,一些研究者提出將骨架序列的時空信息編碼成三個正交的彩色紋理圖像。


      基于RNN的網(wǎng)絡(luò)通常用于處理時間序列數(shù)據(jù),有效捕捉骨架序列中的時間信息。除了時間信息,空間信息是動作識別的另一個重要線索,但可能被RNN相關(guān)網(wǎng)絡(luò)忽略。一些方法通過人體的空間劃分解決這個問題。Du團隊提出了層次化RNN,處理五個身體部位的骨架序列進行動作識別。Shahroudy團隊提出了部分感知LSTM(P-LSTM),分別建模身體部位的骨架序列,并基于記憶單元的串聯(lián)進行動作分類。

      為了更好地關(guān)注骨架數(shù)據(jù)中的關(guān)鍵空間信息,一些方法傾向于引入注意力機制。Song團隊提出了使用LSTM的時空注意模型,包括自適應選擇每幀中關(guān)鍵關(guān)節(jié)的空間注意模塊和選擇骨架序列中關(guān)鍵幀的時間注意模塊。類似地,Liu團隊提出了循環(huán)注意機制,迭代增強注意力的表現(xiàn),以關(guān)注關(guān)鍵關(guān)節(jié)。

      基于GCN的方法在骨架動作識別中越來越受歡迎,因為人體骨架天然就是一種圖結(jié)構(gòu)。與基于CNN和RNN的方法相比,基于GCN的方法能更好地捕捉骨架序列中關(guān)節(jié)之間的關(guān)系。根據(jù)拓撲(即頂點連接關(guān)系)是否在推理過程中動態(tài)調(diào)整,基于GCN的方法可以分為靜態(tài)方法和動態(tài)方法。

      靜態(tài)方法中,GCN的拓撲在推理過程中保持固定。例如,早期應用圖卷積的空間時間GCN(ST-GCN)基于人體結(jié)構(gòu)預定義并固定拓撲。Liu團隊則提出了多尺度圖拓撲應用于GCN,用于建模多范圍關(guān)節(jié)關(guān)系。

      動態(tài)方法中,GCN的拓撲在推理過程中動態(tài)推斷。動作結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(AS-GCN)應用A鏈接推斷模塊捕捉特定動作的相關(guān)性。雙流自適應GCN(2s-AGCN)和語義引導網(wǎng)絡(luò)(SGN)通過自注意機制增強拓撲學習,建模兩個關(guān)節(jié)之間的相關(guān)性。雖然拓撲動態(tài)建模有利于推斷關(guān)節(jié)的內(nèi)在關(guān)系,但可能難以編碼動作的上下文,因為捕獲的拓撲獨立于姿態(tài)。因此,一些方法專注于上下文相關(guān)的內(nèi)在拓撲建模。在動態(tài)GCN中,所有關(guān)節(jié)的上下文特征被整合以學習關(guān)節(jié)之間的關(guān)系。通道拓撲優(yōu)化GCN(CTR-GCN)專注于在不同通道中嵌入關(guān)節(jié)拓撲,而InfoGCN通過信息瓶頸引入基于注意力的圖卷積,基于學習到的潛在表示捕捉上下文相關(guān)的拓撲。

      與GCN方法相比,基于Transformer的方法能夠快速獲取全局拓撲信息,增強非物理關(guān)節(jié)之間的相關(guān)性。主要有三類方法:純Transformer、混合Transformer和無監(jiān)督Transformer。

      純Transformer方法使用標準Transformer學習空間和時間特征??臻gTransformer和時間Transformer通?;趩瘟骰螂p流網(wǎng)絡(luò)交替或一起應用。DSTA-Net提出將數(shù)據(jù)解耦為空間和時間維度,其中空間和時間流分別包含與運動無關(guān)和與運動相關(guān)的特征。該網(wǎng)絡(luò)提出了解耦的時空注意網(wǎng)絡(luò),基于注意力模塊順序編碼兩個流。這允許在不了解關(guān)節(jié)位置或相互連接的情況下建模關(guān)節(jié)之間的時空依賴關(guān)系。

      混合Transformer方法將Transformer與GCN和CNN集成,以獲得更好的特征提取,這有利于利用不同網(wǎng)絡(luò)的優(yōu)勢。ST-TR通過集成空間和時間Transformer與時間卷積網(wǎng)絡(luò)和GCN,提出了雙流時空Transformer網(wǎng)絡(luò)。STTFormer包括時空元組自注意模塊,用于捕捉連續(xù)幀中的關(guān)節(jié)關(guān)系,以及幀間特征聚合模塊,用于增強區(qū)分相似動作的能力。類似于ST-TR,幀間特征聚合模塊應用TCN聚合子動作的特征。3Mformer通過應用高階Transformer處理骨架數(shù)據(jù)的超圖,以更好地捕捉身體關(guān)節(jié)之間的高階運動模式。

      要提高特征的泛化能力,一些方法專注于基于Transformer的無監(jiān)督或自監(jiān)督動作識別,這在捕捉全局上下文和局部關(guān)節(jié)動態(tài)方面表現(xiàn)出色。這些方法通常應用對比學習或編碼器-解碼器架構(gòu)學習更好的動作表示。GL-Transformer設(shè)計了全局和局部注意機制,學習骨架序列的局部關(guān)節(jié)運動變化和全局上下文信息。使用運動序列表示,根據(jù)時間軸上的平均池化對動作進行分類。HaLP模塊通過生成幻覺潛在正樣本進行自監(jiān)督學習,基于對比學習。

      挑戰(zhàn)與未來

      盡管在姿態(tài)估計、跟蹤和動作識別領(lǐng)域取得了顯著成功,但仍存在一些挑戰(zhàn)和相應的研究方向,以推動這三個任務的進一步發(fā)展。

      對于姿態(tài)估計任務,主要面臨五大挑戰(zhàn)。首先是遮擋問題,當前方法在公共數(shù)據(jù)集上表現(xiàn)出色,但在遮擋場景中性能顯著下降。人物檢測器在自上而下的方法中可能難以識別重疊人體的邊界,而在自下而下的方法中,遮擋場景的身體部位關(guān)聯(lián)可能失敗。在擁擠場景中的相互遮擋導致當前3D人體姿態(tài)估計方法性能大幅下降。解決遮擋問題的一種方法是基于多視圖學習,因為在一個視角中被遮擋的部分可能在其他視角中可見。不過,這些方法通常需要大量內(nèi)存和昂貴的計算成本,特別是對于多視圖下的3D多人姿態(tài)估計。


      低分辨率也是一個挑戰(zhàn)。在實際應用中,由于廣角相機、遠距離拍攝設(shè)備等原因,往往會捕獲到低分辨率的圖像或視頻。環(huán)境陰影也會導致人物模糊。當前方法通常在高分辨率輸入上訓練,應用于低分辨率輸入時可能導致準確率低。解決低分辨率輸入姿態(tài)估計的一種方法是通過應用超分辨率方法作為圖像預處理來恢復圖像分辨率。但超分辨率的優(yōu)化并不一定有利于高級人體姿態(tài)分析。

      計算復雜性是另一個重要挑戰(zhàn)。許多方法已經(jīng)被提出來解決計算復雜性問題。例如,用于圖像中多人姿態(tài)估計的一階段方法可以節(jié)省中間步驟引起的時間增加?;跇颖編姆椒梢詼p少處理每一幀的復雜性。但這類一階段方法可能在提高效率的同時犧牲準確性。基于樣本幀的方法需要三個步驟來估計姿態(tài),這仍然會導致更多的時間消耗。因此,結(jié)合基于樣本幀方法的端到端網(wǎng)絡(luò)對于基于視頻的姿態(tài)估計更為可取。

      基于Transformer的架構(gòu)在基于視頻的3D姿態(tài)估計中不可避免地會帶來高計算成本。這是因為它們通常將每個視頻幀視為一個姿態(tài)標記,并應用極長的視頻幀來實現(xiàn)高級性能。例如,Strided和Mhformer需要351幀,而MixSTE和DSTformer需要243幀。自注意力復雜度隨標記數(shù)量的平方增加。盡管直接減少幀數(shù)可以降低成本,但由于時間感受野較小,可能導致性能下降。因此,在保持大型時間感受野的同時設(shè)計高效架構(gòu)更為可取。考慮到在深層Transformer塊中可能存在相似的標記,一種潛在的解決方案是裁剪姿態(tài)標記以提高效率。


      此外,當前公共數(shù)據(jù)集對非常規(guī)姿態(tài)(如跌倒)的訓練數(shù)據(jù)有限,這導致模型偏差和對此類姿態(tài)的準確性降低。對非常規(guī)姿態(tài)的數(shù)據(jù)增強是生成具有更多多樣性的新樣本的常用方法?;趦?yōu)化的方法可以通過逐案估計姿態(tài)而不是學習來減輕域間差距的影響。因此,將優(yōu)化技術(shù)與深度學習方法相結(jié)合可能有助于非常規(guī)姿態(tài)估計。

      最后,從2D姿態(tài)預測3D姿態(tài)需要處理由深度歧義和潛在遮擋引起的不確定性和不確定性。然而,大多數(shù)現(xiàn)有方法屬于確定性方法,旨在從圖像構(gòu)建單一且明確的3D姿態(tài)。因此,如何處理姿態(tài)的不確定性和不確定性仍然是一個開放性問題。借鑒擴散模型在生成具有高不確定性的樣本方面的強大能力,應用擴散模型是姿態(tài)估計的一個有前景的方向。

      在姿態(tài)跟蹤方面,大多數(shù)方法遵循姿態(tài)估計和鏈接策略,姿態(tài)跟蹤性能高度依賴于姿態(tài)估計的結(jié)果。因此,姿態(tài)估計中的一些挑戰(zhàn)也存在于姿態(tài)跟蹤中,如遮擋。多視圖特征融合是消除由遮擋引起的不可靠外觀以改善姿態(tài)鏈接結(jié)果的一種方法。鏈接每個檢測框而不是僅鏈接高分數(shù)檢測框是另一種通過遮擋補償不可忽視的真實姿態(tài)的方法。

      多相機環(huán)境下的多人姿態(tài)跟蹤是一個獨特的挑戰(zhàn),主要問題是如何融合不同視角的場景。雖然Voxteltrack傾向于融合多視圖特征,但這方面的研究還需要深入。如果來自非重疊相機的場景被融合并投影到虛擬世界中,則可以在長區(qū)域內(nèi)連續(xù)跟蹤姿態(tài)。

      相似外觀和多樣化動作也是一個難題。為了跨幀鏈接姿態(tài),通常的解決方案是基于外觀和動作測量相鄰幀中每對姿態(tài)之間的相似性。有時人們具有統(tǒng)一的外觀和多樣化的動作,如群體舞者和運動員。它們在外觀上高度相似,幾乎無法通過制服衣物區(qū)分,并且在復雜的動作和互動模式中難以識別。在這種情況下,測量相似性是具有挑戰(zhàn)性的。但這類具有相似外觀的姿態(tài)可以通過文本語義輕松區(qū)分。一種可能的解決方案是結(jié)合一些多模態(tài)預訓練模型,如對比語言-圖像預訓練(CLIP),基于它們的語義表示測量相似性。

      現(xiàn)有方法主要通過假設(shè)緩慢的相機運動來解決姿態(tài)跟蹤問題。但在實際應用中,具有自我相機捕捉的快速相機運動非常常見。如何在快速相機運動下解決以自我為中心的姿態(tài)跟蹤是一個具有挑戰(zhàn)性的問題。Khirodkar團隊提出了一個新的基準(EgoHumans)用于以自我為中心的姿態(tài)估計和跟蹤,并設(shè)計了一個多流Transformer來跟蹤多個人。實驗表明,由于相機同步和校準,靜態(tài)和動態(tài)捕獲系統(tǒng)的性能之間仍然存在差距。

      對于動作識別,隨著深度學習技術(shù)的快速發(fā)展,在大規(guī)模動作數(shù)據(jù)集上已經(jīng)取得了有希望的結(jié)果。但仍有一些開放性問題。計算復雜性是主要挑戰(zhàn)之一。根據(jù)不同方法的性能比較,集成Transformer和GCN的方法實現(xiàn)了最佳精度。然而,Transformer所需的計算和所需的內(nèi)存量隨著標記數(shù)量的增加而呈二次方增長。因此,如何從視頻幀或骨架中選擇重要標記是高效基于Transformer的動作識別的一個開放性問題。與基于Transformer的姿態(tài)估計類似,裁剪標記或丟棄輸入匹配傾向于降低成本。此外,集成輕量級GCN可以進一步提高效率。

      骨架上的零樣本學習也是一個挑戰(zhàn)。注釋和標記大量數(shù)據(jù)是昂貴的,在實際應用中需要零樣本學習?,F(xiàn)有的零樣本動作識別方法主要使用RGB數(shù)據(jù)作為輸入。然而,由于其對外觀和背景變化的魯棒性,骨架數(shù)據(jù)已成為RGB數(shù)據(jù)的有希望的替代品。因此,零樣本基于骨架的動作識別更加可取。少數(shù)方法被提出來學習骨架和類標簽詞嵌入之間的映射。類標簽可能比文本描述擁有更少的語義,文本描述是描述動作如何執(zhí)行的自然語言。未來,可以基于文本描述追求新方法,實現(xiàn)零樣本基于骨架的動作識別。


      多模態(tài)融合是另一個重要方向?;诠烙嬜藨B(tài)的方法將RGB數(shù)據(jù)作為輸入,并基于RGB和估計的骨架識別動作。此外,文本數(shù)據(jù)可以指導改善視覺上相似動作和零樣本學習的性能,這是動作識別的另一種模態(tài)。由于不同模態(tài)的異質(zhì)性,如何充分利用它們值得研究者進一步探索。雖然一些方法傾向于提出特定模型來融合不同模態(tài),但這種模型缺乏泛化性。未來,不考慮模型的通用融合方法是更好的選擇。

      最后,一個統(tǒng)一的模型對于解決姿態(tài)估計、姿態(tài)跟蹤和動作識別三個任務非常有前景。一些方法傾向于基于姿態(tài)估計或跟蹤的結(jié)果進行動作識別。數(shù)據(jù)進一步證明姿態(tài)估計和跟蹤可以提高動作識別性能。這些觀察強調(diào)了這三個任務緊密相關(guān),為設(shè)計統(tǒng)一模型解決三個任務提供了方向。最近,一個統(tǒng)一模型(UPS)已經(jīng)被提出用于3D基于視頻的姿態(tài)估計和基于估計姿態(tài)的動作識別,但它們的性能遠低于獨立模型的性能。因此,更多的統(tǒng)一模型適合聯(lián)合解決這三個任務。

      參考資料

      1. Zhou, L., Meng, X., Liu, Z., Wu, M., Gao, Z., &; Wang, P. (2023). Human Pose-based Estimation, Tracking and Action Recognition with Deep Learning: A Survey.

      2. Xu, B., et al. (2022). ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation.

      3. Rajasegaran, J., et al. (2023). Lagrangian Action Recognition with Tracking.

      4. Foo, C., et al. (2023). Unified Pose Sequence Multi-task Model for Joint Pose Estimation and Action Recognition.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      中組部明確:這八類人員列入公務員范圍!

      中組部明確:這八類人員列入公務員范圍!

      法律讀品
      2025-12-09 08:45:19
      英首相訪華計劃泡湯?中方直接掀桌子,順便還提醒了一下日本盟友

      英首相訪華計劃泡湯?中方直接掀桌子,順便還提醒了一下日本盟友

      近史談
      2025-12-12 03:31:43
      斯諾克最新戰(zhàn)報!中國晉級第12人誕生,劉宏宇KO名將,斯佳輝登場

      斯諾克最新戰(zhàn)報!中國晉級第12人誕生,劉宏宇KO名將,斯佳輝登場

      劉姚堯的文字城堡
      2025-12-12 06:16:08
      后妃侍寢規(guī)矩嚴:全程禁聲成鐵律,另有一條更羞恥卻不見史書記載

      后妃侍寢規(guī)矩嚴:全程禁聲成鐵律,另有一條更羞恥卻不見史書記載

      曉艾故事匯
      2025-12-09 17:00:16
      向馬英九學習!鄭麗文終于攤牌了,留給大陸僅剩下最后的一條路了

      向馬英九學習!鄭麗文終于攤牌了,留給大陸僅剩下最后的一條路了

      縱擁千千晚星
      2025-12-12 05:40:48
      五位中國男籃救兵!徐杰領(lǐng)銜,楊瀚森王俊杰在列,郭士強沒有退路

      五位中國男籃救兵!徐杰領(lǐng)銜,楊瀚森王俊杰在列,郭士強沒有退路

      多特體育說
      2025-12-11 23:17:09
      50歲男子心梗搶救無效,每天堅持快走,醫(yī)生表明:3個習慣要了命

      50歲男子心梗搶救無效,每天堅持快走,醫(yī)生表明:3個習慣要了命

      卡西莫多的故事
      2025-12-07 11:07:35
      40萬人連夜逃亡,洪森拿出了坑佩通坦的招數(shù),但泰國不會再上當

      40萬人連夜逃亡,洪森拿出了坑佩通坦的招數(shù),但泰國不會再上當

      呂璐說
      2025-12-10 19:04:39
      1.6億,重簽湖人!紫金軍找到建隊核心,但他離冠軍還有很長的路

      1.6億,重簽湖人!紫金軍找到建隊核心,但他離冠軍還有很長的路

      呆哥聊球
      2025-12-11 16:00:31
      老婆長得太漂亮丈夫不放心,稍微一打扮就緊張,網(wǎng)友:是得看著點

      老婆長得太漂亮丈夫不放心,稍微一打扮就緊張,網(wǎng)友:是得看著點

      梅子的小情緒
      2025-12-10 14:28:04
      小心被打劫,火箭伊森惹多隊眼紅,聯(lián)盟三隊或?qū)⒏邇r搶人

      小心被打劫,火箭伊森惹多隊眼紅,聯(lián)盟三隊或?qū)⒏邇r搶人

      拾叁懂球
      2025-12-11 23:07:18
      日本前大使山上信吾接受德媒采訪表示,中國不再是日本熟悉的中國

      日本前大使山上信吾接受德媒采訪表示,中國不再是日本熟悉的中國

      南權(quán)先生
      2025-12-11 16:04:24
      “超雄媽媽”火了,近親結(jié)婚狂罵學校,把富裕家庭作返貧了!

      “超雄媽媽”火了,近親結(jié)婚狂罵學校,把富裕家庭作返貧了!

      知曉科普
      2025-12-11 10:32:11
      泰國敢不敢滅了柬埔寨?行家一句話道破真相

      泰國敢不敢滅了柬埔寨?行家一句話道破真相

      南權(quán)先生
      2025-12-11 16:04:59
      知名品牌“男鞋廣告現(xiàn)黑絲小腿”,被質(zhì)疑擦邊營銷!產(chǎn)品已下架,客服回應

      知名品牌“男鞋廣告現(xiàn)黑絲小腿”,被質(zhì)疑擦邊營銷!產(chǎn)品已下架,客服回應

      上觀新聞
      2025-12-10 22:25:03
      4000萬粉絲網(wǎng)紅停播近一年后復播,稱癌癥復發(fā)后轉(zhuǎn)移,目前已恢復!這種癌并非是“幸福癌”,10%高危患者面臨生存挑戰(zhàn)

      4000萬粉絲網(wǎng)紅停播近一年后復播,稱癌癥復發(fā)后轉(zhuǎn)移,目前已恢復!這種癌并非是“幸福癌”,10%高?;颊呙媾R生存挑戰(zhàn)

      極目新聞
      2025-12-11 09:40:21
      用心險惡,澤連斯基:俄正向中國放棄部分主權(quán),幅度之大歷史罕見

      用心險惡,澤連斯基:俄正向中國放棄部分主權(quán),幅度之大歷史罕見

      書中自有顏如玉
      2025-12-12 00:12:29
      陳云明確表示,務必寫上我參加過遵義會議這一點,但要說清楚,我從沒在會議會址居住過

      陳云明確表示,務必寫上我參加過遵義會議這一點,但要說清楚,我從沒在會議會址居住過

      寄史言志
      2025-12-11 17:54:08
      當下該不該賣房?北京業(yè)主528萬虧損背后,樓市未來趨勢早已明確

      當下該不該賣房?北京業(yè)主528萬虧損背后,樓市未來趨勢早已明確

      流蘇晚晴
      2025-12-11 18:23:20
      日本大鬧聯(lián)合國:想廢掉中國出兵權(quán)!特朗普一招,把高市逼上絕路

      日本大鬧聯(lián)合國:想廢掉中國出兵權(quán)!特朗普一招,把高市逼上絕路

      來科點譜
      2025-12-11 09:02:57
      2025-12-12 07:03:00
      寄史言志 incentive-icons
      寄史言志
      作有深度的歷史解讀
      246文章數(shù) 1595關(guān)注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關(guān)鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節(jié)!

      財經(jīng)要聞

      明年經(jīng)濟工作怎么干 中央經(jīng)濟工作會議定調(diào)

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態(tài)度原創(chuàng)

      房產(chǎn)
      家居
      教育
      數(shù)碼
      藝術(shù)

      房產(chǎn)要聞

      成交量漲了!??谶@10個小區(qū),二手房最好賣!

      家居要聞

      歐式風格 純粹優(yōu)雅氣質(zhì)

      教育要聞

      5分鐘掌握函數(shù)積分三大方法!從此不再怕積分題

      數(shù)碼要聞

      華為Sound X獲HarmonyOS 6.0 Beta升級,新增AI搜歌等功能

      藝術(shù)要聞

      嶺南畫派畫雪

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 日韩av黄片| 四虎网址| 日韩十八不禁| 大兴区| 亚洲国产成人片在线观看无码| 国产偷v国产偷v亚洲高清| 夜夜操影院| 亚洲精品欧美二区三区中文字幕| 国产精品久久久久影院| 少妇又紧又色又爽又刺激视频| 精品玖玖| 欧美熟妇xxxxx| 国产乱码精品一区二区三区中文| 午夜免费福利小电影| 免费在线3A级| 亚洲AV日韩AV无码中出| 精品人伦一区二区三区蜜桃免费| 色8久久人人97超碰香蕉987| 播放熟女中文| 亚洲人妻在线视频| 成人亚洲国产精品一区不卡| AV无码免费不卡在线观看 | 日韩欧美的偷拍?一区二区| 巨胸爆乳美女露双奶头挤奶| 青青草原国产精品啪啪视频| 国产V片免费A片视频| 亚洲色一区二区| 亚洲自国产拍揄拍| 国产精品白浆在线观看免费 | 国产乱色国产精品播放视频| 又爽又黄又无遮挡的视频| 国产三级精品三级男人的天堂| 唐河县| 久久久久久久久熟女AV| 亚洲成人综合导航| 色噜噜狠狠成人综合| 欧美日本韩国亚洲| 亚洲色欲色欲大片www无码| 久久久免费精品re6| 熟妇人妻av无码一区二区三区 | 精品九九在线|