人體姿態(tài)估計中可靠不確定性量化的突破性方法

2025-05-18 01:18:08　來源: 臆說歷史

廣東舉報

分享至

在自動駕駛汽車和協(xié)作機器人的世界里，機器能夠準確判斷人體姿態(tài)并非易事，更難的是讓機器知道＂它不確定的程度＂。想象一輛自動駕駛汽車需要判斷行人是否將要橫穿馬路，或工業(yè)機器人需要確認工人的手臂位置以避免碰撞，如果估計錯誤，后果可能不堪設想。本文介紹了一項突破性研究，通過同時量化兩種關鍵不確定性——認知不確定性（數(shù)據(jù)本身的隨機性）和模型不確定性（模型對未知情況的把握程度），讓人工智能系統(tǒng)能夠＂知道它不知道什么＂。研究者發(fā)現(xiàn)，通過特別的校準技術，可以讓機器生成可靠的置信區(qū)間，在面對模糊圖像、遮擋或未知場景時做出更謹慎的判斷，這對于安全關鍵應用而言無異于一場靜默的革命。姿態(tài)識別的雙重挑戰(zhàn)

人體姿態(tài)估計技術，簡單來說就是讓計算機能夠從圖像或視頻中識別出人體各個關節(jié)點的位置。這項技術已經廣泛應用在自動駕駛、工業(yè)安全、人機交互等多個領域。想象一下，當一輛自動駕駛汽車在城市道路行駛時，需要實時判斷行人的動作意圖——是將要橫穿馬路還是只是站在路邊等待？又或者，一個協(xié)作機器人需要知道工人的手臂位置，以避免在工廠環(huán)境中發(fā)生碰撞事故。

在這些安全關鍵的場景中，人工智能系統(tǒng)不僅需要給出準確的姿態(tài)估計結果，更重要的是需要知道自己的估計有多可靠。2023年，布拉姆拉格等研究者在國際計算機視覺會議（ICCV）上提出了一個關鍵問題：如何讓機器不僅給出預測，還能準確表達對預測的確信程度？

這里面涉及兩種核心的不確定性。第一種是認知不確定性（aleatoric uncertainty），它來源于數(shù)據(jù)本身的隨機性，比如圖像模糊、低對比度或遮擋造成的信息丟失。這種不確定性即使收集再多的數(shù)據(jù)也無法消除。就像投擲一枚硬幣，即使你知道硬幣的一切物理特性，也無法百分百預測它會正面朝上還是反面朝上。

第二種是模型不確定性（epistemic uncertainty），它反映了模型對所處理數(shù)據(jù)的陌生程度。當模型遇到訓練中從未見過的場景時，這種不確定性就會增加。比如，一個在白天道路場景訓練的姿態(tài)估計模型，當遇到夜間或雨雪天氣的圖像時，會因為不熟悉而產生較高的模型不確定性。隨著更多樣本數(shù)據(jù)的收集和模型的更新，這種不確定性可以逐漸減少。

大多數(shù)現(xiàn)有的姿態(tài)估計方法只關注預測的準確性，卻忽略了不確定性的量化。這就好比一個氣象預報員總是自信滿滿地預測＂明天一定是晴天＂，而不是更謹慎地說＂明天有80%的概率是晴天＂。在安全關鍵應用中，這種過度自信可能導致災難性后果。

研究表明，目前主流的深度學習模型普遍存在＂過度自信＂問題。即使在面對模型完全不熟悉的場景，它們也會給出看似確定的預測，而沒有任何對不確定性的提示。在布拉姆拉格的研究中，他們發(fā)現(xiàn)即使是那些被設計用來表達不確定性的模型，其原始輸出也往往不夠可靠，需要額外的校準步驟。

一個典型的例子是，當一個人體姿態(tài)估計模型面對部分被遮擋的人體時，如果沒有不確定性量化機制，模型會＂裝作＂自己看到了被遮擋的關節(jié)，給出一個虛假的確定位置。而具備不確定性量化能力的模型則會表明：＂這個關節(jié)位置我不太確定，可能在這個區(qū)域范圍內＂，這對下游決策系統(tǒng)至關重要。

在2021年的一項研究中，研究人員測試了多種人體姿態(tài)估計模型在面對遮擋、模糊和域偏移（比如從室內場景到室外場景）時的表現(xiàn)。結果顯示，幾乎所有模型在這些挑戰(zhàn)條件下都會產生錯誤預測，但更嚴重的是，它們并沒有給出任何關于預測不可靠的警告信號。

雙重量化新方法

那么，如何讓人工智能系統(tǒng)同時量化這兩種不確定性呢？布拉姆拉格團隊提出了兩種方法進行比較：最大后驗估計（MAP）結合蒙特卡洛丟棄法，以及一種較新的方法——深度證據(jù)回歸（DER）。

最大后驗估計是一種被廣泛應用的方法。它不僅預測人體關節(jié)的位置，還預測與每個關節(jié)相關的方差。簡單來說，它讓神經網(wǎng)絡不僅輸出＂我認為手腕在這里＂，還輸出＂我對這個預測的不確定程度是多少＂。這個方差就代表了認知不確定性。

為了同時獲取模型不確定性，研究者使用了蒙特卡洛丟棄法。這聽起來很復雜，但基本原理很直觀：通過在神經網(wǎng)絡的多個層中隨機＂關閉＂一部分神經元，然后多次運行同一輸入，觀察輸出的變化程度。如果網(wǎng)絡對同一輸入給出的預測差異很大，說明模型對這類輸入的不確定性高。

研究團隊在實驗中，對模型的最后三層應用了50次隨機丟棄，并計算這些樣本的方差作為模型不確定性的度量。這就像讓50位略有不同訓練背景的專家看同一張圖片，然后觀察他們意見的分歧程度。分歧越大，模型不確定性越高。

另一種方法是深度證據(jù)回歸（DER），這是一種更為新穎的方法。DER的獨特之處在于它能夠在單次前向傳播中同時估計兩種不確定性，而不需要昂貴的多次采樣步驟。DER通過擬合正態(tài)逆伽瑪分布的參數(shù)來實現(xiàn)這一點。對于非專業(yè)人士來說，可以把它想象成這樣：DER不僅預測了關節(jié)位置的分布，還預測了這個分布本身的可靠性。

在數(shù)學上，DER輸出四個參數(shù)：μ（位置）、λ（精度）、α（形狀）和β（尺度）。從這四個參數(shù)中，可以計算出認知不確定性E[σ] = β/（α-1）和模型不確定性Var[μ] = β/λ（α-1）。雖然公式看起來復雜，但實際上，這讓模型能夠在一次計算中同時表達＂我認為答案是什么＂和＂我對自己的答案有多確定＂。

對于多變量的情況（比如同時考慮x、y、z三個坐標軸上的不確定性），兩種方法都有各自的擴展版本。多變量MAP方法通過估計精度矩陣的Cholesky分解來確保數(shù)值穩(wěn)定性。而多變量DER則使用正態(tài)-逆威沙特分布作為多變量高斯分布的共軛先驗。

在實際應用中，DER方法顯示出明顯的計算效率優(yōu)勢。由于不需要多次采樣，DER在訓練和推理過程中的速度比MAP快了約三倍。這對于需要實時處理的應用，如自動駕駛或工業(yè)安全監(jiān)控，具有重要意義。

研究者在多個數(shù)據(jù)集（包括MS-COCO、MPII、H36M和自創(chuàng)的SIM數(shù)據(jù)集）上測試了這兩種方法。結果表明，兩種方法在準確性方面表現(xiàn)相近，但DER在計算效率和不確定性估計的質量上略勝一籌。特別是在對模糊圖像、遮擋和域偏移這類常見挑戰(zhàn)的處理上，DER顯示出更符合直覺的不確定性估計。

具體來說，當研究者向圖像中添加人為遮擋（比如遮住手腕）時，DER能夠正確地增加被遮擋關節(jié)的認知不確定性估計，而模型不確定性的增加相對較小。這符合我們的直覺：遮擋導致的信息丟失主要影響認知不確定性，而非模型不確定性。

數(shù)字校準的藝術

當我們談論機器學習模型的不確定性預測時，有一個現(xiàn)實問題必須面對：大多數(shù)深度學習模型天生就是＂過度自信＂的。就像一個從未出過國的人信誓旦旦地描述巴黎的細節(jié)一樣，神經網(wǎng)絡往往會對自己不確定的事情給出看似確定的答案。布拉姆拉格團隊在2023年的研究中清晰地展示了這一點——無論是采用最大后驗估計（MAP）還是深度證據(jù)回歸（DER），模型輸出的原始不確定性估計都不夠可靠。

那么，什么是＂可靠＂的不確定性估計呢？以天氣預報為例，如果氣象局預測明天有70%的概率下雨，那么從長期來看，在所有預測為70%概率下雨的日子里，實際下雨的比例應該接近70%。這就是所謂的校準（calibration）。在人體姿態(tài)估計領域，如果模型說某個關節(jié)有90%的概率在特定區(qū)域內，那么實際上該關節(jié)應該有90%的時間確實落在這個區(qū)域內。

研究者發(fā)現(xiàn)，使用MAP和DER方法得到的直接不確定性估計往往不滿足這一標準。具體來說，對于一個完全校準的模型，當我們繪制預測的置信區(qū)間與實際經驗累積密度函數(shù)（CDF）的關系圖時，應該看到一條完美的對角線。但實際上，研究結果顯示原始的不確定性估計曲線明顯偏離了對角線，這表明模型的不確定性預測過度自信或過度保守。

為了解決這個問題，布拉姆拉格團隊采用了一種稱為等滲回歸（isotonic regression）的技術進行校準。這種方法非常直觀：它基于驗證數(shù)據(jù)集，找出模型預測的置信水平與實際觀察到的準確率之間的映射關系，然后使用這個映射關系來調整新數(shù)據(jù)的不確定性預測。

在實踐中，研究者創(chuàng)建了一個校準數(shù)據(jù)集，其中包含每個樣本的預測累積密度函數(shù)值和實際經驗累積密度函數(shù)值的對應關系。基于這個數(shù)據(jù)集，他們訓練了一個輔助的等滲回歸模型，該模型能夠將原始的置信區(qū)間映射到校準后的置信區(qū)間。

值得注意的是，校準分別針對每個關節(jié)和每個坐標維度進行，這確保了校準的精確性。實驗結果令人振奮：校準后，所有模型的期望校準誤差（ECE）顯著降低。例如，在MS-COCO數(shù)據(jù)集上，單變量DER模型的認知不確定性ECE從0.204降至0.025，而模型不確定性ECE從0.054降至0.006。類似的改進在其他數(shù)據(jù)集上也有體現(xiàn)。

校準后的置信區(qū)間不僅在數(shù)學上更加可靠，在實際應用中也更具解釋性。想象一個自動駕駛系統(tǒng)能夠準確地報告：＂我有95%的把握認為行人的右手在這個區(qū)域內＂，而不是給出一個看似精確但實際上可能完全錯誤的點估計。這種可靠的不確定性表達對于安全關鍵應用至關重要。

除了校準之外，研究者還評估了預測的不確定性與實際誤差之間的相關性。理想情況下，預測的不確定性應該與實際誤差成正比——當預測錯誤較大時，模型應該表現(xiàn)出較高的不確定性。在MS-COCO數(shù)據(jù)集上的實驗表明，單變量DER模型在認知不確定性方面展現(xiàn)出最強的相關性（0.87的皮爾遜相關系數(shù)），而多變量MAP模型在模型不確定性方面表現(xiàn)最佳（0.92的相關系數(shù)）。

這些相關性分數(shù)不僅超過了之前的研究成果，還證明了所提出的方法能夠有效地捕捉預測誤差與不確定性之間的關系。簡單來說，這意味著當模型＂不確定＂時，它通常確實是錯的，而當它＂確定＂時，它通常是對的。這種一致性對于構建可信的人工智能系統(tǒng)至關重要。

不確定性的真實考驗

證明模型能夠產生數(shù)學上可靠的不確定性估計是一回事，但在真實世界的復雜情況下驗證這些估計的合理性則是另一回事。為此，布拉姆拉格團隊設計了一系列實驗，專門挑戰(zhàn)模型在常見困難場景下的不確定性估計能力。考慮到DER方法的穩(wěn)定性和計算效率優(yōu)勢，他們將這些深入實驗集中在單變量DER模型上。

第一個實驗聚焦于標簽噪聲注入。在現(xiàn)實世界中，訓練數(shù)據(jù)的標簽往往存在誤差——人工標注者可能對關節(jié)位置有不同的判斷，或者標注工具本身可能存在精度限制。這種標簽噪聲是典型的認知不確定性來源，理論上應該主要影響模型的認知不確定性估計，而非模型不確定性估計。

為了測試這一點，研究者在自己創(chuàng)建的SIM數(shù)據(jù)集上進行了實驗。SIM數(shù)據(jù)集是一個模擬的街景數(shù)據(jù)集，包含11個攝像頭視角和3D掃描的人物，最重要的是，它具有一致的高質量標簽。研究者在這個基礎上添加了不同水平的高斯噪聲（標準差從0.0到0.5不等），然后使用這些帶噪聲的數(shù)據(jù)訓練DER模型。

實驗結果證實了研究者的假設：隨著添加標簽噪聲的增加，模型預測的認知不確定性顯著上升，而模型不確定性僅有輕微增加。具體來說，當標簽噪聲的標準差增加到0.5時，平均預測的認知方差增加了約5倍，而模型不確定性的增加不到1倍。這表明DER能夠正確地將標簽噪聲歸因于認知不確定性。

實驗還揭示了一個有趣的現(xiàn)象：在零噪聲情況下，模型仍然預測了少量的認知不確定性。這可以解釋為數(shù)字化過程中不可避免的少量誤差，比如當邊界框小于網(wǎng)絡輸入所需尺寸時進行上采樣造成的偽影。

第二個實驗專注于遮擋問題，這是人體姿態(tài)估計中最常見且最具挑戰(zhàn)性的情況之一。研究者在所有數(shù)據(jù)集的圖像上放置了人工遮擋物（白色、灰色和高斯模糊），遮擋物的大小從邊界框對角線的10%到50%不等。遮擋物主要放置在手腕關節(jié)上，但有時也會影響到其他關節(jié)。

這個實驗的結果非常直觀：隨著遮擋物尺寸的增加，被遮擋關節(jié)的預測認知不確定性也相應增加。當遮擋物尺寸達到邊界框對角線的50%時，預測的認知不確定性比無遮擋情況下高3-4倍。模型不確定性也有所增加，但增幅較小，且與認知不確定性的相對增長率相似。

這種模式在遮擋關節(jié)數(shù)量增加時也有類似表現(xiàn)。當多個關節(jié)被遮擋時，整體的認知和模型不確定性都有所增加，但以認知不確定性的增加更為顯著。這符合我們的直覺：遮擋導致的信息丟失主要是一個認知不確定性問題，因為即使是理想的模型也無法準確定位完全被遮擋的關節(jié)。

這兩個實驗結果強化了DER方法在實際應用中的可行性。它不僅能夠在數(shù)學上產生校準的不確定性估計，還能夠在面對現(xiàn)實世界的挑戰(zhàn)（如標簽噪聲和遮擋）時做出符合直覺的反應。這使得DER成為資源受限平臺上進行不確定性量化的有吸引力的候選方法。

值得注意的是，研究者也觀察到一個潛在的局限性：在某些情況下，DER對兩種不確定性的區(qū)分可能不夠徹底。這可能是因為DER的不確定性分解依賴于單個λ參數(shù)，這一點在之前的研究中也有所提及。盡管如此，總體而言，DER仍然展示了令人印象深刻的不確定性估計能力，特別是考慮到它不需要昂貴的蒙特卡洛采樣步驟。

參考資料：

Bramlage， L.， Karg， M.， &； Curio， C. （2023）. Plausible Uncertainties for Human Pose Regression. ICCV 2023.
Kendall， A.， &； Gal， Y. （2017）. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision？
Amini， A.， et al. （2020）. Deep Evidential Regression.
Kuleshov， V.， Fenner， N.， &； Ermon， S. （2018）. Accurate Uncertainties for Deep Learning Using Calibrated Regression.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.