![]()
這項(xiàng)由首爾大學(xué)智能感知與AI實(shí)驗(yàn)室以及電子與計(jì)算機(jī)工程系的Daniel Sungho Jung和Kyoung Mu Lee教授領(lǐng)導(dǎo)的研究發(fā)表于2025年11月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2511.22184v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。
當(dāng)我們走路時(shí),腳與地面的接觸看起來(lái)是如此自然和簡(jiǎn)單。但對(duì)于人工智能來(lái)說(shuō),要從一張照片中準(zhǔn)確判斷出人的腳部哪些區(qū)域正在接觸地面,卻是一個(gè)異常復(fù)雜的挑戰(zhàn)。就像讓一個(gè)從未見過雨天的人僅憑照片判斷地面是否濕滑一樣困難。
這個(gè)問題的復(fù)雜性遠(yuǎn)超我們的想象。當(dāng)你穿著不同款式的鞋子——運(yùn)動(dòng)鞋、高跟鞋、靴子或拖鞋——站在不同材質(zhì)的地面上時(shí),腳部與地面的接觸模式會(huì)發(fā)生巨大變化。更讓人工智能頭疼的是,鞋子的外觀千變?nèi)f化,顏色、材質(zhì)、款式各不相同,而地面往往看起來(lái)單調(diào)乏味,很難提取有用的特征信息。這就像讓機(jī)器在一堆看起來(lái)差不多的灰色石頭中找出哪塊石頭下面有寶藏一樣困難。
傳統(tǒng)的方法通常采用一種簡(jiǎn)單粗暴的解決方案,類似于"如果腳不動(dòng),那就是在接觸地面"的零速度約束假設(shè)。但這種方法只能判斷腳部關(guān)節(jié)是否接觸,無(wú)法捕捉腳部表面與地面的精細(xì)接觸分布。這就像用溫度計(jì)只能告訴你今天是熱還是冷,卻無(wú)法描繪出一天中溫度的詳細(xì)變化曲線。
首爾大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)名為FECO(FEet COntact estimation,足部接觸估計(jì))的創(chuàng)新框架。這個(gè)框架的核心思想是讓AI學(xué)會(huì)兩項(xiàng)關(guān)鍵技能:一是不被鞋子的外觀所迷惑,專注于真正重要的結(jié)構(gòu)信息;二是學(xué)會(huì)理解和利用地面的幾何特性來(lái)做出更準(zhǔn)確的判斷。
關(guān)鍵的突破在于鞋子外觀不變性學(xué)習(xí)。研究團(tuán)隊(duì)意識(shí)到,AI系統(tǒng)經(jīng)常會(huì)被鞋子的外觀所誤導(dǎo)。比如在訓(xùn)練數(shù)據(jù)中,如果穿運(yùn)動(dòng)鞋的人經(jīng)常做滑板運(yùn)動(dòng),AI就可能錯(cuò)誤地將運(yùn)動(dòng)鞋的外觀與特定的接觸模式聯(lián)系起來(lái),而不是基于真正的物理接觸進(jìn)行判斷。為了解決這個(gè)問題,團(tuán)隊(duì)設(shè)計(jì)了一套對(duì)抗訓(xùn)練機(jī)制,使用外部鞋子數(shù)據(jù)集來(lái)強(qiáng)化模型的鞋款無(wú)關(guān)性。
這個(gè)過程可以比作訓(xùn)練一個(gè)醫(yī)生。一個(gè)優(yōu)秀的醫(yī)生不應(yīng)該因?yàn)椴∪舜┲埔路团袛嗨】担鴳?yīng)該專注于真正的醫(yī)學(xué)指標(biāo)。同樣,F(xiàn)ECO學(xué)會(huì)了忽略鞋子的品牌、顏色和款式,專注于腳部的姿態(tài)、角度和與地面的空間關(guān)系。
同時(shí),研究團(tuán)隊(duì)還開發(fā)了地面感知學(xué)習(xí)機(jī)制。地面通常看起來(lái)平淡無(wú)奇,但實(shí)際上包含著豐富的幾何信息。FECO學(xué)會(huì)了從圖像中推斷每個(gè)像素點(diǎn)的高度信息,就像建立一個(gè)精細(xì)的地形圖。此外,它還能估算地面的法向量(垂直方向),這相當(dāng)于理解地面的傾斜程度和方向。
這種地面感知能力的重要性在于,腳與地面的接觸本質(zhì)上是一個(gè)幾何問題。腳只能與其高度位置相同或更低的表面發(fā)生接觸。通過理解地面的三維幾何結(jié)構(gòu),AI就能做出更合理的接觸判斷,就像一個(gè)有經(jīng)驗(yàn)的建筑工人能夠憑借對(duì)地形的理解來(lái)判斷建筑物的穩(wěn)定性一樣。
為了訓(xùn)練和驗(yàn)證這個(gè)系統(tǒng),研究團(tuán)隊(duì)收集了一個(gè)包含10個(gè)不同數(shù)據(jù)集的龐大訓(xùn)練庫(kù),涵蓋了各種場(chǎng)景:室內(nèi)場(chǎng)景、人與物體交互、人與地面交互、甚至人與人之間的交互。這些數(shù)據(jù)集總共包含超過1400萬(wàn)張圖像,為AI提供了豐富多樣的學(xué)習(xí)素材。
更重要的是,團(tuán)隊(duì)還手工標(biāo)注了一個(gè)新的數(shù)據(jù)集COFE,包含超過3萬(wàn)張來(lái)自真實(shí)世界的圖像。這些圖像來(lái)自O(shè)penPose、InstaVariety、PennAction和MPII等知名數(shù)據(jù)集,覆蓋了從日常行走到極限運(yùn)動(dòng)的各種場(chǎng)景。每張圖像都被精心標(biāo)注了腳部關(guān)鍵點(diǎn)的接觸狀態(tài),為模型提供了高質(zhì)量的訓(xùn)練標(biāo)準(zhǔn)。
在技術(shù)實(shí)現(xiàn)上,F(xiàn)ECO采用了一個(gè)多階段的處理流程。首先,系統(tǒng)對(duì)輸入圖像進(jìn)行低級(jí)風(fēng)格隨機(jī)化處理,這類似于給圖像添加各種"濾鏡",讓模型不會(huì)過度依賴特定的紋理或光照條件。接著,進(jìn)行鞋子風(fēng)格內(nèi)容隨機(jī)化,這個(gè)過程就像讓模型在看到各種不同鞋子的同時(shí),學(xué)會(huì)提取它們共同的結(jié)構(gòu)特征。
隨后,地面特征學(xué)習(xí)模塊開始工作,分析圖像中的地面幾何信息。這個(gè)過程包括預(yù)測(cè)像素高度圖和地面法向量,相當(dāng)于為AI構(gòu)建一個(gè)詳細(xì)的地面3D模型。最后,空間注意機(jī)制將鞋子風(fēng)格不變特征和地面感知特征進(jìn)行智能融合,輸出最終的足部接觸預(yù)測(cè)結(jié)果。
整個(gè)訓(xùn)練過程采用端到端的方式,使用多個(gè)損失函數(shù)來(lái)優(yōu)化不同的組件。主要損失函數(shù)關(guān)注接觸預(yù)測(cè)的準(zhǔn)確性,風(fēng)格損失確保模型不過度依賴外觀信息,對(duì)抗損失強(qiáng)化風(fēng)格不變性,掩碼損失提高足部分割的精度,地面損失優(yōu)化幾何信息的預(yù)測(cè)。這種多目標(biāo)優(yōu)化策略確保了模型在各個(gè)方面都能達(dá)到最佳性能。
實(shí)驗(yàn)結(jié)果顯示,F(xiàn)ECO在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了顯著的性能提升。在MMVP數(shù)據(jù)集上,F(xiàn)ECO達(dá)到了0.577的F1分?jǐn)?shù),相比之前最好的方法DECO的0.409有了大幅提升。在其他數(shù)據(jù)集上,F(xiàn)ECO同樣表現(xiàn)出色,在BEHAVE數(shù)據(jù)集上達(dá)到0.768的F1分?jǐn)?shù),在Hi4D數(shù)據(jù)集上達(dá)到0.783。
更令人印象深刻的是,F(xiàn)ECO甚至在關(guān)節(jié)級(jí)別的足部接觸估計(jì)任務(wù)上也超越了專門設(shè)計(jì)的方法。盡管這些傳統(tǒng)方法可以利用視頻序列中的時(shí)間信息,而FECO只能使用單張圖像,它仍然在COFE數(shù)據(jù)集上取得了最高的精確率、召回率和F1分?jǐn)?shù)。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了每個(gè)組件的貢獻(xiàn)。低級(jí)風(fēng)格隨機(jī)化將F1分?jǐn)?shù)提升了4個(gè)百分點(diǎn),鞋子風(fēng)格內(nèi)容隨機(jī)化的組合策略帶來(lái)了最好的精確率召回率平衡,地面感知學(xué)習(xí)顯著提升了整體性能。這些結(jié)果證明了設(shè)計(jì)思路的正確性和各個(gè)模塊的有效性。
在不同主干網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)中,基于Vision Transformer的架構(gòu)普遍優(yōu)于卷積神經(jīng)網(wǎng)絡(luò),其中ViT-H取得了最佳性能。這反映了Transformer架構(gòu)在捕捉長(zhǎng)程依賴關(guān)系方面的優(yōu)勢(shì),這對(duì)于理解足部與地面的空間關(guān)系特別重要。
計(jì)算效率方面,F(xiàn)ECO支持從輕量級(jí)到高性能的多種配置。最輕量的ResNet-18配置只需要不到5GB的訓(xùn)練內(nèi)存,推理速度超過40幀每秒,適合實(shí)時(shí)應(yīng)用。而最高性能的ViT-H配置雖然需要34GB訓(xùn)練內(nèi)存,但提供了最佳的準(zhǔn)確性,適合對(duì)精度要求較高的應(yīng)用場(chǎng)景。
這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)價(jià)值。在體育分析領(lǐng)域,精確的足部接觸信息可以幫助分析運(yùn)動(dòng)員的技術(shù)動(dòng)作,優(yōu)化訓(xùn)練方案,預(yù)防運(yùn)動(dòng)損傷。在康復(fù)醫(yī)學(xué)中,詳細(xì)的步態(tài)分析能夠幫助醫(yī)生評(píng)估患者的恢復(fù)情況,制定個(gè)性化的治療計(jì)劃。在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中,準(zhǔn)確的足部接觸估計(jì)可以提升虛擬角色的真實(shí)感,創(chuàng)造更沉浸式的體驗(yàn)。
在自動(dòng)駕駛和機(jī)器人領(lǐng)域,這項(xiàng)技術(shù)也有著重要價(jià)值。自動(dòng)駕駛系統(tǒng)可以更好地理解行人的行為意圖,機(jī)器人可以學(xué)習(xí)更自然的行走方式。甚至在電影特效和游戲開發(fā)中,這項(xiàng)技術(shù)也能幫助創(chuàng)造更真實(shí)的角色動(dòng)畫。
值得注意的是,這項(xiàng)研究還揭示了一個(gè)重要的數(shù)據(jù)集偏差問題。現(xiàn)有的3D動(dòng)作捕捉數(shù)據(jù)集往往偏向于非接觸狀態(tài),而COFE數(shù)據(jù)集提供了更均衡的接觸分布,這對(duì)于訓(xùn)練魯棒的模型至關(guān)重要。這提醒我們?cè)跇?gòu)建AI系統(tǒng)時(shí),數(shù)據(jù)的多樣性和代表性同樣重要。
研究團(tuán)隊(duì)誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。FECO主要在腳部裁剪圖像上工作,當(dāng)腳部完全被遮擋時(shí)可能無(wú)法提供有效信息。此外,雖然時(shí)間信息對(duì)于足部接觸估計(jì)很有幫助,但當(dāng)前的方法主要關(guān)注單幀處理。未來(lái)的研究方向包括整合時(shí)序信息、處理全身圖像、以及與密集人體接觸估計(jì)方法的結(jié)合。
從社會(huì)影響角度來(lái)看,這項(xiàng)技術(shù)在隱私保護(hù)、安全應(yīng)用和可持續(xù)發(fā)展方面都需要謹(jǐn)慎考慮。研究團(tuán)隊(duì)強(qiáng)調(diào),任何數(shù)據(jù)收集都應(yīng)該在用戶同意的基礎(chǔ)上進(jìn)行,處理應(yīng)該盡可能在設(shè)備本地完成,并且該方法不應(yīng)被用作醫(yī)療診斷工具而需要專業(yè)監(jiān)督。
總的來(lái)說(shuō),F(xiàn)ECO框架代表了計(jì)算機(jī)視覺領(lǐng)域在理解人體動(dòng)作方面的一個(gè)重要進(jìn)展。通過巧妙地結(jié)合鞋子風(fēng)格不變性學(xué)習(xí)和地面感知技術(shù),這項(xiàng)研究不僅解決了一個(gè)具有挑戰(zhàn)性的技術(shù)問題,更為未來(lái)的人機(jī)交互、健康監(jiān)測(cè)和虛擬現(xiàn)實(shí)應(yīng)用奠定了重要基礎(chǔ)。隨著相關(guān)代碼的開源發(fā)布,這項(xiàng)技術(shù)有望被更廣泛地應(yīng)用和改進(jìn),推動(dòng)整個(gè)領(lǐng)域的發(fā)展。
Q&A
Q1:FECO框架是如何解決鞋子外觀多樣性問題的?
A:FECO通過鞋子風(fēng)格內(nèi)容隨機(jī)化技術(shù)解決這個(gè)問題,類似于訓(xùn)練醫(yī)生不被病人的穿著影響診斷。系統(tǒng)使用外部鞋子數(shù)據(jù)集進(jìn)行對(duì)抗訓(xùn)練,學(xué)會(huì)忽略鞋子的顏色、材質(zhì)、款式等外觀特征,專注于腳部的真實(shí)姿態(tài)和與地面的空間關(guān)系,從而避免被外觀信息誤導(dǎo)。
Q2:地面感知學(xué)習(xí)是如何提升足部接觸估計(jì)準(zhǔn)確性的?
A:地面感知學(xué)習(xí)讓AI能夠理解地面的三維幾何結(jié)構(gòu),包括預(yù)測(cè)每個(gè)像素的高度信息和地面法向量。就像建筑工人通過了解地形來(lái)判斷建筑穩(wěn)定性一樣,AI通過理解地面幾何特性,能夠更準(zhǔn)確地判斷腳部與地面的物理接觸關(guān)系,而不僅僅依賴表面紋理信息。
Q3:FECO框架的實(shí)際應(yīng)用領(lǐng)域有哪些?
A:FECO框架應(yīng)用前景廣泛,包括體育分析中的運(yùn)動(dòng)員技術(shù)動(dòng)作評(píng)估、康復(fù)醫(yī)學(xué)的步態(tài)分析、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)的角色動(dòng)畫、自動(dòng)駕駛系統(tǒng)的行人行為理解、機(jī)器人的自然行走學(xué)習(xí),以及電影特效和游戲開發(fā)中的真實(shí)角色動(dòng)畫制作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.