近期,西南交通大學李天瑞教授、李崇壽副教授團隊提出了一種新的層次化深度學習(DHL,Deep Hierarchical Learning)框架,創新性地從數學方面明確了“層次”的本質,并證明層內預測與層間一致性在理論的相通性。
該框架用于 3D 點云語義分割,通過模擬人類認知的層次結構,顯著提高了 3D 數據的解析能力。該論文第一作者李崇壽對 DeepTech 表示:“我們想讓機器像人類一樣看世界,DHL 框架的本質是給機器裝一套分層看世界的邏輯,并填補了 3D 層級學習的數學空白。”
該技術在自動駕駛、城市規劃、機器人導航、數字孿生和具身智能等領域具有潛在的應用前景,并為未來三維視覺技術的實現提供了可能性。
自動駕駛的激光雷達需要快速地看得遠且看得細,從層次的角度來看,需要在遠距離和細膩度方面都看得準。將影響自動駕駛安全的場景和層次結構結合,有助于提高識別的細膩度和效率,進而驗證自動駕駛的安全性。
盡管在數字孿生和三維重建領域已有層次和界面定義,但可基于該框架進一步推動其更高效地發展。未來,該技術有望通過無人機采集數據,結合地面測量技術,實現從自動識別對象到自動化輸出多層次語義信息的完整流程。
此外,該框架還有望用于具身智能場景,比如在家庭環境中,存在幾何相似但語義差異性大的物品,使用層次結構有助于提高識別的準確性,實現“先認大類,再找細類”的交互。
![]()
圖丨李崇壽(來源:李崇壽)
人類能看到很遠的地方,也能細致觀察近處的物品,原因在于人類語言層次結構強。然而,在 AI 領域由于層次化認知沒有被充分研究,其面臨忽略天然關聯、無法應對多粒度需求以及無法區分“幾何相似但語義不同”歧義等問題。
研究團隊旨在構建一種新的學習框架。他們首次從概率角度定義了“層級一致性”,例如模型預測“某個點是汽車”(概率 90%),那它屬于其父類(如交通工具)的概率則一定大于等于 90%。
另一方面,研究人員還開發了聚合矩陣用于分類索引自動校準層級關系,在不需要人工調參前提下,能夠自動地融合層次間的一致性,明確子類所屬于的大類。需要了解的是,這并不是簡單地構建標準尺度,還突破了傳統只能定性分析的局限性。
李崇壽進一步指出,這種一致性包含兩方面:一是“屬于子集則必屬于父集”,二是“不屬于父集則必不屬于子集”。通過聚合矩陣的方法,將這兩方面自動融合到模型中。
![]()
(來源:IJCV)
為解決精度和效率難題,研究團隊設計了兩個模塊:在層次嵌入融合模塊(HEFM)中,分別“自上而下融合”和“自下而上融合”地建立了信息通道,并且該模塊可嵌入到任何 3D 分割模型中;在自動生成類別層級的模塊中,先用視覺語言模型讀懂類別含義,再把這些類別歸好類,從而讓模型實現自動編目錄。
研究人員在多個具有層次注釋的三維場景數據集上驗證了 DHL 框架的有效性。實驗結果顯示,相比于傳統的單層分類器方法,DHL 在所有層次上的平均交并比(mIoU)和總體準確率上均獲得了提升。
例如,在 Campus3D 數據集的校園地面細分案例中,傳統方法會將校園里的房屋屋頂標成“地面”,DHL 能精準標成屋頂,還能關聯到建筑物大類;在 ScanNet200 數據集,DHL 利用層級關聯把細類分準,椅子、桌子的分割精度比傳統方法高 8%-12%;在 PartNet 的家電零件細分中,DHL 將冰箱的分割 mIoU 提升到 52.7%。
![]()
圖丨 Campus3D 中的類層級示例(來源:IJCV)
“我們第一次明確回答了層次的定義。與傳統僅追求預測更高精度的方法不同的是,我們通過理論保障了模型在層次結構上的內在一致性,使其既能高效構建層次,又能在不同模型中泛化使用。”李崇壽表示。
相關論文以《面向三維語義分割的深度層次學習》(Deep Hierarchical Learning for 3D Semantic Segmentation)為題發表在計算機視覺領域頂刊 International Journal of Computer Vision(IJCV)[1]。西南交通大學李崇壽副教授是第一作者,香港城市大學研究助理教授李欣科是通訊作者。
![]()
圖丨相關論文(來源:IJCV)
未來,研究團隊將繼續在幾何和空間領域細化層次學習的理論。此外,他們還打算進一步拓展到時間維度(4D 維度),有望在動態情況下,既跟蹤物理位置變化,也保持層次結構的一致性。
參考資料:
1.https://doi.org/10.1007/s11263-025-02387-6
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.