![]()
機(jī)器之心發(fā)布
機(jī)器之心編輯部
在機(jī)器人和具身智能領(lǐng)域,transformer 模型正變大越來(lái)越通用,同時(shí)也越來(lái)越 「重」。我們?cè)诳释?SOTA 精度,但現(xiàn)實(shí)世界的邊緣設(shè)備 (如機(jī)器人端場(chǎng)景) 卻無(wú)法承受其高昂的計(jì)算和延遲。
![]()
論文地址:https://arxiv.org/pdf/2511.15580v3
「Efficient AI」的核心挑戰(zhàn)之一是:模型是否真的需要處理所有輸入數(shù)據(jù)
由東南大學(xué)、中南大學(xué)、明略科技(2718.HK)聯(lián)合提出的一篇被 AAAI 2026 接收為 Oral 的論文 CompTrack 給出了一個(gè)深刻的答案。這項(xiàng)工作展示了壓縮技術(shù)如何大幅降低計(jì)算開(kāi)銷,同時(shí)保持或甚至提升模型性能,以 3D 點(diǎn)云跟蹤作為一個(gè)引人注目的應(yīng)用案例。
具體而言,該工作一針見(jiàn)血地指出,當(dāng)前 AI 模型(尤其在處理稀疏數(shù)據(jù)如點(diǎn)云時(shí))普遍面臨「雙重冗余」(Dual-Redundancy)挑戰(zhàn):
![]()
- 空間冗余 (Spatial Redundancy):海量的、無(wú)關(guān)的背景點(diǎn)和空白區(qū)域(如天空、遠(yuǎn)處的建筑物)被送入網(wǎng)絡(luò),這不僅浪費(fèi)算力,更污染了特征,導(dǎo)致精度下降。
- 信息冗余 (Informational Redundancy)這一點(diǎn)更為致命且常被忽視。即便是在我們真正關(guān)心的「前景目標(biāo)」上,也充斥著大量重復(fù)和低價(jià)值的信息。例如,在識(shí)別一輛車時(shí),車輛引擎蓋上的 100 個(gè)點(diǎn)和 500 個(gè)點(diǎn)提供的有效幾何信息幾乎是等價(jià)的;而車輪、邊角等關(guān)鍵點(diǎn)的價(jià)值則遠(yuǎn)高于這些平坦表面。
![]()
現(xiàn)有方法大多只處理了問(wèn)題 1(過(guò)濾背景),卻對(duì)問(wèn)題 2(壓縮前景)束手無(wú)策。CompTrack 創(chuàng)新性地提出了一個(gè)端到端框架,從根本上同時(shí)解決這兩種冗余
核心洞察(一):用「信息熵」過(guò)濾空間冗余
針對(duì)空間冗余,CompTrack 采用了一個(gè)空間前景預(yù)測(cè)器 (SFP)。SFP 是一個(gè)輕量級(jí)模塊,它基于信息熵理論,通過(guò)一個(gè)高斯熱圖監(jiān)督學(xué)習(xí),精準(zhǔn)地「篩除」那些信息含量極低、對(duì)任務(wù)無(wú)益的背景噪聲。這一步為后續(xù)的精準(zhǔn)壓縮奠定了堅(jiān)實(shí)基礎(chǔ)。
![]()
核心洞察(二):用「信息瓶頸」動(dòng)態(tài)壓縮信息冗余
這篇工作最核心的貢獻(xiàn),是其信息瓶頸引導(dǎo)的動(dòng)態(tài)令牌壓縮 (IB-DTC)模塊,它專為解決「前景信息冗余」而設(shè)計(jì)。
![]()
為什么這個(gè)模塊是 Efficient AI 的一次重要探索?
1. 理論完備,告別盲目壓縮:該模塊的構(gòu)建基于堅(jiān)實(shí)的「信息瓶頸 (IB)」原理。其目標(biāo)非常明確:只保留那些對(duì)最終預(yù)測(cè)(如目標(biāo)運(yùn)動(dòng))有價(jià)值的信息,并丟棄所有不相關(guān)的冗余信息。它進(jìn)一步證明,這種信息冗余在數(shù)學(xué)上等價(jià)于特征矩陣的 「低秩 (Low-Rank)」特性。
2. SVD 指導(dǎo),實(shí)現(xiàn)「動(dòng)態(tài)」壓縮:IB-DTC 最精妙的設(shè)計(jì)在于其動(dòng)態(tài)性。它沒(méi)有使用一個(gè)固定的、「一刀切」的壓縮率,而是利用在線奇異值分解 (SVD),在推理時(shí)(on-the-fly)實(shí)時(shí)分析當(dāng)前輸入前景數(shù)據(jù)的「內(nèi)在秩 (intrinsic rank)」。這意味著:
- 如果前景簡(jiǎn)單(如一輛側(cè)面的卡車),模型自動(dòng)使用高壓縮率。
- 如果前景復(fù)雜(如一個(gè)騎行者),模型自動(dòng)使用低壓縮率。這種數(shù)據(jù)依賴的動(dòng)態(tài)壓縮,在保留關(guān)鍵信息的同時(shí),最大化了計(jì)算效率。
3. 繞過(guò) SVD,實(shí)現(xiàn)「端到端」訓(xùn)練:SVD 本身是不可微分的,無(wú)法直接用于訓(xùn)練。CompTrack 巧妙地將其用作一個(gè)「引導(dǎo)者」:SVD 只負(fù)責(zé)在前向傳播時(shí)提供最優(yōu)的壓縮率 K 和特征基(prior),而真正的壓縮則由一個(gè)可學(xué)習(xí)的、基于 K 的 Cross-Attention 模塊完成 。這使得整個(gè)高效壓縮流程可以端到端訓(xùn)練。
應(yīng)用成效:更少算力,更高精度!
CompTrack 將該框架應(yīng)用于極具挑戰(zhàn)性的 3D 點(diǎn)云跟蹤任務(wù)。結(jié)果證明,這種對(duì)「信息冗余」的系統(tǒng)性壓縮是極其高效的:
- 速度:在 RTX 3090 上達(dá)到80 FPS的實(shí)時(shí)性能,相比 SOTA 方法 (P2P) 65 FPS 的速度,實(shí)現(xiàn)了 1.3 倍的加速
- 效率:計(jì)算量(FLOPs)顯著降低,僅為0.94G。消融實(shí)驗(yàn)證實(shí),IB-DTC 模塊是實(shí)現(xiàn)效率飛躍(從 48 FPS 提升至 75 FPS)的核心。
- 精度:在實(shí)現(xiàn)極致效率的同時(shí),CompTrack 在 nuScenes 和 Waymo 兩個(gè)大規(guī)模數(shù)據(jù)集上均刷新了 SOTA(State-of-the-art)性能
CompTrack 的意義遠(yuǎn)不止于 3D 跟蹤。它提供了一個(gè)「理論指導(dǎo)、動(dòng)態(tài)自適應(yīng)、端到端」的通用信息壓縮范式。
該工作證明了,與其盲目地讓 Transformer 處理所有數(shù)據(jù),不如先問(wèn)一個(gè)更基本的問(wèn)題:「哪些信息是真正有價(jià)值的?」。CompTrack 的技術(shù)預(yù)示著高效 AI 的更廣泛范式轉(zhuǎn)變。其動(dòng)態(tài)、SVD 引導(dǎo)的壓縮易于適應(yīng)其他涉及稀疏或冗余數(shù)據(jù)的領(lǐng)域,如機(jī)器人中的傳感器融合,甚至視覺(jué) - 語(yǔ)言模型中的多模態(tài)處理。通過(guò)優(yōu)先考慮信息效率而非蠻力計(jì)算,CompTrack 也為后續(xù)解決視頻理解、多模態(tài)融合乃至大模型推理中的信息冗余問(wèn)題,提供了極具前景的新思路。
這正是 Efficient AI 未來(lái)的發(fā)展方向:不做無(wú)效計(jì)算,只為價(jià)值付費(fèi)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.