中心動態(tài)重分配哈希，北郵團隊提出并開源CRH項目 | AAAI 2026

2025-12-05 09:30:40　來源: AI前線

北京舉報

分享至

作者｜陳勇

過去幾年，基于哈希中心的深度哈希方法逐漸成為大規(guī)模圖像檢索的主流。這類方法通過為每個類別預(yù)設(shè)固定的哈希中心作為學(xué)習(xí)目標，避免了成對或三元組方法的高計算復(fù)雜度。然而，隨機初始化的哈希中心往往忽略了類間語義關(guān)系。現(xiàn)有兩階段方法 SHC 通過引入與哈希函數(shù)訓(xùn)練分離的中心生成階段，為哈希中心注入了語義。但其引入的額外復(fù)雜性、計算開銷和階段間偏差導(dǎo)致了次優(yōu)性能。

近日，北京郵電大學(xué)、北京航空航天大學(xué)和中國電信等機構(gòu)聯(lián)合提出了一種新穎的端到端框架——中心重分配哈希（Center-Reassigned Hashing, CRH），它在訓(xùn)練哈希函數(shù)的同時，通過重分配動態(tài)地更新哈希中心。CRH 無需復(fù)雜的預(yù)訓(xùn)練或離線優(yōu)化階段，就能將語義關(guān)系無縫集成到中心學(xué)習(xí)過程中，顯著提升了檢索精度和語義一致性。該創(chuàng)新工作論文已被 AAAI 2026 收錄，代碼已開源，為哈希學(xué)習(xí)領(lǐng)域提供了新的思路和可復(fù)現(xiàn)基礎(chǔ)。

論文題目：Codebook-Centric Deep Hashing: End-to-End Joint Learning of Semantic Hash Centers and Neural Hash Function

論文鏈接：

https://www.arxiv.org/abs/2511.12162

代碼鏈接：

https://github.com/iFamilyi/CRH

研究背景

圖像哈希因其高效的計算和緊湊的存儲，成為大規(guī)模圖像檢索的核心技術(shù)。隨著深度學(xué)習(xí)的發(fā)展，深度哈希方法顯著超越了傳統(tǒng)淺層方法。現(xiàn)有深度監(jiān)督哈希方法可分為三類：成對方法、三元組方法和點態(tài)方法。成對和三元組方法通過保留樣本間的局部相似性關(guān)系進行優(yōu)化，但計算復(fù)雜度高（ O(N2) 或更高），且難以捕捉全局數(shù)據(jù)結(jié)構(gòu)。點態(tài)方法直接利用類別標簽，實現(xiàn)線性復(fù)雜度，但早期方法將哈希視為分類問題，性能有限。

近年來，基于哈希中心的點態(tài)方法受到關(guān)注，如 CSQ[1]、OrthoHash[2] 和 MDS[3]。這些方法為每個類別預(yù)設(shè)二值哈希中心，并訓(xùn)練網(wǎng)絡(luò)將圖像表征對齊到對應(yīng)中心。雖然取得了先進結(jié)果，但哈希中心通常隨機初始化，忽略了類間語義相關(guān)性（例如，“貓”和“狗”的哈希中心應(yīng)比“貓”和“汽車”更接近）。為解決這一問題，SHC [4] 等方法采用兩階段策略：先通過分類器相似性估計和迭代優(yōu)化生成語義感知的哈希中心，再訓(xùn)練哈希函數(shù)。但這引入了高計算開銷、破壞了端到端可訓(xùn)練性，且基于分類的相似性估計可能偏離檢索目標。

CRH 的創(chuàng)新在于通過哈希中心的動態(tài)重分配機制，實現(xiàn)哈希中心和哈希函數(shù)的端到端聯(lián)合學(xué)習(xí)，避免兩階段方法的缺陷。

CRH 方法框架

CRH 的核心思想是迭代地更新哈希中心的分配，使其逐步對齊類間語義關(guān)系。整體框架分為三個關(guān)鍵組件：（1）哈希碼本初始化；（2）哈希函數(shù)優(yōu)化；（3）哈希中心重分配。整個過程無需顯式預(yù)訓(xùn)練，實現(xiàn)端到端學(xué)習(xí)。

圖 1 CRH 的框架圖。上圖：漢明空間的可視化。三張圖分別表示 1）初始化 / 上一輪的數(shù)據(jù)的哈希碼和中心的分配、2）經(jīng)過訓(xùn)練哈希碼靠近對應(yīng)的哈希中心和 3）為每一類重新分配哈希中心，這些步驟被重復(fù)執(zhí)行。下圖：以單個類別 c 為例的訓(xùn)練時的學(xué)習(xí)目標以及多頭更新機制的流程。

2.1 哈希中心初始化

CRH 構(gòu)建一個包含 M 個候選哈希中心的哈希碼本 Z={zm}Mm=1 （M≥C，C 為類別數(shù)），每個中心 zm 是 K 維二值向量。碼本通過均勻采樣生成，確保哈希中心之間的漢明距離足夠大。初始時，隨機從碼本中選擇 C 個中心分配給各個類別。

2.2 哈希函數(shù)訓(xùn)練

哈希函數(shù) f(x) 使用深度神經(jīng)網(wǎng)絡(luò)（如 ResNet-34）實現(xiàn)，將輸入圖像映射到松弛哈希碼。損失函數(shù)結(jié)合邊際交叉熵損失和量化損失：

邊際交叉熵損失拉近樣本與對應(yīng)中心距離，推遠其他中心。

其中，

量化損失減少二值化誤差。

總體目標函數(shù)為二者加權(quán)和： ?=?CE+λ?q。

2.3 哈希中心重分配

在訓(xùn)練過程中，定期（如每 5 個 epoch）重新分配哈希中心：基于樣本當前的哈希碼 hx，計算每個類別樣本與碼本中心的平均距離 lcm，作為將中心 zm 分配給類別 c 的分配誤差，形成成本矩陣 L=(lcm)C×M：

然后使用貪心或匈牙利算法優(yōu)化中心分配，最小化總距離：

其中 j?c為分配給類別 c 的中心在 Z 中的索引。通過重分配來更新哈希中心，避免直接優(yōu)化二值的中心本身，確保哈希中心保持二值性和分離性。對于多標簽數(shù)據(jù)集，還引入權(quán)重對分配誤差的計算進行加權(quán)。

2.4 多頭碼本設(shè)計

為增強中心的語義表達能力，CRH 將每個 K 維向量 zm 分割為 H 個頭 {zm1,?,zmH}，每個 zmh 的維度為 K/H。每個頭獨立進行中心重分配，得到各個頭的子中心 cch，最終中心通過拼接每個頭的子中心得到 cc=concat(cc1,?,ccH) 。這在不增加碼本實際大小的情況下，將碼本容量從 M 擴展到 MH，實現(xiàn)更細粒度的語義表示。

整個算法流程交替執(zhí)行哈希函數(shù)優(yōu)化和中心重分配，總結(jié)如下。

圖 2 CRH 的算法流程：包含中心初始化、交替的哈希函數(shù)訓(xùn)練與中心重分配。

實驗與結(jié)果

實驗在三個基準數(shù)據(jù)集上進行：Stanford Cars（單標簽）、NABirds（單標簽）和 MS COCO（多標簽），評估指標為平均精度 mAP。

3.1 主要結(jié)果

表 1 我們的方法與深度哈希 baseline 在三個圖像數(shù)據(jù)集上不同碼長的檢索性能（mAP，%）比較。

CRH 在所有數(shù)據(jù)集和碼長（16、32、64 位）上均優(yōu)于現(xiàn)有先進方法，包括 CSQ、OrthoHash、MDS 和 SHC 等。具體地，在 Stanford Cars、NABirds 和 MSCOCO 數(shù)據(jù)集上， CRH 比基線的最好結(jié)果分別相對提升了 2.1%~2.6%，4.8%~6.6% 和 0.4%~4.5%。在包含更多類別的 NABirds 上，提升尤為顯著，說明 CRH 能有效處理細粒度語義關(guān)系。

3.2 消融研究

表 2 CRH 與消融變體 CRH-M、CRH-U 在三個數(shù)據(jù)集上的檢索性能比較。

消融實驗驗證了中心重分配和多頭機制的有效性：

CRH-U：移除中心重分配（固定中心），性能顯著下降，平均 mAP 相對保留重分配的 CRH-M 降低 1.76%~3.08%。
CRH-M：移除多頭設(shè)計（單頭），性能優(yōu)于 CRH-U 但低于完整的 CRH，證明多頭能進一步細化語義表示。

3.3 穩(wěn)健性分析

表 3 初始化和更新算法引入的隨機性對性能的影響（mean±std mAP）。Seed：貪心算法；Init：中心初始化；Init-H：匈牙利算法。

CRH 對初始化（Init）和貪心算法（Seed）引入的隨機性的穩(wěn)健性高，多次運行的 mAP 標準差極低（<0.4%），表明方法穩(wěn)定。相同初始化下，貪心算法（Init）比匈牙利算法（Init-H）更優(yōu)，兼顧性能和效率。

3.4 語義質(zhì)量分析

表 4 哈希中心的相似性矩陣 Sh 與參考相似性矩陣 Sr 的 Pearson 相關(guān)系數(shù)。Init 對應(yīng)初始化的中心。learned 和 learned-m 分別對應(yīng)多頭和單頭下學(xué)到的中心。Random 對應(yīng)隨機中心。下面是 4 個基線的結(jié)果。

通過計算哈希中心兩兩間相似度與基于 CLIP 的視覺表征相似度的 Pearson 相關(guān)系數(shù)（PCC），評估所學(xué)哈希中心語義對齊程度。CRH 學(xué)習(xí)到的哈希中心 PCC 顯著高于無語義的基線（如 CSQ 和 OrthoHash 接近零）以及兩階段方法（SHC），說明 CRH 能捕獲有意義的語義結(jié)構(gòu)。

圖 3 不同方法在 64bits 下的 mAP 與相關(guān)系數(shù)的關(guān)系。

圖 3 揭示了 mAP 與 PCC 的正相關(guān)關(guān)系，即更好的語義對齊通常帶來更優(yōu)的檢索性能。

3.5 參數(shù)分析

通過對超參數(shù)的敏感性分析，可得如下關(guān)鍵發(fā)現(xiàn)：

碼本大小 M：M=2C 時平衡性能和效率。
頭維度 d：最佳 d 為滿足 d≥log2?M 的 2 的最小冪次，保持 d 盡可能小的同時避免碼本碰撞。
更新頻率：頻繁更新（如每個 epoch 更新一次）提升 PCC 和 mAP，但后期可放寬間隔以降低計算。

總結(jié)

CRH 通過中心重分配機制，實現(xiàn)了哈希中心和哈希函數(shù)的端到端聯(lián)合優(yōu)化，無需復(fù)雜的兩階段流程，多頭設(shè)計進一步增強了語義表達能力。實驗表明，CRH 學(xué)習(xí)到了能表達語義的哈希中心，在單標簽和多標簽檢索任務(wù)上均達到最先進水平，且具有高穩(wěn)健性和可復(fù)現(xiàn)性。

這項工作為深度哈希學(xué)習(xí)提供了新方向，強調(diào)動態(tài)中心優(yōu)化的重要性，未來可擴展至多模態(tài)檢索和長尾分布場景。

參考文獻

[1]Yuan L, Wang T, Zhang X, et al. Central similarity quantization for efficient image and video retrieval[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 3083-3092.

[2]Hoe J T, Ng K W, Zhang T, et al. One loss for all: Deep hashing with a single cosine similarity based learning objective[J]. Advances in Neural Information Processing Systems, 2021, 34: 24286-24298.

[3]Wang L, Pan Y, Liu C, et al. Deep hashing with minimal-distance-separated hash centers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 23455-23464.

[4]Chen L, Liu R, Zhou Y, et al. Deep Hashing with Semantic Hash Centers for Image Retrieval[J]. ACM Transactions on Information Systems, 2025, 43(6): 1-38.

會議預(yù)告

12 月 19～20 日，AICon 2025 年度收官站在北京舉辦。現(xiàn)已開啟 9 折優(yōu)惠。

兩天時間，聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題，與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經(jīng)驗與思考。2025 年最后一場，不容錯過。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.