![]()
作者 |陳勇
過去幾年,基于哈希中心的深度哈希方法逐漸成為大規(guī)模圖像檢索的主流。這類方法通過為每個類別預(yù)設(shè)固定的哈希中心作為學(xué)習(xí)目標,避免了成對或三元組方法的高計算復(fù)雜度。然而,隨機初始化的哈希中心往往忽略了類間語義關(guān)系。現(xiàn)有兩階段方法 SHC 通過引入與哈希函數(shù)訓(xùn)練分離的中心生成階段,為哈希中心注入了語義。但其引入的額外復(fù)雜性、計算開銷和階段間偏差導(dǎo)致了次優(yōu)性能。
近日,北京郵電大學(xué)、北京航空航天大學(xué)和中國電信等機構(gòu)聯(lián)合提出了一種新穎的端到端框架——中心重分配哈希(Center-Reassigned Hashing, CRH),它在訓(xùn)練哈希函數(shù)的同時,通過重分配動態(tài)地更新哈希中心。CRH 無需復(fù)雜的預(yù)訓(xùn)練或離線優(yōu)化階段,就能將語義關(guān)系無縫集成到中心學(xué)習(xí)過程中,顯著提升了檢索精度和語義一致性。該創(chuàng)新工作論文已被 AAAI 2026 收錄,代碼已開源,為哈希學(xué)習(xí)領(lǐng)域提供了新的思路和可復(fù)現(xiàn)基礎(chǔ)。
![]()
論文題目:Codebook-Centric Deep Hashing: End-to-End Joint Learning of Semantic Hash Centers and Neural Hash Function
論文鏈接:
https://www.arxiv.org/abs/2511.12162
代碼鏈接:
https://github.com/iFamilyi/CRH
研究背景
圖像哈希因其高效的計算和緊湊的存儲,成為大規(guī)模圖像檢索的核心技術(shù)。隨著深度學(xué)習(xí)的發(fā)展,深度哈希方法顯著超越了傳統(tǒng)淺層方法。現(xiàn)有深度監(jiān)督哈希方法可分為三類:成對方法、三元組方法和點態(tài)方法。成對和三元組方法通過保留樣本間的局部相似性關(guān)系進行優(yōu)化,但計算復(fù)雜度高( O(N2) 或更高),且難以捕捉全局數(shù)據(jù)結(jié)構(gòu)。點態(tài)方法直接利用類別標簽,實現(xiàn)線性復(fù)雜度,但早期方法將哈希視為分類問題,性能有限。
近年來,基于哈希中心的點態(tài)方法受到關(guān)注,如 CSQ[1]、OrthoHash[2] 和 MDS[3]。這些方法為每個類別預(yù)設(shè)二值哈希中心,并訓(xùn)練網(wǎng)絡(luò)將圖像表征對齊到對應(yīng)中心。雖然取得了先進結(jié)果,但哈希中心通常隨機初始化,忽略了類間語義相關(guān)性(例如,“貓”和“狗”的哈希中心應(yīng)比“貓”和“汽車”更接近)。為解決這一問題,SHC [4] 等方法采用兩階段策略:先通過分類器相似性估計和迭代優(yōu)化生成語義感知的哈希中心,再訓(xùn)練哈希函數(shù)。但這引入了高計算開銷、破壞了端到端可訓(xùn)練性,且基于分類的相似性估計可能偏離檢索目標。
CRH 的創(chuàng)新在于通過哈希中心的動態(tài)重分配機制,實現(xiàn)哈希中心和哈希函數(shù)的端到端聯(lián)合學(xué)習(xí),避免兩階段方法的缺陷。
CRH 方法框架
CRH 的核心思想是迭代地更新哈希中心的分配,使其逐步對齊類間語義關(guān)系。整體框架分為三個關(guān)鍵組件:(1)哈希碼本初始化;(2)哈希函數(shù)優(yōu)化;(3)哈希中心重分配。整個過程無需顯式預(yù)訓(xùn)練,實現(xiàn)端到端學(xué)習(xí)。
![]()
圖 1 CRH 的框架圖。上圖:漢明空間的可視化。三張圖分別表示 1)初始化 / 上一輪的數(shù)據(jù)的哈希碼和中心的分配、2)經(jīng)過訓(xùn)練哈希碼靠近對應(yīng)的哈希中心和 3)為每一類重新分配哈希中心,這些步驟被重復(fù)執(zhí)行。下圖:以單個類別 c 為例的訓(xùn)練時的學(xué)習(xí)目標以及多頭更新機制的流程。
2.1 哈希中心初始化
CRH 構(gòu)建一個包含 M 個候選哈希中心的哈希碼本 Z={zm}Mm=1 (M≥C,C 為類別數(shù)),每個中心 zm 是 K 維二值向量。碼本通過均勻采樣生成,確保哈希中心之間的漢明距離足夠大。初始時,隨機從碼本中選擇 C 個中心分配給各個類別。
2.2 哈希函數(shù)訓(xùn)練
哈希函數(shù) f(x) 使用深度神經(jīng)網(wǎng)絡(luò)(如 ResNet-34)實現(xiàn),將輸入圖像映射到松弛哈希碼。損失函數(shù)結(jié)合邊際交叉熵損失和量化損失:
邊際交叉熵損失拉近樣本與對應(yīng)中心距離,推遠其他中心。
![]()
其中,
![]()
量化損失減少二值化誤差。
![]()
總體目標函數(shù)為二者加權(quán)和: ?=?CE+λ?q。
2.3 哈希中心重分配
在訓(xùn)練過程中,定期(如每 5 個 epoch)重新分配哈希中心:基于樣本當前的哈希碼 hx,計算每個類別樣本與碼本中心的平均距離 lcm,作為將中心 zm 分配給類別 c 的分配誤差,形成成本矩陣 L=(lcm)C×M:
![]()
然后使用貪心或匈牙利算法優(yōu)化中心分配,最小化總距離:
![]()
其中 j?c為分配給類別 c 的中心在 Z 中的索引。通過重分配來更新哈希中心,避免直接優(yōu)化二值的中心本身,確保哈希中心保持二值性和分離性。對于多標簽數(shù)據(jù)集,還引入權(quán)重對分配誤差的計算進行加權(quán)。
2.4 多頭碼本設(shè)計
為增強中心的語義表達能力,CRH 將每個 K 維向量 zm 分割為 H 個頭 {zm1,?,zmH},每個 zmh 的維度為 K/H。每個頭獨立進行中心重分配,得到各個頭的子中心 cch,最終中心通過拼接每個頭的子中心得到 cc=concat(cc1,?,ccH) 。這在不增加碼本實際大小的情況下,將碼本容量從 M 擴展到 MH,實現(xiàn)更細粒度的語義表示。
整個算法流程交替執(zhí)行哈希函數(shù)優(yōu)化和中心重分配,總結(jié)如下。
![]()
圖 2 CRH 的算法流程:包含中心初始化、交替的哈希函數(shù)訓(xùn)練與中心重分配。
實驗與結(jié)果
實驗在三個基準數(shù)據(jù)集上進行:Stanford Cars(單標簽)、NABirds(單標簽)和 MS COCO(多標簽),評估指標為平均精度 mAP。
3.1 主要結(jié)果
![]()
表 1 我們的方法與深度哈希 baseline 在三個圖像數(shù)據(jù)集上不同碼長的檢索性能(mAP,%)比較。
CRH 在所有數(shù)據(jù)集和碼長(16、32、64 位)上均優(yōu)于現(xiàn)有先進方法,包括 CSQ、OrthoHash、MDS 和 SHC 等。具體地,在 Stanford Cars、NABirds 和 MSCOCO 數(shù)據(jù)集上, CRH 比基線的最好結(jié)果分別相對提升了 2.1%~2.6%,4.8%~6.6% 和 0.4%~4.5%。在包含更多類別的 NABirds 上,提升尤為顯著,說明 CRH 能有效處理細粒度語義關(guān)系。
3.2 消融研究
![]()
表 2 CRH 與消融變體 CRH-M、CRH-U 在三個數(shù)據(jù)集上的檢索性能比較。
消融實驗驗證了中心重分配和多頭機制的有效性:
CRH-U:移除中心重分配(固定中心),性能顯著下降,平均 mAP 相對保留重分配的 CRH-M 降低 1.76%~3.08%。
CRH-M:移除多頭設(shè)計(單頭),性能優(yōu)于 CRH-U 但低于完整的 CRH,證明多頭能進一步細化語義表示。
3.3 穩(wěn)健性分析
![]()
表 3 初始化和更新算法引入的隨機性對性能的影響(mean±std mAP)。Seed:貪心算法;Init:中心初始化;Init-H:匈牙利算法。
CRH 對初始化(Init)和貪心算法(Seed)引入的隨機性的穩(wěn)健性高,多次運行的 mAP 標準差極低(<0.4%),表明方法穩(wěn)定。相同初始化下,貪心算法(Init)比匈牙利算法(Init-H)更優(yōu),兼顧性能和效率。
3.4 語義質(zhì)量分析
![]()
表 4 哈希中心的相似性矩陣 Sh 與參考相似性矩陣 Sr 的 Pearson 相關(guān)系數(shù)。Init 對應(yīng)初始化的中心。learned 和 learned-m 分別對應(yīng)多頭和單頭下學(xué)到的中心。Random 對應(yīng)隨機中心。下面是 4 個基線的結(jié)果。
通過計算哈希中心兩兩間相似度與基于 CLIP 的視覺表征相似度的 Pearson 相關(guān)系數(shù)(PCC),評估所學(xué)哈希中心語義對齊程度。CRH 學(xué)習(xí)到的哈希中心 PCC 顯著高于無語義的基線(如 CSQ 和 OrthoHash 接近零)以及兩階段方法(SHC),說明 CRH 能捕獲有意義的語義結(jié)構(gòu)。
![]()
圖 3 不同方法在 64bits 下的 mAP 與相關(guān)系數(shù)的關(guān)系。
圖 3 揭示了 mAP 與 PCC 的正相關(guān)關(guān)系,即更好的語義對齊通常帶來更優(yōu)的檢索性能。
3.5 參數(shù)分析
通過對超參數(shù)的敏感性分析,可得如下關(guān)鍵發(fā)現(xiàn):
碼本大小 M:M=2C 時平衡性能和效率。
頭維度 d:最佳 d 為滿足 d≥log2?M 的 2 的最小冪次,保持 d 盡可能小的同時避免碼本碰撞。
更新頻率:頻繁更新(如每個 epoch 更新一次)提升 PCC 和 mAP,但后期可放寬間隔以降低計算。
總 結(jié)
CRH 通過中心重分配機制,實現(xiàn)了哈希中心和哈希函數(shù)的端到端聯(lián)合優(yōu)化,無需復(fù)雜的兩階段流程,多頭設(shè)計進一步增強了語義表達能力。實驗表明,CRH 學(xué)習(xí)到了能表達語義的哈希中心,在單標簽和多標簽檢索任務(wù)上均達到最先進水平,且具有高穩(wěn)健性和可復(fù)現(xiàn)性。
這項工作為深度哈希學(xué)習(xí)提供了新方向,強調(diào)動態(tài)中心優(yōu)化的重要性,未來可擴展至多模態(tài)檢索和長尾分布場景。
參考文獻
[1]Yuan L, Wang T, Zhang X, et al. Central similarity quantization for efficient image and video retrieval[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 3083-3092.
[2]Hoe J T, Ng K W, Zhang T, et al. One loss for all: Deep hashing with a single cosine similarity based learning objective[J]. Advances in Neural Information Processing Systems, 2021, 34: 24286-24298.
[3]Wang L, Pan Y, Liu C, et al. Deep hashing with minimal-distance-separated hash centers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 23455-23464.
[4]Chen L, Liu R, Zhou Y, et al. Deep Hashing with Semantic Hash Centers for Image Retrieval[J]. ACM Transactions on Information Systems, 2025, 43(6): 1-38.
會議預(yù)告
12 月 19~20 日,AICon 2025 年度收官站在北京舉辦。現(xiàn)已開啟 9 折優(yōu)惠。
兩天時間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經(jīng)驗與思考。2025 年最后一場,不容錯過。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.