![]()
短視頻搜索業務是向量檢索在工業界最核心的應用場景之一。然而,當前業界普遍采用的「自強化」訓練范式過度依賴歷史點擊數據,導致系統陷入信息繭房,難以召回潛在相關的新鮮內容。
針對這一問題,快手搜索團隊提出了一套全新的檢索數據引擎 CroPS(Cross-Perspective Positive Samples)。該方法通過引入用戶換 Query 數據、推薦流數據以及大模型生成的世界知識,多視角豐富了正樣本信號,并結合層次化標簽分配(HLA)策略和 H-InfoNCE 損失函數,實現了對相關性的精細化建模。
目前,CroPS 已在快手搜索業務中實現全量部署,服務億級用戶。實測表明,該方案在具備極強的架構普適性的同時,顯著提升了 CTR 與長播率,并有效降低用戶換 Query 率,優化用戶搜索體驗。
本工作相關成果《CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search》已被人工智能頂級會議 AAAI 2026 Oral 接收。
![]()
- 論文鏈接:https://arxiv.org/pdf/2511.15443v1
背景
當前工業界主流的向量檢索模型通常采用對比學習范式進行訓練,拉近 Query 與正樣本在向量空間中的距離,同時推遠與負樣本的距離,從而學習內容相關性。
然而,在絕大多數工業系統中,訓練數據的正樣本高度依賴歷史曝光日志中的用戶交互行為(如點擊),導致「自強化」循環發生。
具體而言,模型傾向于檢索與歷史高頻點擊內容相似的視頻,用戶受限于展示結果,只能在有限內容中選擇和反饋,而這些反饋又再次作為正樣本進入下一輪訓練,進一步強化了模型原有的偏好。
這種機制不可避免地引發了嚴重的樣本偏差。一方面,大量潛在相關但從未獲得曝光機會的優質長尾內容,被系統性地排除在正樣本之外,甚至在隨機負采樣過程中被錯誤標記為負樣本。這種偏差使模型的檢索視野逐漸狹窄,搜索結果變得保守且單一。
另一方面,由于缺乏對新穎內容的探索能力,用戶的搜索體驗逐漸固化,難以在結果中獲得驚喜或滿足探索性需求。
![]()
以往的學術研究多致力于改進模型結構(如引入交互更復雜的 Poly-Encoder)或優化負采樣策略(如挖掘困難負樣本),從而提升檢索性能。雖然這些方法在一定程度上增強了對已知內容的判別能力,但始終在歷史曝光數據的界限內打轉,無法從根本上緩解正樣本來源單一所帶來的 “信息繭房” 效應。
針對這一挑戰,快手搜索團隊提出了 CroPS 框架,從根源上打破數據閉環。CroPS 首次在業界引入「跨視角」的正樣本信號,重塑了檢索模型的訓練圖景。
方法
![]()
多視角正樣本增強引擎 CroPS
為了打破數據邊界,CroPS 框架構建了一個包含三個維度的正樣本增強引擎,分別利用用戶換 Query 行為、推薦系統反饋以及大語言模型(LLM)的世界知識,來全方位地豐富語義空間。
1. 基于用戶換 Query 行為的查詢級增強
在真實的搜索場景中,用戶往往難以一次性精準表達意圖。當用戶輸入查詢詞 A 卻未能找到滿意結果時,通常會進行查詢重構,輸入語義相關但表述不同的查詢詞 B。如果用戶在查詢詞 B 的結果下產生了深度交互,那么該交互視頻在語義上極有可能是查詢詞 A 的理想正樣本,盡管它從未在 A 的結果中獲得足夠的曝光。
CroPS 敏銳地捕捉到了這種「意圖連續性」。通過分析用戶在短時間窗口內的改寫序列,并利用輕量級語義判別器進行過濾,系統能夠將改寫后獲得的成功點擊 “回流” 給原始查詢,利用用戶的修正行為來糾正模型的語義偏差。
2. 打破搜推壁壘的系統級增強
推薦系統擁有海量用戶消費數據,并且其算法機制天然傾向于發散和探索,因此推薦流中的視頻往往具有更豐富的多樣性。
CroPS 建立了一套跨系統的信號橋接機制:對于同一個用戶,如果他在推薦信息流中深度消費了某個視頻,且該視頻在語義上與用戶近期的搜索詞高度相關,該視頻就會被引入作為搜索模型的正樣本。
通過這種跨系統的信號融合,搜索模型能夠利用推薦系統的探索能力,將用戶感興趣但未主動搜索到的內容納入召回視野,從而有效緩解單一系統帶來的位置偏差和曝光偏差。
3. 引入大模型的知識級增強
當平臺現有的內容庫或日志無法覆蓋某些長尾、復雜查詢時,單純依賴內部數據是無解的。為此,CroPS 引入了大語言模型(LLM)作為「虛擬檢索器」和「內容生成器」,利用 LLM 蘊含的豐富世界知識生成高質量合成樣本。
具體而言,系統采用單樣本提示(One-shot Prompting)策略,讓 LLM 扮演視頻內容專家,針對特定查詢生成包含標題、描述和標簽的虛擬視頻元數據。將這些合成數據作為正樣本,訓練雙塔模型,相當于將外部世界的常識與邏輯 “蒸餾” 進檢索模型中。
這一方法使得模型在面對「冷門」或「從未見過」的搜索 query 時,仍能夠憑借語義理解能力找到相關內容,從而徹底突破平臺存量數據的限制。
![]()
層次化標簽分配 (HLA)
HLA 的核心是解決 CroPS 多源正樣本的「可靠性差異」問題。不同來源的正樣本(比如:用戶換 Query 后產生互動的視頻、推薦流中的視頻)與用戶真實需求的契合度各不相同。如果一視同仁進行訓練,模型可能難以抓住重點。
因此,HLA 為樣本分配「分層標簽」,讓模型能夠識別樣本的重要程度,從而學習更細粒度的相關性,更好地契合系統優化目標。
具體來說,HLA 將樣本劃分為「正樣本相關層級」和「負樣本層級」,為后續訓練提供「細粒度監督信號」,不同類型樣本對應固定標簽,具體如下:
![]()
H-InfoNCE 損失函數
傳統的語義召回采用的是 InfoNCE 進行優化,默認「樣本只有正 / 負兩種標簽」,會逐個對比「單個正樣本」和「對應的負樣本」,無法區分 HLA 里「高標簽正樣本(如上圖 Table 1 的標簽 5)」和「低標簽正樣本(如上圖 Table 1 的標簽 3)」的層次化差異。
而 H-InfoNCE 在訓練時,將「當前樣本」與「標簽嚴格低于它的所有樣本」進行對比。這不僅突顯了高優先級樣本的重要性,也使學習目標與 HLA 的層級邏輯完全對齊,實現細粒度的語義區分。例如:
- 若當前樣本是「用戶換 Query(標簽 5)」,H-InfoNCE 會將其與「標簽 ≤4 的所有樣本(包括推薦正例、曝光未點擊樣本、負樣本等)」 一起對比,強制模型學習「標簽 5 樣本與查詢的相似度,必須高于所有低標簽樣本」。
- 若當前樣本是「曝光未點擊樣本(標簽 3)」,則只需對比「標簽 ≤2 的樣本」。
通過這種方式,模型能夠逐步掌握「高標簽樣本更重要」的排序邏輯。
![]()
H-InfoNCE 在這里通過樣例標簽矩陣、樣本 mask 矩陣等得到了高效實現。
![]()
![]()
實驗結果
為了驗證這一框架的有效性,團隊構建了兩類測試集,來衡量模型的召回率 Recall@100:
- CT:用戶點擊測試數據集,即用戶點擊的視頻作為正例;
- QR:用戶換 Query 測試數據集,即用戶換 Query 后消費的視頻作為正例。
同時也引入了相關性標注測試數據集,以 NDCG@4 為監測指標,作為模型的相關性表征能力度量。
離線實驗
論文中主要比較了三類主流方法:
- 經典方法:BM25(概率排序基線)、NCE(傳統對比學習);
- 神經網絡方法:DPR(雙編碼器稠密檢索)、ANCE(動態難負樣本采樣)、ADORE+STAR(NN 模型引入篩選負例);
- 負采樣策略:TriSampler(基于樣本的空間位置進行的負例采樣)、FS-LR(多級別負標簽策略)。
在離線實驗測試中,CroPS 相較于最強基線 FS-LR 在 CT 數據集上提升 9.5%,在換 Query 測試集 QR 上提升 7.1%。同時 NDCG@4 和 最強基線相當(67.4%->67.0%)
![]()
在線實驗
在快手搜索的大規模 A/B 測試中,CroPS 帶來了全方位的業務增長:
- 點擊率(CTR)顯著提升了 0.869%,長播放率(LPR)提升了 0.483%,表明召回的內容不僅相關度高,而且內容質量足以吸引用戶長時間駐留。
- 用戶換 Query 率(RQR)下降了 0.646%,意味著用戶「一次搜對」的概率大幅增加,不再需要頻繁更換搜索詞來找到想要的內容,直接反映了用戶搜索體驗的質變。
![]()
![]()
總結與展望
CroPS 證明了在工業檢索系統中,正樣本增強是緩解「信息繭房」問題的有效鑰匙,能夠提升系統上限。通過跨視角引入多樣化信號,并結合精細化優化策略,CroPS 成功打破了自強化訓練的邊界。
未來,快手搜索團隊將進一步探索 CroPS 與生成式檢索(Generative Retrieval)方法的融合,持續挖掘大規模語言模型在搜索全鏈路中的潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.