<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      快手提出全新「檢索數據引擎」CroPS,打破搜索信息繭房

      0
      分享至



      短視頻搜索業務是向量檢索在工業界最核心的應用場景之一。然而,當前業界普遍采用的「自強化」訓練范式過度依賴歷史點擊數據,導致系統陷入信息繭房,難以召回潛在相關的新鮮內容。

      針對這一問題,快手搜索團隊提出了一套全新的檢索數據引擎 CroPS(Cross-Perspective Positive Samples)。該方法通過引入用戶換 Query 數據、推薦流數據以及大模型生成的世界知識,多視角豐富了正樣本信號,并結合層次化標簽分配(HLA)策略和 H-InfoNCE 損失函數,實現了對相關性的精細化建模。

      目前,CroPS 已在快手搜索業務中實現全量部署,服務億級用戶。實測表明,該方案在具備極強的架構普適性的同時,顯著提升了 CTR 與長播率,并有效降低用戶換 Query 率,優化用戶搜索體驗。

      本工作相關成果《CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search》已被人工智能頂級會議 AAAI 2026 Oral 接收。



      • 論文鏈接:https://arxiv.org/pdf/2511.15443v1

      背景

      當前工業界主流的向量檢索模型通常采用對比學習范式進行訓練,拉近 Query 與正樣本在向量空間中的距離,同時推遠與負樣本的距離,從而學習內容相關性。

      然而,在絕大多數工業系統中,訓練數據的正樣本高度依賴歷史曝光日志中的用戶交互行為(如點擊),導致「自強化」循環發生。

      具體而言,模型傾向于檢索與歷史高頻點擊內容相似的視頻,用戶受限于展示結果,只能在有限內容中選擇和反饋,而這些反饋又再次作為正樣本進入下一輪訓練,進一步強化了模型原有的偏好。

      這種機制不可避免地引發了嚴重的樣本偏差。一方面,大量潛在相關但從未獲得曝光機會的優質長尾內容,被系統性地排除在正樣本之外,甚至在隨機負采樣過程中被錯誤標記為負樣本。這種偏差使模型的檢索視野逐漸狹窄,搜索結果變得保守且單一。

      另一方面,由于缺乏對新穎內容的探索能力,用戶的搜索體驗逐漸固化,難以在結果中獲得驚喜或滿足探索性需求。



      以往的學術研究多致力于改進模型結構(如引入交互更復雜的 Poly-Encoder)或優化負采樣策略(如挖掘困難負樣本),從而提升檢索性能。雖然這些方法在一定程度上增強了對已知內容的判別能力,但始終在歷史曝光數據的界限內打轉,無法從根本上緩解正樣本來源單一所帶來的 “信息繭房” 效應。

      針對這一挑戰,快手搜索團隊提出了 CroPS 框架,從根源上打破數據閉環。CroPS 首次在業界引入「跨視角」的正樣本信號,重塑了檢索模型的訓練圖景。

      方法




      多視角正樣本增強引擎 CroPS

      為了打破數據邊界,CroPS 框架構建了一個包含三個維度的正樣本增強引擎,分別利用用戶換 Query 行為、推薦系統反饋以及大語言模型(LLM)的世界知識,來全方位地豐富語義空間。

      1. 基于用戶換 Query 行為的查詢級增強

      在真實的搜索場景中,用戶往往難以一次性精準表達意圖。當用戶輸入查詢詞 A 卻未能找到滿意結果時,通常會進行查詢重構,輸入語義相關但表述不同的查詢詞 B。如果用戶在查詢詞 B 的結果下產生了深度交互,那么該交互視頻在語義上極有可能是查詢詞 A 的理想正樣本,盡管它從未在 A 的結果中獲得足夠的曝光。

      CroPS 敏銳地捕捉到了這種「意圖連續性」。通過分析用戶在短時間窗口內的改寫序列,并利用輕量級語義判別器進行過濾,系統能夠將改寫后獲得的成功點擊 “回流” 給原始查詢,利用用戶的修正行為來糾正模型的語義偏差。

      2. 打破搜推壁壘的系統級增強

      推薦系統擁有海量用戶消費數據,并且其算法機制天然傾向于發散和探索,因此推薦流中的視頻往往具有更豐富的多樣性。

      CroPS 建立了一套跨系統的信號橋接機制:對于同一個用戶,如果他在推薦信息流中深度消費了某個視頻,且該視頻在語義上與用戶近期的搜索詞高度相關,該視頻就會被引入作為搜索模型的正樣本。

      通過這種跨系統的信號融合,搜索模型能夠利用推薦系統的探索能力,將用戶感興趣但未主動搜索到的內容納入召回視野,從而有效緩解單一系統帶來的位置偏差和曝光偏差。

      3. 引入大模型的知識級增強

      當平臺現有的內容庫或日志無法覆蓋某些長尾、復雜查詢時,單純依賴內部數據是無解的。為此,CroPS 引入了大語言模型(LLM)作為「虛擬檢索器」和「內容生成器」,利用 LLM 蘊含的豐富世界知識生成高質量合成樣本。

      具體而言,系統采用單樣本提示(One-shot Prompting)策略,讓 LLM 扮演視頻內容專家,針對特定查詢生成包含標題、描述和標簽的虛擬視頻元數據。將這些合成數據作為正樣本,訓練雙塔模型,相當于將外部世界的常識與邏輯 “蒸餾” 進檢索模型中。

      這一方法使得模型在面對「冷門」或「從未見過」的搜索 query 時,仍能夠憑借語義理解能力找到相關內容,從而徹底突破平臺存量數據的限制。



      層次化標簽分配 (HLA)

      HLA 的核心是解決 CroPS 多源正樣本的「可靠性差異」問題。不同來源的正樣本(比如:用戶換 Query 后產生互動的視頻、推薦流中的視頻)與用戶真實需求的契合度各不相同。如果一視同仁進行訓練,模型可能難以抓住重點。

      因此,HLA 為樣本分配「分層標簽」,讓模型能夠識別樣本的重要程度,從而學習更細粒度的相關性,更好地契合系統優化目標。

      具體來說,HLA 將樣本劃分為「正樣本相關層級」和「負樣本層級」,為后續訓練提供「細粒度監督信號」,不同類型樣本對應固定標簽,具體如下:



      H-InfoNCE 損失函數

      傳統的語義召回采用的是 InfoNCE 進行優化,默認「樣本只有正 / 負兩種標簽」,會逐個對比「單個正樣本」和「對應的負樣本」,無法區分 HLA 里「高標簽正樣本(如上圖 Table 1 的標簽 5)」和「低標簽正樣本(如上圖 Table 1 的標簽 3)」的層次化差異。

      而 H-InfoNCE 在訓練時,將「當前樣本」與「標簽嚴格低于它的所有樣本」進行對比。這不僅突顯了高優先級樣本的重要性,也使學習目標與 HLA 的層級邏輯完全對齊,實現細粒度的語義區分。例如:

      • 若當前樣本是「用戶換 Query(標簽 5)」,H-InfoNCE 會將其與「標簽 ≤4 的所有樣本(包括推薦正例、曝光未點擊樣本、負樣本等)」 一起對比,強制模型學習「標簽 5 樣本與查詢的相似度,必須高于所有低標簽樣本」。
      • 若當前樣本是「曝光未點擊樣本(標簽 3)」,則只需對比「標簽 ≤2 的樣本」。

      通過這種方式,模型能夠逐步掌握「高標簽樣本更重要」的排序邏輯。



      H-InfoNCE 在這里通過樣例標簽矩陣、樣本 mask 矩陣等得到了高效實現。





      實驗結果

      為了驗證這一框架的有效性,團隊構建了兩類測試集,來衡量模型的召回率 Recall@100:

      1. CT:用戶點擊測試數據集,即用戶點擊的視頻作為正例;
      2. QR:用戶換 Query 測試數據集,即用戶換 Query 后消費的視頻作為正例。

      同時也引入了相關性標注測試數據集,以 NDCG@4 為監測指標,作為模型的相關性表征能力度量。

      離線實驗

      論文中主要比較了三類主流方法:

      1. 經典方法:BM25(概率排序基線)、NCE(傳統對比學習);
      2. 神經網絡方法:DPR(雙編碼器稠密檢索)、ANCE(動態難負樣本采樣)、ADORE+STAR(NN 模型引入篩選負例);
      3. 負采樣策略:TriSampler(基于樣本的空間位置進行的負例采樣)、FS-LR(多級別負標簽策略)。

      在離線實驗測試中,CroPS 相較于最強基線 FS-LR 在 CT 數據集上提升 9.5%,在換 Query 測試集 QR 上提升 7.1%。同時 NDCG@4 和 最強基線相當(67.4%->67.0%)



      在線實驗

      在快手搜索的大規模 A/B 測試中,CroPS 帶來了全方位的業務增長:

      • 點擊率(CTR)顯著提升了 0.869%,長播放率(LPR)提升了 0.483%,表明召回的內容不僅相關度高,而且內容質量足以吸引用戶長時間駐留。
      • 用戶換 Query 率(RQR)下降了 0.646%,意味著用戶「一次搜對」的概率大幅增加,不再需要頻繁更換搜索詞來找到想要的內容,直接反映了用戶搜索體驗的質變。





      總結與展望

      CroPS 證明了在工業檢索系統中,正樣本增強是緩解「信息繭房」問題的有效鑰匙,能夠提升系統上限。通過跨視角引入多樣化信號,并結合精細化優化策略,CroPS 成功打破了自強化訓練的邊界。

      未來,快手搜索團隊將進一步探索 CroPS 與生成式檢索(Generative Retrieval)方法的融合,持續挖掘大規模語言模型在搜索全鏈路中的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      震驚!網傳上海一公司招聘13名海歸,4男按時提交,9女都未提交…

      震驚!網傳上海一公司招聘13名海歸,4男按時提交,9女都未提交…

      火山詩話
      2026-01-24 21:37:07
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      花哥扒娛樂
      2026-01-24 16:06:55
      北京獨生女被外地前男友毆打致殘!劣跡男霸占房產的方式太極端

      北京獨生女被外地前男友毆打致殘!劣跡男霸占房產的方式太極端

      奇思妙想草葉君
      2026-01-24 23:18:55
      特朗普:美國多州進入緊急狀態

      特朗普:美國多州進入緊急狀態

      第一財經資訊
      2026-01-25 08:45:31
      六旬老人跟團北京5日游,第3天猝死!連續兩天凌晨集合,導游臨時在車上通知增加游覽項目,法院判了

      六旬老人跟團北京5日游,第3天猝死!連續兩天凌晨集合,導游臨時在車上通知增加游覽項目,法院判了

      揚子晚報
      2026-01-24 22:29:57
      個稅降了,2026年1月15日起執行

      個稅降了,2026年1月15日起執行

      會計人
      2026-01-25 12:03:57
      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      懂球帝
      2026-01-25 01:41:11
      國足U23奪亞軍頒獎!拜合拉木笑開花,2將摘下獎牌,李昊低頭!

      國足U23奪亞軍頒獎!拜合拉木笑開花,2將摘下獎牌,李昊低頭!

      籃球資訊達人
      2026-01-25 02:04:51
      新華社記者直擊伊朗最新局勢

      新華社記者直擊伊朗最新局勢

      新華社
      2026-01-24 17:45:55
      五五分流為什么分不下去了?背后的真相

      五五分流為什么分不下去了?背后的真相

      楓冷慕詩
      2026-01-24 13:09:19
      中國隊丟冠僅1夜,隊長赴英超!王鈺棟遭批:態度有問題 基本廢了

      中國隊丟冠僅1夜,隊長赴英超!王鈺棟遭批:態度有問題 基本廢了

      侃球熊弟
      2026-01-25 10:37:48
      又要下雪了,就在今晚!山東最新天氣預報

      又要下雪了,就在今晚!山東最新天氣預報

      魯中晨報
      2026-01-25 14:19:09
      大車司機向年長8歲情人轉賬125萬,車載電話錄下出軌細節!妻子起訴返還,二審判了

      大車司機向年長8歲情人轉賬125萬,車載電話錄下出軌細節!妻子起訴返還,二審判了

      紅星新聞
      2026-01-25 12:53:14
      多地將器官捐獻納入“見義勇為”評定,專家稱概念擴展需審慎

      多地將器官捐獻納入“見義勇為”評定,專家稱概念擴展需審慎

      澎湃新聞
      2026-01-24 22:55:05
      中國共產黨中央軍事委員會副主席張升民簡歷

      中國共產黨中央軍事委員會副主席張升民簡歷

      上觀新聞
      2025-10-23 18:17:07
      一個拿腔作勢一個雙目無神,兩人連累48集大劇,老戲骨再強也沒用

      一個拿腔作勢一個雙目無神,兩人連累48集大劇,老戲骨再強也沒用

      查爾菲的筆記
      2026-01-24 20:12:13
      丹麥如何白撿50倍大領土格陵蘭島的?格陵蘭島的原住民,為啥長得像中國人?

      丹麥如何白撿50倍大領土格陵蘭島的?格陵蘭島的原住民,為啥長得像中國人?

      犀利強哥
      2026-01-23 06:59:12
      我國的“斤”用了3000年,為何與國際接軌后,恰好相當于500克?

      我國的“斤”用了3000年,為何與國際接軌后,恰好相當于500克?

      鶴羽說個事
      2026-01-24 14:02:31
      毒紅薯升級!調查組已介入調查,黑色產業鏈被扒,已蔓延全國多地

      毒紅薯升級!調查組已介入調查,黑色產業鏈被扒,已蔓延全國多地

      青橘罐頭
      2026-01-25 08:58:36
      2026-01-25 15:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      霉霉翻車了:短信中爆粗辱罵閨蜜的導演 口碑急劇下跌

      頭條要聞

      霉霉翻車了:短信中爆粗辱罵閨蜜的導演 口碑急劇下跌

      體育要聞

      中國足球不會一夜變強,但他們已經創造歷史

      娛樂要聞

      王玉雯方嚴正聲明 劇方回應:涉事人員已被開除

      財經要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內飾圖曝光 新車將于一季度正式發布

      態度原創

      家居
      時尚
      手機
      房產
      游戲

      家居要聞

      在家度假 160平南洋混搭宅

      2025年度榜單|| 真金白銀票選出來的“真愛”,今天破價1.6折!

      手機要聞

      榮耀Magic8 Pro Air線下上手:體驗后,真實感受不吐不快!

      房產要聞

      正式官宣!三亞又一所名校要來了!

      《黑神話》零售店火爆異常!活動延長沒來的先別急

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品乱码久久久久久中文字幕| 2020国产欧洲精品网站| 久久久精品一区aaa片| 熟女熟妇伦av网站| 午夜无码人妻AV大片| 欧美亚洲香蕉| 野花韩国高清电影| 国产色a在线观看| 亚洲在线成人网| 中文字幕一区二区久久人妻| 欧美巨大巨粗黑人性aaaaaa| 国产精品久久久影视青草| 亚洲人成人77777网站| 亚洲成在人网站av天堂| 激情综合五月网| 欧美性xxxxx极品| 国产精品XXX| 亚洲精品国偷拍自产在线观看| 丝袜美腿亚洲一区在线| 亚洲精品字幕| 亚洲综合av在线在线播放| 少妇激情av一区二区三区| jizzjizz亚洲| 午夜插逼| 一级做a爰片久久毛片16| 亚洲色Www永久网站| 午夜福利伦伦电影理论片在线观看 | 国产精品高潮呻吟久久AV嫩| 达日县| 国产成人免费一区二区三区| 久久91精品久久91综合| 色欲av蜜桃一区二区三| 最爽free性欧美人妖| 91在线无码精品秘?国产千人斩| 亚洲成人性爱网| 男人的天堂av一二区| 中文字幕人妻系列人妻?无码| 午夜福利伦伦电影理论片在线观看| 国产精品XXXX国产喷水| 尤物av在线| 久久青草亚洲AV无码麻豆|