<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      快手提出全新「檢索數據引擎」CroPS,打破搜索信息繭房

      0
      分享至



      短視頻搜索業務是向量檢索在工業界最核心的應用場景之一。然而,當前業界普遍采用的「自強化」訓練范式過度依賴歷史點擊數據,導致系統陷入信息繭房,難以召回潛在相關的新鮮內容。

      針對這一問題,快手搜索團隊提出了一套全新的檢索數據引擎 CroPS(Cross-Perspective Positive Samples)。該方法通過引入用戶換 Query 數據、推薦流數據以及大模型生成的世界知識,多視角豐富了正樣本信號,并結合層次化標簽分配(HLA)策略和 H-InfoNCE 損失函數,實現了對相關性的精細化建模。

      目前,CroPS 已在快手搜索業務中實現全量部署,服務億級用戶。實測表明,該方案在具備極強的架構普適性的同時,顯著提升了 CTR 與長播率,并有效降低用戶換 Query 率,優化用戶搜索體驗。

      本工作相關成果《CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search》已被人工智能頂級會議 AAAI 2026 Oral 接收。



      • 論文鏈接:https://arxiv.org/pdf/2511.15443v1

      背景

      當前工業界主流的向量檢索模型通常采用對比學習范式進行訓練,拉近 Query 與正樣本在向量空間中的距離,同時推遠與負樣本的距離,從而學習內容相關性。

      然而,在絕大多數工業系統中,訓練數據的正樣本高度依賴歷史曝光日志中的用戶交互行為(如點擊),導致「自強化」循環發生。

      具體而言,模型傾向于檢索與歷史高頻點擊內容相似的視頻,用戶受限于展示結果,只能在有限內容中選擇和反饋,而這些反饋又再次作為正樣本進入下一輪訓練,進一步強化了模型原有的偏好。

      這種機制不可避免地引發了嚴重的樣本偏差。一方面,大量潛在相關但從未獲得曝光機會的優質長尾內容,被系統性地排除在正樣本之外,甚至在隨機負采樣過程中被錯誤標記為負樣本。這種偏差使模型的檢索視野逐漸狹窄,搜索結果變得保守且單一。

      另一方面,由于缺乏對新穎內容的探索能力,用戶的搜索體驗逐漸固化,難以在結果中獲得驚喜或滿足探索性需求。



      以往的學術研究多致力于改進模型結構(如引入交互更復雜的 Poly-Encoder)或優化負采樣策略(如挖掘困難負樣本),從而提升檢索性能。雖然這些方法在一定程度上增強了對已知內容的判別能力,但始終在歷史曝光數據的界限內打轉,無法從根本上緩解正樣本來源單一所帶來的 “信息繭房” 效應。

      針對這一挑戰,快手搜索團隊提出了 CroPS 框架,從根源上打破數據閉環。CroPS 首次在業界引入「跨視角」的正樣本信號,重塑了檢索模型的訓練圖景。

      方法




      多視角正樣本增強引擎 CroPS

      為了打破數據邊界,CroPS 框架構建了一個包含三個維度的正樣本增強引擎,分別利用用戶換 Query 行為、推薦系統反饋以及大語言模型(LLM)的世界知識,來全方位地豐富語義空間。

      1. 基于用戶換 Query 行為的查詢級增強

      在真實的搜索場景中,用戶往往難以一次性精準表達意圖。當用戶輸入查詢詞 A 卻未能找到滿意結果時,通常會進行查詢重構,輸入語義相關但表述不同的查詢詞 B。如果用戶在查詢詞 B 的結果下產生了深度交互,那么該交互視頻在語義上極有可能是查詢詞 A 的理想正樣本,盡管它從未在 A 的結果中獲得足夠的曝光。

      CroPS 敏銳地捕捉到了這種「意圖連續性」。通過分析用戶在短時間窗口內的改寫序列,并利用輕量級語義判別器進行過濾,系統能夠將改寫后獲得的成功點擊 “回流” 給原始查詢,利用用戶的修正行為來糾正模型的語義偏差。

      2. 打破搜推壁壘的系統級增強

      推薦系統擁有海量用戶消費數據,并且其算法機制天然傾向于發散和探索,因此推薦流中的視頻往往具有更豐富的多樣性。

      CroPS 建立了一套跨系統的信號橋接機制:對于同一個用戶,如果他在推薦信息流中深度消費了某個視頻,且該視頻在語義上與用戶近期的搜索詞高度相關,該視頻就會被引入作為搜索模型的正樣本。

      通過這種跨系統的信號融合,搜索模型能夠利用推薦系統的探索能力,將用戶感興趣但未主動搜索到的內容納入召回視野,從而有效緩解單一系統帶來的位置偏差和曝光偏差。

      3. 引入大模型的知識級增強

      當平臺現有的內容庫或日志無法覆蓋某些長尾、復雜查詢時,單純依賴內部數據是無解的。為此,CroPS 引入了大語言模型(LLM)作為「虛擬檢索器」和「內容生成器」,利用 LLM 蘊含的豐富世界知識生成高質量合成樣本。

      具體而言,系統采用單樣本提示(One-shot Prompting)策略,讓 LLM 扮演視頻內容專家,針對特定查詢生成包含標題、描述和標簽的虛擬視頻元數據。將這些合成數據作為正樣本,訓練雙塔模型,相當于將外部世界的常識與邏輯 “蒸餾” 進檢索模型中。

      這一方法使得模型在面對「冷門」或「從未見過」的搜索 query 時,仍能夠憑借語義理解能力找到相關內容,從而徹底突破平臺存量數據的限制。



      層次化標簽分配 (HLA)

      HLA 的核心是解決 CroPS 多源正樣本的「可靠性差異」問題。不同來源的正樣本(比如:用戶換 Query 后產生互動的視頻、推薦流中的視頻)與用戶真實需求的契合度各不相同。如果一視同仁進行訓練,模型可能難以抓住重點。

      因此,HLA 為樣本分配「分層標簽」,讓模型能夠識別樣本的重要程度,從而學習更細粒度的相關性,更好地契合系統優化目標。

      具體來說,HLA 將樣本劃分為「正樣本相關層級」和「負樣本層級」,為后續訓練提供「細粒度監督信號」,不同類型樣本對應固定標簽,具體如下:



      H-InfoNCE 損失函數

      傳統的語義召回采用的是 InfoNCE 進行優化,默認「樣本只有正 / 負兩種標簽」,會逐個對比「單個正樣本」和「對應的負樣本」,無法區分 HLA 里「高標簽正樣本(如上圖 Table 1 的標簽 5)」和「低標簽正樣本(如上圖 Table 1 的標簽 3)」的層次化差異。

      而 H-InfoNCE 在訓練時,將「當前樣本」與「標簽嚴格低于它的所有樣本」進行對比。這不僅突顯了高優先級樣本的重要性,也使學習目標與 HLA 的層級邏輯完全對齊,實現細粒度的語義區分。例如:

      • 若當前樣本是「用戶換 Query(標簽 5)」,H-InfoNCE 會將其與「標簽 ≤4 的所有樣本(包括推薦正例、曝光未點擊樣本、負樣本等)」 一起對比,強制模型學習「標簽 5 樣本與查詢的相似度,必須高于所有低標簽樣本」。
      • 若當前樣本是「曝光未點擊樣本(標簽 3)」,則只需對比「標簽 ≤2 的樣本」。

      通過這種方式,模型能夠逐步掌握「高標簽樣本更重要」的排序邏輯。



      H-InfoNCE 在這里通過樣例標簽矩陣、樣本 mask 矩陣等得到了高效實現。





      實驗結果

      為了驗證這一框架的有效性,團隊構建了兩類測試集,來衡量模型的召回率 Recall@100:

      1. CT:用戶點擊測試數據集,即用戶點擊的視頻作為正例;
      2. QR:用戶換 Query 測試數據集,即用戶換 Query 后消費的視頻作為正例。

      同時也引入了相關性標注測試數據集,以 NDCG@4 為監測指標,作為模型的相關性表征能力度量。

      離線實驗

      論文中主要比較了三類主流方法:

      1. 經典方法:BM25(概率排序基線)、NCE(傳統對比學習);
      2. 神經網絡方法:DPR(雙編碼器稠密檢索)、ANCE(動態難負樣本采樣)、ADORE+STAR(NN 模型引入篩選負例);
      3. 負采樣策略:TriSampler(基于樣本的空間位置進行的負例采樣)、FS-LR(多級別負標簽策略)。

      在離線實驗測試中,CroPS 相較于最強基線 FS-LR 在 CT 數據集上提升 9.5%,在換 Query 測試集 QR 上提升 7.1%。同時 NDCG@4 和 最強基線相當(67.4%->67.0%)



      在線實驗

      在快手搜索的大規模 A/B 測試中,CroPS 帶來了全方位的業務增長:

      • 點擊率(CTR)顯著提升了 0.869%,長播放率(LPR)提升了 0.483%,表明召回的內容不僅相關度高,而且內容質量足以吸引用戶長時間駐留。
      • 用戶換 Query 率(RQR)下降了 0.646%,意味著用戶「一次搜對」的概率大幅增加,不再需要頻繁更換搜索詞來找到想要的內容,直接反映了用戶搜索體驗的質變。





      總結與展望

      CroPS 證明了在工業檢索系統中,正樣本增強是緩解「信息繭房」問題的有效鑰匙,能夠提升系統上限。通過跨視角引入多樣化信號,并結合精細化優化策略,CroPS 成功打破了自強化訓練的邊界。

      未來,快手搜索團隊將進一步探索 CroPS 與生成式檢索(Generative Retrieval)方法的融合,持續挖掘大規模語言模型在搜索全鏈路中的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      韋伯望遠鏡一張照片,讓天文學家集體沉默:宇宙模型錯了?

      韋伯望遠鏡一張照片,讓天文學家集體沉默:宇宙模型錯了?

      觀察宇宙
      2026-01-12 19:36:37
      樸槿惠出獄生活:住別墅,與小10歲律師為伴,如今生活安逸

      樸槿惠出獄生活:住別墅,與小10歲律師為伴,如今生活安逸

      策略述
      2026-01-09 13:02:41
      哈國突然斷氣,中國稀土受挫,美國 9 億拿下七成礦權,地緣棋局再變

      哈國突然斷氣,中國稀土受挫,美國 9 億拿下七成礦權,地緣棋局再變

      花小貓的美食日常
      2026-01-12 05:45:02
      我今年50歲,發現身邊懶得離婚的夫婦,都開始“干婚”了

      我今年50歲,發現身邊懶得離婚的夫婦,都開始“干婚”了

      黑貓故事所
      2026-01-12 21:51:28
      至今未披露原料檢測結果,雀巢奶粉供應商嘉必優收監管工作函

      至今未披露原料檢測結果,雀巢奶粉供應商嘉必優收監管工作函

      界面新聞
      2026-01-12 13:30:16
      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      夢史
      2025-12-16 11:07:49
      14歲男生用鉗子損壞封閉網闖入鐵軌拍照逼停火車,致3趟列車臨時停車十余分鐘,知情人:他還想進駕駛室但被阻止了

      14歲男生用鉗子損壞封閉網闖入鐵軌拍照逼停火車,致3趟列車臨時停車十余分鐘,知情人:他還想進駕駛室但被阻止了

      極目新聞
      2026-01-12 12:29:18
      從古至今,真正能賺大錢的生意就這4個。

      從古至今,真正能賺大錢的生意就這4個。

      流蘇晚晴
      2026-01-10 16:23:24
      破案!能贏遼寧44分,杜鋒卻早早鳴金收兵原因找到,粵媒說出實情

      破案!能贏遼寧44分,杜鋒卻早早鳴金收兵原因找到,粵媒說出實情

      后仰大風車
      2026-01-12 09:10:12
      陪睡陪玩不過是皮毛!萬達百億資產蒸發后,王思聰又曝驚天丑聞

      陪睡陪玩不過是皮毛!萬達百億資產蒸發后,王思聰又曝驚天丑聞

      牛鍋巴小釩
      2025-12-24 10:39:19
      23年恩愛抵不過殘酷現實?73歲梁錦松開始衰老,47歲伏明霞仍嬌艷

      23年恩愛抵不過殘酷現實?73歲梁錦松開始衰老,47歲伏明霞仍嬌艷

      娛樂看阿敞
      2025-07-09 14:41:20
      法國超熟齡性工作者,88歲還在接客?自稱“越老越搶手”,入行原因太心酸!

      法國超熟齡性工作者,88歲還在接客?自稱“越老越搶手”,入行原因太心酸!

      新歐洲
      2026-01-10 19:38:22
      300億大案!公安部出手,這幫吃人不吐骨頭的“吸血鬼”終于涼了

      300億大案!公安部出手,這幫吃人不吐骨頭的“吸血鬼”終于涼了

      泠泠說史
      2026-01-06 18:56:19
      李麗珍傳被吃豆腐!該男星竟中4次六合彩 現已財富自由

      李麗珍傳被吃豆腐!該男星竟中4次六合彩 現已財富自由

      民間平哥
      2026-01-12 22:57:44
      張頌文新劇口碑翻車?主演演技在線,唯有兩人成“敗筆”,可惜了

      張頌文新劇口碑翻車?主演演技在線,唯有兩人成“敗筆”,可惜了

      電影爛番茄
      2026-01-12 23:43:04
      互聯網女高管月薪3萬遭裁員,上司送禮盒以為是錢,打開后她哭了

      互聯網女高管月薪3萬遭裁員,上司送禮盒以為是錢,打開后她哭了

      天夢見證
      2025-05-31 20:39:35
      拔出蘿卜帶出泥,何猷君慘遭媒體爆料,揭開了賭王家里不倫的一面

      拔出蘿卜帶出泥,何猷君慘遭媒體爆料,揭開了賭王家里不倫的一面

      小嵩
      2025-08-01 12:00:18
      伊朗抗議轉向精準化 鎮壓官員家門被標記遭定點打擊

      伊朗抗議轉向精準化 鎮壓官員家門被標記遭定點打擊

      老馬拉車莫少裝
      2026-01-12 19:01:56
      全國央國企排查親屬崗,這是保公平的生死戰

      全國央國企排查親屬崗,這是保公平的生死戰

      華山穹劍
      2026-01-12 21:03:03
      記者:上海申花引進蓋伊的總轉會費最高可達180萬英鎊

      記者:上海申花引進蓋伊的總轉會費最高可達180萬英鎊

      懂球帝
      2026-01-12 13:21:08
      2026-01-13 00:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12100文章數 142535關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      外媒問王毅調整索馬里行程是否出于安全考慮 中方回應

      頭條要聞

      外媒問王毅調整索馬里行程是否出于安全考慮 中方回應

      體育要聞

      一場安東尼奧式勝利,給中國足球帶來驚喜

      娛樂要聞

      蔡少芬結婚18周年,與張晉過二人世界

      財經要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      旅游
      本地
      家居
      公開課
      軍事航空

      旅游要聞

      四川米易一條街的冬櫻花都開了 粉色花海夢幻綻放

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      家居要聞

      包絡石木為生 野性舒適

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      官方確認:殲10CE在空戰中擊落多架戰機

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人国产综合| JIZZ亚洲| 内射后入在线观看一区 | 国产v区| 国产精品成人亚洲| 国产不卡精品视频男人的天堂| 日韩精品人妻系列无码专区| 伊人激情av一区二区三区| 欧美 亚洲 日韩 国产| b站永久免费看片大全| 精品国产国产2021| 亚洲色综网| 日韩国产欧美| 亚洲片一区二区三区| 无码av不卡免费播放| V一区无码内射国产| 无码手机线免费观看| 曲周县| 4hu四虎永久在线影院| 亚洲精品av一二三区无码| 美女网站免费观看视频| 久久成人网站| 国产乱人伦| 姜堰市| 大地影院高清在线观看免费使命| 亚洲精品久久久久成人2007| 51av视频| 午夜视频a| 天天爽天天爽夜夜爽毛片| 2022亚洲男人天堂| av图片小说| 欧美喷潮最猛视频| 亚洲国产综合专区在线播放| 亚洲精品无码高潮喷水在线| 亚洲日韩国产精品第一页一区 | 午夜无码区在线观看| 大陆熟妇丰满多毛xxxⅹ| 一进一出抽搐gif| 亚洲区视频在线观看| 久久精品无码精品免费专区| 云林县|