<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      快手廣告邁入生成式推薦時代!GR4AD:Token到Revenue全鏈路重構

      0
      分享至



      機器之心發布

      當推薦系統遇上大模型范式,廣告變現的天花板被再次打破。快手提出 GR4AD,作為國內生成式推薦在大規模廣告場景下的首次全量落地,實現廣告收入提升 4.2%,服務 4 億 + 用戶。



      論文鏈接:https://arxiv.org/pdf/2602.22732

      一、引言:"推薦該怎么做" 的新范式

      過去十年,深度學習推薦模型(DLRM)幾乎統治了整個工業界的推薦系統 —— 從召回到排序,從特征交叉到序列建模,它們構建了一套成熟而穩固的技術棧。然而,當大語言模型(LLM)的浪潮席卷而來,一個大膽的問題被拋了出來:

      能不能像生成文本一樣,直接 "生成" 推薦結果?

      這就是生成式推薦(Generative Recommendation)的核心思想。以 TIGER、OneRec 為代表的一系列工作,已經在自然推薦場景中驗證了這一范式的可行性。但當戰場轉移到大規模廣告系統—— 這個對時延、收益、商業價值都有極致要求的領域 —— 事情變得遠沒有那么直接。

      快手的這篇論文,正是對這一問題交出的一份沉甸甸的工業級答卷。他們提出了GR4AD(Generative Recommendation for ADvertising),一個橫跨表征、學習、服務三大層面協同設計的生成式廣告推薦系統,并已全量部署于快手廣告平臺,服務超過 4 億用戶

      二、問題與挑戰:廣告場景下的三大挑戰

      論文開篇就旗幟鮮明地指出:直接把 LLM 那套訓練和推理范式搬到廣告推薦上,是行不通的。 具體來說,廣告場景存在三個獨有的核心挑戰:

      挑戰一:廣告物料的 Token 化 —— 多元信息的統一編碼

      廣告不是普通的短視頻。一條廣告背后融合了視頻創意、商品詳情、廣告主 B 端元數據等多模態、多粒度信息。更棘手的是,平臺還提供了轉化類型、廣告賬戶等關鍵業務信號,這些信號具備強烈的商業價值但幾乎沒有 "語義內容" 可言。如何為廣告物料打造一套既能捕獲語義內容、又能編碼業務信息的統一 Token 體系

      挑戰二:學習范式 —— 面向商業價值的列表級優化

      廣告推薦的優化目標不是 "猜中用戶會點哪個" 那么簡單,而是要在eCPM 排序、NDCG 等列表級指標下最大化商業價值。現有的生成式推薦方法大多沿用 LLM 的分階段訓練方式,不完全適配大規模推薦場景的持續在線學習,且缺乏面向排序的、列表級的學習設計。

      挑戰三:實時服務 —— 多候選生成的算力困局

      不同于 LLM 聊天場景中 "解碼一條回復、容忍較長延遲" 的模式,廣告系統需要在極高 QPS 和極低延遲(<100ms)下,通過 Beam Search同時生成大量高質量候選。這是一個與 LLM 不同的推理優化問題。

      三、方法:全鏈路協同設計的破局之道

      GR4AD 的方法論可以用一句話概括:"表征 - 學習 - 推理" 三位一體的推薦原生設計。 下面逐一拆解。



      3.1 統一廣告語義 ID(UA-SID):給廣告一個 "身份證"

      核心思想:用一個端到端微調的多模態大模型(MLLM)為每條廣告生成統一嵌入,再通過精心設計的量化方法將其編碼為離散 Semantic ID。



      第一步:統一廣告嵌入(UAE)

      • 指令微調(Instruction Tuning):針對快手廣告的 6 種典型形態(直播、商品、達人等),設計了 6 套提示模板,引導 MLLM 從不同視角理解廣告內容。比如對直播類廣告,引導模型分析主播畫像和地域特征;對外部投放廣告,則聚焦產品行業和品牌信息。
      • 共現學習(Co-occurrence Learning):用戶行為中的共現關系蘊含了豐富的協同信號。論文使用 Swing 方法估計物料共現強度,并采用 InfoNCE 對比學習目標將其注入表征:



      第二步:MGMR RQ-Kmeans 量化

      這是 UA-SID 的 "殺手锏"。論文提出了多粒度 - 多分辨率(Multi-Granularity-Multi-Resolution)的 RQ-Kmeans 量化策略:

      • 多分辨率(MR):低層級使用更大的碼本捕獲主導語義因子,高層級用較小碼本建模低熵殘差,有效提升碼本利用率。
      • 多粒度(MG):在最后一層用基于非語義特征的哈希映射替代向量量化 —— 將轉化類型、賬戶 ID 等業務信號直接編碼進 SID,一舉解決 "相同內容、不同投放策略" 導致的 SID 碰撞問題。

      最終每個廣告物料被映射為一個離散 UA-SID 序列:



      3.2 LazyAR:懶惰解碼器的大智慧

      生成式推薦在推理時需要通過 Beam Search 生成多個候選 SID 序列。標準自回歸解碼要求每一層都依賴上一步的輸出,這在 Beam 數很大時造成了巨大的計算瓶頸。

      論文的一個關鍵觀察是:第一層 SID 最難學、損失最大,但它的 Beam 只有 1(從 BOS 開始);后續層級更容易,Beam 卻呈指數級膨脹。 大部分計算被浪費在了 "簡單的事情" 上。



      LazyAR 的核心操作: 將對上一步 token 的依賴 "延遲" 到中間某一層(第 K 層)注入:

      • 前 K 層(并行層):不依賴上一步 token,僅基于位置編碼和上下文 X 進行計算,所有層級和所有 Beam 可以并行計算并共享
      • 后 L-K 層(自回歸層):注入上一步 SID 嵌入后進行標準自回歸解碼。

      為什么 LazyAR 有效?

      1. 第一層 SID 的解碼過程完全不受影響(從 BOS 經過全部 L 層)。

      2. 前 K 層在潛空間中進行推理,能編碼關于候選 token 的有用信號。

      3. 引入 MTP 輔助損失,強制前 K 層即使沒有上一步 token 也能學到足夠信息。



      論文特別指出:這個設計是推薦原生的,不適用于標準 LLM 解碼 —— 因為 LLM 解碼通常不用 Beam Search,且后續 token 的預測難度不一定下降。

      3.3 價值感知的監督學習(VSL)

      在廣告場景中,不同樣本的商業價值天差地別。VSL 圍繞 "價值感知" 做了三件事:

      SID + eCPM 聯合預測: 在標準 SID 交叉熵損失之外,將 eCPM 離散化為桶并追加為額外的預測 token:



      價值感知樣本加權: 每個樣本的權重 ,高廣告價值用戶和深度交互行為(如購買)獲得更高權重。



      MTP 輔助損失: 配合 LazyAR,強制前 K 層并行解碼的表征質量。

      最終 VSL 目標:



      3.4 排序引導的強化學習(RSPO):從 "學分布" 到 "優排序"

      VSL 能擬合歷史數據分布,但它不直接優化下游排序目標,也不支持對未知標簽分布的探索。論文因此引入了 RSPO(Ranking-Guided Softmax Preference Optimization),一個面向列表級 NDCG 優化的 RL 算法

      RSPO 的核心 loss





      幾個精妙的工程設計:



      • VSL 與 RSPO 的統一在線訓練:通過樣本級對齊分數動態調整兩個目標的權重 —— 模型排序與獎勵排序偏差大時加重 VSL(學好基礎分布),偏差小時加重 RSPO(精細化價值優化)。

      四、線上部署:工業級系統的全閉環設計

      GR4AD(0.16B 參數)已全量部署于快手廣告系統,實現了一套 “獎勵估計 → 在線學習 → 實時索引 → 實時服務” 的完整閉環。



      4.1 四大核心模塊

      • 獎勵系統(Reward System):訓練獨立的 Reward Model 對 GR4AD 生成的候選集進行 eCPM 評分,在放松延遲約束的環境下進行更大 Beam 的探索,為 RL 訓練提供高質量信號。
      • 在線學習模塊:實時構建 VSL 和 RL 兩種訓練信號,持續進行 mini-batch 更新,實時推送參數到推理服務。
      • 實時索引模塊:用 SID 替代傳統嵌入索引。新物料到達時只需計算 UA-SID 并更新雙向索引(UA-SID ? Item ID),秒級生效,大幅改善冷啟動覆蓋和時效性。
      • 實時服務引擎:處理用戶請求并返回排序廣告列表。

      4.2 推理效率優化:把算力用在刀刃上

      動態 Beam 服務(DBS)是本文的又一亮點,包含兩個子機制:

      • 動態 Beam 寬度(DBW):用遞增的 Beam 調度(如 128→256→512)替代固定寬度(512→512→512),在不損失最終候選質量的前提下大幅削減中間層計算。
      • 流量感知自適應 Beam 搜索(TABS):根據實時 QPS 自動調整 Beam 規模 ——低峰期加大 Beam 提升推薦質量,高峰期收縮 Beam 保障延遲和吞吐

      此外還有一系列工程優化:Beam 共享 KV Cache:將 Beam 從 batch 維度轉移至序列維度進行組織,實現 KV Cache 的共享,顯著提升內存訪問效率(+212.5% QPS)、TopK 預裁剪:先并行選取每個 Beam 的 K 個候選結果,再對聚合候選集進行全局 Top-K 選擇,在有效縮減搜索空間的同時保證準確性(+184.8% QPS)、FP8 低精度推理(+50.3% QPS)、短 TTL 結果緩存(+27.8% QPS)。

      最終效果:<100ms 延遲,500+ QPS/L20 GPU

      五、實驗效果:廣告收入和推理性能的雙贏

      5.1 總體性能與消融實驗



      幾個關鍵發現:

      • RSPO 是所有優化中增益最大的單一組件,顯著優于 DPO 和 GRPO,驗證了列表級 RL 在廣告場景的不可替代性。
      • LazyAR 以極微小的精度代價換來了吞吐量翻倍,是實際部署的關鍵使能技術,優于 DeepSeek-MTP。
      • DBS 在不損失收益的前提下進一步提升了效率,TABS 機制在低峰期還能反向提升收入。

      5.2 Scaling Law



      模型規模方向:從 0.03B 到 0.32B,收入提升從 + 2.13% 單調增長到 + 4.43%,訓練損失也持續下降。生成式廣告推薦的 Scaling Law 是成立的

      推理規模方向:Beam 寬度從 128 增加到 1024,收入從 + 2.33% 提升到 + 4.21%。這意味著更強的推理時搜索能進一步釋放模型潛力—— 這與當前 LLM 領域 Test-time Scaling 的趨勢遙相呼應。

      5.3 UA-SID 質量



      在嵌入質量評估(photo-to-photo recall)中,經過指令微調和共現學習的 UAE 達到了 R@1=0.896,遠超基線 QARM(0.541)和原始 Qwen3-VL-7B(0.769)。MGMR 量化將 SID 碰撞率從 85.44% 降至 18.26%,碼本利用率提升 3 倍以上。

      5.4 商業指標的全面勝利

      • 商業化廣告收入4.2%+
      • 中小廣告主投放量提升17.5%
      • 廣告轉化率提升10.17%
      • 低活用戶轉化率提升7.28%

      基于內容的 SID 帶來的更強泛化能力和更實時的索引對冷啟動物料的更好支持,實現了平臺、廣告主、用戶的三贏

      六、總結與思考

      GR4AD 這篇論文的價值,不僅在于它達成了 4.2% 的收入提升這個數字,更在于它系統性地回答了一個關鍵問題:生成式推薦在廣告這個最 "硬核" 的工業場景中,到底應該怎么做?

      它的答案是:不要照搬 LLM,要做推薦原生的設計

      • Token 化不能只看內容語義,要把業務信號編碼進去(UA-SID + MGMR)。
      • 訓練不能只做單點概率生成,要做價值感知的列表級優化(VSL + RSPO)。
      • 推理不能只套用 LLM 加速技巧,要針對 "短序列、多候選、Beam Search" 的推薦特性做專門設計(LazyAR + DBS)。
      • 系統不能離線批處理,要做實時索引、在線學習、閉環反饋的全鏈路打通。

      GR4AD 是生成式推薦走向廣告工業核心場景的一個重要里程碑。 快手用超過 4 億用戶的真實流量驗證了這條路徑的可行性。可以預見,接下來會有更多廣告平臺跟進這一范式。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      印尼7.6級地震引發海嘯預警 已致人員傷亡

      印尼7.6級地震引發海嘯預警 已致人員傷亡

      中國能源網
      2026-04-02 16:05:12
      藍牙耳機不香了?年輕人紛紛換回有線耳機,原因太現實

      藍牙耳機不香了?年輕人紛紛換回有線耳機,原因太現實

      小柱解說游戲
      2026-04-02 18:48:39
      190cm硬漢!胡軍兒子拒進娛樂圈,立志報國才是星二代最好的模樣

      190cm硬漢!胡軍兒子拒進娛樂圈,立志報國才是星二代最好的模樣

      魔都姐姐雜談
      2026-04-02 12:22:36
      奪冠才兩天,人民日報接連點名張雪,釋放三個強烈信號,字字珠璣

      奪冠才兩天,人民日報接連點名張雪,釋放三個強烈信號,字字珠璣

      青橘罐頭
      2026-04-02 07:20:03
      真敢說!39歲張雪:創業13年重慶從沒有支持過我 一個子兒都沒有

      真敢說!39歲張雪:創業13年重慶從沒有支持過我 一個子兒都沒有

      念洲
      2026-04-01 09:39:30
      國足兩戰穩中求變,邵佳一的改革從讓每個人踢舒服開始

      國足兩戰穩中求變,邵佳一的改革從讓每個人踢舒服開始

      懂球帝
      2026-04-02 15:02:14
      比亞迪殺回第一,王傳福吊打友商

      比亞迪殺回第一,王傳福吊打友商

      新浪財經
      2026-04-02 18:40:02
      毫不可惜!知名開發者:搞LGBT的游戲公司死就死唄

      毫不可惜!知名開發者:搞LGBT的游戲公司死就死唄

      游民星空
      2026-04-02 16:00:56
      人不會無緣無故得帶狀皰疹!提醒:患帶狀皰疹,多半有4個共性

      人不會無緣無故得帶狀皰疹!提醒:患帶狀皰疹,多半有4個共性

      DrX說
      2026-04-01 12:09:22
      突發“黑天鵝”!霍爾木茲,大消息!

      突發“黑天鵝”!霍爾木茲,大消息!

      中國基金報
      2026-04-02 16:12:45
      俄媒警告:一旦沖突爆發,中國面臨全面圍攻,但最危險的不是戰爭

      俄媒警告:一旦沖突爆發,中國面臨全面圍攻,但最危險的不是戰爭

      傲傲講歷史
      2026-04-02 21:42:39
      88分鐘被絕殺,2-3!世界杯擴軍,他們卻出局了,無緣連續3屆參賽

      88分鐘被絕殺,2-3!世界杯擴軍,他們卻出局了,無緣連續3屆參賽

      小火箭愛體育
      2026-04-02 10:16:02
      神經內科專家提醒:這7種不舒服其實是腦梗,千萬不要大意,速看

      神經內科專家提醒:這7種不舒服其實是腦梗,千萬不要大意,速看

      健身狂人
      2026-04-02 19:18:22
      米體:無緣世界杯后,意大利足協直接經濟損失超3000萬歐

      米體:無緣世界杯后,意大利足協直接經濟損失超3000萬歐

      懂球帝
      2026-04-02 16:26:18
      人老了,最舒服的日子,就這10個字

      人老了,最舒服的日子,就這10個字

      青蘋果sht
      2026-04-02 05:56:34
      《五哈6》官宣明星陣容,網友:該來的不來,不該來的全來了!

      《五哈6》官宣明星陣容,網友:該來的不來,不該來的全來了!

      阿纂看事
      2026-03-31 16:36:14
      喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

      喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

      觀察鑒娛
      2026-04-02 10:26:05
      縣城機構改革,這些部門可能要合并!

      縣城機構改革,這些部門可能要合并!

      細說職場
      2026-04-02 21:42:06
      石墨炸彈全球首用,炸黑德黑蘭!伊朗暴怒:蘋果特斯拉全要挨狠揍

      石墨炸彈全球首用,炸黑德黑蘭!伊朗暴怒:蘋果特斯拉全要挨狠揍

      李健政觀察
      2026-04-01 16:21:42
      京東副總裁遭開除,建成全球最大云原生集群,離開當天賬號清零

      京東副總裁遭開除,建成全球最大云原生集群,離開當天賬號清零

      阿纂看事
      2026-04-02 18:20:11
      2026-04-03 00:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12668文章數 142605關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      視頻:美新型導彈空爆數千枚彈片 炸死21名伊朗青少年

      頭條要聞

      視頻:美新型導彈空爆數千枚彈片 炸死21名伊朗青少年

      體育要聞

      邵佳一的改革,從讓每個人踢舒服開始

      娛樂要聞

      《浪姐》人氣榜出爐!曾沛慈斷層第一

      財經要聞

      市場被特朗普一句話打醒 滯脹交易回歸

      汽車要聞

      軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

      態度原創

      藝術
      時尚
      親子
      旅游
      教育

      藝術要聞

      故人西辭黃鶴樓,煙花三月下揚州

      成熟女性衣服別越買越多,準備好襯衫和西裝,得體大方又高級

      親子要聞

      讓孩子學會禮儀之道,做一個有禮貌的孩子

      旅游要聞

      近賞桃花,花蕊迷人醉心

      教育要聞

      王炸!這個區超兩成考生“搖號上高中”,北京中招格局悄然變臉?

      無障礙瀏覽 進入關懷版