網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

冠軍獨享200萬！鵝廠聯(lián)手KDD發(fā)題，高校博士、頂尖大牛連夜組隊

2026-03-20 21:25:23　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困桃子

【新智元導讀】冠軍獨享200萬！一場讓頂尖學術大佬、高校博士瘋狂撈人組隊的大賽，已向全球正式開賽。論文發(fā)表、大廠offer、算法落地，一鍵三連。

一場比賽，冠軍獨享約200萬！

重賞之下，學術圈早已徹底坐不住了。

去年，曾單槍匹馬殺入50多名的上科大博士，在線發(fā)帖邀約組隊。

一大批學者在線撈隊友，這究竟是什么比賽？

深扒一看，能讓學術圈大佬為之瘋狂的賽事，正是一年一屆的騰訊廣告算法大賽。

這幾天，KDD Cup 2026的賽題正式公布，其中一道正是來自騰訊廣告！

這一次，總獎金池高達88.5萬美元，直接刷新了國內(nèi)外同類企業(yè)技術競賽的獎金紀錄。

不僅如此，這次大賽還直接把論文發(fā)表路徑、真實落地機會和職業(yè)通道綁在了一起，就問一句誰不想去啊！

一道來自中國的題

登上了全球最頂級的擂臺

先說KDD是什么。

ACM SIGKDD，全稱國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會，和ICML、NeurIPS并列，是機器學習和數(shù)據(jù)挖掘領域全球公認的三大頂會之一。

KDD Cup是其官方競賽環(huán)節(jié)。能進KDD Cup的賽題，本身就代表著這個問題被學術界認可為「值得全球最聰明的一群人來攻克」。

2026年，騰訊廣告算法大賽（TAAC）直接跳了一個臺階——

以KDD Cup 2026官方賽題的身份，把自己真實業(yè)務系統(tǒng)里啃不動的核心工程難題，擺到了全球研究者面前。

大賽官網(wǎng)：algo.qq.com

但這件事真正值得說道的地方，在于出題權。

過去很長一段時間，中國AI企業(yè)在國際學術舞臺上的存在感，主要體現(xiàn)在「發(fā)論文」和「刷榜單」。

KDD Cup不一樣。誰出題，誰就在定義這個領域的核心問題是什么，全球最頂尖的研究者就圍繞這個問題展開工作。

歷年KDD Cup的出題方，是Google、Amazon、Uber這樣的全球科技巨頭。騰訊廣告這次拿到的，與其說是一個賽事合作的席位，不如說是一次「議題設置」的機會。

從「參與別人的議題」到「定義自己的議題」，這個轉變，可能比賽事本身更值得關注。

跑了二十年的「雙軌」架構

到了必須合并的時候

好了，那這道價值88.5萬美元的題，到底在問什么？

賽題全稱是「Towards Unifying Sequence Modeling and Feature Interaction for Large-scale Recommendation」，翻譯過來就是：

在大規(guī)模推薦系統(tǒng)中，把序列建模和特征交互統(tǒng)一起來。

拆開來看，這道題直指推薦系統(tǒng)架構里一個繞不開的矛盾。

過去二十年，推薦系統(tǒng)的研究基本沿著兩條線走。

第一條線是特征交互建模。

就是把用戶的性別、年齡、設備類型、廣告類別等各種靜態(tài)特征拿過來，建模它們之間的交叉關系。DeepFM、DCN、Wukong這些經(jīng)典模型，解決的都是這個問題。

第二條線是序列建模。

就是捕捉用戶的行為軌跡。他先看了什么、后點了什么、買了什么、跳過了什么。DIN、DIEN、SIM、TWIN這些模型，關注的就是行為序列里的時序信號。

這兩條線各自都取得了巨大的成功，但問題在于，它們基本是各自為政的。

在今天幾乎所有大廠的推薦系統(tǒng)里，這兩類信號是由兩套完全不同的子網(wǎng)絡分別處理的。

序列那邊跑一個Transformer，特征那邊跑一個交叉網(wǎng)絡，最后在上層做一個淺層融合。這就是所謂的「雙軌并行、后期融合」架構。

這套架構在CPU時代還能湊合用。但進入GPU時代之后，問題就大了。

兩套異構子網(wǎng)絡意味著算力的割裂。你很難用一塊GPU同時高效地跑兩種完全不同的計算圖。

隨著用戶行為序列越來越長、模型規(guī)模越來越大，這種碎片化的架構正在成為系統(tǒng)規(guī)模化的核心瓶頸。更別提工程層面的復雜度了，兩套網(wǎng)絡意味著兩套優(yōu)化目標、兩套調(diào)參邏輯、兩套部署流程。

學術界和工業(yè)界已經(jīng)有人意識到了這個問題。

近兩年，Meta和字節(jié)跳動等大廠陸續(xù)推出了嘗試打通這兩條線的工作：

InterFormer（Meta AI/UIUC，CIKM 2025）探索了異構交互學習
OneTrans（ByteDance/NTU）嘗試用單個Transformer統(tǒng)一特征交互和序列建模
HyFormer（ByteDance）則重新審視了兩種建模范式各自的角色定位。

所以，騰訊今年在KDD Cup上拋出的這道題，實質(zhì)上是向全球學術和工業(yè)界發(fā)起了一個挑戰(zhàn)：

能不能設計一個單一同構的Recommendation Block，在一個架構里同時處理序列行為和多域特征交叉？

比賽框架概覽

具體來說，每條訓練/測試樣本對應一個「三元組」（用戶、上下文、目標廣告/商品）。

輸入包含兩部分：一是用戶屬性、廣告屬性、上下文特征、交叉特征等非序列多域特征；二是用戶的歷史行為序列及其附帶的異構側信息。

從模型框架來看，序列特征和非序列特征分別通過專用的tokenizer轉化為S token（序列token）和NS token（非序列token），再一起送入由統(tǒng)一block堆疊而成的同構骨干網(wǎng)絡，最后接一個CVR預測頭完成輸出。

訓練與評估中，模型采用「交叉熵損失函數(shù)」，最終排名以AUC of ROC為準。

比賽框架概覽

參賽者需要構建模型，捕捉所有這些特征之間的關聯(lián)，輸出目標廣告的預測轉化率（pCVR）。

下面，重點來了。

賽題數(shù)據(jù)來自騰訊廣告每日服務數(shù)十億用戶的真實業(yè)務系統(tǒng)，包含100個以上的脫敏特征字段，涵蓋用戶行為序列、用戶屬性、廣告屬性、上下文信號和交叉特征等多個維度。

數(shù)據(jù)以JSON格式提供，結構清晰。以用戶行為序列為例，每條記錄包含user_id和一個按時間排列的行為序列，每個行為事件包含item_id、action_type（曝光、點擊、轉化等）和timestamp。

非序列特征方面，用戶特征包含性別、年齡、婚姻狀態(tài)等字段，物品特征包含類型、品類、廣告主類型等，上下文特征包含設備品牌、操作系統(tǒng)等稀疏特征，交叉特征則以稠密embedding向量的形式給出。

所有稀疏特征均已做匿名化處理，不包含任何原始文本、圖片或個人可識別信息。

目前，官方已經(jīng)在Hugging Face上開源了一份包含1000條樣本的Demo數(shù)據(jù)集（TAAC2026/data_sample_1000），約68MB，采用Parquet格式，支持pandas和HuggingFace Datasets庫直接加載，方便參賽者提前熟悉數(shù)據(jù)結構和字段定義。

傳送門：https://huggingface.co/datasets/TAAC2026/data_sample_1000

值得注意的是，第二輪競賽的數(shù)據(jù)量是第一輪的10倍。

參賽者需要在AUC指標上追求極致的同時，還必須滿足嚴格的推理延遲限制——超時的提交直接作廢，不論AUC多高。

效果和效率，兩手都要硬。這就是工業(yè)界的真實約束。

更有意思的是，賽事還專門設置了兩個獨立于排名之外的創(chuàng)新獎：

統(tǒng)一架構創(chuàng)新獎（4.5萬美元）
Scaling Law創(chuàng)新獎（4.5萬美元）

騰訊希望鼓勵（但不強制）參賽者去探索：如何針對序列和非序列特征（或Token），構建可堆疊的統(tǒng)一建模架構；推薦模型的Scaling Law。

前者獎勵在統(tǒng)一建模架構上有原創(chuàng)突破的團隊，后者獎勵在推薦系統(tǒng)Scaling Law探索上有深刻洞察的團隊。

換句話說，即使你的AUC不是最高的，只要方法有足夠的新意和學術價值，同樣有機會拿到重量級獎項。

還有一條規(guī)則值得注意：賽事全程禁止模型集成/融合。

這個限制很有針對性。它逼著參賽者在單一架構上做到極致，而不是靠堆模型數(shù)量來刷分。

因為騰訊要的不只是一個跑分最高的模型，它想看到推薦系統(tǒng)架構層面的根本性創(chuàng)新。

高校與業(yè)界，首次同解一道題

2026年賽事的另一個重大變化，是首次開設了面向在職人士的工業(yè)賽道。

這個決定背后的邏輯值得細說。

過去幾年，騰訊廣告算法大賽一直是高校學生的主場。

學生有創(chuàng)造力、有時間、敢想敢試，但他們?nèi)鄙賹φ鎸嵪到y(tǒng)約束的體感。在實驗室里，你可以把模型搞得很復雜，因為沒有延遲預算；你可以用很大的batch size，因為不用考慮線上serving的內(nèi)存開銷。但工業(yè)界不是這樣的。

反過來，在大廠做推薦系統(tǒng)的工程師們，每天都在和延遲、吞吐量、資源分配搏斗，他們對系統(tǒng)約束的理解是刻在骨子里的。但長期在業(yè)務中打補丁式的優(yōu)化，也容易讓人陷入局部最優(yōu)，很難跳出來做架構層面的根本性反思。

今年的賽題恰好處在這兩種能力的交叉點上。

「統(tǒng)一建模」既是一個需要架構創(chuàng)新思維的學術問題，也是一個必須尊重工程約束的系統(tǒng)問題。光有想法不夠，光有經(jīng)驗也不夠。

所以，2026年賽事分成了兩條賽道：

學術賽道面向全球高校全日制在讀學生（本科、碩士、博士、博士后），總獎金54萬美元。冠軍獨享30萬美元（約200萬人民幣），亞軍9萬美元，季軍4.5萬美元，第4到10名各1.5萬美元。參賽者需提供學術身份證明。

工業(yè)賽道面向所有社會人士，包括個人、研究機構、企業(yè)團隊，總獎金25.5萬美元。冠軍15萬美元，亞軍7.5萬美元，季軍3萬美元，第4到10名每隊獲得一臺Apple iPad Air。

兩條賽道做同一道題，分開排名。但最終呈現(xiàn)在KDD舞臺上的，將是兩個群體對同一個問題給出的不同解法。學生可能會提出結構上更大膽的統(tǒng)一方案，工程師可能會在效率和可落地性上打磨得更精細。

這種碰撞本身，就是產(chǎn)學研融合最理想的形態(tài)。

從騰訊廣告的角度看，這也是一步人才生態(tài)的棋。

學術賽道吸引的是未來三到五年的核心算法人才儲備，工業(yè)賽道觸達的是當下就能產(chǎn)生業(yè)務價值的資深工程師群體。兩條線并行，構建的是從校園到職場、從論文到系統(tǒng)的完整人才鏈路。

對于參賽者來說，兩條賽道各有各的實在價值。

工業(yè)賽道這邊。

對于工程師來說，這不只是一場競技，也是一張通往騰訊業(yè)務前線的「入場券」。

優(yōu)秀選手有機會加入騰訊，親自把自己的想法放到真實廣告系統(tǒng)中去驗證和迭代。也就是說，你的代碼不是跑完比賽就扔掉，它可能真的會影響每天數(shù)十億次的廣告決策。

通過騰訊Angel機器學習平臺，參賽者可直接使用免費高性能GPU算力，對于很多中小公司的參賽團隊來說，這是一次難得的大規(guī)模實驗機會。

學術賽道這邊。

對于學生來說，KDD Cup的參賽經(jīng)歷可以直接寫入學術CV，這個背書在全球ML/AI圈的含金量不用多說。

優(yōu)秀成果會被邀請在KDD Workshop分享，并收錄在KDD 2026 Workshop Proceedings，進入決賽的隊伍全員還有機會可獲得騰訊實習Offer并有機會轉正。

換個角度來看，這場賽事提供的其實是一個三維價值閉環(huán)：

學術維度，KDD Cup的背書、Workshop paper的發(fā)表路徑、頂尖評審團的認可；
商業(yè)維度，冠軍方案經(jīng)過離線A/B驗證后有機會直接落地到騰訊廣告的生產(chǎn)系統(tǒng)；
職業(yè)維度，參賽者可獲得騰訊人才綠色通道，優(yōu)秀選手直通校招或社招面試。

三條線在同一場賽事里擰在一起，這在算法競賽里并不多見。

（需要注意的是，騰訊員工不可參加任何賽道。）

推薦系統(tǒng)的下一個范式

可能就藏在這道題里

如果把騰訊廣告算法大賽近兩年的賽題放在一起看，能讀出一條清晰的技術演進脈絡。

2025年的賽題是「全模態(tài)序列生成式推薦」（AMGR），探索的是推薦系統(tǒng)從判別式到生成式的范式轉換。能不能用生成模型來「創(chuàng)造」推薦內(nèi)容，而不是只在候選庫里「挑選」。

2026年的賽題轉向了「統(tǒng)一建模」，追問的是一個更底層的架構問題。在生成式推薦的浪潮到來之前，推薦系統(tǒng)的基座架構本身是不是需要先完成一次根本性的重構？

從「上層范式創(chuàng)新」到「底層架構統(tǒng)一」，這個演進方向耐人尋味。

騰訊廣告的技術團隊正在系統(tǒng)性地沿著推薦系統(tǒng)的技術棧向下挖掘。先探索了上層的生成式可能性，現(xiàn)在要回過頭來把地基打牢。

而統(tǒng)一建模這個地基一旦打下去，緊接著就能釋放另一個巨大的可能性——推薦系統(tǒng)的Scaling Law。

我們已經(jīng)在大語言模型上見證了Scaling Law的威力。但推薦系統(tǒng)的Scaling Law是什么？這個問題幾乎沒有人系統(tǒng)性地回答過。

原因在于，傳統(tǒng)的推薦系統(tǒng)架構是碎片化的。序列模塊和特征交叉模塊各自獨立，根本沒有一個統(tǒng)一的骨干網(wǎng)絡可以「scale」。

拿DeepFM來說，你把層數(shù)從10層疊到100層，效果不會線性提升，因為它的架構天花板很低。再看DIN，你把序列長度從100擴展到10000，延遲直接爆炸，因為它的注意力機制壓根不是為這種規(guī)模設計的。

這恰恰是「統(tǒng)一建模」和「Scaling Law」兩個命題深度綁定的原因。

只有當你有了一個統(tǒng)一的、同構的、可堆疊的骨干網(wǎng)絡，Scaling Law的探索才有了載體。你才能系統(tǒng)性地回答：

推薦模型的效果，到底如何隨參數(shù)量、數(shù)據(jù)量、計算量的變化而變化？這條曲線是什么形狀？拐點在哪？

如果這個問題被回答了，推薦系統(tǒng)的優(yōu)化就能從「經(jīng)驗驅動的手動調(diào)參」走向「規(guī)律驅動的可預測擴展」。

廣告平臺將能夠更精確地評估，再投入多少算力，能換來多少轉化率的提升？對于支撐著千億美元數(shù)字廣告市場的推薦系統(tǒng)來說，這幾乎是圣杯級別的問題。

騰訊專門為Scaling Law探索設了一個4.5萬美元的創(chuàng)新獎，而且明確說了，這個獎獨立于排名之外，評審看的不是AUC分數(shù)，而是方法論的新穎性和洞察的深度。

這個設計本身就說明，騰訊對這個方向的戰(zhàn)略押注是認真的。

3月19日，正式開賽

一道來自中國互聯(lián)網(wǎng)廣告前線的工程難題，現(xiàn)在擺在了全球最頂尖算法研究者面前。

88.5萬美元的獎金池已經(jīng)就位，KDD 2026的頒獎舞臺正在搭建。

3月19日，大賽正式開賽。整個賽程從3月跨越到8月（以下均為AOE時間）。

3月15日：Demo數(shù)據(jù)集發(fā)布
3月19日 - 4月23日：全球報名期
4月24日 - 5月23日：第一輪競賽
5月25日 - 6月24日：第二輪競賽
8月9日：KDD 2026會議現(xiàn)場頒獎

賽事在公平性上也下了功夫。

第一輪采用嚴格的反過擬合控制，包括提交次數(shù)限制和延遲反饋機制，必要時還會啟動滾動準入機制（最多支持5000支隊伍并發(fā)）。

第二輪所有提交必須在官方環(huán)境中通過可復現(xiàn)性驗證和規(guī)則合規(guī)檢查，確保最終排名經(jīng)得起檢驗。

每隊1-3人，每人只能加入一支隊伍。4月23日之后不允許任何隊伍變更。排名以AUC of ROC為唯一指標，但必須滿足對應賽道和輪次的推理延遲限制。

不管你是在校園里追論文的學生，還是在大廠里調(diào)系統(tǒng)的工程師，這道題都值得你認真看一眼。

大賽官網(wǎng)：algo.qq.com

賽事聯(lián)系郵箱：taac@tencent.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.