![]()
新智元報道
編輯:好困 桃子
【新智元導讀】冠軍獨享200萬!一場讓頂尖學術大佬、高校博士瘋狂撈人組隊的大賽,已向全球正式開賽。論文發(fā)表、大廠offer、算法落地,一鍵三連。
一場比賽,冠軍獨享約200萬!
重賞之下,學術圈早已徹底坐不住了。
去年,曾單槍匹馬殺入50多名的上科大博士,在線發(fā)帖邀約組隊。
一大批學者在線撈隊友,這究竟是什么比賽?
![]()
![]()
深扒一看,能讓學術圈大佬為之瘋狂的賽事,正是一年一屆的騰訊廣告算法大賽。
這幾天,KDD Cup 2026的賽題正式公布,其中一道正是來自騰訊廣告!
這一次,總獎金池高達88.5萬美元,直接刷新了國內(nèi)外同類企業(yè)技術競賽的獎金紀錄。
不僅如此,這次大賽還直接把論文發(fā)表路徑、真實落地機會和職業(yè)通道綁在了一起,就問一句誰不想去啊!
![]()
一道來自中國的題
登上了全球最頂級的擂臺
先說KDD是什么。
ACM SIGKDD,全稱國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,和ICML、NeurIPS并列,是機器學習和數(shù)據(jù)挖掘領域全球公認的三大頂會之一。
KDD Cup是其官方競賽環(huán)節(jié)。能進KDD Cup的賽題,本身就代表著這個問題被學術界認可為「值得全球最聰明的一群人來攻克」。
2026年,騰訊廣告算法大賽(TAAC)直接跳了一個臺階——
以KDD Cup 2026官方賽題的身份,把自己真實業(yè)務系統(tǒng)里啃不動的核心工程難題,擺到了全球研究者面前。
![]()
大賽官網(wǎng):algo.qq.com
但這件事真正值得說道的地方,在于出題權。
過去很長一段時間,中國AI企業(yè)在國際學術舞臺上的存在感,主要體現(xiàn)在「發(fā)論文」和「刷榜單」。
KDD Cup不一樣。誰出題,誰就在定義這個領域的核心問題是什么,全球最頂尖的研究者就圍繞這個問題展開工作。
歷年KDD Cup的出題方,是Google、Amazon、Uber這樣的全球科技巨頭。騰訊廣告這次拿到的,與其說是一個賽事合作的席位,不如說是一次「議題設置」的機會。
從「參與別人的議題」到「定義自己的議題」,這個轉變,可能比賽事本身更值得關注。
跑了二十年的「雙軌」架構
到了必須合并的時候
好了,那這道價值88.5萬美元的題,到底在問什么?
賽題全稱是「Towards Unifying Sequence Modeling and Feature Interaction for Large-scale Recommendation」,翻譯過來就是:
在大規(guī)模推薦系統(tǒng)中,把序列建模和特征交互統(tǒng)一起來。
拆開來看,這道題直指推薦系統(tǒng)架構里一個繞不開的矛盾。
![]()
過去二十年,推薦系統(tǒng)的研究基本沿著兩條線走。
第一條線是特征交互建模。
就是把用戶的性別、年齡、設備類型、廣告類別等各種靜態(tài)特征拿過來,建模它們之間的交叉關系。DeepFM、DCN、Wukong這些經(jīng)典模型,解決的都是這個問題。
第二條線是序列建模。
就是捕捉用戶的行為軌跡。他先看了什么、后點了什么、買了什么、跳過了什么。DIN、DIEN、SIM、TWIN這些模型,關注的就是行為序列里的時序信號。
這兩條線各自都取得了巨大的成功,但問題在于,它們基本是各自為政的。
在今天幾乎所有大廠的推薦系統(tǒng)里,這兩類信號是由兩套完全不同的子網(wǎng)絡分別處理的。
序列那邊跑一個Transformer,特征那邊跑一個交叉網(wǎng)絡,最后在上層做一個淺層融合。這就是所謂的「雙軌并行、后期融合」架構。
這套架構在CPU時代還能湊合用。但進入GPU時代之后,問題就大了。
兩套異構子網(wǎng)絡意味著算力的割裂。你很難用一塊GPU同時高效地跑兩種完全不同的計算圖。
隨著用戶行為序列越來越長、模型規(guī)模越來越大,這種碎片化的架構正在成為系統(tǒng)規(guī)模化的核心瓶頸。更別提工程層面的復雜度了,兩套網(wǎng)絡意味著兩套優(yōu)化目標、兩套調(diào)參邏輯、兩套部署流程。
學術界和工業(yè)界已經(jīng)有人意識到了這個問題。
近兩年,Meta和字節(jié)跳動等大廠陸續(xù)推出了嘗試打通這兩條線的工作:
InterFormer(Meta AI/UIUC,CIKM 2025)探索了異構交互學習
OneTrans(ByteDance/NTU)嘗試用單個Transformer統(tǒng)一特征交互和序列建模
HyFormer(ByteDance)則重新審視了兩種建模范式各自的角色定位。
![]()
![]()
![]()
所以,騰訊今年在KDD Cup上拋出的這道題,實質(zhì)上是向全球學術和工業(yè)界發(fā)起了一個挑戰(zhàn):
能不能設計一個單一同構的Recommendation Block,在一個架構里同時處理序列行為和多域特征交叉?
比賽框架概覽
具體來說,每條訓練/測試樣本對應一個「三元組」(用戶、上下文、目標廣告/商品)。
輸入包含兩部分:一是用戶屬性、廣告屬性、上下文特征、交叉特征等非序列多域特征;二是用戶的歷史行為序列及其附帶的異構側信息。
從模型框架來看,序列特征和非序列特征分別通過專用的tokenizer轉化為S token(序列token)和NS token(非序列token),再一起送入由統(tǒng)一block堆疊而成的同構骨干網(wǎng)絡,最后接一個CVR預測頭完成輸出。
訓練與評估中,模型采用「交叉熵損失函數(shù)」,最終排名以AUC of ROC為準。
![]()
比賽框架概覽
參賽者需要構建模型,捕捉所有這些特征之間的關聯(lián),輸出目標廣告的預測轉化率(pCVR)。
下面,重點來了。
賽題數(shù)據(jù)來自騰訊廣告每日服務數(shù)十億用戶的真實業(yè)務系統(tǒng),包含100個以上的脫敏特征字段,涵蓋用戶行為序列、用戶屬性、廣告屬性、上下文信號和交叉特征等多個維度。
數(shù)據(jù)以JSON格式提供,結構清晰。以用戶行為序列為例,每條記錄包含user_id和一個按時間排列的行為序列,每個行為事件包含item_id、action_type(曝光、點擊、轉化等)和timestamp。
![]()
非序列特征方面,用戶特征包含性別、年齡、婚姻狀態(tài)等字段,物品特征包含類型、品類、廣告主類型等,上下文特征包含設備品牌、操作系統(tǒng)等稀疏特征,交叉特征則以稠密embedding向量的形式給出。
![]()
所有稀疏特征均已做匿名化處理,不包含任何原始文本、圖片或個人可識別信息。
目前,官方已經(jīng)在Hugging Face上開源了一份包含1000條樣本的Demo數(shù)據(jù)集(TAAC2026/data_sample_1000),約68MB,采用Parquet格式,支持pandas和HuggingFace Datasets庫直接加載,方便參賽者提前熟悉數(shù)據(jù)結構和字段定義。
![]()
傳送門:https://huggingface.co/datasets/TAAC2026/data_sample_1000
值得注意的是,第二輪競賽的數(shù)據(jù)量是第一輪的10倍。
參賽者需要在AUC指標上追求極致的同時,還必須滿足嚴格的推理延遲限制——超時的提交直接作廢,不論AUC多高。
效果和效率,兩手都要硬。這就是工業(yè)界的真實約束。
更有意思的是,賽事還專門設置了兩個獨立于排名之外的創(chuàng)新獎:
統(tǒng)一架構創(chuàng)新獎(4.5萬美元)
Scaling Law創(chuàng)新獎(4.5萬美元)
騰訊希望鼓勵(但不強制)參賽者去探索:如何針對序列和非序列特征(或Token),構建可堆疊的統(tǒng)一建模架構; 推薦模型的Scaling Law。
![]()
前者獎勵在統(tǒng)一建模架構上有原創(chuàng)突破的團隊,后者獎勵在推薦系統(tǒng)Scaling Law探索上有深刻洞察的團隊。
換句話說,即使你的AUC不是最高的,只要方法有足夠的新意和學術價值,同樣有機會拿到重量級獎項。
還有一條規(guī)則值得注意:賽事全程禁止模型集成/融合。
這個限制很有針對性。它逼著參賽者在單一架構上做到極致,而不是靠堆模型數(shù)量來刷分。
因為騰訊要的不只是一個跑分最高的模型,它想看到推薦系統(tǒng)架構層面的根本性創(chuàng)新。
高校與業(yè)界,首次同解一道題
2026年賽事的另一個重大變化,是首次開設了面向在職人士的工業(yè)賽道。
這個決定背后的邏輯值得細說。
過去幾年,騰訊廣告算法大賽一直是高校學生的主場。
學生有創(chuàng)造力、有時間、敢想敢試,但他們?nèi)鄙賹φ鎸嵪到y(tǒng)約束的體感。在實驗室里,你可以把模型搞得很復雜,因為沒有延遲預算;你可以用很大的batch size,因為不用考慮線上serving的內(nèi)存開銷。但工業(yè)界不是這樣的。
反過來,在大廠做推薦系統(tǒng)的工程師們,每天都在和延遲、吞吐量、資源分配搏斗,他們對系統(tǒng)約束的理解是刻在骨子里的。但長期在業(yè)務中打補丁式的優(yōu)化,也容易讓人陷入局部最優(yōu),很難跳出來做架構層面的根本性反思。
今年的賽題恰好處在這兩種能力的交叉點上。
「統(tǒng)一建模」既是一個需要架構創(chuàng)新思維的學術問題,也是一個必須尊重工程約束的系統(tǒng)問題。光有想法不夠,光有經(jīng)驗也不夠。
所以,2026年賽事分成了兩條賽道:
學術賽道面向全球高校全日制在讀學生(本科、碩士、博士、博士后),總獎金54萬美元。冠軍獨享30萬美元(約200萬人民幣),亞軍9萬美元,季軍4.5萬美元,第4到10名各1.5萬美元。參賽者需提供學術身份證明。
工業(yè)賽道面向所有社會人士,包括個人、研究機構、企業(yè)團隊,總獎金25.5萬美元。冠軍15萬美元,亞軍7.5萬美元,季軍3萬美元,第4到10名每隊獲得一臺Apple iPad Air。
![]()
兩條賽道做同一道題,分開排名。但最終呈現(xiàn)在KDD舞臺上的,將是兩個群體對同一個問題給出的不同解法。學生可能會提出結構上更大膽的統(tǒng)一方案,工程師可能會在效率和可落地性上打磨得更精細。
這種碰撞本身,就是產(chǎn)學研融合最理想的形態(tài)。
從騰訊廣告的角度看,這也是一步人才生態(tài)的棋。
學術賽道吸引的是未來三到五年的核心算法人才儲備,工業(yè)賽道觸達的是當下就能產(chǎn)生業(yè)務價值的資深工程師群體。兩條線并行,構建的是從校園到職場、從論文到系統(tǒng)的完整人才鏈路。
對于參賽者來說,兩條賽道各有各的實在價值。
工業(yè)賽道這邊。
對于工程師來說,這不只是一場競技,也是一張通往騰訊業(yè)務前線的「入場券」。
優(yōu)秀選手有機會加入騰訊,親自把自己的想法放到真實廣告系統(tǒng)中去驗證和迭代。也就是說,你的代碼不是跑完比賽就扔掉,它可能真的會影響每天數(shù)十億次的廣告決策。
通過騰訊Angel機器學習平臺,參賽者可直接使用免費高性能GPU算力,對于很多中小公司的參賽團隊來說,這是一次難得的大規(guī)模實驗機會。
學術賽道這邊。
對于學生來說,KDD Cup的參賽經(jīng)歷可以直接寫入學術CV,這個背書在全球ML/AI圈的含金量不用多說。
優(yōu)秀成果會被邀請在KDD Workshop分享,并收錄在KDD 2026 Workshop Proceedings,進入決賽的隊伍全員還有機會可獲得騰訊實習Offer并有機會轉正。
![]()
換個角度來看,這場賽事提供的其實是一個三維價值閉環(huán):
學術維度,KDD Cup的背書、Workshop paper的發(fā)表路徑、頂尖評審團的認可;
商業(yè)維度,冠軍方案經(jīng)過離線A/B驗證后有機會直接落地到騰訊廣告的生產(chǎn)系統(tǒng);
職業(yè)維度,參賽者可獲得騰訊人才綠色通道,優(yōu)秀選手直通校招或社招面試。
三條線在同一場賽事里擰在一起,這在算法競賽里并不多見。
(需要注意的是,騰訊員工不可參加任何賽道。)
推薦系統(tǒng)的下一個范式
可能就藏在這道題里
如果把騰訊廣告算法大賽近兩年的賽題放在一起看,能讀出一條清晰的技術演進脈絡。
2025年的賽題是「全模態(tài)序列生成式推薦」(AMGR),探索的是推薦系統(tǒng)從判別式到生成式的范式轉換。能不能用生成模型來「創(chuàng)造」推薦內(nèi)容,而不是只在候選庫里「挑選」。
2026年的賽題轉向了「統(tǒng)一建模」,追問的是一個更底層的架構問題。在生成式推薦的浪潮到來之前,推薦系統(tǒng)的基座架構本身是不是需要先完成一次根本性的重構?
從「上層范式創(chuàng)新」到「底層架構統(tǒng)一」,這個演進方向耐人尋味。
騰訊廣告的技術團隊正在系統(tǒng)性地沿著推薦系統(tǒng)的技術棧向下挖掘。先探索了上層的生成式可能性,現(xiàn)在要回過頭來把地基打牢。
而統(tǒng)一建模這個地基一旦打下去,緊接著就能釋放另一個巨大的可能性——推薦系統(tǒng)的Scaling Law。
我們已經(jīng)在大語言模型上見證了Scaling Law的威力。但推薦系統(tǒng)的Scaling Law是什么?這個問題幾乎沒有人系統(tǒng)性地回答過。
原因在于,傳統(tǒng)的推薦系統(tǒng)架構是碎片化的。序列模塊和特征交叉模塊各自獨立,根本沒有一個統(tǒng)一的骨干網(wǎng)絡可以「scale」。
拿DeepFM來說,你把層數(shù)從10層疊到100層,效果不會線性提升,因為它的架構天花板很低。再看DIN,你把序列長度從100擴展到10000,延遲直接爆炸,因為它的注意力機制壓根不是為這種規(guī)模設計的。
這恰恰是「統(tǒng)一建模」和「Scaling Law」兩個命題深度綁定的原因。
只有當你有了一個統(tǒng)一的、同構的、可堆疊的骨干網(wǎng)絡,Scaling Law的探索才有了載體。你才能系統(tǒng)性地回答:
推薦模型的效果,到底如何隨參數(shù)量、數(shù)據(jù)量、計算量的變化而變化?這條曲線是什么形狀?拐點在哪?
如果這個問題被回答了,推薦系統(tǒng)的優(yōu)化就能從「經(jīng)驗驅動的手動調(diào)參」走向「規(guī)律驅動的可預測擴展」。
廣告平臺將能夠更精確地評估,再投入多少算力,能換來多少轉化率的提升?對于支撐著千億美元數(shù)字廣告市場的推薦系統(tǒng)來說,這幾乎是圣杯級別的問題。
騰訊專門為Scaling Law探索設了一個4.5萬美元的創(chuàng)新獎,而且明確說了,這個獎獨立于排名之外,評審看的不是AUC分數(shù),而是方法論的新穎性和洞察的深度。
這個設計本身就說明,騰訊對這個方向的戰(zhàn)略押注是認真的。
3月19日,正式開賽
一道來自中國互聯(lián)網(wǎng)廣告前線的工程難題,現(xiàn)在擺在了全球最頂尖算法研究者面前。
88.5萬美元的獎金池已經(jīng)就位,KDD 2026的頒獎舞臺正在搭建。
3月19日,大賽正式開賽。 整個賽程從3月跨越到8月(以下均為AOE時間)。
3月15日:Demo數(shù)據(jù)集發(fā)布
3月19日 - 4月23日:全球報名期
4月24日 - 5月23日:第一輪競賽
5月25日 - 6月24日:第二輪競賽
8月9日:KDD 2026會議現(xiàn)場頒獎
![]()
賽事在公平性上也下了功夫。
第一輪采用嚴格的反過擬合控制,包括提交次數(shù)限制和延遲反饋機制,必要時還會啟動滾動準入機制(最多支持5000支隊伍并發(fā))。
第二輪所有提交必須在官方環(huán)境中通過可復現(xiàn)性驗證和規(guī)則合規(guī)檢查,確保最終排名經(jīng)得起檢驗。
每隊1-3人,每人只能加入一支隊伍。4月23日之后不允許任何隊伍變更。排名以AUC of ROC為唯一指標,但必須滿足對應賽道和輪次的推理延遲限制。
不管你是在校園里追論文的學生,還是在大廠里調(diào)系統(tǒng)的工程師,這道題都值得你認真看一眼。
大賽官網(wǎng):algo.qq.com
賽事聯(lián)系郵箱:taac@tencent.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.