機器之心原創(chuàng)
作者:張倩
在小紅書上,一群熱愛技術(shù)的年輕人,搞了一場為期五個多月的大型「團建」。
「感謝大佬帶飛!」「用上您的方法之后猛猛上分!」「大佬一己之力把整個排行榜洗了!」
![]()
![]()
說實話,這些年看過不少大賽,但公開討論這么熱烈、選手之間氛圍這么融洽的,真的少見。
初賽到復(fù)賽,選手們一直在分享。成功的經(jīng)驗要講,踩過的坑也不藏著掖著。
![]()
剛?cè)腴T的小白說,看完大佬們的帖子,終于知道怎么下手了;而那些分享的大佬呢,也坦言自己是「拋磚引玉」,評論區(qū)里常常能撿到新靈感。
這哪是比賽?分明是一群人組隊上分。什么「文人相輕」、「零和博弈」…… 在「一起變強」的快樂面前,通通靠邊站。
那么問題來了:到底是什么樣的比賽,讓這群年輕人這么上頭?比賽最后是個什么結(jié)果?以下是我們在決賽現(xiàn)場 get 到的情況。
一場比賽
折射出推薦系統(tǒng)的下一次范式遷移
簡單來說,這是一場廣告算法大賽,目的是讓模型學(xué)會「預(yù)測用戶下一刻可能感興趣的廣告」,比誰「猜」用戶興趣猜得準
這個問題被優(yōu)化得越好,廣告系統(tǒng)就越能把不相關(guān)的內(nèi)容過濾掉,讓用戶看到的更多是有用的信息,而不是被打擾。因此,主辦方騰訊廣告對這個問題非常重視,設(shè)置了 360 萬元的獎金池,冠軍隊伍甚至可以獨享 200 萬
![]()
在技術(shù)路線上,這類問題的解決一直依賴「判別式方法」,即通過分析用戶過去的行為記錄,區(qū)分用戶喜歡的內(nèi)容和不喜歡的內(nèi)容,以此來學(xué)到「擁有特征 A、B、C 的用戶,通常會喜歡擁有特征 X、Y、Z 的物品」。這其中的核心邏輯是「匹配」,就像在一個固定的商品架子上選東西。
但是,這類方法有個問題:在遇到新用戶或新物品時,它就不知道怎么辦了,這就是業(yè)內(nèi)俗稱的「冷啟動」問題
為了解決這類問題,業(yè)內(nèi)不少團隊都在探索新的范式,最近幾年已經(jīng)在語言、視覺等領(lǐng)域 work 的生成式方法自然成了首選。
和判別式方法在已知數(shù)據(jù)范圍內(nèi)做精準判斷不同,生成式方法可以通過學(xué)習(xí)所有實體的本質(zhì)特征,建立一個可推理的語義世界。當新實體出現(xiàn)時,它能夠通過「理解」其本質(zhì)并將其納入這個世界,從而實現(xiàn)強大的泛化能力。
這么說可能有點抽象,我們來舉個例子:平臺上突然上架了一款全新的跑鞋,按照傳統(tǒng)判別式方法,由于沒有人瀏覽、點擊或購買過,它幾乎是「隱形」的,系統(tǒng)很難判斷誰會喜歡它,只能等真實用戶來互動。
但生成式方法不一樣:它可以從商品的圖文、材質(zhì)描述、功能賣點等多模態(tài)信息里,直接讀懂這雙鞋的大致屬性,并把它放進整個語義世界中,找到它最接近的鄰居,比如它和哪類跑鞋相似、哪些用戶的偏好向量與之接近。于是,即便沒有任何歷史行為,它也能把這雙鞋推薦給可能會喜歡它的人。
這種從「記答案」到依靠多模態(tài)信息進行「獨立思考」的過渡是當前生成式推薦算法追求的方向,也構(gòu)成了本次騰訊廣告算法大賽的賽題——全模態(tài)生成式推薦
![]()
在比賽中,選手拿到的是經(jīng)過脫敏處理的用戶全模態(tài)歷史行為數(shù)據(jù),包含文本、視覺、協(xié)同行為等,然后基于這些數(shù)據(jù)去做預(yù)測。
![]()
很多選手反映,這并不是一個簡單的賽題。首先,「生成式廣告推薦」其實是這兩三年才冒出來的新方向,外面能參考的資料并不多,很多思路都得自己摸著石頭過河。其次,大賽給到的是真實業(yè)務(wù)里脫敏后的多模態(tài)數(shù)據(jù),既有推薦系統(tǒng)的協(xié)同特征,也有文本、圖像、語音、視頻的embedding特征,還夾著各種缺失、噪聲。換句話說,選手面對的不是「干凈的小白鼠數(shù)據(jù)」,而是現(xiàn)實世界里那種又亂又雜的情況,非常接近實戰(zhàn),難度一下子就上來了。
正因為賽題又新又真,所以特別考驗大家的探索精神。很多問題光靠一個人啃不動,必須幾個人一起琢磨、互相碰撞,才能把路走通。也正因如此,我們才看到了前面提到的熱烈的討論、空前的思路接力。
技術(shù)與人才的雙重躍遷
年輕一代已走在前沿
整個算法大賽從 6 月份開始啟動,歷時 5 個多月,共有 8000 多人報名,2800 多支隊伍參與比拼,可以說是一場競爭非常激烈的技術(shù)馬拉松。
冠軍團隊 Echoch 和亞軍團隊 leejt 都提到,這幾乎是他們參加過的數(shù)據(jù)規(guī)模最大的一場比賽。比賽中拿到的數(shù)據(jù)集(復(fù)賽達到千萬量級)與以往學(xué)術(shù)場景的小數(shù)據(jù)集完全不同,既需要做模態(tài)的融合處理,又需要應(yīng)對數(shù)據(jù)中存在的大量缺失值。整個比賽打完之后,就像在公司實習(xí)了幾個月一樣。
![]()
冠軍團隊 Echoch。成員來自華中科技大學(xué)、北京大學(xué)、中國科學(xué)技術(shù)大學(xué)。
![]()
亞軍團隊 leejt。成員來自中山大學(xué)。
當然,就像 Echoch 所說,數(shù)據(jù)多也意味著他們可以在比賽中訓(xùn)練出足夠大的模型,從而驗證哪些方法具有可擴展性,這在實際業(yè)務(wù)中非常重要。而且,他們還不用操心算力問題,因為這次騰訊的 Angel 機器學(xué)習(xí)平臺提供了足夠的算力和訓(xùn)練推理平臺支持。有了這些支持,選手們的方案就有了一個足夠真實的實驗場。
在決賽答辯那兩天,騰訊公司副總裁蔣杰在現(xiàn)場仔細聽了選手們的解決方案。
「今年,我注意到一個特別驚喜的變化:現(xiàn)在的學(xué)生對大模型的理解,以及他們做出來的東西,已經(jīng)和工業(yè)界的實際工作非常接近了。以前幾屆的作品往往只能在一臺機器上跑,現(xiàn)在基本都能直接拿來做分布式部署。他們不像我們當年讀書的時候,出來以后啥也不會,要跟一個導(dǎo)師學(xué)半年。」蔣杰在采訪中欣慰地說。
![]()
騰訊公司副總裁蔣杰。
蔣杰的說法并不夸張。我們在現(xiàn)場看到,選手們的方案確實非常有創(chuàng)新性。比如在模型結(jié)構(gòu)上,大家并沒有拘泥于某一種套路,而是大膽嘗試了不同的生成式框架,甚至去琢磨如何重新組織 token,讓模型更好地理解用戶的行為序列;在多模態(tài)的處理上,有的隊伍專門研究怎么把各種模態(tài)的 embedding 對齊,讓文本、圖像、行為信號能夠「聽得懂彼此」,也有人嘗試用更細致的空間對齊方法,讓協(xié)同信息真正用起來;而在工程層面,不少隊伍則把壓箱底的本事都掏了出來,從訓(xùn)練加速到推理優(yōu)化,再到顯存的極限壓縮,都做得非常極致。
在此過程中,選手們成功地把很多之前只在大語言模型、多模態(tài)模型領(lǐng)域嘗試過的方法用在了廣告推薦領(lǐng)域,并且取得了很好的效果,這填補了廣告推薦與其他領(lǐng)域之間的 gap。
選手們這種對于新論文、新方法的消化、運用能力也讓蔣杰非常興奮,直言他們的知識體系和騰訊內(nèi)部的算法工程師「完全接軌」「沒有代差」,有些方面甚至還「更有創(chuàng)新性」
當然,大賽競爭如此激烈,大部分選手是沒有走到?jīng)Q賽的。但很多同學(xué)坦言,他們在比賽中同樣經(jīng)歷了諸多激勵人心的時刻。
要知道,很多人在報名之前是沒有接觸過廣告推薦算法的,更沒挑戰(zhàn)過業(yè)界難題。然而,通過閱讀其他選手在小紅書上分享的解決方案,他們一步步摸清了門道,并跟著策略上分。有位同學(xué)回憶,一位「大佬」始終與他保持私信交流,共同研討如何改進流行性采樣策略。他們花了一兩天時間反復(fù)嘗試,最終獲得了千分之五、六的收益提升——那種感覺依然「很爽」。
更重要的是,這樣的時刻讓他們真切地看到:自己的能力并非固化不變,那些原本未曾設(shè)想的道路,其實也可以勇敢嘗試。賽后,不止一位同學(xué)表示,自己今后還會參賽,這種越挫越勇的精神令人動容。這,或許才是大賽最重要的意義。
比賽結(jié)束
托舉才剛開始
一場大賽,把這么多聰明的頭腦聚在一起,共同把一件難事往前推,本身就已經(jīng)足夠振奮人心。
![]()
但決賽并不是終點。蔣杰在采訪中明確表示,這次在大賽中表現(xiàn)突出的選手,將被納入騰訊的「青云計劃」。這是面向頂尖學(xué)生的人才通道,能夠讓他們直接接觸最好的導(dǎo)師、資源和算力平臺。換句話說,優(yōu)秀的年輕人不會因為一場比賽而散場,而是會繼續(xù)被托舉、被加速。
這種對年輕人才的重視,來自蔣杰對科技行業(yè)長期的觀察:無論國內(nèi)還是國外,能夠在前沿賽道上跑出來的團隊,無一不是依靠「矩陣式」的人才積累。一批人長期深耕不同模塊,彼此補位,形成合力,才有了今天 AI 領(lǐng)域的集中爆發(fā)。從這些案例可以看出,真正決定上限的,是人才的厚度和代際傳承。而這一點,在大賽中其實已經(jīng)出現(xiàn)了苗頭:年輕一代具備很強的科研與工程能力,開源文化也在他們身上延續(xù)得很好
我們希望讓年輕人更快地成長,不是坐扶梯,而是坐直梯的速度往上走…… 有足夠的人才,才能做出更有價值的事情,這是必然的。」蔣杰說這話時語氣非常堅定。
從這次大賽,我們不僅看到優(yōu)秀選手的涌現(xiàn),也看到了國內(nèi)科技企業(yè)在培養(yǎng)頂尖人才方面的投入和決心。這些積極的信號,讓我們有理由對中國 AI 的下一程抱持真正的期待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.