在視頻流的世界里,算法是唯一不會疲倦的導演。
算法,決定了我們每天刷到什么,看多久,會不會點個贊、留個言。
我們以為是自己在選擇內容,其實是算法在選擇你。
過去幾年,短視頻平臺在推薦系統上已經走到了一個高度相似的階段——
大模型負責預測用戶可能的反應,人工公式把多個目標拼成一個總分,得分最高的內容被推到你面前。
這套邏輯,叫“啟發式排序融合公式”,便宜、靈活、好調。但也因為它太人工、太線性、太局限,讓整個推薦系統始終像一臺被人操控的機器,完全沒到能自己思考的生命體。
快手決定打破這個范式。
他們在最新的論文里,公開了一套名為 EMER(End-to-End Multi-objective Ensemble Ranking) 的「端到端多目標排序機制框架」,說白了,就是要讓算法學會自己“決定什么更重要”。
![]()
https://arxiv.org/pdf/2508.05093
讀完快手團隊在arXiv發的這篇技術論文《An End-to-End Multi-objective Ensemble Ranking Framework for Video Recommendation》,我發現:
它不是那種特別枯燥的純學術研究總結,也不像公眾號上大量的“AI助力創作”的故事,有點像是一份能一比一學習的、工程級的算法模型筆記。
就好像是快手把他們最牛的算法團隊的核心經驗,悄悄給開源了。
01 把推薦算法“模型化”
快手這套新框架的本質,是把推薦這件事徹底「模型化」。
過去的推薦邏輯,其實還是在人類邏輯里打轉:先去預測點擊率、停留時長、點贊量,然后人工寫一個公式,把這些指標加權起來,得出一個最終的分數。
這種方法簡單、可解釋,但肯定有上限。
于是,快手的工程師不打算這么玩了。他們直接讓模型自己去“學排序”,讓系統在多目標之間找到一個動態的平衡點。
讓用戶既看得久,也更愿意回來。給我的感覺這是一個非常「工程師氣質」的思路,推薦系統從手工調權重,開始進入到全自動的智能博弈階段。
更有意思的是,快手不是單獨評估每個視頻,而是一次性把候選視頻打包進模型里,讓算法理解這些視頻之間的相對關系。
在這一點上,它像是在讓機器擁有一種「比較感」:
同樣是20條視頻,哪一條能更好地滿足這個用戶此刻的興趣?算法不再追求絕對分數,而是學習「這條視頻比那條更合適」。
![]()
從結果來看,拿到的收益也已經很有確定性。
快手設計落地的這套「基于模型的端到端多目標融合排序機制框架」,似乎有機會代替傳統的人工設計的啟發式排序融合公式。
實驗推全前的Launch實驗、推全后的反轉實驗,都觀察了超過一個月,從反轉實驗數據來看,用戶體驗提升顯著:
快手極速版App:七日留存+0.196%,App停留時長+1.392%,單列短視頻觀看次數+1.044%;
快手主App:七日留存+0.133%,App停留時長+1.199%,單列短視頻觀看次數+2.996%。
在OneRec鏈路,快手也進行了嘗試,作為OneRec的Reward Model進行生效,可提升App停留時長0.56%,留存有顯著正向趨勢,反轉實驗也在長期觀察中。
02 排序不再是“打分”,而是“比較”
在快手的視角里,推薦系統的核心不是“給每個視頻打幾分”,要理解“這些視頻之間的相對關系”。
我也越來越覺得,算法肯定得懂得:在一個請求下,這二十條視頻里,哪一條更適合當前的用戶。
為此,快手團隊在最底層就重新組織了數據樣本。
傳統算法只看被用戶點開的幾個視頻,而 EMER 把 一次請求的所有候選視頻——不論是否曝光,都打包成一個樣本。
這讓模型能在候選集內部建立比較關系,也解決了長期困擾業界的曝光偏差問題。
快手還給模型加上了“相對位置特征”(Normalized Rank),讓算法知道:“這個視頻在候選列表里排第幾”。
整個模型采用 Transformer 架構,因為它天生擅長理解“序列關系”,能捕捉視頻與視頻之間微妙的相互作用。
跟以前不一樣的是,算法第一次不僅知道這個視頻好不好,還知道它比另一個視頻好多少。
![]()
03 從“調公式”到“自我進化”
推薦算法的復雜,不僅在數據,還在目標。
用戶滿意度,就很難用單一數據指標衡量:它可能是“看完的時長”、“點贊”、“評論”、“轉發”,還有“下一次愿不愿意回來”,以及所有這些要素的叉乘組合。
這些目標有時候又會互相沖突——優化時長會損失互動,提升互動又可能犧牲停留。
傳統方案靠人工調權重,就好比是普通飛行員去駕駛宇宙飛船,用人腦去控制上百個推力平衡。
而 EMER 的思路是:讓算法自己學會調所有電門。
快手設計了一個叫 Advantage Evaluator(優勢評估器) 的機制,讓模型在訓練過程中不斷比較“當前版本”和“舊版本”的表現,動態調整各目標的損失權重。
當系統發現“觀看時長變好了但點贊掉了”,它會自動提升點贊目標的權重;如果點贊又上來了,就再去補強時長。
就遠遠不是調參了,這種自我進化(Self-Evolution)的訓練方案,也就是這套新框架的核心機制。
![]()
簡單說,這套“自我進化”機制,就是讓算法學會自己調節優先級。
EMER 的“優勢評估器”相當于給算法裝了一個“自省模塊”——它會實時比較新舊模型的表現,如果發現某個目標變差了,就自動提高它的權重去補救;表現好的目標權重則降低,避免過擬合。
這種動態學習的結果是,模型自己學會了“學習”。在快手的實驗中,它成功融合了 78 個不同目標,模型能在這78個目標之間自己平衡取舍,不用人干預,還能隨著用戶行為變化不斷優化。
到這里,我真心覺得,快手的算法已經不只是會學習,而是會“學著怎么學習”,然后順理成章也就有了核心指標的提升——
![]()
就像第一部分說的,快手極速版、主站App,在推薦系統的核心指標如LT、時長、vv和互動等指標上,都取得了顯著的提升。
而目前的LT折線圖結果則表明,LT仍然有不斷上升的趨勢。
![]()
在一個億級日活平臺上,這些指標提升,也意味著巨大的商業價值。
04 用戶滿意度這件事,終于被“定義”了
算法世界最難的部分,不是算力,也不是模型,而是“定義什么是好”。
快手提出了兩個解決思路:
一是“相對滿意度”——不用去追求用戶的絕對好惡,而是比較用戶對不同視頻的反應。
基于用戶的多種反饋信息,很難定義一個用戶滿意度的絕對水平;但是可以基于用戶在收到推薦后的后驗反饋,來判斷一個指標條件是否相對更優于另一個指標條件。
快手團隊定義了層次化的滿意度關系(“多重正反饋 > 單一正反饋 > 無正反饋”)來定義。對于單個item而言,收到的正反饋數量越多,其相對滿意度就越高。
如果一個視頻同時獲得點贊和長時觀看,它的滿意度就高于只獲得其中一個的視頻。模型通過 Pairwise Logistic Loss 學習這種相對優劣關系。
![]()
二是“多維代理指標”:
盡管后驗反饋為滿意度的量化提供了寶貴的洞察信息,但其固有的曝光偏差和信號稀疏性是無法回避的局限。因此,EMER 從多目標優化的角度引入了互補的解決方案。
簡單來說,就是用戶滿意度不能靠一個指標定義,所以快手引入多個先驗信號(Pxtrs),讓模型同時學習多個維度的排序性能。
這讓算法能在保持實時性的同時,覆蓋深層次的用戶反饋,比如延遲轉化、跨業務信號等。
而多維指標的融合,又被放進自演化機制中動態調權,使得模型始終保持均衡。
在大規模推薦系統中,多任務模型能為每個候選項提供豐富的先驗信號(Pxtrs)。這些信號本質上都反映了用戶滿意度的不同維度。
快手方面認為,提升某個信號的排序效果,就能提升相應維度的用戶滿意度,所有信號的排序效果同時提升,將共同促進整體用戶滿意度的提高。
![]()
我就感受到一種很“快手式”的哲學:不用非要定義什么是完美,只要讓系統自己在真實反饋中不斷接近滿意。
05 IPUT:用單位時間去衡量真實體驗
工業界有一個常見的噩夢叫“離在線不一致”——離線看著模型指標漂亮,上線后一塌糊涂。
快手也遇到過這種問題:離線的互動AUC高得離譜,結果上線后互動總量下降。
原因是,離線優化關注的是“單個視頻的互動概率”,而線上目標其實是“單位時間內的總互動量”。
這兩者方向完全不一樣。
快手提出了一個新指標:IPUT(Interaction Probability per Unit Time),即單位時間內的互動概率。
通過將優化目標從 pxtr 轉化為 IPUT,將模型的學習方向從“最大化單次互動的可能性”,精準地調整為“最大化單位時間內的互動效率”。
![]()
這個方法就從根本上消除了“解耦悖論”,顯著提升了離線評估與在線業務表現的一致性,為模型離線的高效迭代奠定了基礎。
換句話說,它把模型優化的目標從“我能讓你對這個視頻互動”變成“我能讓你在一分鐘里多互動幾次”。
不得不說還是挺有算法創意的。
![]()
口說無憑,看數據結果,效果也很顯著,對真實用戶環境的模擬和測試,看起來能很好的應用到現實快手用戶體驗里。
而且我發現,快手的技術革命,不只是模型上的,還有組織。
論文里提到,他們在內部同時推進了“群治 + 自治”的排序機制,讓不同業務線以 留存貢獻度 為核心指標,統一在一條流量分配邏輯上競爭。
不像很多大公司的內部掣肘,在快手“群治 + 自治”的排序機制下,不同業務不再靠資源爭奪流量,而是靠算法競爭貢獻。
這樣去推演,推薦系統也就不只是技術工具,有一天也會成為公司的內部博弈規則。
在 OneRec 鏈路中,快手也把 EMER 框架用作 Reward Model,App 停留時長提升了 0.56%,留存仍在長期上升。
看到一個很清晰的趨勢:推薦算法已經不再只是“推薦視頻”,而是在優化整個生態的能量流動、優化一家公司的未來效率。
06 技術的意義,不只是指標
當我們討論這些百分號和公式時,其實討論的是人。
一個更聰明的算法,意味著每個人的注意力被更精準地引導;
一個更懂“比較”的排序系統,意味著內容分發開始進入多維博弈的新時代。
過去,推薦系統像流水線:把內容裝上分數標簽,送上熱榜;而現在,它像一場動態協奏:算法在實時地聽取用戶反饋,自我修正,學著去理解人。
這場技術變革的深意在于:推薦不再只是“給你看什么”,而是“理解你為什么會看”。
![]()
https://arxiv.org/abs/2508.05093
在視頻平臺玩家里中,快手可能不是宣傳自己最激進的,但它的工程底色更深。
當別人在聊流量和增長,快手的算法團隊在談“用戶滿意度的量化”、“單位時間互動密度”、“自演化的多目標優化”。
而這些聽起來稍顯冷門的技術詞匯,其實正在悄悄改變整個行業的邏輯。
我更感興趣的,是這背后透露出的行業方向。
過去幾年,短視頻平臺都在講「內容為王」,但快手的實踐在提醒我們:內容的王冠,最終是算法戴上的。
推薦系統不再是幕后,而是成為整個內容產業的前臺——決定哪些作品能被看到,哪些創作者能成長,甚至影響一個城市的消費節奏。
未來幾年,這種算法的演進會繼續加速。
短視頻推薦會從“爆款邏輯”走向“場景邏輯”,算法會越來越懂得區分“午休想看輕松的”“地鐵上想看搞笑的”“深夜想看治愈的”。它會更懂情緒、更懂節奏。
快手的框架正是為這種“多目標、多場景”的推薦時代鋪路。
算法不再是工具,而是一種公司思維。
而能把算法變成戰略的人,才真正掌握了未來的分發權。
“當算法有了模型,內容世界的江湖,也就開始重新排序。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.