
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
“我們將在 7 天內把 X 平臺最新的內容推薦算法開源。”
幾天前,X 平臺掌舵者埃隆·馬斯克拋出的這句話,著實讓不少人愣了一下。畢竟這意味著,外界將第一次有機會系統性地了解:X 到底是如何決定向用戶推薦哪些自然內容、哪些廣告內容的。
彼時話一說出口,很多人翹首以盼,也在 X 上每天“蹲守”,等著看馬斯克會不會“爽約”。
![]()
讓人有些興奮的是,X 平臺工程團隊的 Engineering 官方賬號于今天給出了答案。他們重磅宣布,正式開源新的 X 推薦算法——該算法采用了與 xAI 的 Grok 模型相同的 Transformer 架構。
![]()
與此同時,相關的 GitHub 倉庫也一并公開:https://github.com/xai-org/x-algorithm ,上線六小時便已經獲得了 1.6k 個 Star。
![]()
這并不是一次象征性的“放點代碼看看”。對于外界討論了多年的那個問題——“X 的推薦系統到底是怎么運作的”,這一次,終于有了可以直接翻源碼的對象。
![]()
從“放話”到“交卷”:馬斯克為什么非要開源算法?
要聊這次開源,得先搞懂馬斯克的“執念”。
在社交平臺領域,推薦算法向來是各家的“核心機密”:用戶刷到的每條動態、每個廣告,背后都是算法根據用戶行為、內容標簽、商業訴求等維度計算的結果。此前,無論是 Facebook、Instagram 還是其他社交平臺,算法都被牢牢鎖在“黑箱”里,外界只能靠逆向工程猜測邏輯,平臺正常也不會主動交底。
但馬斯克偏不。接手 X 平臺前后,他不止一次吐槽過“算法不透明”的問題。于是,其勢要打造一個「自由廣場」。
這次立“開源的 Flag”,與其說是一時興起,不如說是他對 X 平臺改造的關鍵一步:一方面,通過開源讓全球開發者、用戶監督算法邏輯,減少“算法偏見”、“流量操縱”的質疑,也應對監管;另一方面,借助社區的力量優化算法——畢竟全球程序員的智慧,遠比內部團隊“閉門造車”來得高效,借此可以鞏固 X 生態護城河。
當然,這只是第一步。馬斯克此前還表示,“后續將每四周更新一次代碼,同時附帶開發者說明,標注算法和邏輯上的改動內容。”
這種“持續開源+透明更新”的模式,在社交平臺領域幾乎是前所未有的嘗試。那么,這次他們到底開源了什么,我們接下來再一探究竟。
![]()
GitHub 開箱:X 的推薦算法,到底長什么樣?
打開https://github.com/xai-org/x-algorithm 這個倉庫,我們首先看到這次 X 平臺開源的是「For You(為你推薦)」信息流的核心推薦系統。
據 X 工程團隊介紹,「For You」信息流的內容主要來自兩大來源:
一是站內內容(Thunder 模塊),即用戶關注賬號發布的帖子;
二是站外內容(Phoenix 召回模塊),也就是從全網內容庫中篩選出的帖子。
兩類內容整合后,會交由 Phoenix 模型(基于 Grok Transformer 模型,Transformer 實現移植自 xAI 開源的 Grok-1,并針對推薦系統的具體使用場景進行了適配和調整)分析——該模型會通過用戶的點贊、回復、轉發等互動歷史,預測用戶對每篇帖子的各類互動概率,最終的內容得分便是這些概率的加權組合。
X 工程團隊還透露,該系統已剔除所有手工設計的特征及絕大部分啟發式規則,核心計算工作完全由這款 Grok Transformer 模型承擔,其核心邏輯就是通過分析用戶互動歷史,判斷內容與用戶的相關性。
系統架構如下所示:
![]()
![]()
Rust 語言為主,Python 為輔,「For You」推薦系統大揭秘
從技術棧維度來看,這一倉庫主要使用了 Rust 和 Python 兩種編程語言。項目遵循了Apache License 2.0 開源許可。
![]()
該倉庫的代碼文件按功能模塊劃分,核心模塊分工明確:
phoenix/:包含 Grok 模型適配、推薦系統模型(recsys_model.py)、召回模型(recsys_retrieval_model.py)等核心代碼,以及模型運行、測試腳本;
home-mixer/:以 Rust 語言開發,是推薦系統的 “編排層”,包含候選內容補全、查詢數據補全、打分器、過濾器等核心邏輯;
thunder/:基于 Rust 開發,負責處理 “站內內容”(關注賬號帖子)的檢索、反序列化、Kafka 消息處理等;
candidate-pipeline/:候選內容流水線相關邏輯,是連接內容源與后續處理的關鍵環節。
![]()
該推薦系統的工作原理、核心執行流程有清晰的邏輯鏈路——從響應用戶的信息流請求開始,算法會通過七個核心階段完成內容篩選與推送,每一步都圍繞 “精準匹配用戶興趣”展開,同時規避重復、低質或用戶反感的內容。
第一步:調取用戶核心數據
算法啟動的首要環節是“用戶數據補全”:系統會先抓取用戶近期的互動記錄,比如點贊、回復、轉發、點擊等行為,同時調取關注列表、賬號偏好設置等基礎元數據,這些信息是后續推薦的核心依據,相當于為算法搭建起“用戶畫像” 的基礎框架。
第二步:抓取兩類候選內容
基于用戶數據,算法會從上述提到的兩大渠道檢索候選內容:
一類是“站內內容”,由 Thunder 模塊負責,來源是用戶已關注賬號發布的近期帖子,也是用戶日常刷到的核心內容之一;
另一類是“站外內容”,由 Phoenix 召回模塊通過機器學習技術,從全網內容庫中挖掘出的、用戶未關注但可能感興趣的帖子,這也是系統“推薦陌生內容”的核心來源。
第三步:補全內容完整信息
為了讓后續打分更精準,算法會對所有候選內容做“信息補全”,譬如補充帖子的文本、圖片/視頻等核心素材,作者的用戶名、認證狀態,視頻類帖子的時長,以及內容對應的訂閱權限等關鍵信息,確保每一條候選內容的信息維度完整。
第四步:打分前先過濾無效內容
在進入核心打分環節前,算法會執行“前置過濾”,直接剔除不符合要求的內容,包括重復帖子、超期的過期內容、用戶本人發布的帖子,以及來自已屏蔽/靜音賬號、包含用戶靜音關鍵詞的內容。
此外,用戶已經查看過、近期剛推送過的內容,或是無權限訪問的付費內容,也會在這一步被篩除,避免低質內容占用后續計算資源。
第五步:多維度打分并排序
過濾后的內容會進入核心打分環節(Scoring),系統會依次調用四款打分器計算“適配得分”:
首先是 Phoenix 打分器,從基于 Grok 的 Transformer 模型中獲取機器學習預測結果;
接著加權打分器將這些預測結果整合為最終的相關性得分;
作者多樣性打分器會刻意降低重復作者內容的得分,保證信息流的內容多樣性;
站外內容打分器(OON Scorer)則針對性調整全網挖掘內容的得分,平衡站內與站外內容的展示比例。
第六步:篩選
最終算法會按得分高低對所有內容排序,選取排名前 K 的候選內容進入最后環節。
第七步:最終驗證后推送
即便內容得分靠前,也需經過“篩選后處理”的最終驗證:系統會對候選內容做最后一輪合規性、有效性校驗,確認無誤后才會正式推送到用戶的信息流中,這也是內容呈現給用戶前的最后一道把關。
在算法底層設計上,X 平臺的推薦系統有五大核心決策,這些設計也成為其區別于傳統推薦算法的關鍵:
該系統完全摒棄了手工設計的特征,核心依賴基于 Grok 的 Transformer 模型,從用戶的互動行為序列中自主學習內容與用戶的相關性,不再靠人工設定內容相關性特征,這一設計大幅降低了數據處理流水線和推送基礎設施的復雜度;
在排序環節,模型對候選內容采取“隔離計算”的方式,推理過程中候選內容之間不會相互影響,僅圍繞用戶上下文進行打分,確保單篇帖子的得分不受同批次其他內容干擾,讓得分結果更穩定且可緩存;
召回和排序兩大核心環節均采用多個哈希函數實現嵌入向量的查找,提升了算法運行效率;
不同于傳統模型僅預測單一的“相關性”得分,該模型會同時預測用戶對內容的多種行為概率,讓打分維度更全面;
此外,系統基于 candidate-pipeline 框架搭建了可組合的流水線架構,不僅實現了流水線執行、監控邏輯與業務邏輯的分離,支持獨立環節并行執行和優雅的錯誤處理,還能便捷地新增內容來源、數據補全規則、過濾器及打分器,讓算法具備高度的靈活性和可拓展性。
![]()
馬斯克:“其他社交媒體公司都沒有這樣做”
此次開源之際,馬斯克直言:“我們知道這個算法很笨拙,需要大幅改進,但至少你可以實時、透明地看到我們努力改進它的過程。”
他同時強調,“其他社交媒體公司都沒有這樣做。”
![]()
對于 X 開源的舉措,也引發了不少的熱議。
于普通開發者來說,此次開源的價值遠超“看代碼”本身,好處無疑是明顯的,正如網友 AbundanceVsWar 評論道:
「之所以重要,是因為當分配注意力的系統不透明時,豐富性是不可能出現的。
當人們不了解影響力是如何分布的,注意力就會顯得零和、被操控、充滿政治性。僅這種認知本身,就會引發沖突。而將推薦算法開源,則把注意力從一個神秘資源變成了一個可理解的系統。而可理解性,會改變人們的行為。
確實,一開始透明度會讓“玩法”更容易被利用。但這并不是缺陷,而是一個階段。封閉系統會凍結權力,而開放系統會暴露漏洞、適應變化并不斷改進。隨著時間推移,系統的平衡會從憤怒和部落化轉向優化和貢獻。
這就是減少人工稀缺的方式。方法不是去道德化內容,而是讓規則可見,從而讓價值可以擴展,而不是讓注意力成為爭奪的對象。」
![]()
![]()
![]()
不過也有用戶擔憂開源以后,現在更容易作弊,優質內容瀏覽量很快就會爆炸式增長。
![]()
![]()
整體而言,馬斯克的這波操作,也讓人開始猜測,其他平臺是否會跟風開源算法嗎?其實如果 X 平臺的“開源+透明更新”模式被證明有效,可能會倒逼其他平臺做出改變。畢竟用戶對算法透明的需求只會越來越高,誰先滿足這個需求,誰就能占據用戶心智的優勢。
至于馬斯克的“第一步”之后,還會有多少驚喜?我們不妨拭目以待。
參考:
https://x.com/XEng/status/2013471689087086804
https://github.com/xai-org/x-algorithm
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.