你是否發現,刷短視頻的時間越久,推薦內容卻越來越雷同?當“猜你喜歡”變成“困住你心”,一場由算法主導的“信息圍城”正在悄然成型。
![]()
近期,抖音等平臺首次揭開推薦算法的神秘面紗,試圖打破這場無聲的操控。但算法的牢籠,真的能一鍵擊碎嗎?
01
從主動搜索到被動投喂
人類生產、傳播、獲取信息的方式,是一個從匱乏到豐富、從主動到被動的過程。
![]()
信息生產和傳播,最早依賴于肢體語言和口口相傳,后來到結繩記事和甲骨文,再從竹簡到紙張,從雕版印刷到活字印刷,從激光照排到數字媒體,貫穿整個人類發展史。人類在1996年進入數字存儲時代后,其后16年生產的數字信息量即相當于此前文明史總和。2025年人類社會新產生的數據將達到175萬億GB,如果以100Mb/秒(千兆寬帶)的下載速度計算,一個人下載這些數據需要4.5億年。
信息匱乏的年代,只有精英階層才識字并掌控信息。慢慢隨著知識的普及,出現了媒體,普通人才有機會獲取信息,并做出選擇。
2000年左右有了門戶網站,就像報紙版面一樣按興趣分類,方便受眾按需瀏覽。
當海量信息出現,搜索引擎就應運而生,在受眾主動查找行為與關鍵詞匹配結果間建立快捷通道。
隨著社交媒體的出現,訂閱或關注某個賬號,成了一些網友獲取精準信息的新渠道。
而進入移動新媒體時代,信息終端充分個人化,人們每天都接收著海量信息轟炸,滑動手機屏幕的瞬間,時常會感到一種被巨量信息淹沒的無力感。這個時候,推薦算法就像信息快遞員,能更高效、準確地把合適的信息推送到用戶面前,滿足每個用戶個性化需求。
如今,這類算法已廣泛應用于電商平臺(商品推薦)、視頻網站(內容推送)及社交網絡(好友/信息流推薦),通過“千人千面”推薦顯著提升推薦的精準度和用戶體驗。
02
揭秘協同過濾的“讀心術”
從技術視角來看,推薦算法的基礎是機器學習。事實上,機器學習是人工智能的核心技術之一,其定義有很多種,大體都可以歸結為通過已有的數據進行數學建模、挖掘規律,隨后,在此基礎上對未知的數據進行預測。
![]()
推薦算法的核心目標是通過分析用戶的“行為”(點擊、瀏覽、喜歡、轉發、收藏等),構建個性化的推薦模型。具體而言,系統會基于用戶歷史動作、對象特征和上下文環境,采用算法模型預測用戶可能會對什么樣的內容產生什么樣的行為。
“協同過濾”( Collaborative Filtering,簡稱 CF)推薦算法是最經典的推薦算法之一,至今仍然在廣泛使用。所謂“協同過濾”推薦,簡單來說就是協同用戶的行為,一起對海量的信息進行過濾,從中更加快速篩選出用戶可能會產生行為(比如完播、點贊)的內容。它針對的是行為而不是內容。
![]()
比如你在網上買東西或者看電影、聽音樂,系統會記錄下你的選擇和行為。然后它會去找和你行為相似的人,看看這些人還喜歡什么其他的東西。如果和你行為相似的人都喜歡某一本書,即使你從來沒有看過這本書,系統也會覺得你可能會喜歡,就把這本書推薦給你。
再舉個例子,假設你喜歡看科幻電影《星際穿越》,系統發現和你有類似觀影喜好的人還喜歡《盜夢空間》《阿凡達》等電影,那么它就會把這些電影推薦給你,這就是協同過濾在起作用,它是基于很多人的共同行為和喜好來進行推薦的,而不是直接分析電影的內容。
03
深度學習“破案”實錄
2016推薦算法全面進入深度學習時代。時至今日,深度學習推薦模型已經成為推薦領域當之無愧的主流。
深度學習是機器學習的高級形態,其核心特點是以人工神經網絡為架構。
![]()
人工神經網絡可以分成三個主要部分:輸入層、隱藏層、輸出層。簡單來說,輸入層就是負責記錄信息,隱藏層負責分析信息,輸出層做出最后的判斷。
我們以小區保安協助破案為例:
小區保安作為輸入層,負責登記來訪人員信息,例如戴黑帽子、穿紅衣服、背雙肩包(像素級基礎特征)。登記完成后,他把這些信息寫成小紙條,傳給下一層偵探。
多組偵探就組成了隱藏層,負責進行特征分析。
第一組偵探:發現“黑帽子+紅衣服”常出現在便利店盜竊案中;
第二組偵探:查歷史檔案,發現“雙肩包+上午8點”對應小區快遞被偷案;
第三組偵探:畫嫌疑人畫像,綜合“黑帽子、紅衣服、雙肩包+多次出現在案發地”,鎖定慣犯特征;
輸出層:警長拿到綜合報告,對比數據庫后大喊:“這是上周連環盜竊案的A!”(輸出計算結果)
以上破案過程需要不斷復盤,做好日常訓練。比如一開始偵探們總認錯人,大家會復盤:“上次把戴黑帽子的外賣員當成小偷,是因為沒考慮時間特征!”。于是調整“時間權重”,下次偵探優先檢查“黑帽子+非工作時間”的人。如此反復訓練后,偵探就成了抓小偷專家。
04
從投你所好到破繭重生
抖音推薦算法主力模型之一的Wide&Deep模型就是深度算法的一種。它可以解決前文提到的協同過濾算法的短板。協同過濾算法優點突出,但是其局限性也很明顯,就是泛化能力差,推薦的結果頭部效應比較明顯,也就是容易造成信息單一問題。
比如它就像只認識“熟人圈”,遇到沒見過的新東西(比如小眾內容,即用戶行為數據中較少出現的內容),就不知道怎么推薦了。
比如總愛推大家都喜歡的“熱門貨”(比如爆款電影、頂流歌手),小眾的東西很難被看到。
另外,它翻來覆去推薦的都是那幾樣熱門的,時間長了你看到的推薦就越來越“窄”,像被關進了“熱門信息盒子”里。
![]()
Wide&Deep模型則同時強調廣度和深度。
比如一個用戶經常觀看籃球比賽視頻,廣度模型部分會根據用戶的歷史觀看記錄,不斷推薦更多籃球比賽視頻,比如不同球隊的比賽、不同年份的賽事等。
而深度模型部分會分析視頻的各種特征,如視頻的主題、風格、演員等。當一個新的籃球技巧教學視頻發布時,盡管這個視頻在用戶歷史記錄中沒有直接關聯,但深度模型通過分析其與用戶已觀看的籃球比賽視頻在主題上的相關性,可能會將這個新視頻推薦給用戶,從而拓寬用戶的視野,減少信息繭房的影響。
當深度學習開始主動挖掘你未曾察覺的興趣,當推薦系統從“投喂熱門”轉向“激發可能”,或許我們終將能在信息繭房中鑿開一扇窗,去擁抱算法之外更遼闊的世界。
部分圖文源自抖音官方《從零開始了解推薦系統》
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.