這是蒼何的第 451 篇原創(chuàng)!
大家好,我是蒼何。
不知道大家有沒(méi)有這種經(jīng)歷:
腦子里明明有個(gè)畫面,或者一句歌詞,但就是死活想不起來(lái)名字。
比如,我前兩天想搜個(gè)電影,腦子里只有個(gè)畫面:“一個(gè)男的在雨里吃漢堡,旁邊還有條狗”。
我去搜“雨里吃漢堡”,以前出來(lái)的全是某快餐店廣告,或者天氣預(yù)報(bào)。
![]()
那種話到嘴邊卻搜不出來(lái)的感覺(jué),真的太憋屈了。
但最近,我發(fā)現(xiàn)搜索好像變神了。
不管是搜那種很虛的形容詞,還是很具體的某個(gè)極其冷門的直播場(chǎng)景,它好像能讀心一樣,啪一下就給你呈上來(lái)了。
那一瞬間,我真的感覺(jué)屏幕對(duì)面是不是坐了個(gè)懂我的活人。
![]()
理智告訴我,這背后,一定是技術(shù)的迭代。
沒(méi)錯(cuò),這依然是我們熟悉的 AI 大模型在搞事情。
最近快手技術(shù)團(tuán)隊(duì)搞了個(gè)大動(dòng)作,發(fā)了兩篇硬核論文,公開(kāi)了他們的新一代工業(yè)級(jí)搜索技術(shù)。
![]()
![]()
論文地址我放評(píng)論區(qū)了,感興趣的可以下載讀一讀。
名字聽(tīng)起來(lái)挺高大上的:UniDex(統(tǒng)一語(yǔ)義倒排) 和 UniSearch(統(tǒng)一生成式搜索)。
這倆名字看著是不是挺勸退?
什么“倒排索引”、“語(yǔ)義建模”、“生成式”……
這些詞堆在一起,就像是把英文字母表重新排列組合了一遍,每個(gè)字都認(rèn)識(shí),連在一起就想關(guān)網(wǎng)頁(yè)。
![]()
但不瞞你說(shuō),我硬著頭皮啃完這 2 篇名為《UniDex: Rethinking Search Inverted Indexing with Unified Semantic Modeling》和《UniSearch: Rethinking Search System with a Unified Generative Architecture》的論文,居然被燃到了。
因?yàn)檫@不僅僅是技術(shù)升級(jí),這簡(jiǎn)直是把搜索系統(tǒng)的地基給扒了重蓋。
今天這篇文章,就是想帶你用最通俗易懂的方式,扒開(kāi)這層技術(shù)外衣。
看看為什么現(xiàn)在的搜索能比你肚子里的蛔蟲還靈,以及快手這波操作到底牛在哪。
第一招:UniDex,給視頻發(fā)“身份證”
![]()
先說(shuō)這個(gè) UniDex。它的核心任務(wù)是:找得準(zhǔn)、找得快。
在它出現(xiàn)之前,搜索引擎用了幾十年的核心機(jī)制叫倒排索引(Inverted Indexing)
這玩意兒是個(gè)啥呢?
舉個(gè)例子,你去了一個(gè)巨大的老式圖書館。
以前的管理員(老算法)特別死板,他手里只有一張寫著書名關(guān)鍵詞的卡片。
你想找一本關(guān)于“很多水的地方”的書,但他手里只有寫著“海”、“河”、“湖”的卡片。
你搜“大海”,他能找到;但如果你搜“很多水的地方”,他可能就懵圈了。
![]()
因?yàn)闀餂](méi)這幾個(gè)字,這就叫表面上的詞匯重疊限制了能力。
這就導(dǎo)致了兩個(gè)問(wèn)題:
笨: 不懂意思,只認(rèn)字面。
重: 為了能搜到更多詞,得設(shè)計(jì)一大堆同義詞擴(kuò)展、停用詞處理等人工規(guī)則,維護(hù)起來(lái)累死人。
而 UniDex,就像是換了一個(gè)過(guò)目不忘的天才管理員。
他不再死記硬背書名里的字了,他用了一種叫語(yǔ)義建模的方法。
簡(jiǎn)單說(shuō),就是給每一本書(視頻)都發(fā)了一個(gè)“語(yǔ)義身份證”(Semantic ID,簡(jiǎn)稱SID)。
這個(gè)身份證里記的不是字,而是意思。
論文里舉了個(gè)特別形象的例子:“Apple” 。
這個(gè)詞,可能是水果,可能是蘋果公司,甚至可能是一個(gè)唱片公司的名字 。
如果一個(gè)視頻里提到了 Google、Microsoft 和 Apple,雖然沒(méi)提“科技公司”這幾個(gè)字,但 UniDex 一眼就能看出它的語(yǔ)義身份證屬于“科技”這一類。也就是會(huì)把 Apple 認(rèn)為是蘋果公司。
當(dāng)你搜相關(guān)概念時(shí),雖然字不一樣,但“身份證”是對(duì)得上的,它就能給你找出來(lái)。
這背后的技術(shù)原理叫“Model-based 倒排索引” 。
快手直接把地基換了!用模型生成的“語(yǔ)義ID”徹底取代了傳統(tǒng)的“關(guān)鍵詞”。
為了做到這一點(diǎn),他們提出了一種名為“UniTouch”的技術(shù),把查詢?cè)~和視頻都變成了離散的ID。
![]()
而且,他們用了一種很聰明的匹配策略叫“Max-Max”
![]()
啥意思呢?
就是一個(gè)視頻,只要有一個(gè)語(yǔ)義側(cè)面跟你的搜索意圖對(duì)上了,就能被撈出來(lái)。
這就像那個(gè)天才管理員,只要聽(tīng)到你描述的任何一個(gè)特征(比如“雨里吃漢堡”),他就能瞬間反應(yīng)過(guò)來(lái):“哦!你是要找那個(gè)!”
這帶來(lái)的好處是驚人的。
官方數(shù)據(jù)顯示,UniDex 讓倒排系統(tǒng)的響應(yīng)速度提升了 25% ,而且它還帶來(lái)了倒排召回視頻在精排透出占比提升25%+的增益,這意味著它能比傳統(tǒng)倒排多挖掘出四分之一的「漏網(wǎng)之魚」,讓那些原本因?yàn)闆](méi)有關(guān)鍵詞匹配而被遺漏的優(yōu)質(zhì)內(nèi)容重見(jiàn)天日。
![]()
同時(shí),因?yàn)樗辉傩枰婺且淮蠖褋y七八糟的關(guān)鍵詞索引,大幅降低了系統(tǒng)存儲(chǔ)和計(jì)算資源。
這就像原本那個(gè)老管理員要戴著老花鏡翻半天卡片,現(xiàn)在這個(gè)天才管理員掃一眼就給你把書遞過(guò)來(lái)了,而且他還不用占那么大工位。
更絕的是,正如論文中這張對(duì)比圖所示,它在處理那些平時(shí)很難搜準(zhǔn)的「長(zhǎng)尾」冷門內(nèi)容時(shí)簡(jiǎn)直是降維打擊,直接把結(jié)果的稀缺率(RRS)打下來(lái)了,讓點(diǎn)擊率(CTR)蹭蹭往上漲,這效果比優(yōu)化熱門搜索還要顯著得多。
![]()
第二招:UniSearch,像主廚一樣“現(xiàn)做”
再說(shuō)第二招:UniSearch。
這一招主要用在直播搜索里。
直播搜索有個(gè)大難題:它變得太快了。
你在那一秒搜的時(shí)候,主播可能剛開(kāi)始唱歌,下一秒他可能就開(kāi)始帶貨了。
![]()
傳統(tǒng)的搜索是“拼接”出來(lái)的——先召回一堆,再粗排,再精排。
這就像做菜。
老算法是:A負(fù)責(zé)買菜,B負(fù)責(zé)切菜,C負(fù)責(zé)炒菜。
結(jié)果A買回來(lái)的是魚,B按牛肉的方法切了,C按炒青菜的方法炒了。
大家各干各的,最后端出來(lái)的菜(搜索結(jié)果),味道總差點(diǎn)意思。
而 UniSearch,搞了個(gè)真端到端。
![]()
它就像是一個(gè)全能主廚,從買菜到上桌,一個(gè)人(一個(gè)模型)全包了。
它把“視頻編碼”和“搜索生成”放在一個(gè)框架里訓(xùn)練。
![]()
當(dāng)你輸入搜索詞,UniSearch 不是去倉(cāng)庫(kù)里翻找,而是直接生成出它認(rèn)為最適合你的那個(gè)直播間的語(yǔ)義ID,緊接著通過(guò)動(dòng)態(tài)Trie樹索引找到對(duì)應(yīng)直播間。
![]()
這就更神了。
為了讓這個(gè)主廚更懂食客口味,快手還引入了強(qiáng)化學(xué)習(xí)。
![]()
簡(jiǎn)單說(shuō),就是根據(jù)用戶的真實(shí)反饋(看了多久、有沒(méi)有進(jìn)直播間),實(shí)時(shí)調(diào)整主廚的手藝。
效果也是立竿見(jiàn)影:近 2 年最大直播間進(jìn)間數(shù)收益(+3.31%),標(biāo)志了直播搜索質(zhì)量的有效提升。
![]()
他們也對(duì)進(jìn)間次數(shù)進(jìn)行了下探,發(fā)現(xiàn) 58.73% 的提升來(lái)自新用戶,占總增量一半以上。這表明 UniSearch 返回的結(jié)果對(duì)不熟悉平臺(tái)的新用戶具有更強(qiáng)的吸引力,具有潛在的拉新能力。
這也意味著,AI 真的幫用戶發(fā)現(xiàn)了他們當(dāng)下最想看的那個(gè)直播間。
這意味著什么?
這一套組合拳打下來(lái),我最大的感受是:
工業(yè)級(jí)搜索,正在經(jīng)歷一場(chǎng)去文字化的革命。
以前我們認(rèn)為搜索就是“字”對(duì)“字”的匹配。
但快手這套 UniDex & UniSearch 告訴我們,搜索的本質(zhì)是“意圖”對(duì)“內(nèi)容”的共鳴。
而且,越是那種長(zhǎng)尾的、冷門的、以前很難搜出來(lái)的東西,UniDex和 UniSearch 的提升效果越明顯。
數(shù)據(jù)顯示,對(duì)于那些極少被搜到的“長(zhǎng)尾查詢”,UniDex 的相關(guān)性結(jié)果稀缺率大幅下降,點(diǎn)擊率顯著提升。
也就是說(shuō),不管你搜的東西多偏門,它都能懂你。
對(duì)于我們普通用戶來(lái)說(shuō):
那種“搜了個(gè)寂寞”的時(shí)刻會(huì)越來(lái)越少。
你不用再費(fèi)勁心思去想“關(guān)鍵詞”了,你只需要表達(dá)你的想法。
哪怕是很抽象的描述,算法也能通過(guò)語(yǔ)義ID精準(zhǔn)定位到你想要的內(nèi)容。
對(duì)于行業(yè)來(lái)說(shuō):
這是一次教科書級(jí)別的降本增效示范。
大家都在喊 AI 落地,但很多時(shí)候 AI 是錦上添花甚至畫蛇添足,增加了成本卻沒(méi)帶來(lái)多少收益。
但快手證明了,把底層的地基用 AI 重構(gòu),不僅能讓系統(tǒng)跑得快 25%(降本),還能實(shí)打?qū)嵉貛?lái)業(yè)務(wù)增長(zhǎng)(增效)。
這才是真正的工業(yè)級(jí)——不是PPT上的炫技,而是真金白銀的效率提升。
我發(fā)現(xiàn)很多人總覺(jué)得 AI 大模型離自己很遠(yuǎn)。
但其實(shí),它正在悄悄滲透進(jìn)我們每一次“下拉刷新”、每一次“點(diǎn)擊搜索”里。
沒(méi)有這些算法的進(jìn)化,在信息爆炸的今天,我們面對(duì)的可能不是豐富,而是混亂。
最后,你可以再回頭,看看文章開(kāi)頭那個(gè)讓你云里霧里的技術(shù)名詞。
結(jié)合我今天的大白話拆解,是不是感覺(jué),好像,也沒(méi)那么天書了?
懂了的朋友,評(píng)論區(qū)扣個(gè)1,讓我看看這屆讀者的含金量。
如果還有哪里不明白,我們?cè)谠u(píng)論區(qū)繼續(xù)聊~
技術(shù)雖然高冷,但它的終點(diǎn),永遠(yuǎn)是更好的體驗(yàn)。
能看到這里的都是真愛(ài)粉!
如果覺(jué)得這篇解讀對(duì)你有啟發(fā),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧~
如果想第一時(shí)間看我拆解最新 AI 技術(shù),也可以給我個(gè)星標(biāo)?
謝謝你耐心看完我的文章~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.