![]()
作者 | Sergio De Simone
譯者 | 明知山
為提升 Dropbox Dash 生成回復(fù)的相關(guān)性,Dropbox 工程師開始 采用大語言模型輔助人工標(biāo)注,這一做法在識別用于生成回復(fù)的文檔方面發(fā)揮了關(guān)鍵作用。他們的方案也為各類基于檢索增強(qiáng)生成(RAG)的系統(tǒng)提供了極具價值的參考。
正如 Dropbox 首席工程師 Dmitriy Meyerzon 所言,文檔檢索質(zhì)量是 RAG 系統(tǒng)的瓶頸——這類系統(tǒng)需要從海量文檔庫中篩選出相關(guān)內(nèi)容,再將其輸入給大語言模型。
企業(yè)搜索索引中存在數(shù)百萬份文檔,超大型企業(yè)更是多達(dá)數(shù)十億份,因此 Dash 只能將檢索到的極少部分文檔傳給大語言模型。這使得搜索排序質(zhì)量——以及用于訓(xùn)練排序的相關(guān)性標(biāo)注數(shù)據(jù)——對最終答案的效果至關(guān)重要。
這意味著搜索排序模型的質(zhì)量直接影響最終生成答案的質(zhì)量。Dash 采用監(jiān)督學(xué)習(xí)技術(shù)訓(xùn)練排序模型,會根據(jù)文檔滿足查詢需求的程度,對查詢 - 文檔對進(jìn)行標(biāo)注。這種方法的主要難點,在于如何生成大量高質(zhì)量的相關(guān)性標(biāo)注數(shù)據(jù)。
為解決純?nèi)斯?biāo)注的局限(成本高、速度慢、一致性差),Dropbox 引入了一種補(bǔ)充方案:利用大語言模型大規(guī)模生成相關(guān)性判斷。這種方法成本更低、一致性更強(qiáng),且能輕松擴(kuò)展到大型文檔集。但大語言模型并非完美的評估者,因此在使用其判斷結(jié)果進(jìn)行訓(xùn)練前,必須先對其效果進(jìn)行評估。
在實際應(yīng)用中,利用大語言模型進(jìn)行相關(guān)性評估需要一套自動化與人工監(jiān)督相結(jié)合的標(biāo)準(zhǔn)化流程。
這種被稱為“人工校準(zhǔn)的大語言模型標(biāo)注”的方法十分簡潔:先由人工標(biāo)注一小批高質(zhì)量數(shù)據(jù)集,用于校準(zhǔn)大語言模型評估器;再由大語言模型生成數(shù)十萬乃至數(shù)百萬條標(biāo)注,將人工工作量放大約 100 倍。需要注意的是,大語言模型并不會取代排序系統(tǒng)——若在查詢時直接用其進(jìn)行排序,速度過慢且會受上下文長度限制。
評估步驟包括:將大語言模型生成的相關(guān)性評分與人工判斷進(jìn)行對比,測試對象為訓(xùn)練集中未出現(xiàn)的查詢 - 文檔對子集。評估還重點關(guān)注最難修正的錯誤——即大語言模型判斷與用戶行為不一致的情況,例如用戶點擊了模型評分較低的文檔或跳過了模型評分較高的文檔,這類錯誤能提供最強(qiáng)的學(xué)習(xí)信號。
還有一個重要的考量:上下文往往是判斷相關(guān)性的關(guān)鍵。例如在 Dropbox 內(nèi)部,“diet sprite”指的是一款內(nèi)部性能工具,而非飲料。為解決這一問題,研究人員讓大語言模型進(jìn)行額外檢索、獲取上下文并理解內(nèi)部術(shù)語,這顯著提升了標(biāo)注的準(zhǔn)確性。
根據(jù)在 Dropbox Dash 上的實踐經(jīng)驗,Meyerzon 表示,這種方法能夠讓大語言模型在大規(guī)模場景下持續(xù)放大人工判斷,成為優(yōu)化 RAG 系統(tǒng)的有效手段。
https://www.infoq.com/news/2026/03/dropbox-scaling-human-judgement/
聲明:本文為 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.