規(guī)模化人工判斷：Dropbox 如何借助大語言模型優(yōu)化 RAG 系統(tǒng)標(biāo)注

2026-03-15 10:19:46　來源: InfoQ

北京舉報

分享至

作者 | Sergio De Simone

譯者 | 明知山

為提升 Dropbox Dash 生成回復(fù)的相關(guān)性，Dropbox 工程師開始采用大語言模型輔助人工標(biāo)注，這一做法在識別用于生成回復(fù)的文檔方面發(fā)揮了關(guān)鍵作用。他們的方案也為各類基于檢索增強(qiáng)生成（RAG）的系統(tǒng)提供了極具價值的參考。

正如 Dropbox 首席工程師 Dmitriy Meyerzon 所言，文檔檢索質(zhì)量是 RAG 系統(tǒng)的瓶頸——這類系統(tǒng)需要從海量文檔庫中篩選出相關(guān)內(nèi)容，再將其輸入給大語言模型。

企業(yè)搜索索引中存在數(shù)百萬份文檔，超大型企業(yè)更是多達(dá)數(shù)十億份，因此 Dash 只能將檢索到的極少部分文檔傳給大語言模型。這使得搜索排序質(zhì)量——以及用于訓(xùn)練排序的相關(guān)性標(biāo)注數(shù)據(jù)——對最終答案的效果至關(guān)重要。

這意味著搜索排序模型的質(zhì)量直接影響最終生成答案的質(zhì)量。Dash 采用監(jiān)督學(xué)習(xí)技術(shù)訓(xùn)練排序模型，會根據(jù)文檔滿足查詢需求的程度，對查詢 - 文檔對進(jìn)行標(biāo)注。這種方法的主要難點，在于如何生成大量高質(zhì)量的相關(guān)性標(biāo)注數(shù)據(jù)。

為解決純?nèi)斯?biāo)注的局限（成本高、速度慢、一致性差），Dropbox 引入了一種補(bǔ)充方案：利用大語言模型大規(guī)模生成相關(guān)性判斷。這種方法成本更低、一致性更強(qiáng)，且能輕松擴(kuò)展到大型文檔集。但大語言模型并非完美的評估者，因此在使用其判斷結(jié)果進(jìn)行訓(xùn)練前，必須先對其效果進(jìn)行評估。

在實際應(yīng)用中，利用大語言模型進(jìn)行相關(guān)性評估需要一套自動化與人工監(jiān)督相結(jié)合的標(biāo)準(zhǔn)化流程。

這種被稱為“人工校準(zhǔn)的大語言模型標(biāo)注”的方法十分簡潔：先由人工標(biāo)注一小批高質(zhì)量數(shù)據(jù)集，用于校準(zhǔn)大語言模型評估器；再由大語言模型生成數(shù)十萬乃至數(shù)百萬條標(biāo)注，將人工工作量放大約 100 倍。需要注意的是，大語言模型并不會取代排序系統(tǒng)——若在查詢時直接用其進(jìn)行排序，速度過慢且會受上下文長度限制。

評估步驟包括：將大語言模型生成的相關(guān)性評分與人工判斷進(jìn)行對比，測試對象為訓(xùn)練集中未出現(xiàn)的查詢 - 文檔對子集。評估還重點關(guān)注最難修正的錯誤——即大語言模型判斷與用戶行為不一致的情況，例如用戶點擊了模型評分較低的文檔或跳過了模型評分較高的文檔，這類錯誤能提供最強(qiáng)的學(xué)習(xí)信號。

還有一個重要的考量：上下文往往是判斷相關(guān)性的關(guān)鍵。例如在 Dropbox 內(nèi)部，“diet sprite”指的是一款內(nèi)部性能工具，而非飲料。為解決這一問題，研究人員讓大語言模型進(jìn)行額外檢索、獲取上下文并理解內(nèi)部術(shù)語，這顯著提升了標(biāo)注的準(zhǔn)確性。

根據(jù)在 Dropbox Dash 上的實踐經(jīng)驗，Meyerzon 表示，這種方法能夠讓大語言模型在大規(guī)模場景下持續(xù)放大人工判斷，成為優(yōu)化 RAG 系統(tǒng)的有效手段。

https://www.infoq.com/news/2026/03/dropbox-scaling-human-judgement/

聲明：本文為 InfoQ 翻譯，未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.