<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      檢索做大,生成做輕:CMU團(tuán)隊(duì)系統(tǒng)評(píng)測(cè)RAG的語料與模型權(quán)衡

      0
      分享至



      在檢索增強(qiáng)生成中,擴(kuò)大生成模型規(guī)模往往能提升準(zhǔn)確率,但也會(huì)顯著抬高推理成本與部署門檻。CMU 團(tuán)隊(duì)在固定提示模板、上下文組織方式與證據(jù)預(yù)算,并保持檢索與解碼設(shè)置不變的前提下,系統(tǒng)比較了生成模型規(guī)模與檢索語料規(guī)模的聯(lián)合效應(yīng),發(fā)現(xiàn)擴(kuò)充檢索語料能夠穩(wěn)定增強(qiáng) RAG,并在多項(xiàng)開放域問答基準(zhǔn)上讓小中型模型在更大語料下達(dá)到甚至超過更大模型在較小語料下的表現(xiàn),同時(shí)在更高語料規(guī)模處呈現(xiàn)清晰的邊際收益遞減。更進(jìn)一步,研究不僅刻畫了隨語料擴(kuò)容而變化的性能增益,也揭示了若干相對(duì)穩(wěn)定的不變規(guī)律。

      在開放域問答等知識(shí)密集型任務(wù)中,檢索增強(qiáng)生成(RAG)已經(jīng)成為主流范式之一。它通過先檢索外部文檔,再讓大語言模型基于證據(jù)生成答案,從而緩解純參數(shù)記憶帶來的幻覺與事實(shí)錯(cuò)誤。然而,近年來提升 RAG 的常見路徑往往集中在擴(kuò)大生成模型規(guī)模,準(zhǔn)確率確實(shí)會(huì)上升,但推理成本與部署門檻也隨之顯著提高。對(duì)于希望在有限算力下落地的系統(tǒng)而言,一個(gè)更現(xiàn)實(shí)的問題是:在不繼續(xù)擴(kuò)大模型參數(shù)的前提下,是否還有同樣有效的提升空間。



      卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院團(tuán)隊(duì)在最新 ECIR 接收論文中給出了一個(gè)清晰的回答。他們把關(guān)注點(diǎn)從更大的模型轉(zhuǎn)向更大的檢索語料,系統(tǒng)評(píng)估了語料規(guī)模與生成模型規(guī)模之間的替代關(guān)系,并提出了可操作的權(quán)衡框架。核心觀點(diǎn)為,擴(kuò)大檢索語料通常可以顯著增強(qiáng) RAG,且在不少設(shè)置下,這種增強(qiáng)效果可以部分替代擴(kuò)大模型參數(shù)帶來的收益,但在更大語料規(guī)模處會(huì)出現(xiàn)邊際收益遞減。



      • 論文標(biāo)題:Less LLM, More Documents: Searching for Improved RAG
      • 論文鏈接:https://arxiv.org/pdf/2510.02657

      從問題出發(fā):RAG 的另一條擴(kuò)展軸

      RAG 的效果由兩部分共同決定。檢索模塊負(fù)責(zé)把可能包含答案的證據(jù)送到模型上下文中;生成模型負(fù)責(zé)理解問題、整合證據(jù)并形成答案。擴(kuò)大模型參數(shù)能夠提升推理與表達(dá)能力,但檢索端提供的證據(jù)質(zhì)量與覆蓋范圍,往往直接決定模型是否有機(jī)會(huì)看到答案線索。CMU 團(tuán)隊(duì)指出,檢索語料的規(guī)模本身就是一條獨(dú)立的擴(kuò)展軸,但長期以來缺少與模型規(guī)模聯(lián)合控制變量的系統(tǒng)研究,因此語料擴(kuò)容能否補(bǔ)償小模型仍缺乏定量結(jié)論。

      實(shí)驗(yàn)設(shè)計(jì):只讓兩個(gè)變量變化

      為得到可解釋的權(quán)衡曲線,研究采用了全因子設(shè)計(jì),只讓語料規(guī)模與模型規(guī)模變化,其余保持一致。檢索語料選用大規(guī)模搜索引擎數(shù)據(jù)集 ClueWeb22-A 的英文子集,總計(jì)包含約 2.64 億真實(shí)網(wǎng)頁文檔,并將其隨機(jī)均衡切分為 12 個(gè) shard。語料規(guī)模用激活 shard 的數(shù)量表示,逐步從 1 個(gè) shard 擴(kuò)展到 12 個(gè) shard。檢索端使用 MiniCPM-Embedding-Light 做稠密向量編碼,后端采用 DiskANN 構(gòu)建多 shard 近鄰檢索,固定 top 文檔數(shù)、切塊與重排策略,最終向生成模型提供固定數(shù)量的 top chunk 作為 LLM 答案生成證據(jù)。

      生成端選用最新 Qwen3 同一模型家族的不同尺寸,覆蓋從 0.6B 到 14B 的 Qwen3 模型,并固定提示模板與解碼設(shè)置,以確保比較只反映規(guī)模變化帶來的差異。評(píng)測(cè)任務(wù)覆蓋三個(gè)開放域問答基準(zhǔn):Natural Questions、TriviaQA 與 Web Questions,指標(biāo)采用最常用的 F1 與 ExactMatch。

      關(guān)鍵發(fā)現(xiàn)一:

      語料擴(kuò)容可以讓小模型追上大模型(變)

      實(shí)驗(yàn)結(jié)果展示了明確的補(bǔ)償效應(yīng)。以 Natural Questions 為例,隨著語料從 1 個(gè) shard 擴(kuò)展到更大規(guī)模,較小模型的 EM 與 F1 持續(xù)提升,并在一定語料規(guī)模后達(dá)到或超過更大模型在小語料上的基線表現(xiàn)。研究用 n 星指標(biāo)刻畫補(bǔ)償閾值,即小模型需要多少倍語料才能追平大模型在 1 個(gè) shard 下的成績。在三個(gè)數(shù)據(jù)集上,這一閾值呈現(xiàn)出穩(wěn)定模式:中等規(guī)模模型之間的追平往往只需要把語料擴(kuò)大到 2 倍或 3 倍,而最小模型想追平下一檔模型則需要更高倍數(shù)的語料擴(kuò)容。



      更重要的是,這種追平并非個(gè)別現(xiàn)象。研究在 TriviaQA 與 WebQuestions 上觀察到相同趨勢(shì),并給出了跨數(shù)據(jù)集的閾值表,顯示語料擴(kuò)容在多數(shù)設(shè)置下都能把性能缺口縮小到一個(gè)模型檔位,甚至兩個(gè)檔位。對(duì)部署而言,這意味著當(dāng)推理預(yù)算難以支撐更大參數(shù)模型時(shí),把資源投入到更大語料與更強(qiáng)檢索,可能是更務(wù)實(shí)的提效方向。

      在增長形態(tài)上,研究觀察到幾乎與模型規(guī)模無關(guān)的共同曲線。最顯著的提升發(fā)生在從無檢索到有檢索的第一步,隨后隨著語料繼續(xù)擴(kuò)大,收益逐步下降,并在約 5 到 6 倍語料規(guī)模附近出現(xiàn)飽和趨勢(shì)。這一現(xiàn)象對(duì)工程實(shí)踐具有直接意義:檢索能力的從無到有往往帶來最大增益,但在較高語料規(guī)模處繼續(xù)無上限擴(kuò)容并不劃算,應(yīng)該結(jié)合吞吐、延遲與存儲(chǔ)成本做更精細(xì)的預(yù)算分配。

      關(guān)鍵發(fā)現(xiàn)二:

      提升主要來自證據(jù)覆蓋,而非模型更會(huì)用證據(jù)(不變)

      語料變大為什么能帶來提升?論文給出的機(jī)制解釋相對(duì)直接且符合直覺預(yù)期:語料擴(kuò)容提高了檢索到含答案片段的概率。當(dāng)語料規(guī)模較小時(shí),檢索到的片段經(jīng)常只與主題相關(guān),但不包含關(guān)鍵事實(shí);隨著語料擴(kuò)大,更容易檢索到明確包含答案字符串的證據(jù)片段,生成模型因此獲得更可靠的落腳點(diǎn)。

      為把這種直覺量化,研究定義了 Gold Answer Coverage Rate,用于統(tǒng)計(jì)傳入生成模型的 top chunk 中至少有一個(gè)包含標(biāo)準(zhǔn)答案字符串的概率。結(jié)果顯示,覆蓋率隨語料規(guī)模增長而單調(diào)上升,并在不同數(shù)據(jù)集上體現(xiàn)出差異性,例如 TriviaQA 的覆蓋率整體更高,反映其信息需求與網(wǎng)頁語料的重合度更強(qiáng)。



      進(jìn)一步地,研究提出 Context Benefited Success Rate,用于衡量那些在無檢索時(shí)無法答對(duì)的問題,在加入檢索證據(jù)后被答對(duì)的比例,并用 Utilization Ratio 將其與覆蓋率相除,以刻畫模型把可用證據(jù)轉(zhuǎn)化為正確答案的效率。實(shí)驗(yàn)顯示,Utilization Ratio 在不同語料規(guī)模下整體保持穩(wěn)定,且在不同模型尺寸之間差異有限。結(jié)合無檢索設(shè)置下的基線表現(xiàn)可以看到,不同大小模型的主要差別更多來自其參數(shù)中可直接調(diào)用的內(nèi)部知識(shí)儲(chǔ)備,使其在無需外部證據(jù)時(shí)也能回答一部分問題;而對(duì)于那些無法僅憑內(nèi)部知識(shí)答對(duì)的問題,一旦檢索端提供了包含答案線索的證據(jù),不同模型將證據(jù)轉(zhuǎn)化為正確答案的效率整體相近。因此,語料擴(kuò)容帶來的關(guān)鍵收益主要體現(xiàn)在提高含答案證據(jù)進(jìn)入上下文的概率,而非顯著提升模型對(duì)既有上下文的利用能力。



      工程啟示:如何在預(yù)算約束下分配投入


      綜合實(shí)驗(yàn)結(jié)論,論文給出了一條可執(zhí)行的系統(tǒng)設(shè)計(jì)建議。當(dāng)推理資源受限時(shí),優(yōu)先考慮擴(kuò)大檢索語料與提升覆蓋率,常常能讓中等規(guī)模生成模型達(dá)到接近更大模型的表現(xiàn)。相比之下,極小模型需要更激進(jìn)的語料擴(kuò)容才能追平下一檔,收益效率偏低;而極大模型在更大語料下的增益也相對(duì)有限,體現(xiàn)出利用效率并不會(huì)隨著參數(shù)規(guī)模單調(diào)上升。對(duì)系統(tǒng)優(yōu)化而言,跟蹤答案覆蓋率與利用率可以作為診斷指標(biāo),幫助判斷瓶頸更偏檢索端還是生成端,從而指導(dǎo)下一步應(yīng)該擴(kuò)語料、調(diào)檢索,還是換模型。

      結(jié)語


      這項(xiàng)研究把 RAG 的規(guī)模討論從單一的模型參數(shù)擴(kuò)展到語料與檢索能力,給出了可復(fù)現(xiàn)的控制變量實(shí)驗(yàn)與清晰的機(jī)制解釋。其結(jié)論可以概括為兩點(diǎn):擴(kuò)大語料通常有效,但收益存在邊際遞減;提升主要來自更高的答案證據(jù)覆蓋,而非模型利用證據(jù)能力的躍遷。在面向真實(shí)部署的 RAG 系統(tǒng)中,這提供了一條更可控、更具性價(jià)比的提升路徑。

      作者簡介:



      本論文第一作者為卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院語言技術(shù)研究所碩士研究生 Jingjie Ning,研究方向聚焦信息檢索、DeepResearch、Query 理解與強(qiáng)化、推薦系統(tǒng) Benchmark 等工作。Jingjie Ning 師從 Jamie Callan 教授,后者為卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院語言技術(shù)研究所教授,曾任 SIGIR 大會(huì)主席,同時(shí)擔(dān)任系博士項(xiàng)目主任,長期引領(lǐng)搜索與信息檢索領(lǐng)域研究,在學(xué)術(shù)界與工業(yè)界具有廣泛影響力。在卡內(nèi)基梅隆大學(xué)前,Jingjie 曾在騰訊任職 Senior Data Scientist。個(gè)人主頁:https://ethanning.github.io

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      流落柬埔寨街頭女網(wǎng)紅,被診斷出肺部感染、胸腔積液等多種病癥,冰毒和K粉檢測(cè)結(jié)果均呈陽性

      流落柬埔寨街頭女網(wǎng)紅,被診斷出肺部感染、胸腔積液等多種病癥,冰毒和K粉檢測(cè)結(jié)果均呈陽性

      荔枝新聞
      2026-01-06 16:48:56
      俄軍事專家:中國很多武器的性能已超過美國,但都有一個(gè)共同缺點(diǎn)

      俄軍事專家:中國很多武器的性能已超過美國,但都有一個(gè)共同缺點(diǎn)

      歷史有些冷
      2026-01-06 18:00:03
      誰也救不了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,或面臨巨額賠償

      誰也救不了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,或面臨巨額賠償

      TVB的四小花
      2026-01-08 00:51:21
      一顆榴蓮,快讓東南亞卷成“晉西北”了!

      一顆榴蓮,快讓東南亞卷成“晉西北”了!

      流蘇晚晴
      2026-01-07 20:13:10
      電車一統(tǒng)天下的時(shí)機(jī)已經(jīng)失去,2026年燃油車將猛烈反擊!

      電車一統(tǒng)天下的時(shí)機(jī)已經(jīng)失去,2026年燃油車將猛烈反擊!

      柏銘銳談
      2026-01-05 12:00:19
      紫薇大帝透露:九紫離火(2024-2043)大運(yùn)當(dāng)頭,3個(gè)生肖20年聚寶盆

      紫薇大帝透露:九紫離火(2024-2043)大運(yùn)當(dāng)頭,3個(gè)生肖20年聚寶盆

      古怪奇談錄
      2026-01-05 11:27:14
      上梁不正下梁歪?半個(gè)月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      上梁不正下梁歪?半個(gè)月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      素衣讀史
      2025-12-17 14:03:31
      阿萊格里:我跟齊沃和孔蒂?zèng)Q斗?我是站在旁邊看戲的那個(gè)

      阿萊格里:我跟齊沃和孔蒂?zèng)Q斗?我是站在旁邊看戲的那個(gè)

      懂球帝
      2026-01-08 01:24:13
      浙江媽媽的“雷霆早餐”火了!因面包、雪餅配牛奶,被批敷衍高中生,她反手把火鍋烤肉搬上早餐桌

      浙江媽媽的“雷霆早餐”火了!因面包、雪餅配牛奶,被批敷衍高中生,她反手把火鍋烤肉搬上早餐桌

      臺(tái)州交通廣播
      2026-01-07 13:14:34
      西方29國唱衰臺(tái)海,解放軍軍演轉(zhuǎn)實(shí)戰(zhàn),美第一島鏈徹底成笑話?

      西方29國唱衰臺(tái)海,解放軍軍演轉(zhuǎn)實(shí)戰(zhàn),美第一島鏈徹底成笑話?

      零聽信聊
      2026-01-06 17:17:11
      又是高價(jià)預(yù)制菜?被曝湯底澆頭均是袋裝!事發(fā)知名連鎖店,上海門店最多

      又是高價(jià)預(yù)制菜?被曝湯底澆頭均是袋裝!事發(fā)知名連鎖店,上海門店最多

      新民晚報(bào)
      2026-01-07 20:34:36
      委內(nèi)瑞拉被古巴寄生的二十年

      委內(nèi)瑞拉被古巴寄生的二十年

      碼頭青年
      2026-01-06 15:26:51
      國內(nèi)金飾價(jià)格突破1400元/克

      國內(nèi)金飾價(jià)格突破1400元/克

      財(cái)聯(lián)社
      2026-01-07 10:42:17
      與馬杜羅關(guān)押在同一地點(diǎn),委內(nèi)瑞拉前情報(bào)主管或成美政府“關(guān)鍵證人”

      與馬杜羅關(guān)押在同一地點(diǎn),委內(nèi)瑞拉前情報(bào)主管或成美政府“關(guān)鍵證人”

      環(huán)球網(wǎng)資訊
      2026-01-07 06:58:33
      暴漲156%后喊停 “擊鼓傳花”,中國衛(wèi)星戳破估值泡沫后股價(jià)大跌

      暴漲156%后喊停 “擊鼓傳花”,中國衛(wèi)星戳破估值泡沫后股價(jià)大跌

      第一財(cái)經(jīng)資訊
      2026-01-07 20:52:12
      瑜伽短褲的魅力只有穿過的人才知道,展示青春活力,凸顯時(shí)尚魅力

      瑜伽短褲的魅力只有穿過的人才知道,展示青春活力,凸顯時(shí)尚魅力

      朝史暮夕
      2025-12-31 00:05:16
      央視直播1月8日多哈冠軍賽,向鵬戰(zhàn)張本智和,王曼昱對(duì)大藤沙月

      央視直播1月8日多哈冠軍賽,向鵬戰(zhàn)張本智和,王曼昱對(duì)大藤沙月

      乒乓球球
      2026-01-07 20:22:05
      CCTV5直播!多哈冠軍賽1月7日賽程:林詩棟蒯曼有惡戰(zhàn) 張本美和VS申裕斌

      CCTV5直播!多哈冠軍賽1月7日賽程:林詩棟蒯曼有惡戰(zhàn) 張本美和VS申裕斌

      好乒乓
      2026-01-07 12:16:03
      債務(wù)終于全還清了!李亞鵬在直播間里親口宣布!太不容易了!

      債務(wù)終于全還清了!李亞鵬在直播間里親口宣布!太不容易了!

      樂悠悠娛樂
      2026-01-07 08:17:43
      這么冷,那么貴:河北農(nóng)村的第八個(gè)寒冬

      這么冷,那么貴:河北農(nóng)村的第八個(gè)寒冬

      水瓶紀(jì)元
      2026-01-07 18:27:32
      2026-01-08 02:23:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12075文章數(shù) 142531關(guān)注度
      往期回顧 全部

      科技要聞

      精華!黃仁勛CES記者會(huì):揭秘新款大殺器

      頭條要聞

      美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

      頭條要聞

      美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

      體育要聞

      賣水果、搬磚的小伙,與哈蘭德爭英超金靴

      娛樂要聞

      《馬背搖籃》首播,革命的樂觀主義故事

      財(cái)經(jīng)要聞

      農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

      汽車要聞

      燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      親子
      游戲
      軍事航空

      家居要聞

      寧靜不單調(diào) 恰到好處的美

      房產(chǎn)要聞

      最新!海口二手房,漲價(jià)房源突然猛增30%

      親子要聞

      雀巢召回多國嬰兒配方奶粉,涉及中國市場(chǎng)71個(gè)批次

      《GTA6》地圖規(guī)模再引熱議:這次真要"大到離譜"了?

      軍事要聞

      特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項(xiàng)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品va| 久久精品久久久久观看99水蜜桃 | 久久semm亚洲国产| 波多野结衣av高清一区二区三区| 人妻无码中出| 品精免费产品精品综合精品综合| 国产美女午夜福利视频| 女女互揉吃奶揉到高潮视频| 无码熟妇人妻av在线影片| chinese熟女老女人hd视频| 欧美综合自拍亚洲综合图| 欧美日韩久久| 国产精品卡一卡二| 四虎在线视频| 国产精品久久无码不卡黑寡妇| 日韩精品久久久肉伦网站| 国内精品极品久久免费看| 99久久久精品免费观看国产| 欧美国产在线一区| 四川丰满少妇被弄到高潮| 新田县| 国产超碰人人做人人爱ⅴa| 色天使av| 2018av天堂在线视频精品观看| 亚洲.无码.制服.日韩.中文字幕| 国产精品lululu在线观看| 一本加勒比hezyo无码专区| 成人国产精品免费网站| 免费在线观看A| 国产在线国偷精品免费看| 热久久国产欧美一区二区精品| 国产在线精品一区二区高清不卡| 亚洲人和日本人jzz护士| 丁香六月婷婷综合激情欧美| 国产成人最新三级在线视频| 国产精品视频一区二区噜噜| 夹江县| 免费人成视频在线播放| 精品人妻伦九区久久AAA片| 日日鲁鲁鲁夜夜爽爽狠狠| 国产丝袜AV|