![]()
作者 | 陳志珺
背 景
近年來,Gemini、GPT、Qwen、Llama 和 DeepSeek 等大模型層出不窮。目前在 Hugging Face 上已有超過 182,000 個模型可用。與此同時,我們可以觀察到兩個主要方面 [1,2,3,4,5,6]:1)持續存在的性能擔憂:盡管 LLMs 可以輕松用于零樣本推理,但仍面臨準確性有限、幻覺現象以及與人類目標不一致等性能問題;2)LLM 迥異的優缺點:受架構、規模、訓練數據、分詞方法等差異的影響,不同模型表現出顯著的行為差異。針對同一提示詞(query/prompt),不同 LLMs 的回答常常表現出明顯的差異性。
受集成學習(Ensemble Learning)[7] 的啟發,我們認為:針對每個不同的 query/prompt,與其依據公開的模型性能排行榜或其他標準而固定地依賴于某一個 LLM 進行推理,不如同時考慮多個可開箱即用的 LLMs,以綜合利用它們的差異化優勢。這一概念正是新興領域"LLM 集成"(LLM Ensemble)的核心關注點 [1]。
LLM Ensemble 領域中的"推理后集成方法"(Ensemble-after-inference / Post-hoc ensemble methods)在近些年逐漸流行,并可分為以下兩類:1) 先選擇后生成(Selection-then-regeneration)方法 (比如,[8][9]):這類方法嚴重依賴于任務特定的訓練數據,且需要微調額外的一個大模型,因此缺乏靈活的泛化性和適應性;2)基于相似性的選擇(Similarity-based selection)方法(比如,[2][3]):這類方法大多是完全無監督的,其核心思想是選擇與所有其他 responses 的總相似度最高的那個 response 來作為最終的集成結果。然而,此類方法的設計仍較為粗糙——主要是因為它們依賴于樸素的基于相似性的選擇策略以及較為淺層的相似度度量 (如 BLEU) 。總之,"推理后集成"方法的真正潛力在很大程度上仍未被開發。
當我們重新思考這一研究問題時,我們提出了一個比較根本的問題:在現實世界中,人類會如何從一組候選文本池中選出最理想的那一份,尤其是對于文本質量衡量難度大的場景?也許最直接且相關的現實案例就是:學術同行評審。受此啟發,我們致力于提出一種完全無監督的、盡可能簡單的 LLM Ensemble 方法,并提出了具有驚艷實驗效果的方法 LLM-PeerReview。
![]()
論文鏈接:
https://arxiv.org/abs/2512.23213
GitHub:
https://github.com/zeyuji/LLM-PeerReview
項目主頁:
https://zeyuji.github.io/LLM-PeerReview/
Takeaways/ 你將會獲得
基于本文平白的語言,你很容易可以學習到一個簡單的 LLM Ensemble/Collaboration 方法,即我們所提出的框架 LLM-PeerReview;
歡迎使用我們精心準備的關于 LLM Ensemble 的代碼倉庫 - 其中開源了本文所使用到的多個 baselines 和 datasets,或許能成為你研究 LLM Ensemble/Collaboration 的重要材料!(將持續維護,或許也添加新的 baselines 和 datasets):
3 種流行任務類型 (Fact Recall QA,Math,Instruction Following);
4 個常見數據集 (TriviaQA、GSM8k、MATH、AIpacaEval);
較為豐富的 baselines:
模型集合中的各個單一 LLM(比如 Llama-3.1-8B-Instruct、Mistral-7B-Instruct、Qwen2.5-7B-Instruct、Qwen2-7B-Instruct);
流行的"推理后集成方法"Smoothie-Global[2]、Smoothie-Local[2]、Agent-Forest[3];
流行的"推理時集成方法"GaC[4];
本文方法的 2 個變體:LLM-PeerReview、LLM-PeerReview-W。
一行代碼運行你所想要跑的 baselines 和 datasets:bash./Script/run_baseline.sh -method -dataSet
那么,快來快速地學習相關的LLMEnsemble方法,并且來測評你提出的新idea吧!~
LLM-PeerReview 簡介
首先,最重要的,請觀察下面所列出的 LLM-PeerReview 示意圖(圖 1)以及在圖片下方的標題和說明部分。
![]()
圖: 所提出的框架 LLM-PeerReview。
該框架包含三個順次運行的模塊,即 Scoring (評分)、Reasoning (推理)、Selection (選擇):
評分 (Scoring)——每個模型都可以是審稿員 :針對同一 prompt/query 的多個候選 responses,我們復用模型集合中的 LLM 作為評估者(LLM-as-a-Judge),對每個回答打分(如:5.0 表示 Strong Accept)。為了減少 judge 過程中的固有偏差,我們提出了關鍵的"翻轉三元評分技術"(Flipped-triple scoring trick)——這是提升整個框架效能的基石。
推理 (Reasoning)——匯聚多份審稿意見并給出最終分數:我們將多份評分進行聚合,衍生出兩個版本。LLM-PeerReview:最直接的簡單平均策略(Simple Averaging);LLM-PeerReview-W:引入權重感知,根據不同 LLM 的“評審水平”賦予不同的打分權重;
選擇 (Selection)——在一個論文候選池中挑選出得分最高論文:對于每個 prompt/query,我們只鎖定得分最高的那個 response 作為最終集成結果。
更多方法細節
對于 LLM-PeerReview 中的評分 (Scoring) 過程,我們首次提出了"翻轉三元評分技術"(Flipped-triple scoring trick)。在傳統的 LLM-as-a-judge 中,常常讓模型一個個給回答打分(Point-wise Scoring)雖然簡單,但模型往往會有“固定偏見”(尤其是使用中小規模的模型時)。為此,我們提出了一種全新的 Flipped-triple scoring trick。
具體操作如下:1)隨機洗牌(Shuffle):針對同一prompt/query ,將來自不同模型的多個responses進行隨機洗牌;2)三元組翻轉滑動評分:對于每個LLM評估員 ,我們按順序對response三元組 進行評分(共需要滑動執行 次, 等于“針對每個prompt/query的response個數”),且在每次新的滑動之前,我們還會對翻轉后的response三元組(即 )進行評分。3)最終分數計算:通過這種翻轉+滑動窗口的機制,每個response都會從同一位LLM評估員那里獲得了6個分數。我們通過取均值,得到評估員 對response 的最終評分 。
該技術緩解了 LLM-as-a-Judge 中兩種偏差 [10]:1)一致性偏差 (Consistent Bias):對于逐點評分,模型是在缺乏多個 responses“參考效應”下評估單個 response,很可能傾向于給出固定分數(例如始終打 1 分);2)位置偏差 (Position Bias):當一次性展示多個 responses(如兩到三個)時,很可能傾向于青睞出現在開頭或結尾的 response。
變體 LLM-PeerReview-W。
我們的變體方法 LLM-PeerReview-W 采用了加權平均去做推理。這個方法構建在一個圖模型的基礎上,并且我們對方法進行了一定的適應性改造,以可以處理上述"翻轉三元打分"后所得到的連續型分數信息。
方法分析
有一句常常流傳的話,并且據說是來自于愛因斯坦,“Everything should be made as simple as possible, but not simpler”。(萬事萬物都應盡可能簡潔,但不能過度簡化。)
那么,1)直覺先行:針對同一 query/prompt,從多個回答中挑選“全場最佳”,引入學術同行評審的邏輯是非常合乎直覺且自然的;2)打破瓶頸與進一步提升:實驗發現,如果只是簡單地讓 LLM 逐個打分(Point-wise),像 7B 這樣的中小模型表現很差,使得 LLM-PeerReview 難以超越 baselines。Everything should be made as simple as possible, but not simpler,當使用上所提出的 Flipped-triple scoring trick 后,所得到的 LLM-PeerReview 和 LLM-PeerReview-W 性能已經遠超所有 baselines;3)總而言之,我們認為嵌入了 Flipped-triple scoring trick 的同行評審框架 LLM-PeerReview 是一個超級 simple and effective 的多 LLM 協同 / 集成方法。
方法優勢與特點:無監督(且無需微調),框架具有良好的可解釋性,既可以應用于 Exact-Match Generation 任務(根據標準答案進行匹配,如 Math),也可以應用于 Open-Ended Generation 任務(如 Code Generation 和 Instruction-Following)。
其他分析
效率分析:對于 Scoring 過程,我們當然可以采用模型集合中所有 LLMs 來進行打分。為了提高效率,我們實際上可以減少評審員數量而直接線性地減少 Scoring 過程計算量。后續,我們也將考慮根據拓撲學而有選擇性地來進行減少 [11]。LLM-PeerReview 相較于 LLM Collaboration 中經典的基于 debate 的方法 [11] 會具有更好的計算效率,因為打分僅需要一輪,而 debated 往往需要多輪。
其他理論分析:我們提供了一些相應的理論證明,以說明當提高評估員的數量或者是增加評估員的差異性時,可以提高最終的集成分數質量。這些理論證明可以指導對于評估員的選擇。
![]()
其他備注
LLM Ensemble 與 LLM Collaboration 的聯系。從廣義上講,LLM Ensemble 可以看作是 LLM Collaboration 這個 topic 的一個子集。另外,LLM Ensemble 與其他 Collaboration 類的方法相比,更強調于所考慮的多個模型都是著眼于端對端地處理 query/prompt,而不是 Collaboration 中主要強調于各個模型進行大量的信息傳遞以在一個系統中完成協作與競爭等目的。
實 驗
![]()
1) Single LLM:模型集合中的各個單一 LLM;2)LLM Ensemble:LLM Ensemble baselines;3)Our variants (flipped-triple):單一的 LLM 作為評估員利用所提出的打分方法進行打分,并挑選出最高得分 response;4)Our variants (single):單一的 LLM 作為評估員利用傳統的單點打分方法進行打分,并挑選出最高得分 response;
1)核心實驗結果分析:
巨大性能提升。所提出的方法 LLM-PeerReview/LLM-PeerReview-W 明顯超越了任何單一 LLM 的性能表現,也明顯超越了所有 LLM Ensemble baselines;在平均性能上,以 6.9% 和 7.3% 的優勢超越了先進的“推理后集成“方法 Smoothie-Global,以 7.2% 和 7.6% 的優勢超越了經典的”推理時集成“方法 GaC;
每個 LLM 在每個數據集上的表現都表現出明顯的差異性。我們還在論文中提供了一些圖表來分析這些 LLMs 的表現差異;
使用較少的評估員依然可以獲得不錯結果。當我們使用"單一的 LLM 作為評估者并挑選最優 response"(即表格中的 our variants (flipped-triple))時,其性能表現也相當不錯。我們還在附錄中提供了使用 1 個、2 個和 3 個評估員的結果;
加權版 LLM-PeerReview-W 相較于基礎 LLM-PeerReview 表現出了一些性能提升。我們考慮在后續工作中對變體方法中的圖模型加入先驗信息以進一步提高性能;
Flipped-triple scoring trick 是巨大功臣。因為 our variants (flipped-triple) 的性能與 our variants (single) 實現了大幅度的性能提升(4 個單評審員的提升分別為:8.4%、7.2%、6.4%、7.1%)。在實驗中還提供了更多直接的信息說明這一點。
![]()
2)其他實驗結果分析:我們還在論文中提供了更多實驗分析,如上圖。
總 結
LLM-PeerReview 構建于一種透明且可解釋的、模仿同行評審過程的框架之上,其完全無監督的特性為各種任務和數據集提供了靈活的泛化性和適應性。在框架 LLM-PeerReview 中,我們采用了 LLM-as-a-Judge 技術并再次利用模型集合中的 LLMs 以對各個回復(responses)進行精細化評估(摒棄了基于相似度選擇的集成策略以及其中的 BLEU 衡量指標),并提出了關鍵的 Flipped-triple scoring trick 以減少評分偏差。此外,我們提供了直接的平均方法和基于圖模型的加權方法來聚合評分信息。實驗表明,LLM-PeerReview 顯著優于各個 LLM Ensemble baselines 以及模型集合中的任何單個 LLM。
}參考文獻
[1] Zhijun Chen, et al. Harnessing Multiple Large Language Models: A Survey on LLM Ensemble. arXiv 2025.
[2] Neel Guha, et al. Smoothie: Label free language model routing. NeurIPS, 2024.
[3] Junyou Li, et al. More agents is all you need. arXiv, 2024.
[4] Yao-Ching Yu, et al. Breaking the ceiling of the llm community by treating token generation as a classification for ensembling. arXiv, 2024.
[5] Zehao Chen, et al. LLMBoost: Make Large Language Models Stronger with Boosting. arXiv 2025.
[6] Jiaru Zou, et al. Transformer copilot: Learning from the mistake log in LLM fine-tuning. NeurIPS, 2025.
[7] Zhi-Hua Zhou. Ensemble learning. Machine learning, 2021.
[8] Dongfu Jiang, et al. Llm-blender: Ensembling large language models with pairwise ranking and generative fusion. ACL, 2023.
[9] Bo Lv, et al. Urg: A unified ranking and generation method for ensembling language models. ACL Findings, 2024.
[10] Peiyi Wang, et al. Large Language Models are Not Fair Evaluators. ACL 2024.
[11] Yunxuan Li, et al. Improving multi-agent debate with sparse communication topology. EMNLP Findings, 2024.
會議推薦
2026,AI 正在以更工程化的方式深度融入軟件生產,Agentic AI 的探索也將從局部試點邁向體系化工程建設!
QCon 北京 2026 已正式啟動,本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線,推動技術探索從「AI For What」真正落地到可持續的「Value From AI」。從前沿技術雷達、架構設計與數據底座、效能與成本、產品與交互、可信落地、研發組織進化六大維度,系統性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程!匯聚頂尖專家實戰分享,把 AI 能力一次夯到位!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.