網易首頁 > 網易號 > 正文申請入駐

延遲下降20×，token減少4.4×！突破多智能體「共識」瓶頸

2026-02-07 12:23:24　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】多智能體AI系統需要明確的共識機制來協調不同AI主體的決策。新理論框架將多智能體推理建模為分布式共識過程，大幅提升系統性能，降低延遲和計算成本，使多智能體AI從實驗階段邁向實際應用。

過去一年，LLM Agent幾乎成為所有 AI 研究團隊與工業界的共同方向。

OpenAI在持續推進更強的推理與工具使用能力，Google DeepMind將推理顯式建模為搜索問題，Anthropic則通過規范與自我批判提升模型可靠性。

一個非常清晰的行業趨勢正在形成：單模型能力正在接近結構性邊界，多智能體被視為下一步。

Advaita Research/Hetu聯合創始人Jialin Li發布的最新研究論文，為多智能體協作共識提出了明確的理論框架，并給出了一組生產級系統指標的躍遷式改善：在accuracy基本不變的前提下，實現最高20×端到端延遲下降，最高11×的P99尾延遲改善，以及最高4.4×的token成本削減。

論文鏈接：https://arxiv.org/pdf/2512.20184

英文版鏈接：https://x.com/advaita_labs/status/2018576622048473241

這項工作將多智能體推理的問題，從prompt與workflow設計，重新拉回到系統設計和工程層面：一致性語義、停止條件與尾延遲治理。

在工程語境中，論文給出的核心判斷可以概括為一句話：當前多智能體系統，缺乏一套明確的Agentic Consensus（智能體共識）系統語義。

Advaita Research / Hetu CMO Stephanie Yu從系統工程視角對論文進行了解讀。

研究背景

在當前主流路線中，大型研究機構對Agent的探索大致可以分為三類，但它們在一個關鍵問題上保持了共同的沉默：當多個隨機推理主體并行工作時，系統何時可以認為已經達成穩定一致？

OpenAI：強化單主體推理能力

OpenAI的路線始終圍繞test-time scaling，包括self-consistency、多路徑推理、更強的 chain-of-thought、更成熟的 tool use。

該體系在單主體條件下具有非常清晰的工程優勢：推理質量高度可控、行為一致性強、工程復雜度集中。

其隱含前提同樣明確：系統只有一個決策主體。

一旦擴展為多個planner、多個actor并行執行，一致性不再由模型內部保證，而被外包給上層workflow的規則組合。

Google DeepMind搜索式推理

Tree-of-Thoughts等方法將推理顯式建模為搜索問題，通過評估函數在候選路徑中選擇最優解。

該范式在離線推理和數學問題上表現穩定，但在系統層面呈現出兩個明顯特征：推理過程高度同步、停止條件由搜索深度或預算上限決定。

本質上，這類方法優化的是路徑質量，而不是在并發、延遲與成本約束下的決策時機問題。

Anthropic/Meta啟發式協調

Anthropic的constitutional debate，以及Meta、Stanford 提出的多 Agent debate / society-of-minds，引入了多主體交互。

在工程實現上，這類系統通常依賴：固定agent數、固定輪數、barrier synchronization（等待所有 agent 完成）、多數投票或規則聚合。

但這些機制并沒有給出穩定一致性的系統定義。

當主流Agent路線仍在強化「如何更好地推理」，將多智能體視為推理技巧的疊加時，

Advaita Research的這項研究把問題下沉到了系統層：在多個隨機推理主體并行時，如何定義、驗證并穩定達成一致。

把多智能體當成分布式系統

論文提出的核心方法體系為Aegean，其根本重構在于：多智能體推理不再被視為workflow編排問題，而被建模為一個分布式共識過程。

不同于傳統分布式系統，智能體決策呈現隨機不確定性，使得現有共識協議架構無法適用。論文針對多智能體環境提出了新的共識理論框架，并給出了嚴謹的多智能體共識的正確性定義。

論文之后基于理論框架提出了新的共識協議。其核心機制包括三點：

（1）Quorum-fast，而不是wait-all

系統不再等待所有agent，只要達到 quorum 即推進決策，延遲不再由最慢 agent 決定。

（2）穩定性窗口（β），而不是「一致就停」

一致性必須在時間維度上持續存在，才能被視為有效共識，從而過濾暫時性多數。

（3）Streaming共識與即時取消

在token生成過程中持續檢測共識狀態，一旦滿足穩定條件，立即終止剩余生成。

詳細結果與實驗分析

論文指出：多智能體推理，本質上是運行在隨機推理主體之上的分布式共識問題。

一旦缺乏明確的共識語義，工程失敗并非偶發，而是呈現出高度可預測的系統性模式。

暫時性一致：多數并不穩定標題

論文系統性測量了decision flip現象（在現有Agent workflow中幾乎未被顯式建模）。

結果顯示：在引入agent間 reasoning exchange后，準確率提升的同時，多數決策在相鄰輪次發生反轉的頻率顯著上升。

以MMLU為例：100個樣本中出現64次 decision flip，意味著系統在連續輪次中反復改變多數結論。

在缺乏穩定性約束時，任何基于「當前多數」的提前停止或投票機制，都可能發生在transient agreement（暫時性一致）上。

這不是推理能力問題，而是共識未被定義的問題。

同步模型錯誤：P99被最慢agent定義

當前多Agent系統普遍采用barrier synchronization，論文在AIME（1 req/s）場景下，對比了主流做法與引入共識機制后的系統表現：

多Agent baseline（MaxRound = 6）最慢請求為6571秒，P99 延遲為8749秒

引入共識機制后，最慢請求約325秒，P99延遲為772 秒；

在相同任務條件下：P99 延遲改善約11×，平均延遲改善約20×

該差異并非來自模型推理能力，而來自同步范式從「等所有人」轉向「達成共識即可推進」。

算力浪費：token消耗發生在收斂之后

論文進一步量化了多智能體系統中長期被忽視的問題：收斂之后的無效計算。

在多個基準任務上，引入Agentic Consensus后：

GSM8K：4.4×減少（約 1.3K vs 5.7K）
MMLU：3.3×減少（約 3.3K vs 10.7K）
AIME：1.3×減少（約 46.0K vs 59.9K）
IMO：1.1×減少（約 64.8K vs 73.8K）

與此同時，accuracy波動被控制在約2.5%以內。

這表明：token成本下降來自共識驅動的早停與取消機制，而不是通過犧牲質量實現。

數字刻畫了系統邊界

在引入Agentic Consensus（Advaita Research 提出的多智能體共識建模方法）后，系統行為出現了清晰的數量級變化：平均延遲降低1.2–20×，P99尾延遲最高改善11×，token消耗降低1.1–4.4×，accuracy波動約2.5%

這些指標共同指向同一個系統級結論：多智能體推理的性能瓶頸，并不來自模型能力，而來自協作機制是否具備可操作的共識語義。

工程判斷與應用前景

Agentic Consensus并不是一個附加能力，而是一條明確的系統分界線。

當Agent作為真實系統中的行動單元運行時，問題不再是：「單個模型能否推理得更好」，而是在多個隨機推理主體并行的情況下，系統是否具備可判斷、可停止、可擴展的一致性語義。

論文給出的核心判斷標準是：如果一個多智能體系統無法明確回答「何時算達成一致、何時可以安全停止、延遲由誰決定」，那它在工程上仍停留在workflow，而非系統。

從這個角度看：decision flip、P99被最慢agent定義、收斂后的token浪費，都不是實現細節上的瑕疵，而是系統尚未進入「共識可操作階段」的信號。

Advaita Research的這項工作，并不是提出一種新的Agent玩法，而是把Agentic Consensus提升為一個工程判斷標準：多智能體推理，是否已經從「推理技巧的疊加」，邁入「具備可驗證共識語義的系統」。

當這個標準成立，多智能體才能真正從demo走向production；當它不成立，再復雜的推理流程，也只是在同步成本之上疊加計算。

參考資料：

https://arxiv.org/pdf/2512.20184

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.