![]()
新智元報道
編輯:LRST
【新智元導讀】多智能體AI系統需要明確的共識機制來協調不同AI主體的決策。新理論框架將多智能體推理建模為分布式共識過程,大幅提升系統性能,降低延遲和計算成本,使多智能體AI從實驗階段邁向實際應用。
過去一年,LLM Agent幾乎成為所有 AI 研究團隊與工業界的共同方向。
OpenAI在持續推進更強的推理與工具使用能力,Google DeepMind將推理顯式建模為搜索問題,Anthropic則通過規范與自我批判提升模型可靠性。
一個非常清晰的行業趨勢正在形成:單模型能力正在接近結構性邊界,多智能體被視為下一步。
Advaita Research/Hetu聯合創始人Jialin Li發布的最新研究論文,為多智能體協作共識提出了明確的理論框架,并給出了一組生產級系統指標的躍遷式改善:在accuracy基本不變的前提下,實現最高20×端到端延遲下降,最高11×的P99尾延遲改善,以及最高4.4×的token成本削減。
![]()
論文鏈接:https://arxiv.org/pdf/2512.20184
英文版鏈接:https://x.com/advaita_labs/status/2018576622048473241
這項工作將多智能體推理的問題,從prompt與workflow設計,重新拉回到系統設計和工程層面:一致性語義、停止條件與尾延遲治理。
在工程語境中,論文給出的核心判斷可以概括為一句話:當前多智能體系統,缺乏一套明確的Agentic Consensus(智能體共識)系統語義。
Advaita Research / Hetu CMO Stephanie Yu從系統工程視角對論文進行了解讀。
研究背景
在當前主流路線中,大型研究機構對Agent的探索大致可以分為三類,但它們在一個關鍵問題上保持了共同的沉默:當多個隨機推理主體并行工作時,系統何時可以認為已經達成穩定一致?
OpenAI:強化單主體推理能力
OpenAI的路線始終圍繞test-time scaling,包括self-consistency、多路徑推理、更強的 chain-of-thought、更成熟的 tool use。
該體系在單主體條件下具有非常清晰的工程優勢:推理質量高度可控、行為一致性強、工程復雜度集中。
其隱含前提同樣明確:系統只有一個決策主體。
一旦擴展為多個planner、多個actor并行執行,一致性不再由模型內部保證,而被外包給上層workflow的規則組合。
Google DeepMind搜索式推理
Tree-of-Thoughts等方法將推理顯式建模為搜索問題,通過評估函數在候選路徑中選擇最優解。
該范式在離線推理和數學問題上表現穩定,但在系統層面呈現出兩個明顯特征:推理過程高度同步、停止條件由搜索深度或預算上限決定。
本質上,這類方法優化的是路徑質量,而不是在并發、延遲與成本約束下的決策時機問題。
Anthropic/Meta啟發式協調
Anthropic的constitutional debate,以及Meta、Stanford 提出的多 Agent debate / society-of-minds,引入了多主體交互。
在工程實現上,這類系統通常依賴:固定agent數、固定輪數、barrier synchronization(等待所有 agent 完成)、多數投票或規則聚合。
但這些機制并沒有給出穩定一致性的系統定義。
當主流Agent路線仍在強化「如何更好地推理」,將多智能體視為推理技巧的疊加時,
Advaita Research的這項研究把問題下沉到了系統層:在多個隨機推理主體并行時,如何定義、驗證并穩定達成一致。
把多智能體當成分布式系統
論文提出的核心方法體系為Aegean,其根本重構在于:多智能體推理不再被視為workflow編排問題,而被建模為一個分布式共識過程。
不同于傳統分布式系統,智能體決策呈現隨機不確定性,使得現有共識協議架構無法適用。論文針對多智能體環境提出了新的共識理論框架,并給出了嚴謹的多智能體共識的正確性定義。
論文之后基于理論框架提出了新的共識協議。其核心機制包括三點:
(1)Quorum-fast,而不是wait-all
系統不再等待所有agent,只要達到 quorum 即推進決策,延遲不再由最慢 agent 決定。
(2)穩定性窗口(β),而不是「一致就停」
一致性必須在時間維度上持續存在,才能被視為有效共識,從而過濾暫時性多數。
(3)Streaming共識與即時取消
在token生成過程中持續檢測共識狀態,一旦滿足穩定條件,立即終止剩余生成。
詳細結果與實驗分析
論文指出:多智能體推理,本質上是運行在隨機推理主體之上的分布式共識問題。
一旦缺乏明確的共識語義,工程失敗并非偶發,而是呈現出高度可預測的系統性模式。
暫時性一致:多數并不穩定標題
論文系統性測量了decision flip現象(在現有Agent workflow中幾乎未被顯式建模)。
結果顯示:在引入agent間 reasoning exchange后,準確率提升的同時,多數決策在相鄰輪次發生反轉的頻率顯著上升。
以MMLU為例:100個樣本中出現64次 decision flip,意味著系統在連續輪次中反復改變多數結論。
在缺乏穩定性約束時,任何基于「當前多數」的提前停止或投票機制,都可能發生在transient agreement(暫時性一致)上。
這不是推理能力問題,而是共識未被定義的問題。
同步模型錯誤:P99被最慢agent定義
當前多Agent系統普遍采用barrier synchronization,論文在AIME(1 req/s)場景下,對比了主流做法與引入共識機制后的系統表現:
多Agent baseline(MaxRound = 6)最慢請求為6571秒,P99 延遲為8749秒
引入共識機制后,最慢請求約325秒,P99延遲為772 秒;
在相同任務條件下:P99 延遲改善約11×,平均延遲改善約20×
該差異并非來自模型推理能力,而來自同步范式從「等所有人」轉向「達成共識即可推進」。
算力浪費:token消耗發生在收斂之后
論文進一步量化了多智能體系統中長期被忽視的問題:收斂之后的無效計算。
在多個基準任務上,引入Agentic Consensus后:
GSM8K:4.4×減少(約 1.3K vs 5.7K)
MMLU:3.3×減少(約 3.3K vs 10.7K)
AIME:1.3×減少(約 46.0K vs 59.9K)
IMO:1.1×減少(約 64.8K vs 73.8K)
與此同時,accuracy波動被控制在約2.5%以內。
這表明:token成本下降來自共識驅動的早停與取消機制,而不是通過犧牲質量實現。
數字刻畫了系統邊界
在引入Agentic Consensus(Advaita Research 提出的多智能體共識建模方法)后,系統行為出現了清晰的數量級變化:平均延遲降低1.2–20×,P99尾延遲最高改善11×,token消耗降低1.1–4.4×,accuracy波動約2.5%
這些指標共同指向同一個系統級結論:多智能體推理的性能瓶頸,并不來自模型能力,而來自協作機制是否具備可操作的共識語義。
工程判斷與應用前景
Agentic Consensus并不是一個附加能力,而是一條明確的系統分界線。
當Agent作為真實系統中的行動單元運行時,問題不再是:「單個模型能否推理得更好」,而是在多個隨機推理主體并行的情況下,系統是否具備可判斷、可停止、可擴展的一致性語義。
論文給出的核心判斷標準是:如果一個多智能體系統無法明確回答「何時算達成一致、何時可以安全停止、延遲由誰決定」,那它在工程上仍停留在workflow,而非系統。
從這個角度看:decision flip、P99被最慢agent定義、收斂后的token浪費,都不是實現細節上的瑕疵,而是系統尚未進入「共識可操作階段」的信號。
Advaita Research的這項工作,并不是提出一種新的Agent玩法,而是把Agentic Consensus提升為一個工程判斷標準:多智能體推理,是否已經從「推理技巧的疊加」,邁入「具備可驗證共識語義的系統」。
當這個標準成立,多智能體才能真正從demo走向production;當它不成立,再復雜的推理流程,也只是在同步成本之上疊加計算。
參考資料:
https://arxiv.org/pdf/2512.20184
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.