機器之心報道
編輯:陳陳
在 Agentic AI 時代,模型不再是獨來獨往的學霸,而是開始學會組隊、一起想問題。多智能體系統(MAS,multi-agent systems)的發展讓 AI 世界從一個人苦想變成了多人頭腦風暴。尤其是基于大語言模型的 MAS,如今已經被用在各種任務中。
不過,在這個組合里,AI 基本靠文本交流,最近有人開始思考:LLM 在大腦里(也就是潛在空間)想事情時,其實比說出來要豐富得多。
于是一些研究開始嘗試讓模型直接用隱藏層來表示想法,比如 (i) 用 Transformer 的隱藏表示來實現單模型的潛在鏈式思考推理, (ii) 使用 KV 緩存或層級嵌入在兩個模型之間交換信息。
然而,一個能夠同時統一潛在推理與潛在通信的全面模型協作框架仍未被探索出來。
為進一步推進這一方向,來自普林斯頓大學等機構的研究者提出:MAS 能否實現真正的純潛在空間協作?
為回答這一問題,他們提出一種多智能體推理框架 LatentMAS,其將智能體之間的協作從傳統的 token 空間轉移到了模型的潛在空間。核心創新是:讓所有智能體不再通過文本交流,而是在潛在空間中直接協作。
一直以來,傳統 MAS 依賴自然語言溝通,各個 LLM 之間用文本交流思路。這種方法雖然可解釋,但冗長、低效、信息易丟失。LatentMAS 則讓智能體直接交換內部的隱藏層表示與 KV-cache 工作記憶,做到了:
- 高效的多步推理:在大幅減少 token 的情況下,實現更復雜的思考過程;
- 無需訓練的潛在空間對齊機制,確保生成過程穩定可靠;
- 通用性強:可兼容任意 HuggingFace 模型,并可選擇性地支持 vLLM 后端。
總體而言,LatentMAS 在多智能體系統中實現了更高的性能、更低的 token 使用量,以及顯著的實際運行速度提升。
為了實證評估 LatentMAS 的有效性,本文在九個基準任務上進行了全面實驗,這些任務涵蓋數學與科學推理、常識理解和代碼生成。
結果顯示 LatentMAS 始終優于強大的單模型和基于文本的 MAS 基線:(i) 準確率最高提升 14.6%,(ii) 輸出 token 使用量減少 70.8%-83.7%,(iii) 端到端推理速度加快 4×-4.3×。這些結果表明,潛在協作不僅提升了系統級推理質量,還在無需額外訓練的情況下帶來了顯著的效率收益。
![]()
- 論文標題:Latent Collaboration in Multi-Agent Systems
- 論文地址:https://arxiv.org/pdf/2511.20639
- GitHub 地址:https://github.com/Gen-Verse/LatentMAS
這篇文章也得到了很多人轉發評論,可供大家參考。比如這位網友的觀點很好的概括論文:
「在傳統的多智能體系統中,我們通常讓智能體 A 生成文本,再由智能體 B 讀取并處理。這種文本瓶頸既浪費算力,又嚴重稀釋語義信息。LatentMAS 帶來了一種近乎心靈感應式的替代方案:智能體通過交換潛在思維來協作。
智能體 A 不再把推理結果解碼成文本,而是將它的工作記憶,也就是注意力層中的 KV 緩存直接傳給智能體 B。于是智能體 B 在啟動時,仿佛已經加載了 A 的全部推理過程。
通過將第一個智能體生成的 KV 對直接注入第二個智能體的注意力機制中,第二個智能體會把前者的內部狀態當作自己的提示,從而完全繞過離散的 token 化層。這種方法比基于文本的協作快 4.3 倍,并減少 80% 以上的 token 使用量。更重要的是,它無需昂貴的訓練,只用簡單的線性對齊就能讓嵌入空間兼容。
智能體 A 的潛在思維被直接復制進智能體 B 的記憶之中。」
![]()
還有人認為這會終結基于文本的 AI:
![]()
方法介紹
LatentMAS 是一個端到端的潛在協作框架:當給定一個輸入問題時,所有智能體的推理與交流都完全在潛在空間中進行,只有最終答案才會被解碼為文本輸出。其核心設計結合了智能體的內部潛在思維生成與跨智能體潛在工作記憶傳遞。
- 在每個智能體內部,推理通過自回歸地生成最后一層隱藏表示來展開,從而無需顯式解碼即可捕捉模型持續進行的內部思考;
- 在智能體之間,信息通過存儲在各層 KV 緩存中的共享潛在工作記憶進行交換,其中包含輸入上下文以及新生成的潛在思維內容。
基于這些設計,LatentMAS 建立在三個基本原則之上,這些原則也通過全面的理論與實驗分析得到了驗證:
- 推理表達能力:隱藏表示天然地編碼模型的連續思維,使得每一步潛在推理都能傳遞遠比離散 token 更豐富的信息。
- 通信保真度:潛在工作記憶完整保留了每個模型的輸入表示與潛在思維,從而實現跨智能體的無損信息傳遞。
- 協作復雜度:與 TextMAS 相比,LatentMAS 在協作表達能力更強的同時,其推理復雜度卻顯著更低。
前兩個原則共同強調了 LatentMAS 的核心優勢:它能夠支持更豐富的潛在推理,并實現無損的潛在交流。第三個原則則從整體復雜度角度進一步說明:LatentMAS 在保持高表達能力的前提下,其計算復雜度遠低于基于文本的 MAS。
該方法使系統中的 LLM 智能體能夠:
(i)在潛在空間中生成具有超強表達能力的潛在思維;
(ii)在智能體交互過程中,以無損的方式保留并傳遞各自的潛在工作記憶;
(iii)在保持與傳統 TextMAS 相同表達能力的同時,實現顯著更低的計算復雜度。
![]()
實驗
本文在九個基準上對 LatentMAS 進行了全面評估,這些基準覆蓋通用任務與高強度推理任務兩大類。
在模型上,本文采用 Qwen3 系列的三個模型:4B、8B 和 14B,用于構建不同規模的 LatentMAS。所有實驗均在 8× NVIDIA A100-80G GPU 上完成。
表 1、表 2 和表 3 展示了 LatentMAS 整體表現。他們從三個互補維度進行評估:(i) 任務準確率、(ii) 系統吞吐量(總輸出 token 數)、(iii) 端到端推理速度。
結果顯示,在所有任務上,LatentMAS 相比單模型基線在順序式與層級式 MAS 設置下分別平均提升 14.6% 和 13.3% 的準確率;相比文本式 MAS,在兩種設置下分別額外提升 2.8% 與 4.6%。
在相同 MAS 架構下,LatentMAS 相比順序式與層級式 TextMAS 平均分別實現 4× 與 4.3× 的推理加速。
此外,由于整個協作過程完全發生在潛在空間中,LatentMAS 相比 TextMAS 在順序式與層級式設置下分別減少 70.8% 與 83.7% 的 token 使用量。
![]()
![]()
![]()
高效率潛在協作
LatentMAS 在理論上可實現遠高于 TextMAS 的效率。本文進一步通過實證對 LatentMAS 與 TextMAS 的效率進行了驗證。正如圖 1 和圖 4(左)所示,即使在 TextMAS 基線已經通過 vLLM 服務加速后,LatentMAS 依然能提供 2.6×–7× 的額外加速。
這種顯著提升來源于:latent 推理只需較少的 latent steps,而文本推理則需要大量的 per-token 解碼步驟。例如:在不到 50 個 latent steps 的情況下,LatentMAS 就能在像 AIME 24/25 這樣高強度推理任務中達到甚至超過文本 MAS 的表現;而文本 MAS 通常需要超過 2 萬個輸出 token 來完成完整的文本 CoT 推理軌跡。
![]()
![]()
此外,如圖 1 和圖 4(右)所示,LatentMAS 相比 TextMAS 可減少 59.4%–87.9% 的 token 使用量,因為 LatentMAS 中的智能體通過將潛在工作記憶直接注入其他智能體的內部層來交流,而非依賴文本中轉。
值得注意的是,LatentMAS 相比單模型推理仍能減少 15.0%–60.3% 的 token 使用量。這是因為,在 LatentMAS 中,輸入問題由多個協作智能體分擔,使得最終的智能體只需匯總前序的潛在思維并生成最終答案,因此所需輸出文本顯著減少。
最終,整個系統在使用更少 output tokens 的同時,反而獲得了更高的準確率。
深入分析 LatentMAS
在這一部分,本文首先驗證 LatentMAS 生成的潛在思維是否具有有意義且語義豐富的表達。為此,本文比較了 LatentMAS 新生成的最后一層隱藏向量與 TextMAS 逐 token 生成的響應嵌入分布。如圖 5 所示:
- LatentMAS 的最后一層嵌入與 TextMAS 的 token 嵌入分布區域幾乎重疊,說明潛在思維編碼的語義與對應的文本響應一致。
- LatentMAS 的隱藏嵌入分布覆蓋范圍比 TextMAS 更廣,表明潛在思維比離散 token 擁有更高的多樣性和表達能力。
這些結果共同說明:潛在思維不僅能夠捕捉對應文本的有效語義,還蘊含更豐富、更具表現力的內部表示。
![]()
為了確定 LatentMAS 的最佳 latent step 數量,本文在三個下游任務中逐步增加 latent step ,以觀察深度影響。如圖 8 所示,隨著 latent steps 增加,下游性能普遍提升,說明額外的潛在思維提高了 AI 協作表達能力。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.