機(jī)器之心報(bào)道
編輯:陳陳
在 Agentic AI 時代,模型不再是獨(dú)來獨(dú)往的學(xué)霸,而是開始學(xué)會組隊(duì)、一起想問題。多智能體系統(tǒng)(MAS,multi-agent systems)的發(fā)展讓 AI 世界從一個人苦想變成了多人頭腦風(fēng)暴。尤其是基于大語言模型的 MAS,如今已經(jīng)被用在各種任務(wù)中。
不過,在這個組合里,AI 基本靠文本交流,最近有人開始思考:LLM 在大腦里(也就是潛在空間)想事情時,其實(shí)比說出來要豐富得多。
于是一些研究開始嘗試讓模型直接用隱藏層來表示想法,比如 (i) 用 Transformer 的隱藏表示來實(shí)現(xiàn)單模型的潛在鏈?zhǔn)剿伎纪评恚?(ii) 使用 KV 緩存或?qū)蛹壡度朐趦蓚€模型之間交換信息。
然而,一個能夠同時統(tǒng)一潛在推理與潛在通信的全面模型協(xié)作框架仍未被探索出來。
為進(jìn)一步推進(jìn)這一方向,來自普林斯頓大學(xué)等機(jī)構(gòu)的研究者提出:MAS 能否實(shí)現(xiàn)真正的純潛在空間協(xié)作?
為回答這一問題,他們提出一種多智能體推理框架 LatentMAS,其將智能體之間的協(xié)作從傳統(tǒng)的 token 空間轉(zhuǎn)移到了模型的潛在空間。核心創(chuàng)新是:讓所有智能體不再通過文本交流,而是在潛在空間中直接協(xié)作。
一直以來,傳統(tǒng) MAS 依賴自然語言溝通,各個 LLM 之間用文本交流思路。這種方法雖然可解釋,但冗長、低效、信息易丟失。LatentMAS 則讓智能體直接交換內(nèi)部的隱藏層表示與 KV-cache 工作記憶,做到了:
- 高效的多步推理:在大幅減少 token 的情況下,實(shí)現(xiàn)更復(fù)雜的思考過程;
- 無需訓(xùn)練的潛在空間對齊機(jī)制,確保生成過程穩(wěn)定可靠;
- 通用性強(qiáng):可兼容任意 HuggingFace 模型,并可選擇性地支持 vLLM 后端。
總體而言,LatentMAS 在多智能體系統(tǒng)中實(shí)現(xiàn)了更高的性能、更低的 token 使用量,以及顯著的實(shí)際運(yùn)行速度提升。
為了實(shí)證評估 LatentMAS 的有效性,本文在九個基準(zhǔn)任務(wù)上進(jìn)行了全面實(shí)驗(yàn),這些任務(wù)涵蓋數(shù)學(xué)與科學(xué)推理、常識理解和代碼生成。
結(jié)果顯示 LatentMAS 始終優(yōu)于強(qiáng)大的單模型和基于文本的 MAS 基線:(i) 準(zhǔn)確率最高提升 14.6%,(ii) 輸出 token 使用量減少 70.8%-83.7%,(iii) 端到端推理速度加快 4×-4.3×。這些結(jié)果表明,潛在協(xié)作不僅提升了系統(tǒng)級推理質(zhì)量,還在無需額外訓(xùn)練的情況下帶來了顯著的效率收益。
![]()
- 論文標(biāo)題:Latent Collaboration in Multi-Agent Systems
- 論文地址:https://arxiv.org/pdf/2511.20639
- GitHub 地址:https://github.com/Gen-Verse/LatentMAS
這篇文章也得到了很多人轉(zhuǎn)發(fā)評論,可供大家參考。比如這位網(wǎng)友的觀點(diǎn)很好的概括論文:
「在傳統(tǒng)的多智能體系統(tǒng)中,我們通常讓智能體 A 生成文本,再由智能體 B 讀取并處理。這種文本瓶頸既浪費(fèi)算力,又嚴(yán)重稀釋語義信息。LatentMAS 帶來了一種近乎心靈感應(yīng)式的替代方案:智能體通過交換潛在思維來協(xié)作。
智能體 A 不再把推理結(jié)果解碼成文本,而是將它的工作記憶,也就是注意力層中的 KV 緩存直接傳給智能體 B。于是智能體 B 在啟動時,仿佛已經(jīng)加載了 A 的全部推理過程。
通過將第一個智能體生成的 KV 對直接注入第二個智能體的注意力機(jī)制中,第二個智能體會把前者的內(nèi)部狀態(tài)當(dāng)作自己的提示,從而完全繞過離散的 token 化層。這種方法比基于文本的協(xié)作快 4.3 倍,并減少 80% 以上的 token 使用量。更重要的是,它無需昂貴的訓(xùn)練,只用簡單的線性對齊就能讓嵌入空間兼容。
智能體 A 的潛在思維被直接復(fù)制進(jìn)智能體 B 的記憶之中。」
![]()
還有人認(rèn)為這會終結(jié)基于文本的 AI:
![]()
方法介紹
LatentMAS 是一個端到端的潛在協(xié)作框架:當(dāng)給定一個輸入問題時,所有智能體的推理與交流都完全在潛在空間中進(jìn)行,只有最終答案才會被解碼為文本輸出。其核心設(shè)計(jì)結(jié)合了智能體的內(nèi)部潛在思維生成與跨智能體潛在工作記憶傳遞。
- 在每個智能體內(nèi)部,推理通過自回歸地生成最后一層隱藏表示來展開,從而無需顯式解碼即可捕捉模型持續(xù)進(jìn)行的內(nèi)部思考;
- 在智能體之間,信息通過存儲在各層 KV 緩存中的共享潛在工作記憶進(jìn)行交換,其中包含輸入上下文以及新生成的潛在思維內(nèi)容。
基于這些設(shè)計(jì),LatentMAS 建立在三個基本原則之上,這些原則也通過全面的理論與實(shí)驗(yàn)分析得到了驗(yàn)證:
- 推理表達(dá)能力:隱藏表示天然地編碼模型的連續(xù)思維,使得每一步潛在推理都能傳遞遠(yuǎn)比離散 token 更豐富的信息。
- 通信保真度:潛在工作記憶完整保留了每個模型的輸入表示與潛在思維,從而實(shí)現(xiàn)跨智能體的無損信息傳遞。
- 協(xié)作復(fù)雜度:與 TextMAS 相比,LatentMAS 在協(xié)作表達(dá)能力更強(qiáng)的同時,其推理復(fù)雜度卻顯著更低。
前兩個原則共同強(qiáng)調(diào)了 LatentMAS 的核心優(yōu)勢:它能夠支持更豐富的潛在推理,并實(shí)現(xiàn)無損的潛在交流。第三個原則則從整體復(fù)雜度角度進(jìn)一步說明:LatentMAS 在保持高表達(dá)能力的前提下,其計(jì)算復(fù)雜度遠(yuǎn)低于基于文本的 MAS。
該方法使系統(tǒng)中的 LLM 智能體能夠:
(i)在潛在空間中生成具有超強(qiáng)表達(dá)能力的潛在思維;
(ii)在智能體交互過程中,以無損的方式保留并傳遞各自的潛在工作記憶;
(iii)在保持與傳統(tǒng) TextMAS 相同表達(dá)能力的同時,實(shí)現(xiàn)顯著更低的計(jì)算復(fù)雜度。
![]()
實(shí)驗(yàn)
本文在九個基準(zhǔn)上對 LatentMAS 進(jìn)行了全面評估,這些基準(zhǔn)覆蓋通用任務(wù)與高強(qiáng)度推理任務(wù)兩大類。
在模型上,本文采用 Qwen3 系列的三個模型:4B、8B 和 14B,用于構(gòu)建不同規(guī)模的 LatentMAS。所有實(shí)驗(yàn)均在 8× NVIDIA A100-80G GPU 上完成。
表 1、表 2 和表 3 展示了 LatentMAS 整體表現(xiàn)。他們從三個互補(bǔ)維度進(jìn)行評估:(i) 任務(wù)準(zhǔn)確率、(ii) 系統(tǒng)吞吐量(總輸出 token 數(shù))、(iii) 端到端推理速度。
結(jié)果顯示,在所有任務(wù)上,LatentMAS 相比單模型基線在順序式與層級式 MAS 設(shè)置下分別平均提升 14.6% 和 13.3% 的準(zhǔn)確率;相比文本式 MAS,在兩種設(shè)置下分別額外提升 2.8% 與 4.6%。
在相同 MAS 架構(gòu)下,LatentMAS 相比順序式與層級式 TextMAS 平均分別實(shí)現(xiàn) 4× 與 4.3× 的推理加速。
此外,由于整個協(xié)作過程完全發(fā)生在潛在空間中,LatentMAS 相比 TextMAS 在順序式與層級式設(shè)置下分別減少 70.8% 與 83.7% 的 token 使用量。
![]()
![]()
![]()
高效率潛在協(xié)作
LatentMAS 在理論上可實(shí)現(xiàn)遠(yuǎn)高于 TextMAS 的效率。本文進(jìn)一步通過實(shí)證對 LatentMAS 與 TextMAS 的效率進(jìn)行了驗(yàn)證。正如圖 1 和圖 4(左)所示,即使在 TextMAS 基線已經(jīng)通過 vLLM 服務(wù)加速后,LatentMAS 依然能提供 2.6×–7× 的額外加速。
這種顯著提升來源于:latent 推理只需較少的 latent steps,而文本推理則需要大量的 per-token 解碼步驟。例如:在不到 50 個 latent steps 的情況下,LatentMAS 就能在像 AIME 24/25 這樣高強(qiáng)度推理任務(wù)中達(dá)到甚至超過文本 MAS 的表現(xiàn);而文本 MAS 通常需要超過 2 萬個輸出 token 來完成完整的文本 CoT 推理軌跡。
![]()
![]()
此外,如圖 1 和圖 4(右)所示,LatentMAS 相比 TextMAS 可減少 59.4%–87.9% 的 token 使用量,因?yàn)?LatentMAS 中的智能體通過將潛在工作記憶直接注入其他智能體的內(nèi)部層來交流,而非依賴文本中轉(zhuǎn)。
值得注意的是,LatentMAS 相比單模型推理仍能減少 15.0%–60.3% 的 token 使用量。這是因?yàn)椋?LatentMAS 中,輸入問題由多個協(xié)作智能體分擔(dān),使得最終的智能體只需匯總前序的潛在思維并生成最終答案,因此所需輸出文本顯著減少。
最終,整個系統(tǒng)在使用更少 output tokens 的同時,反而獲得了更高的準(zhǔn)確率。
深入分析 LatentMAS
在這一部分,本文首先驗(yàn)證 LatentMAS 生成的潛在思維是否具有有意義且語義豐富的表達(dá)。為此,本文比較了 LatentMAS 新生成的最后一層隱藏向量與 TextMAS 逐 token 生成的響應(yīng)嵌入分布。如圖 5 所示:
- LatentMAS 的最后一層嵌入與 TextMAS 的 token 嵌入分布區(qū)域幾乎重疊,說明潛在思維編碼的語義與對應(yīng)的文本響應(yīng)一致。
- LatentMAS 的隱藏嵌入分布覆蓋范圍比 TextMAS 更廣,表明潛在思維比離散 token 擁有更高的多樣性和表達(dá)能力。
這些結(jié)果共同說明:潛在思維不僅能夠捕捉對應(yīng)文本的有效語義,還蘊(yùn)含更豐富、更具表現(xiàn)力的內(nèi)部表示。
![]()
為了確定 LatentMAS 的最佳 latent step 數(shù)量,本文在三個下游任務(wù)中逐步增加 latent step ,以觀察深度影響。如圖 8 所示,隨著 latent steps 增加,下游性能普遍提升,說明額外的潛在思維提高了 AI 協(xié)作表達(dá)能力。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.