<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      算力減半、準確率提升,這項研究打破大模型必須達成共識的鐵律

      0
      分享至

      當所有智能體都在“少數服從多數”時,錯誤也可能被投票放大。但如果不再追求共識,會發生什么?

      一項研究結果顯示,僅通過單輪協作,無需達成共識,多智能體協同反而能實現更高的準確性、效率和魯棒性。

      這個有些“反直覺”的結論,來自浙江清華長三角研究院信息技術研究所張海濱教授團隊(通訊作者)與北京理工大學團隊近期合作的研究,他們研發出一種多智能體協作架構 Free-MAD,打破了多智能體辯論必須“達成共識”的鐵律。

      在多項任務評測中,Free-MAD 在顯著降低硬件資源需求的同時,無需達成共識,僅通過單輪協作,能高效組合數個(中小型)開源大模型,在部分復雜任務方面超越國際主流單體大參數模型(如 Gemini 3、GPT-5.2)的性能水平。


      圖丨張海濱團隊(來源:受訪者)

      近年來,多智能體協同正成為提升大模型推理能力的熱門方向之一,Anthropic、月之暗面等機構也在關注該方向。

      傳統方法中大模型特有的從眾機制是,哪怕是錯誤的觀點也要“少數服從多數”。另一方面,傳統多智能體協作方案通常需要兩至三輪交互才能達成共識,這會導致模型的準確率和性能均不高,并且費時費錢。

      該方案摒棄了傳統方法,基于獎勵評分決策機制評估整個辯論軌跡,而非僅依賴最后一輪結果;同時通過抗從眾機制,使智能體有效識別并避免從眾錯誤推理的傳播。

      與傳統方法相比,在該框架下僅需單輪多智能體交互,即可實現與傳統方法的推理相當的效果;在對抗環境下,具有更強的魯棒性、較低的推理開銷以及更高的可拓展性。

      該研究為在算力受限環境下實現高性能模型應用,提供了一種兼具成本和性能的技術路徑。對工業界而言,意味著可部署更輕量、更便宜、更安全的 AI 協作系統;對學術界而言,它開啟了“非共識化多智能體系統”的新方向。


      圖丨相關論文(來源:arXiv)

      參數堆砌之外的突破:多智能體協作的效率革命

      當前,全球大模型技術發展呈現出明顯的結構性不平衡。一方面,國際上先進的大模型,例如谷歌的 Gemini、OpenAI 的 GPT 以及 Anthropic 的 Claude Opus 系列等仍以閉源為主。盡管在性能和通用能力方面具有優勢,但受到技術封鎖、合規限制及地緣政治因素等影響,其難以實現廣泛獲取與使用。

      另一方面,國內開源模型在透明性、可審計性和自主可控方面具備優勢,但不容忽視的一個問題是,其在綜合性能、復雜任務處理能力等關鍵指標上,與頂尖閉源模型仍存在一定的差距。

      實際部署層面的挑戰同樣嚴峻,現有部分 200B 及以上參數規模的大模型(如 DeepSeek-V 系列、Qwen 高參數版本等)往往高度依賴多張 NVIDIA H200 級 GPU 硬件,單卡成本較高,這對整體算力來說是一項較高的支出。

      相比之下,輕量級小參數模型,例如 32B 級開源模型可在多張 NVIDIA 4090 級別的消費級顯卡環境下完成部署,但它的局限性在于單模型能力在復雜任務場景和應用深度方面受限。


      圖丨基于分數的 Free-MAD 協議及其評價(來源:arXiv)

      在此背景下,研究團隊開發了全新多智能體協作架構 Free-MAD。為有力抑制答案的“盲目跟風”,研究人員引入了反從眾的機制來重構辯論階段。通過鼓勵批判性思維,系統可實現主動降低對多數意見的敏感度。

      張海濱對 DeepTech 解釋道:“不能為了達成共識而達成共識,而是應該去思考問題的本身。每個大模型或智能體都會產生自己的思考結果,其不僅要收到對方的結果來做決定,更重要的是,要用批判性思維來看待對方的推理過程是否合理。”

      在決策階段,研究團隊基于純算法邏輯引入了獎勵評分決策機制,來評估整個辯論軌跡。這樣,最終決策并非取決于最后一輪“誰聲量高聽誰的”,而是通過全程追蹤辯論過程中所有智能體的每次推理軌跡變化。


      (來源:arXiv)

      這種決策邏輯帶來的好處是,無需在辯論階段達成共識,即便正確答案在末輪未獲得多數投票,系統仍可能基于它在辯論過程中的穩定表現或合理轉變而獲得結論。

      除了開發全新的推理框架,這項研究還揭示了多智能體協同中有趣的現象:有的場景下,異構模型的效果強于同構模型;但其他場景下,同構模型反而更強,甚至對應不同的工作或者任務,需要動態調整核心算法與參數。

      對于非專業的用戶來說,Free-MAD 無異于通用大模型或智能體應用,而針對專業用戶,研究團隊在此基礎上進行參數調優,進化出高度優化的通用版本 MAX-MAD,使性能和準確率進一步提升,以應對不同的場景和賽道。

      “參數調優的好壞直接關系到準確性,甚至關系到整個共識達成的速度。因此,我們設置了額外的一些重要的參數調優。”該論文第一作者崔宇對 DeepTech 表示。

      據悉,該系統前置了三個重要模塊:針對輸入任務的分類(例如數學、推理、哲學,或其他問題)等,對任務復雜度評估以及策略參數優化器。此外,研究人員還開發了智能體的自適應模塊以及反饋機制的收集。

      破解大模型協作中的從眾難題

      在實驗部分,研究團隊的測試覆蓋了 8 個數據集,包括數學推理(GSM-Ranges、AIME2024、AIME2025 和 MATH500)、邏輯推理(StrategyQA 和 MMLU 的邏輯謬誤數據集)、知識和理論推理(AICrypto 的多選題數據集)等。

      據團隊介紹,在綜合數學推理測試中,研究人員綜合使用國內的四大開源模型組合(Qwen3-235B、DeepSeek-V3.2、Kimi-K2 和 GLM-4.7)以及調用同一個國產大模型的單一組合(以上任意一種大模型, 如 Qwen3-235B)。

      綜合來看,Free-MAD 和 MAX-MAD 通過多智能辯論后,能夠達到約 86.67%-90% 的準確率,不僅將四個單體模型本身的準確率大幅提升了 15-30%,更值得關注的是,該準確率也超過了主流閉源模型(如 Gemini 3、GPT-5.2)在相同數據集上的公開成績。


      (來源:arXiv)

      基線方法采用了被廣泛采用的多智能體辯論框架 SoM,結果顯示,Free-MAD-N(反從眾辯論+評分決策)在單輪辯論(R=1)時準確率達 64.43%,比基線 2 高近 10%,比基線 1 高近 19%。

      值得關注的是,基線方法在單輪辯論時效果不佳,單輪無法形成共識;而 Free-MAD 不需要共識,單輪結果優于基線兩輪成績。


      (來源:arXiv)

      從 token 消耗結果來看,Free-MAD 或 MAX-MAD 的輪數由原來的兩三輪變成現在的單輪,相當于整個 token 的使用量或帶寬的使用量降為原來的一半。“這也是一項重要的成本節省。”張海濱說道。

      在安全性方面,研究團隊也進行了相關設計。智能體往往涉及到多智能體協作,50% 智能體被斷網時,基線準確率會下降 15%-20%。因此,需要考慮的情況是:萬一部分智能體無法正常工作,或系統的一部分不工作的情況,是否能保障系統的安全性,以及是否仍能夠按時獲得輸出結果。

      經過研究人員測算,Free-MAD 或 MAX-MAD 系統在抵御宕機或通信攻擊情況下的表現較為理想。實驗結果顯示,即便智能體(短暫)離線,或受到敵手攻擊,不能把自己的信息發送情況下,其余的智能體也能準確地完成任務。

      從實驗室走向產業:多智能體協作的落地路徑

      據研究團隊介紹,來自研究社區的英國獨立研究團隊已基于該成果復現了 Free-MAD。值得注意的是,相關團隊將包括權重在內的所有系統超參數設為自適應可配置,并引入了基于歸一化的方法及若干額外工程化策略,顯著提升了系統的實用性與并行能力。

      這種兼具安全性和性能優勢的框架有望用于高質量推理內容生成,以及智慧醫療、輿情治理、金融分析等高安全敏感應用領域。

      在高質量內容生成領域,基于框架較強的通用性,該方案可直接用于任意大模型和智能體進行傳統的智能問答。盡管它在結果返還速度上相對傳統大模型較慢,但基于辯論優化邏輯鏈,可大幅度提升政策解讀、行業報告等文本的專業性與可信度。

      在智慧醫療領域,該成果有望模擬心內、影像、病理等多科室專家會診,甚至產生辯論,來對疑難病癥進行診斷。

      例如,三個智能體分別對患者病情進行評估,在其中兩個智能體誤判為良性,一個智能體堅持是惡性的情況下,傳統的 MAD 方法有可能因為共識壓力輸出錯誤的結果,而該方案能通過特有的軌跡分析,識別出少數派的扎實推理理念,進而做出更精準的評估。

      在輿情治理方面,可構建虛擬的辯論社區,多角度解構輿情領域的脈絡,實現風險的早識別、早干預。目前,在汽車輿情的治理方面,研究團隊已經有相關落地案例。張海濱指出,“從結果來看,通過辯論得到的結果,明顯優于單模型或傳統共識型多智能體方案。”

      在金融分析領域,多 Agent 協同有利于更好地研判市場信號,生成邏輯嚴密的投資策略和風控報告。


      圖丨張海濱(來源:受訪者)

      張海濱教授目前擔任浙江清華長三角研究院信息技術研究所所長、學術帶頭人,其團隊致力于為 AI 提供從數據層、模型層到應用層的完善解決方案。

      該團隊承擔多項國家級與省部級科研項目,例如“天樞·可信數據空間”。圍繞可信數據空間與多智能體協同架構展開研究,并落地大小模型協同的“天跡·工業智能體”。相關成果已在能源、電信、國家電網、國家管網等領域落地,并參與包括央行數字貨幣等在內的多邊金融基礎設施項目建設。

      在未來的研究中,該團隊計劃構建新一代策略參數優化的更高性能、更準確的多智能體協作框架。目前,他們正在探索將該框架與硬件系統結合的可能性,旨在通過硬件優化解決多智能體辯論中分詞、解碼及廣播帶來的帶寬消耗和延遲問題。

      在算力成為瓶頸的時代,或許這類架構創新比單純堆參數更具戰略意義。

      參考資料:

      1.Yu Cui, Hang Fu, Haibin Zhang, Licheng Wang, Cong Zuo, Free-MAD: Consensus-free multi-agent debate, arXiv preprint arXiv:2509.11035

      2.系統已開放內測,感興趣的讀者可郵件聯系李老師: likang@tsinghua-zj.edu.cn

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      學校繳費33600元!東莞一家長哭訴已拼盡全力生活,還是力不從心

      學校繳費33600元!東莞一家長哭訴已拼盡全力生活,還是力不從心

      火山詩話
      2026-03-07 07:54:49
      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      小彭美識
      2026-03-08 10:46:00
      這是要復婚?過年丟下4年女友,直奔三亞陪佟麗婭!陳思誠太膈應人了

      這是要復婚?過年丟下4年女友,直奔三亞陪佟麗婭!陳思誠太膈應人了

      八卦王者
      2026-03-08 11:01:19
      起風了!表決結果出爐,22名綠委缺席!蔣萬安、盧秀燕高下立判!

      起風了!表決結果出爐,22名綠委缺席!蔣萬安、盧秀燕高下立判!

      浪子阿邴聊體育
      2026-03-08 04:13:40
      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      世界體育圈
      2026-03-08 10:43:18
      足不出戶一鍵養龍蝦!美團推出OpenClaw遠程部署服務

      足不出戶一鍵養龍蝦!美團推出OpenClaw遠程部署服務

      快科技
      2026-03-07 12:37:27
      陶虹這腿無法直視了,徐導這么能賺錢為啥不保養一下

      陶虹這腿無法直視了,徐導這么能賺錢為啥不保養一下

      愛下廚的阿釃
      2026-03-06 20:11:39
      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      壹家言
      2026-03-04 19:37:20
      懸念不大了!NBA西部季后賽球隊,大概率這8支,勇士基本出局

      懸念不大了!NBA西部季后賽球隊,大概率這8支,勇士基本出局

      籃球掃地僧
      2026-03-07 15:18:27
      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      觀威海
      2026-03-07 12:07:22
      川普:伊朗只剩無條件投降!拉里賈尼成了頭號斬首目標

      川普:伊朗只剩無條件投降!拉里賈尼成了頭號斬首目標

      深度報
      2026-03-07 22:13:54
      鄧肯“接班人”實至名歸!文班亞馬生涯第三年數據高度復刻傳奇!

      鄧肯“接班人”實至名歸!文班亞馬生涯第三年數據高度復刻傳奇!

      田先生籃球
      2026-03-05 14:13:10
      高葉這衣服暴露了真實身材

      高葉這衣服暴露了真實身材

      科學發掘
      2026-03-07 22:21:36
      江蘇一女子當著丈夫和女兒的面點兩男模 還讓丈夫買單

      江蘇一女子當著丈夫和女兒的面點兩男模 還讓丈夫買單

      塵埃里的看客
      2026-03-07 17:05:51
      請收藏!WTT重慶冠軍賽賽程出爐,看點全梳理不錯過每個精彩瞬間

      請收藏!WTT重慶冠軍賽賽程出爐,看點全梳理不錯過每個精彩瞬間

      乒談
      2026-03-08 00:10:21
      男子養豪豬拔刺 每斤刺能賣400元

      男子養豪豬拔刺 每斤刺能賣400元

      閃電新聞
      2026-03-08 00:25:56
      局長被免職后去世,全局只有我去吊唁,后來他的妻子擔任市委書記

      局長被免職后去世,全局只有我去吊唁,后來他的妻子擔任市委書記

      秋風專欄
      2025-12-29 16:32:49
      漢纜股份這回徹底出圈了

      漢纜股份這回徹底出圈了

      蔚然先聲
      2026-03-08 08:32:12
      很遺憾這兩位沒有在一起,多么郎才女貌,天作之合,好般配呀

      很遺憾這兩位沒有在一起,多么郎才女貌,天作之合,好般配呀

      草莓解說體育
      2026-03-06 14:49:46
      賭徒的結局真的是一無所有嗎 網友講述百億老板到騙他300萬過程

      賭徒的結局真的是一無所有嗎 網友講述百億老板到騙他300萬過程

      侃神評故事
      2026-03-07 07:15:03
      2026-03-08 12:04:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16376文章數 514725關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      房產
      藝術
      旅游
      家居
      親子

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      藝術要聞

      他是二王書法的化身?米芾的秘密揭曉!

      旅游要聞

      有一億人?無錫這些地方擠爆了

      家居要聞

      暖棕撞色 輕法奶油風

      親子要聞

      孩子總生病沒胃口多半是脾胃弱

      無障礙瀏覽 進入關懷版