網易首頁 > 網易號 > 正文申請入駐

DeepSeek V3.2爆火，Agentic性能暴漲40%解密

2025-12-04 13:25:26　來源: 新智元

北京舉報

分享至

新智元報道

編輯：艾倫

【新智元導讀】DeepSeek V3.2的Agentic能力大增，離不開這項關鍵機制：Interleaved Thinking（交錯思維鏈）。Interleaved Thinking風靡開源社區背后，離不開另一家中國公司的推動。

大模型的「健忘癥」，早該治治了！

當你試圖用當今最先進的大模型幫你完成一個復雜的長假規劃，比如「帶全家老小去云南玩七天」時，往往很可能會遭遇一個令人崩潰的時刻：

起初，這位「導游」表現得極其靠譜，分析得頭頭是道。

它記得你說的每一句要求，幫你規劃了昆明到大理的路線，甚至貼心地避開了游客太多的網紅店。

但隨著對話進行到第十輪，你們為了選酒店修改了五次方案，又為了某頓晚餐爭論了半天后，它突然「失智」了。

它開始忘記你一開始強調了無數遍的死命令：「帶著80歲的奶奶，絕對不能安排爬山和劇烈運動」。

在最新的行程表里，它竟然興致勃勃地建議：「第四天清晨：全家早起徒步攀登玉龍雪山，欣賞日照金山，全程耗時4小時……」

圖片由Nano Banana Pro生成

在AI工程界，這種現象有一個術語：狀態漂移（State Drift）。

這并非模型「變笨」了，而是我們讓它思考的方式錯了。

為了治愈這種「健忘癥」，Anthropic Claude、OpenAI GPT-OSS、MiniMax M2、Kimi K2 Thinking等國內外各大模型都不約而同地選擇了同一項技術：一邊思考，一邊用工具（Thinking in Tool-Use）。

DeepSeek: Thinking in Tool-Use

MiniMax等部分廠商也將其稱作Interleaved Thinking（交錯思維鏈），從示意圖即可看出，二者本質上是等價的。這是一個更貼近技術的稱呼。

Minimax: Interleaved Thinking（交錯思維鏈）

如圖所示，交錯思維鏈即模型在推理（thinking）和工具調用（action）之間來回交替，并持續保留和復用每一輪的推理狀態，從而實現穩定、可累積的長程規劃。

崩潰的ReAct

與「隱式推理」的詛咒

要理解交錯思維鏈為什么是「神技」，我們得先看看它的前任——早期的ReAct（Reasoning+Acting）范式是如何遇到瓶頸的。

ReAct流程示意圖

在很長一段時間里，我們構建AI Agent的邏輯非常線性：觀察->思考->行動。

這看起來很符合直覺，但在實際的工程實現（如OpenAI的Function Calling（函數調用））中，這個過程往往被簡化成了「模型直接輸出工具調用指令」。

問題就出在這里。

模型在輸出Action（比如「讀取文件A」）的那一刻，它的「腦子」是清醒的。

但當工具執行完畢，返回了數千行的代碼或網頁內容后，模型進入下一輪生成時，它面臨著巨大的環境擾動。

想象一下，你是一個程序員，每寫一行代碼，就有人把你打暈，清除你的短期記憶，然后把剛才的運行日志扔給你，讓你繼續寫。

由于缺乏顯式的、連續的思維記錄，模型很容易被復雜的工具返回結果帶偏。

它可能會被報錯信息吸引注意力，從而忘記了原本的長期規劃。

這就是「隱式推理」的詛咒。

模型的思考過程隱藏在權重里，一旦被打斷（Turn-based interaction），這些思維火花就煙消云散了。

交錯思維鏈：給Agent裝上「海馬體」

MiniMax的研發團隊在開發M2模型時，敏銳地捕捉到了這個痛點。

Agent需要的不只是更長的上下文窗口，更是一種顯式的、可累積的思考狀態。

這就是交錯思維鏈。

它的工作流變成了：思考->行動->觀察->思考->行動->觀察...

在這個閉環中，「思考」不再是可有可無的點綴，而是必須被記錄下來的狀態。

在每一次調用工具之前，模型必須先輸出一段被包裹在reasoning_details（或類似的tag）中的自然語言。

這段文字不只是給用戶看的，也是給未來的自己看的，讓自己知道來時路。

為什么它能帶來40%的性能暴漲？

MiniMax M2的發布數據中，有一組數據有力說明了這一機制的效果。

在常規的SWE-Bench Verified（軟件工程）榜單上，開啟交錯思維鏈帶來了3.3%的提升（從67.2升至69.4）。這個提升雖然不錯，但還算溫和。

然而，在BrowseComp（網頁瀏覽任務）上，提升幅度達到了驚人的40%（從31.4飆升至44.0）；在Tau2這種復雜推理任務上，提升了36%。

為什么會有這種巨大的差異？這觸及了Agent技術的深層原理。

MiniMax的后訓練團隊在技術復盤中指出：Agent的核心挑戰，在于對抗環境的擾動。

低擾動環境（SWE-Bench）：代碼環境相對純凈，報錯信息通常是確定性的。模型即使稍微「走神」，也能根據明確的Traceback找回邏輯。

高擾動環境（BrowseComp）：真實的互聯網充滿了噪音。廣告、無關的側邊欄、復雜的DOM結構、甚至是錯誤的搜索結果。在傳統的ReAct模式下，模型極易被這些噪音帶偏。

交錯思維鏈實際上充當了一個「濾波器」。

模型通過顯式的思考，在接收到龐雜的網頁信息后，先進行一輪「信息清洗」和「邏輯校準」：「我剛才搜索了X，結果里有很多無關信息，只有第三段是我需要的，接下來我應該根據這個線索去查Y。」

這種「走一步、停下來想一步、再走下一步」的機制，極大地增強了模型的健壯性。

它將一個長達數十步的脆弱鏈路，拆解成了一個個穩固的「原子化」思考閉環。

泛化的本質：從「工具」到「軌跡」

Agent的泛化，究竟是在泛化什么？

早期業界普遍認為，只要讓模型學會使用更多的工具（Scaling Tools），Agent就泛化了。

但MiniMax團隊發現，這只是「輸入層」的泛化。

真正的泛化，是對任務軌跡中所有可能擾動的適應能力。

一個模型可能在Claude Code這種腳手架里表現完美，但換到Cline或者命令行里就一塌糊涂。

因為不同的環境、不同的提示詞結構、不同的工具返回格式，都會對模型的推理軌跡產生擾動。

交錯思維鏈讓模型擁有了自我修正的能力。

通過在每一步都保留推理內容，模型實際上是在不斷地與環境進行「對齊」。

即使換了一個陌生的IDE環境，只要「思考-行動」的閉環還在，模型就能通過顯式的邏輯推理來適應新環境，而不是依賴死記硬背的提示詞模板。

這也是為什么MiniMax M2能夠在xBench、GAIA等多個異構榜單上全面開花的技術根源。

MiniMax的「基建狂魔」之路

技術原理講清楚了，但落地卻是另一回事。

在M2發布之初，MiniMax面臨著一個尷尬的局面：行業的基礎設施嚴重滯后。

雖然Anthropic最早提出了Extended Thinking的概念，但由于其閉源特性，社區并未形成統一標準。

絕大多數開源工具（如LangChain、LlamaIndex）和中間件，都是基于OpenAI的Chat Completion API構建的。

而這個標準API里，根本沒有地方放「思考過程」。

這就導致了一個災難性的后果：用戶在使用M2時，習慣性地把API返回的reasoning_details字段當成垃圾信息丟掉了。

模型明明在思考，但它的記憶被無意中切除了。這直接導致了模型性能的血崩。

面對這個問題，MiniMax順理成章，開始自己著手修路。

在過去的一段時間里，MiniMax的工程師們化身開源社區的「包工頭」，向全球主流的Agent開發工具和平臺發起了密集的PR（Pull Request，合并請求）攻勢。

Cline：這是VS Code上最火的AI編程插件之一。MiniMax團隊與其緊密合作，修改了底層的消息處理邏輯，確保在IDE的對話歷史中，不僅保留代碼，還保留模型的思考過程。這直接讓M2在Cline里的表現從「不可用」變成了「絲滑」。

Kilo Code：針對這個新興的云端IDE，MiniMax提交了代碼，優化了環境細節與工具結果的合并邏輯，解決了多輪對話中狀態丟失的問題。

OpenRouter / Ollama：通過與這些模型托管平臺的合作，MiniMax推動了API協議的升級，讓reasoning_details字段從一個「私有協議」逐漸變成了事實上的標準擴展。

正如火如荼地進行中的AWS re:Invent 2025大會上，MiniMax也得到了亞馬遜的認可。

AWS re:Invent 2025大會上，AWS CEO宣布Amazon Bedrock模型庫迎來擴容，MiniMax M2作為中國模型代表在列

英雄所見略同

DeepSeek V3.2和Kimi K2 Thinking的入局

DeepSeek V3.2和Kimi K2 Thinking的發布，宣告了這條路正式成為了通往未來的主干道。

最近引發轟動的DeepSeek V3.2，其核心特性之一「Thinking in Tool-Use」（使用工具中思考），在本質上與MiniMax倡導的交錯思維鏈是完全一致的。

DeepSeek的技術文檔中明確指出：模型在調用工具時，會保持思維鏈的連續性，直到收到新的用戶消息才會重置。

這種設計邏輯與MiniMax M2強調的「多輪交互中保留思考狀態」如出一轍。

Kimi K2 Thinking也支持了交錯思維鏈，進而得以Agentic能力上突飛猛進。

雖然兩家在具體的API字段命名上可能略有不同（MiniMax使用reasoning_details，DeepSeek使用reasoning_content，Anthropic使用thinking_blocks等），但在系統設計哲學上，大家已經達成了一致：顯式的、交錯的、持久化的思考，是智能體進化的必經之路。

OpenAI的研究表明，AI的性能不僅遵循參數量的Scaling Law，也遵循Test-Time Compute（測試時計算）的Scaling Law。

它正在從那個只會根據提示詞模板機械執行命令的「復讀機」（Copilot），進化為能夠在復雜的真實世界中，面對無數未知的擾動和噪音，依然能夠停下來思考、自我修正、并堅定地執行長鏈路任務的「思想者」（Autopilot）。

而這，已成行業的共識。

參考資料：

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.