網易首頁 > 網易號 > 正文申請入駐

從MiniMax到DeepSeek：為何頭部大模型都在押注「交錯思維」？

2025-12-04 14:48:23　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：杜偉、+0

昨日，有位推特博主曬出了國內幾大開源模型在輕量級軟件工程 Agent 基準測試 mini-SWE-agent 上的成績。該基準主要測試大模型在真實軟件開發任務中的多步推理、環境交互和工程化能力。

結果顯示，MiniMax 新一代大模型 M2 的表現最佳，一舉超越了 DeepSeek、GLM、Qwen、Kimi 等其他一眾競品廠商。

更多測試細節請查看：https://x.com/KLieret/status/1995949673551724717

作為一個發布之初以 Agent 和代碼能力見長的大模型，MiniMax M2 在 mini-SWE-agent 測試中的亮眼表現并不令人意外。它不僅可以出色規劃、穩定執行復雜長鏈條工具調用任務，還能協同調用 Shell、Browser、Python 代碼執行器和其他各種 MCP 工具。

支撐這些能力的關鍵技術正是 MiniMax M2 所采用的「Interleaved Thinking」（交錯思維），通俗地講即是一邊思考、一邊調用工具。這一技術的加持，使得該模型能夠在「思考 - 行動 - 反思」的閉環中持續積累上下文理解，并根據反饋實時調整策略。

這種更接近真實工程師的工作方式，顯著提升了 MiniMax M2 的 Agent 執行能力，在復雜任務中規劃性更強、執行穩健性更高、自我糾錯能力更可靠，從而組成了其最具辨識度的核心優勢。

發布僅僅一個多月，MiniMax M2 在實際 Agent 使用場景中獲得了開發者的廣泛認可。此前，推特博主 @elvis 表示，「MiniMax-M2 比我想象的要重要得多！我用 M2 構建了一個深度研究 Agent，交錯思維確實不一般，它能在工具調用之間保留完整的內容塊（思考 + 文本 + 工具調用），實現持續推理。這對自我改進的 Agent 非常有幫助。」

圖源：https://x.com/omarsar0/status/1993325632961593417

就在以 Agentic AI 為核心主題的 AWS re:Invent 2025 大會上，AWS CEO Matt Garman 宣布旗下模型庫 Amazon Bedrock 迎來多個「新成員」，其中就包括了國產開源模型代表 MiniMax M2。

不禁好奇，Interleaved Thinking 在背后是如何驅動大模型變得「更能干活」的？帶著這些疑問，我們對這項技術進行了一番深入探究。

崛起的「Interleaved Thinking」，正成為 Agent 模型標配

傳統的 Chain-of-Thought（CoT）往往是「線性」的：模型先進行一次完整的思考規劃，然后批量調用工具，最后根據結果生成答案。這種模式在簡單的問答中有效，但在面對現實復雜任務時往往會「顧頭不顧尾」，尤其是在多輪次推理、跨步驟決策和實時動態調整方面顯得力不從心。

隨著 Agent 任務的復雜程度越來越高，這類模式的局限更加明顯，因此催生出了全新推理范式的需求。這也正是 Interleaved Thinking 得以迅速崛起的原因所在。

Interleaved Thinking 這一路徑的核心思想可以追溯到 2022 年由普林斯頓大學與谷歌提出的 ReAct 框架，該框架系統性地提出將推理與行動（工具調用）交錯進行。此后，Anthropic 提出的 Extended Thinking 在強調長時與長鏈路推理的同時進一步完善了與工具調用等 Agent 場景的協同。

基于這些工作，MiniMax M2 采用的 Interleaved Thinking 通過將推理貫穿于工具調用的每個步驟，在 Agent 執行過程中形成了高效穩定的「同步思考、實時調整、持續修正」循環

具體來講，Interleaved thinking 是在顯性推理和工具使用之間交替進行，同時在各步驟之間將推理推進。它本質上是一個「思考 → 行動 → 觀察 → 再思考」的動態循環。這一過程顯著提升了規劃、自我糾正和長期工作流程的可靠性。

早期的 ReAct 很大程度上是借助 Prompt 工程在外部框架里「硬湊」出的邏輯閉環，鏈路常因格式或解析問題而中斷；而如今的 Interleaved Thinking（如 MiniMax M2、DeepSeek V3.2）則把這類思考 - 行動模式更深度地融入了模型及其推理流程，讓它更接近一種「原生的思維直覺」，因而更加穩健。

圖源：https://t.co/u5DOdvTMtx

為什么它如此重要？

在長鏈路任務中，Agent 面臨一個「致命殺手」：狀態漂移。在復雜的 Agent 任務（如編寫一個完整的游戲模組或進行深度行業調研）中，交互往往長達數十輪。如果模型在每一輪交互中丟棄了上一輪的推理過程，只保留工具的輸出結果，模型就會陷入「失憶」狀態。

它會忘記「我為什么要運行這行代碼」或者「剛才那個報錯排查到哪一步了」。這種上下文的斷裂會導致模型重復執行無效操作，或者在多輪交互后偏離最初的目標。

而 Interleaved Thinking 從根源了解決了「狀態漂移」問題，使得計劃、意圖和中間結論可以跨輪次延續。

圖源：https://t.co/u5DOdvTMtx

看到這里，可能有讀者會問：這不就是讓模型「記性好」一點嗎？它和現在熱門的 Memory、Long Context 和 RAG 有什么區別？

其實，它們解決的是不同維度的「遺忘」問題。

普通的大模型記憶像電腦的硬盤。它側重于「存事實」，記住的是用戶的偏好、過往的知識庫或幾天前的對話摘要。確保模型下次見到你，還記得你是誰，之前的項目背景是什么。

Interleaved Thinking 則像電腦的 RAM (內存)。它側重于「存邏輯」，記住的是「我剛才為什么決定這么做」、「我對當前步驟的懷疑」、「我下一步的臨時假設」，它用來維持正在運行的思維鏈狀態。

當然，在實際工程中，這兩者并非二元對立，而是互為表里。我們往往需要 Long Context 作為巨大的容器，來承載 Interleaved Thinking 產生的大量推理過程。但如果不具備 Interleaved 的「思維動態維持」能力，單純拉長 Context 只不過是給模型塞了一堆僵死的文字，模型依然會在海量信息中迷失方向。

簡而言之，大模型記憶決定了 Agent 能「懂」多少過去，而 Interleaved Thinking 決定了 Agent 能「走」多遠未來。

目前，Interleaved Thinking 這一技術正加速成為「行業共識」。除了 MiniMax 之外，很多其他頭部大模型廠商也開始采納：

Kimi K2 thinking原生支持 Thinking-in-Tools 能力，掌握了「邊思考、邊操作」的動態推理節奏；
Gemini 3 Pro確立了「內部 Thinking 模式 + 思路簽名（Thought Signature）」的標準，支持多輪 Context 回傳與 Tool-use/Agent 的深度協同，確保持續推理不掉線；
DeepSeek V3.2推出了首個將思考深度融入工具使用的 Thinking in Tool-Use 機制，在工具調用期間保留推理上下文，實現了思考與執行的無縫銜接。

可以說，Interleaved Thinking 已不再是單一廠商的特色，而逐步成為高性能 Agent 模型的「標配」

作為最早官方支持該技術的開源模型，MiniMax M2 在提升 Interleaved Thinking 的性能與效率上已經形成了自己獨到的一套打法。

既強又省，MiniMax M2 用交錯思維定義 Agent 新范式

Interleaved Thinking 的核心價值在于高強度的「工作記憶」維持能力。正是這種在每一步工具交互中保留并傳遞推理內容的機制，確保了 MiniMax M2 在執行長鏈路任務時，能夠實現高效的自我修正、動態規劃與樣本復用，有效避免了邏輯中斷。

根據 MiniMax M2 的實測數據，保持前輪思維狀態帶來了顯著的性能提升：在充滿不確定性、極度依賴「觀察 - 調整」循環的 BrowseComp（網頁瀏覽任務）中，保持前輪思維狀態讓性能從 31.4 躍升至 44.0，漲幅高達 40.1%；在 Tau2 復雜工具調用測試中，性能提升了 35.9%；即使是在本就極高難度的 SWE-Bench Verified 軟件工程基準上，也依然取得了 3.3% 的顯著增長。

不僅強，而且極其「省」

為了驗證這一機制在真實開發流中的威力，AI Agent 系統經理 Muratcan Koylan 構建了一個具體的演示：為設計系統團隊自動生成一份簡報。這項任務需要模型整理關鍵 Design Tokens（如顏色、排版、間距）、定義按鈕組件的實現規范，以及輸出可復用的開發模式。

圖源：https://x.com/koylanai/status/1990692277723734153

在這個演示中，傳統模型試圖「一口吃成胖子」，一次性調用所有工具，容易導致結果偏差。而 M2 展現了清晰的節奏：先獲取顏色 → 反思 → 再請求排版 → 再請求間距。這種「思考 → 行動 → 消化結果」的循環，讓每一步決策都通過 reasoning_details 清晰可見，不再是黑盒。

對于開發者而言，技術先進性最終要通過成本和效率來落地。Muratcan 的測試數據還展示了 M2 驚人的經濟性：在這個包含 8 步推理、7 次工具調用的完整流程中，MiniMax M2 的總成本僅為 $0.001669。相比同級別的 Claude Sonnet（約 $0.020），M2 便宜了近 12 倍

這意味著，在相同的預算下，開發者可以使用 M2 進行 12 倍的迭代實驗。Muratcan 指出，這種「高可見性 + 低成本」的組合，讓快速迭代真正變得可行，這對于構建復雜的工具編排和開發工作流來說，是游戲規則的改變者。

如何榨干 M2 的全部性能？

盡管 MiniMax M2 能力強大，但在發布初期，官方社區反饋發現了一個普遍現象：很多開發者并沒有正確「打開」 Interleaved Thinking。

常見誤區包括：調用 API 時丟棄上一輪推理內容、或在使用 Anthropic 格式時過濾掉了 thinking blocks。一旦上下文斷裂，模型只能從零推理，性能直接腰斬。

為了確保開發者能榨干 M2 的全部性能，MiniMax 提供了兩種主流 API 格式的最佳實踐：

MiniMax 官方 API：采用內容與推理分離的設計，推理過程通過獨立的 reasoning_details 字段返回，清晰且易于解析。
Anthropic 兼容 API：完美適配 Claude 生態，天然支持多類型內容塊，只需保留并回傳 thinking blocks 即可。

這些實踐表明了，MiniMax M2 正在為困擾業界已久的 Agent 落地難題，打開了一種全新的解決思路。

在被稱為 Agent 落地元年的 2025 年，直到現在仍有很多 AI 界人士持有悲觀態度，比如 Andrej Karpathy，他在上上個月的一次訪談節目中表示，當前市面上的 AI Agent「令人失望」，并預計大約還需要 10 年時間，它們才可能發展到真正可用、可靠的狀態。

這里首要解決的一大挑戰便是：模型思考過程與工具執行之間真正實現絲滑、高效的協作。如今隨著 Interleaved Thinking 的機制不斷完善，其能力逐步得到充分釋放，這一問題也隨之有了可行性更高的技術解決方案。

當然，Interleaved Thinking 想要贏得更多廠商和開發者的青睞，少不了其他各環節的系統性支持。MiniMax M2 發布時，社區對該技術的支持非常有限。為了改變這一現狀，MiniMax 采取多種途徑推動該技術成為可復用的行業標準。

過去幾周，MiniMax 與 Kilo Code、RooCode、Cline、OpenRouter、Ollama 等眾多合作伙伴合作，提供了多個關鍵 PR，實現了這些編程工具、API 平臺對 Interleaved Thinking + 原生工具調用的廣泛、良好支持。同時，基于內部的 Benchmark，MiniMax 與合作伙伴一起對這些實現進行了測試，確保對應實現的正確性和效果。

以 Kilo Code 平臺為例，其已經支持最新版本的 MiniMax M2，并默認啟用了 Interleaved Thinking 與原生工具調用的功能。用戶對此高度評價，「MiniMax M2 + 工具能力 + 免費開放 = 絕對的贏家組合」。

圖源：https://x.com/kilocode/status/1990419655991652649?s=20

此外，為了讓開發者更快掌握 Interleaved Thinking 與 Agent 的最佳實踐，MiniMax開源了支持該技術的 Coding CLI——Mini-Agent。通過可直接運行的工程示例，用戶可以直觀地看到 MiniMax M2 通過 Interleaved Thinking 構建 Agent 的效果。下圖展示了 Agent 使用其網頁搜索工具在線獲取最新信息，并為用戶進行總結。

目前，該項目已獲得了 700 + 的 Star，在社區中的關注度持續提高。

GitHub 地址：https://github.com/MiniMax-AI/Mini-Agent

社區和生態建設層面的一系列舉措意味著，MiniMax 正為行業構建一套更標準化、工程化的 Agent 執行范式。這些舉措也將加速讓 Interleaved Thinking 從模型內部的技術特性演變為開發者可直接調用與集成的能力。

隨著包括 MiniMax M2 在內的大模型展現出了高效穩定的 Agentic 能力，未來可能有更多廠商采用類似技術，并將推動更多 API 平臺和編程工具完善相應的支持與適配。

Agent 邁向真正生產級階段的轉折點，或許已經從 Interleaved Thinking 開始了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.