![]()
機器之心報道
編輯:杜偉、+0
昨日,有位推特博主曬出了國內幾大開源模型在輕量級軟件工程 Agent 基準測試 mini-SWE-agent 上的成績。該基準主要測試大模型在真實軟件開發任務中的多步推理、環境交互和工程化能力。
結果顯示,MiniMax 新一代大模型 M2 的表現最佳,一舉超越了 DeepSeek、GLM、Qwen、Kimi 等其他一眾競品廠商。
![]()
更多測試細節請查看:https://x.com/KLieret/status/1995949673551724717
作為一個發布之初以 Agent 和代碼能力見長的大模型,MiniMax M2 在 mini-SWE-agent 測試中的亮眼表現并不令人意外。它不僅可以出色規劃、穩定執行復雜長鏈條工具調用任務,還能協同調用 Shell、Browser、Python 代碼執行器和其他各種 MCP 工具。
支撐這些能力的關鍵技術正是 MiniMax M2 所采用的「Interleaved Thinking」(交錯思維), 通俗地講即是一邊思考、一邊調用工具。這一技術的加持,使得該模型能夠在「思考 - 行動 - 反思」的閉環中持續積累上下文理解,并根據反饋實時調整策略。
這種更接近真實工程師的工作方式,顯著提升了 MiniMax M2 的 Agent 執行能力,在復雜任務中規劃性更強、執行穩健性更高、自我糾錯能力更可靠,從而組成了其最具辨識度的核心優勢。
發布僅僅一個多月,MiniMax M2 在實際 Agent 使用場景中獲得了開發者的廣泛認可。此前,推特博主 @elvis 表示,「MiniMax-M2 比我想象的要重要得多!我用 M2 構建了一個深度研究 Agent,交錯思維確實不一般,它能在工具調用之間保留完整的內容塊(思考 + 文本 + 工具調用),實現持續推理。這對自我改進的 Agent 非常有幫助。」

圖源:https://x.com/omarsar0/status/1993325632961593417
就在以 Agentic AI 為核心主題的 AWS re:Invent 2025 大會上,AWS CEO Matt Garman 宣布旗下模型庫 Amazon Bedrock 迎來多個「新成員」,其中就包括了國產開源模型代表 MiniMax M2。
![]()
不禁好奇,Interleaved Thinking 在背后是如何驅動大模型變得「更能干活」的?帶著這些疑問,我們對這項技術進行了一番深入探究。
崛起的「Interleaved Thinking」,正成為 Agent 模型標配
傳統的 Chain-of-Thought(CoT)往往是「線性」的:模型先進行一次完整的思考規劃,然后批量調用工具,最后根據結果生成答案。這種模式在簡單的問答中有效,但在面對現實復雜任務時往往會「顧頭不顧尾」,尤其是在多輪次推理、跨步驟決策和實時動態調整方面顯得力不從心。
隨著 Agent 任務的復雜程度越來越高,這類模式的局限更加明顯,因此催生出了全新推理范式的需求。這也正是 Interleaved Thinking 得以迅速崛起的原因所在。
Interleaved Thinking 這一路徑的核心思想可以追溯到 2022 年由普林斯頓大學與谷歌提出的 ReAct 框架,該框架系統性地提出將推理與行動(工具調用)交錯進行。此后,Anthropic 提出的 Extended Thinking 在強調長時與長鏈路推理的同時進一步完善了與工具調用等 Agent 場景的協同。
基于這些工作,MiniMax M2 采用的 Interleaved Thinking 通過將推理貫穿于工具調用的每個步驟,在 Agent 執行過程中形成了高效穩定的「同步思考、實時調整、持續修正」循環
具體來講,Interleaved thinking 是在顯性推理和工具使用之間交替進行,同時在各步驟之間將推理推進。它本質上是一個「思考 → 行動 → 觀察 → 再思考」的動態循環。這一過程顯著提升了規劃、自我糾正和長期工作流程的可靠性。
早期的 ReAct 很大程度上是借助 Prompt 工程在外部框架里「硬湊」出的邏輯閉環,鏈路常因格式或解析問題而中斷;而如今的 Interleaved Thinking(如 MiniMax M2、DeepSeek V3.2)則把這類思考 - 行動模式更深度地融入了模型及其推理流程,讓它更接近一種「原生的思維直覺」,因而更加穩健。
![]()
圖源:https://t.co/u5DOdvTMtx
為什么它如此重要?
在長鏈路任務中,Agent 面臨一個「致命殺手」:狀態漂移。在復雜的 Agent 任務(如編寫一個完整的游戲模組或進行深度行業調研)中,交互往往長達數十輪。如果模型在每一輪交互中丟棄了上一輪的推理過程,只保留工具的輸出結果,模型就會陷入「失憶」狀態。
它會忘記「我為什么要運行這行代碼」或者「剛才那個報錯排查到哪一步了」。這種上下文的斷裂會導致模型重復執行無效操作,或者在多輪交互后偏離最初的目標。
而 Interleaved Thinking 從根源了解決了「狀態漂移」問題,使得計劃、意圖和中間結論可以跨輪次延續。
![]()
圖源:https://t.co/u5DOdvTMtx
看到這里,可能有讀者會問:這不就是讓模型「記性好」一點嗎?它和現在熱門的 Memory、Long Context 和 RAG 有什么區別?
其實,它們解決的是不同維度的「遺忘」問題。
普通的大模型記憶像電腦的硬盤。它側重于「存事實」,記住的是用戶的偏好、過往的知識庫或幾天前的對話摘要。 確保模型下次見到你,還記得你是誰,之前的項目背景是什么。
Interleaved Thinking 則像電腦的 RAM (內存)。它側重于「存邏輯」,記住的是「我剛才為什么決定這么做」、「我對當前步驟的懷疑」、「我下一步的臨時假設」,它用來維持正在運行的思維鏈狀態。
當然,在實際工程中,這兩者并非二元對立,而是互為表里。 我們往往需要 Long Context 作為巨大的容器,來承載 Interleaved Thinking 產生的大量推理過程。但如果不具備 Interleaved 的「思維動態維持」能力,單純拉長 Context 只不過是給模型塞了一堆僵死的文字,模型依然會在海量信息中迷失方向。
簡而言之,大模型記憶決定了 Agent 能「懂」多少過去,而 Interleaved Thinking 決定了 Agent 能「走」多遠未來。
目前,Interleaved Thinking 這一技術正加速成為「行業共識」。除了 MiniMax 之外,很多其他頭部大模型廠商也開始采納:
- Kimi K2 thinking原生支持 Thinking-in-Tools 能力,掌握了「邊思考、邊操作」的動態推理節奏;
- Gemini 3 Pro確立了「內部 Thinking 模式 + 思路簽名(Thought Signature)」的標準,支持多輪 Context 回傳與 Tool-use/Agent 的深度協同,確保持續推理不掉線;
- DeepSeek V3.2推出了首個將思考深度融入工具使用的 Thinking in Tool-Use 機制,在工具調用期間保留推理上下文,實現了思考與執行的無縫銜接。
可以說,Interleaved Thinking 已不再是單一廠商的特色,而逐步成為高性能 Agent 模型的「標配」
作為最早官方支持該技術的開源模型,MiniMax M2 在提升 Interleaved Thinking 的性能與效率上已經形成了自己獨到的一套打法。
既強又省,MiniMax M2 用交錯思維定義 Agent 新范式
Interleaved Thinking 的核心價值在于高強度的「工作記憶」維持能力。正是這種在每一步工具交互中保留并傳遞推理內容的機制,確保了 MiniMax M2 在執行長鏈路任務時,能夠實現高效的自我修正、動態規劃與樣本復用,有效避免了邏輯中斷。
根據 MiniMax M2 的實測數據,保持前輪思維狀態帶來了顯著的性能提升:在充滿不確定性、極度依賴「觀察 - 調整」循環的 BrowseComp(網頁瀏覽任務)中,保持前輪思維狀態讓性能從 31.4 躍升至 44.0,漲幅高達 40.1%;在 Tau2 復雜工具調用測試中,性能提升了 35.9%;即使是在本就極高難度的 SWE-Bench Verified 軟件工程基準上,也依然取得了 3.3% 的顯著增長。
![]()
不僅強,而且極其「省」
為了驗證這一機制在真實開發流中的威力,AI Agent 系統經理 Muratcan Koylan 構建了一個具體的演示:為設計系統團隊自動生成一份簡報。這項任務需要模型整理關鍵 Design Tokens(如顏色、排版、間距)、定義按鈕組件的實現規范,以及輸出可復用的開發模式。
![]()
圖源:https://x.com/koylanai/status/1990692277723734153
在這個演示中,傳統模型試圖「一口吃成胖子」,一次性調用所有工具,容易導致結果偏差。而 M2 展現了清晰的節奏:先獲取顏色 → 反思 → 再請求排版 → 再請求間距。這種「思考 → 行動 → 消化結果」的循環,讓每一步決策都通過 reasoning_details 清晰可見,不再是黑盒。
![]()
對于開發者而言,技術先進性最終要通過成本和效率來落地。Muratcan 的測試數據還展示了 M2 驚人的經濟性:在這個包含 8 步推理、7 次工具調用 的完整流程中,MiniMax M2 的總成本僅為 $0.001669。相比同級別的 Claude Sonnet(約 $0.020),M2 便宜了近 12 倍
這意味著,在相同的預算下,開發者可以使用 M2 進行 12 倍的迭代實驗。Muratcan 指出,這種「高可見性 + 低成本」的組合,讓快速迭代真正變得可行,這對于構建復雜的工具編排和開發工作流來說,是游戲規則的改變者。
如何榨干 M2 的全部性能?
盡管 MiniMax M2 能力強大,但在發布初期,官方社區反饋發現了一個普遍現象:很多開發者并沒有正確「打開」 Interleaved Thinking。
常見誤區包括:調用 API 時丟棄上一輪推理內容、或在使用 Anthropic 格式時過濾掉了 thinking blocks。一旦上下文斷裂,模型只能從零推理,性能直接腰斬。
為了確保開發者能榨干 M2 的全部性能,MiniMax 提供了兩種主流 API 格式的最佳實踐:
- MiniMax 官方 API: 采用內容與推理分離的設計,推理過程通過獨立的 reasoning_details 字段返回,清晰且易于解析。
- Anthropic 兼容 API: 完美適配 Claude 生態,天然支持多類型內容塊,只需保留并回傳 thinking blocks 即可。
這些實踐表明了,MiniMax M2 正在為困擾業界已久的 Agent 落地難題,打開了一種全新的解決思路。
在被稱為 Agent 落地元年的 2025 年,直到現在仍有很多 AI 界人士持有悲觀態度,比如 Andrej Karpathy,他在上上個月的一次訪談節目中表示,當前市面上的 AI Agent「令人失望」,并預計大約還需要 10 年時間,它們才可能發展到真正可用、可靠的狀態。
這里首要解決的一大挑戰便是:模型思考過程與工具執行之間真正實現絲滑、高效的協作。如今隨著 Interleaved Thinking 的機制不斷完善,其能力逐步得到充分釋放,這一問題也隨之有了可行性更高的技術解決方案。
當然,Interleaved Thinking 想要贏得更多廠商和開發者的青睞,少不了其他各環節的系統性支持。MiniMax M2 發布時,社區對該技術的支持非常有限。為了改變這一現狀,MiniMax 采取多種途徑推動該技術成為可復用的行業標準。
過去幾周,MiniMax 與 Kilo Code、RooCode、Cline、OpenRouter、Ollama 等眾多合作伙伴合作,提供了多個關鍵 PR,實現了這些編程工具、API 平臺對 Interleaved Thinking + 原生工具調用的廣泛、良好支持。同時,基于內部的 Benchmark,MiniMax 與合作伙伴一起對這些實現進行了測試,確保對應實現的正確性和效果。
以 Kilo Code 平臺為例,其已經支持最新版本的 MiniMax M2,并默認啟用了 Interleaved Thinking 與原生工具調用的功能。用戶對此高度評價,「MiniMax M2 + 工具能力 + 免費開放 = 絕對的贏家組合」。
![]()
![]()
圖源:https://x.com/kilocode/status/1990419655991652649?s=20
此外,為了讓開發者更快掌握 Interleaved Thinking 與 Agent 的最佳實踐,MiniMax開源了支持該技術的 Coding CLI——Mini-Agent。通過可直接運行的工程示例,用戶可以直觀地看到 MiniMax M2 通過 Interleaved Thinking 構建 Agent 的效果。下圖展示了 Agent 使用其網頁搜索工具在線獲取最新信息,并為用戶進行總結。

目前,該項目已獲得了 700 + 的 Star,在社區中的關注度持續提高。
![]()
GitHub 地址:https://github.com/MiniMax-AI/Mini-Agent
社區和生態建設層面的一系列舉措意味著,MiniMax 正為行業構建一套更標準化、工程化的 Agent 執行范式。這些舉措也將加速讓 Interleaved Thinking 從模型內部的技術特性演變為開發者可直接調用與集成的能力。
隨著包括 MiniMax M2 在內的大模型展現出了高效穩定的 Agentic 能力,未來可能有更多廠商采用類似技術,并將推動更多 API 平臺和編程工具完善相應的支持與適配。
Agent 邁向真正生產級階段的轉折點,或許已經從 Interleaved Thinking 開始了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.