<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從MiniMax到DeepSeek:為何頭部大模型都在押注「交錯思維」?

      0
      分享至



      機器之心報道

      編輯:杜偉、+0

      昨日,有位推特博主曬出了國內幾大開源模型在輕量級軟件工程 Agent 基準測試 mini-SWE-agent 上的成績。該基準主要測試大模型在真實軟件開發任務中的多步推理、環境交互和工程化能力。

      結果顯示,MiniMax 新一代大模型 M2 的表現最佳,一舉超越了 DeepSeek、GLM、Qwen、Kimi 等其他一眾競品廠商。



      更多測試細節請查看:https://x.com/KLieret/status/1995949673551724717

      作為一個發布之初以 Agent 和代碼能力見長的大模型,MiniMax M2 在 mini-SWE-agent 測試中的亮眼表現并不令人意外。它不僅可以出色規劃、穩定執行復雜長鏈條工具調用任務,還能協同調用 Shell、Browser、Python 代碼執行器和其他各種 MCP 工具。

      支撐這些能力的關鍵技術正是 MiniMax M2 所采用的「Interleaved Thinking」(交錯思維), 通俗地講即是一邊思考、一邊調用工具。這一技術的加持,使得該模型能夠在「思考 - 行動 - 反思」的閉環中持續積累上下文理解,并根據反饋實時調整策略。

      這種更接近真實工程師的工作方式,顯著提升了 MiniMax M2 的 Agent 執行能力,在復雜任務中規劃性更強、執行穩健性更高、自我糾錯能力更可靠,從而組成了其最具辨識度的核心優勢。

      發布僅僅一個多月,MiniMax M2 在實際 Agent 使用場景中獲得了開發者的廣泛認可。此前,推特博主 @elvis 表示,「MiniMax-M2 比我想象的要重要得多!我用 M2 構建了一個深度研究 Agent,交錯思維確實不一般,它能在工具調用之間保留完整的內容塊(思考 + 文本 + 工具調用),實現持續推理。這對自我改進的 Agent 非常有幫助。」



      圖源:https://x.com/omarsar0/status/1993325632961593417

      就在以 Agentic AI 為核心主題的 AWS re:Invent 2025 大會上,AWS CEO Matt Garman 宣布旗下模型庫 Amazon Bedrock 迎來多個「新成員」,其中就包括了國產開源模型代表 MiniMax M2。



      不禁好奇,Interleaved Thinking 在背后是如何驅動大模型變得「更能干活」的?帶著這些疑問,我們對這項技術進行了一番深入探究。

      崛起的「Interleaved Thinking」,正成為 Agent 模型標配

      傳統的 Chain-of-Thought(CoT)往往是「線性」的:模型先進行一次完整的思考規劃,然后批量調用工具,最后根據結果生成答案。這種模式在簡單的問答中有效,但在面對現實復雜任務時往往會「顧頭不顧尾」,尤其是在多輪次推理、跨步驟決策和實時動態調整方面顯得力不從心。

      隨著 Agent 任務的復雜程度越來越高,這類模式的局限更加明顯,因此催生出了全新推理范式的需求。這也正是 Interleaved Thinking 得以迅速崛起的原因所在。

      Interleaved Thinking 這一路徑的核心思想可以追溯到 2022 年由普林斯頓大學與谷歌提出的 ReAct 框架,該框架系統性地提出將推理與行動(工具調用)交錯進行。此后,Anthropic 提出的 Extended Thinking 在強調長時與長鏈路推理的同時進一步完善了與工具調用等 Agent 場景的協同。

      基于這些工作,MiniMax M2 采用的 Interleaved Thinking 通過將推理貫穿于工具調用的每個步驟,在 Agent 執行過程中形成了高效穩定的「同步思考、實時調整、持續修正」循環

      具體來講,Interleaved thinking 是在顯性推理和工具使用之間交替進行,同時在各步驟之間將推理推進。它本質上是一個「思考 → 行動 → 觀察 → 再思考」的動態循環。這一過程顯著提升了規劃、自我糾正和長期工作流程的可靠性。

      早期的 ReAct 很大程度上是借助 Prompt 工程在外部框架里「硬湊」出的邏輯閉環,鏈路常因格式或解析問題而中斷;而如今的 Interleaved Thinking(如 MiniMax M2、DeepSeek V3.2)則把這類思考 - 行動模式更深度地融入了模型及其推理流程,讓它更接近一種「原生的思維直覺」,因而更加穩健。



      圖源:https://t.co/u5DOdvTMtx

      為什么它如此重要?

      在長鏈路任務中,Agent 面臨一個「致命殺手」:狀態漂移。在復雜的 Agent 任務(如編寫一個完整的游戲模組或進行深度行業調研)中,交互往往長達數十輪。如果模型在每一輪交互中丟棄了上一輪的推理過程,只保留工具的輸出結果,模型就會陷入「失憶」狀態。

      它會忘記「我為什么要運行這行代碼」或者「剛才那個報錯排查到哪一步了」。這種上下文的斷裂會導致模型重復執行無效操作,或者在多輪交互后偏離最初的目標。

      而 Interleaved Thinking 從根源了解決了「狀態漂移」問題,使得計劃、意圖和中間結論可以跨輪次延續。



      圖源:https://t.co/u5DOdvTMtx

      看到這里,可能有讀者會問:這不就是讓模型「記性好」一點嗎?它和現在熱門的 Memory、Long Context 和 RAG 有什么區別?

      其實,它們解決的是不同維度的「遺忘」問題。

      普通的大模型記憶像電腦的硬盤。它側重于「存事實」,記住的是用戶的偏好、過往的知識庫或幾天前的對話摘要。 確保模型下次見到你,還記得你是誰,之前的項目背景是什么。

      Interleaved Thinking 則像電腦的 RAM (內存)。它側重于「存邏輯」,記住的是「我剛才為什么決定這么做」、「我對當前步驟的懷疑」、「我下一步的臨時假設」,它用來維持正在運行的思維鏈狀態。

      當然,在實際工程中,這兩者并非二元對立,而是互為表里。 我們往往需要 Long Context 作為巨大的容器,來承載 Interleaved Thinking 產生的大量推理過程。但如果不具備 Interleaved 的「思維動態維持」能力,單純拉長 Context 只不過是給模型塞了一堆僵死的文字,模型依然會在海量信息中迷失方向。

      簡而言之,大模型記憶決定了 Agent 能「懂」多少過去,而 Interleaved Thinking 決定了 Agent 能「走」多遠未來。

      目前,Interleaved Thinking 這一技術正加速成為「行業共識」。除了 MiniMax 之外,很多其他頭部大模型廠商也開始采納:

      • Kimi K2 thinking原生支持 Thinking-in-Tools 能力,掌握了「邊思考、邊操作」的動態推理節奏;
      • Gemini 3 Pro確立了「內部 Thinking 模式 + 思路簽名(Thought Signature)」的標準,支持多輪 Context 回傳與 Tool-use/Agent 的深度協同,確保持續推理不掉線;
      • DeepSeek V3.2推出了首個將思考深度融入工具使用的 Thinking in Tool-Use 機制,在工具調用期間保留推理上下文,實現了思考與執行的無縫銜接。

      可以說,Interleaved Thinking 已不再是單一廠商的特色,而逐步成為高性能 Agent 模型的「標配」

      作為最早官方支持該技術的開源模型,MiniMax M2 在提升 Interleaved Thinking 的性能與效率上已經形成了自己獨到的一套打法。

      既強又省,MiniMax M2 用交錯思維定義 Agent 新范式

      Interleaved Thinking 的核心價值在于高強度的「工作記憶」維持能力。正是這種在每一步工具交互中保留并傳遞推理內容的機制,確保了 MiniMax M2 在執行長鏈路任務時,能夠實現高效的自我修正、動態規劃與樣本復用,有效避免了邏輯中斷。

      根據 MiniMax M2 的實測數據,保持前輪思維狀態帶來了顯著的性能提升:在充滿不確定性、極度依賴「觀察 - 調整」循環的 BrowseComp(網頁瀏覽任務)中,保持前輪思維狀態讓性能從 31.4 躍升至 44.0,漲幅高達 40.1%;在 Tau2 復雜工具調用測試中,性能提升了 35.9%;即使是在本就極高難度的 SWE-Bench Verified 軟件工程基準上,也依然取得了 3.3% 的顯著增長。



      不僅強,而且極其「省」

      為了驗證這一機制在真實開發流中的威力,AI Agent 系統經理 Muratcan Koylan 構建了一個具體的演示:為設計系統團隊自動生成一份簡報。這項任務需要模型整理關鍵 Design Tokens(如顏色、排版、間距)、定義按鈕組件的實現規范,以及輸出可復用的開發模式。



      圖源:https://x.com/koylanai/status/1990692277723734153

      在這個演示中,傳統模型試圖「一口吃成胖子」,一次性調用所有工具,容易導致結果偏差。而 M2 展現了清晰的節奏:先獲取顏色 → 反思 → 再請求排版 → 再請求間距。這種「思考 → 行動 → 消化結果」的循環,讓每一步決策都通過 reasoning_details 清晰可見,不再是黑盒。



      對于開發者而言,技術先進性最終要通過成本和效率來落地。Muratcan 的測試數據還展示了 M2 驚人的經濟性:在這個包含 8 步推理、7 次工具調用 的完整流程中,MiniMax M2 的總成本僅為 $0.001669。相比同級別的 Claude Sonnet(約 $0.020),M2 便宜了近 12 倍

      這意味著,在相同的預算下,開發者可以使用 M2 進行 12 倍的迭代實驗。Muratcan 指出,這種「高可見性 + 低成本」的組合,讓快速迭代真正變得可行,這對于構建復雜的工具編排和開發工作流來說,是游戲規則的改變者。

      如何榨干 M2 的全部性能?

      盡管 MiniMax M2 能力強大,但在發布初期,官方社區反饋發現了一個普遍現象:很多開發者并沒有正確「打開」 Interleaved Thinking。

      常見誤區包括:調用 API 時丟棄上一輪推理內容、或在使用 Anthropic 格式時過濾掉了 thinking blocks。一旦上下文斷裂,模型只能從零推理,性能直接腰斬。

      為了確保開發者能榨干 M2 的全部性能,MiniMax 提供了兩種主流 API 格式的最佳實踐:

      • MiniMax 官方 API: 采用內容與推理分離的設計,推理過程通過獨立的 reasoning_details 字段返回,清晰且易于解析。
      • Anthropic 兼容 API: 完美適配 Claude 生態,天然支持多類型內容塊,只需保留并回傳 thinking blocks 即可。

      這些實踐表明了,MiniMax M2 正在為困擾業界已久的 Agent 落地難題,打開了一種全新的解決思路。

      在被稱為 Agent 落地元年的 2025 年,直到現在仍有很多 AI 界人士持有悲觀態度,比如 Andrej Karpathy,他在上上個月的一次訪談節目中表示,當前市面上的 AI Agent「令人失望」,并預計大約還需要 10 年時間,它們才可能發展到真正可用、可靠的狀態。

      這里首要解決的一大挑戰便是:模型思考過程與工具執行之間真正實現絲滑、高效的協作。如今隨著 Interleaved Thinking 的機制不斷完善,其能力逐步得到充分釋放,這一問題也隨之有了可行性更高的技術解決方案。

      當然,Interleaved Thinking 想要贏得更多廠商和開發者的青睞,少不了其他各環節的系統性支持。MiniMax M2 發布時,社區對該技術的支持非常有限。為了改變這一現狀,MiniMax 采取多種途徑推動該技術成為可復用的行業標準。

      過去幾周,MiniMax 與 Kilo Code、RooCode、Cline、OpenRouter、Ollama 等眾多合作伙伴合作,提供了多個關鍵 PR,實現了這些編程工具、API 平臺對 Interleaved Thinking + 原生工具調用的廣泛、良好支持。同時,基于內部的 Benchmark,MiniMax 與合作伙伴一起對這些實現進行了測試,確保對應實現的正確性和效果。

      以 Kilo Code 平臺為例,其已經支持最新版本的 MiniMax M2,并默認啟用了 Interleaved Thinking 與原生工具調用的功能。用戶對此高度評價,「MiniMax M2 + 工具能力 + 免費開放 = 絕對的贏家組合」。





      圖源:https://x.com/kilocode/status/1990419655991652649?s=20

      此外,為了讓開發者更快掌握 Interleaved Thinking 與 Agent 的最佳實踐,MiniMax開源了支持該技術的 Coding CLI——Mini-Agent。通過可直接運行的工程示例,用戶可以直觀地看到 MiniMax M2 通過 Interleaved Thinking 構建 Agent 的效果。下圖展示了 Agent 使用其網頁搜索工具在線獲取最新信息,并為用戶進行總結。



      目前,該項目已獲得了 700 + 的 Star,在社區中的關注度持續提高。



      GitHub 地址:https://github.com/MiniMax-AI/Mini-Agent

      社區和生態建設層面的一系列舉措意味著,MiniMax 正為行業構建一套更標準化、工程化的 Agent 執行范式。這些舉措也將加速讓 Interleaved Thinking 從模型內部的技術特性演變為開發者可直接調用與集成的能力。

      隨著包括 MiniMax M2 在內的大模型展現出了高效穩定的 Agentic 能力,未來可能有更多廠商采用類似技術,并將推動更多 API 平臺和編程工具完善相應的支持與適配。

      Agent 邁向真正生產級階段的轉折點,或許已經從 Interleaved Thinking 開始了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      湖北一副局長被查

      湖北一副局長被查

      越喬
      2025-12-08 07:10:30
      工信部出手,電動車“反人類”設計終于要改了?這才是民生溫度!

      工信部出手,電動車“反人類”設計終于要改了?這才是民生溫度!

      今朝牛馬
      2025-12-07 21:04:10
      10個讓身體越來越好的方法,不是跑步!99%的人不知道

      10個讓身體越來越好的方法,不是跑步!99%的人不知道

      神奇故事
      2025-12-06 21:52:15
      成都人:趕緊出門曬太陽!下周降溫或達寒潮級別

      成都人:趕緊出門曬太陽!下周降溫或達寒潮級別

      愛看頭條
      2025-12-07 12:20:25
      “姜子牙”飾演者,95歲的藍天野:白天當演員,晚上當間諜,隱姓埋名75年,他的人生,比電影還精彩

      “姜子牙”飾演者,95歲的藍天野:白天當演員,晚上當間諜,隱姓埋名75年,他的人生,比電影還精彩

      LULU生活家
      2025-12-05 19:05:28
      空中交鋒了156分鐘,解放軍碾壓日軍機,日防長深夜表態倒打一耙

      空中交鋒了156分鐘,解放軍碾壓日軍機,日防長深夜表態倒打一耙

      墨蘭史書
      2025-12-08 04:05:03
      12萬噸廣東艦核航母亮相,美日分析后確認:無法脅迫中國

      12萬噸廣東艦核航母亮相,美日分析后確認:無法脅迫中國

      我想把最好的一面展現給你
      2025-12-06 08:52:10
      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      都市快報橙柿互動
      2025-12-07 17:43:27
      任澤平:幫你實現財富增長的資產,只有這兩類

      任澤平:幫你實現財富增長的資產,只有這兩類

      澤平宏觀展望
      2025-12-08 00:08:27
      邵佳一首秀時間敲定,新國足大換血,00后挑大梁,武磊或將淡出

      邵佳一首秀時間敲定,新國足大換血,00后挑大梁,武磊或將淡出

      綠茵舞著
      2025-12-07 23:40:04
      8歲暗戀老師,12歲早戀,承諾長大后結婚,兩人現狀如何?

      8歲暗戀老師,12歲早戀,承諾長大后結婚,兩人現狀如何?

      君笙的拂兮
      2025-12-07 07:57:49
      曝開拓者計劃送走羅威!交易意愿高于上季 楊瀚森有望獲更多時間

      曝開拓者計劃送走羅威!交易意愿高于上季 楊瀚森有望獲更多時間

      羅說NBA
      2025-12-08 07:08:45
      姚洋呼吁中央政府發力:拿出真金白銀拍在桌上,穩住房地產、撐住地方財政

      姚洋呼吁中央政府發力:拿出真金白銀拍在桌上,穩住房地產、撐住地方財政

      新浪財經
      2025-12-07 17:21:30
      衛冕!中國隊奪得乒乓球混團世界杯冠軍

      衛冕!中國隊奪得乒乓球混團世界杯冠軍

      澎湃新聞
      2025-12-07 21:20:31
      一覺醒來,不僅賣電車的傻眼了,就連生產廠家也驚呆了!

      一覺醒來,不僅賣電車的傻眼了,就連生產廠家也驚呆了!

      今朝牛馬
      2025-12-06 12:21:16
      與俱樂部隊友格格不入,朱婷被國外網友集體吐槽

      與俱樂部隊友格格不入,朱婷被國外網友集體吐槽

      體育快遞小哥哥
      2025-12-07 19:39:51
      許家印深圳打工時的老板,如今許家印被抓了,他依然是億萬富豪

      許家印深圳打工時的老板,如今許家印被抓了,他依然是億萬富豪

      霹靂炮
      2025-12-07 23:14:53
      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      九哥聊軍事
      2025-12-07 10:00:20
      賈斯汀·比伯吐槽iPhone按鈕設計不合理:氣得想對蘋果全體員工來‘裸絞鎖喉’

      賈斯汀·比伯吐槽iPhone按鈕設計不合理:氣得想對蘋果全體員工來‘裸絞鎖喉’

      安兔兔
      2025-12-06 22:04:06
      馬斯克公開呼吁:廢除歐盟

      馬斯克公開呼吁:廢除歐盟

      新京報政事兒
      2025-12-07 11:41:28
      2025-12-08 08:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      美國安全戰略發生重大轉變 國安報告第19頁才提及中國

      頭條要聞

      美國安全戰略發生重大轉變 國安報告第19頁才提及中國

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場的秘密:每天開采數十車礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      家居
      數碼
      游戲
      本地
      公開課

      家居要聞

      白味湯館 當代宴飲儀式

      數碼要聞

      技嘉首家確認!Z890主板支持Intel下代酷睿Ultra 200S Plus

      KeSPA杯:DK和HLE戰勝對手,T1首戰輕取日本隊

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美精品综合在线观看| 91在线一区| 欧美日韩v| 亚洲欧美日韩久久一区二区| 亚洲精品99| 高清无码18| 亚洲在线不卡| 夜夜添无码试看一区二区三区| 国产va| 少妇下面好紧好多水真爽播放| 黑人无码在线| 18禁黄无遮挡网站免费| 大桥未久亚洲无av码在线| 精精国产xxxx视频在线 | 女生洗鸡鸡喷尿的视频无马赛克?舒坦直叫的骚货视频?亚洲着九九九视频影院 | 吉安市| 国产欧美日韩免费看AⅤ视频| 粗大的内捧猛烈进出小视频| 97人伦色伦成人免费视频| 日本边添边摸边做边爱的网站| 蜜臀午夜一区二区在线播放| 丝袜人妻一区二区三区网站| 日本欧美一区二区三区乱码| 色情无码一区二区三区| 中文字幕av一区二区三区人妻少妇| 天天躁日日躁欧美老妇app| 西贡区| 亚洲经典在线中文字幕| 免费观看又色又爽又黄的崩锅| 吴桥县| 国产精品中文久久久久久久 | 新巴尔虎左旗| 黑人巨大精品| 一本加勒比HEZYO熟女| 老熟妇性老熟妇性色| 亚洲男女内射在线播放| 精品国模| 久久久性色精品国产免费观看| 亚洲 欧美 清纯 校园 另类| 操碰网| 一个人看的www视频免费观看|