網易首頁 > 網易號 > 正文申請入駐

大模型如何「在思考中使用工具」｜Interleaved Thinking

2025-12-04 16:55:31　來源: 賽博禪心

北京舉報

分享至

DeepSeek V3.2 提到了一個東西，屬于核心迭代
「在思考中，使用工具」
技術報告里，把這個叫Thinking in Tool Use

在這里與大家說道，這東西的由來、演進和現狀，方便吹牛逼用

這里還有份報告解讀：

所謂「Thinking in Tool-Use」
顧名思義，就是大模型一邊調用工具，一邊推理，多次循環后，最后輸出答案

行業里，常把這個叫做 Interleaved Thinking，本文沿用這個說法

類似的東西，最早是 Anthropic 提出的
今年初發布的，叫 Extended Thinking。額外說明：o1 不算，那個沒工具調用

相關內容，發表于 25年2月24日：《Claude’s extended thinking》

在開源模型里，最早是 OpenAI 開源的 oss 最先支持的
說法是 interleaving tool calls within the CoT

相關內容，發表于 25年8月5日：gpt-oss Model Card

之后，國內的幾家模型廠，也給到了類似說法：

? MiniMax M2 叫它「交錯思維鏈」
? Kimi K2 叫它「邊思考邊使用工具」
? DeepSeek v3.2 叫它「思考模式下的工具調用」

各家說法不同，本質是一件事
大模型，如何在保留推理狀態的同時，進行多次工具調用

有關交錯思維鏈，MiniMax 前段時間還寫了篇文章，強調這東西的重要性，具體后面細說

技術原理

先說下推理模型是怎么使用工具的

舉個例子，你問模型一個問題：
一臺最新蘋果手機，和兩臺最新的豆包手機，誰更貴？

以最開始的 o1 模型為例，o1 這個模型并不能進行工具調用，只能回答
對不起，我無法訪問網絡，并不知道誰更貴

再之后，一些朋友對 o1 類的模型進行了工程優化（比如具有聯網能力的 DeepSeek R1），讓他能夠在回答前，先搜索一些問題，然后多次調用模型，流程就變成了這樣：
先搜最新的蘋果手機 → 讀結果 → 決定下一步搜什么 → 再搜索 → 再讀結果 → ... → 整理答案

標準的工具調用流程

但實際上...在處理先搜最新的蘋果手機這一步中，就會發現蘋果有多款機型
如果只拿最新的 iPhone 17 比較，肯定不妥，畢竟還有 air 和 pro

作為人的話，可能會中間留個心眼：最新的蘋果手機，需要考慮系列嗎？
那么，如果是大模型，會記住這些東西嗎？

早期做法：丟掉
具體來說：忘掉所有的中間思考，只保留結果和部分總結
這部分的具體描述，可以參加 OpenAI 的 o1 文檔：思維鏈是隱藏的

早期做法：每輪丟棄推理狀態

所以，在進行最終判斷的時候，大模型的上文可能只有：

? iPhone 17 的標準定價為 5999
? 豆包手機（努比亞）的標準定價為 3499

然后得出結論：

iPhone 17，不如兩臺豆包手機貴

但....

作為人的話，我們會保留個心眼，思考過程也記著：

? iPhone 17 的標準定價為 5999（同期發售的還有 iPhone Air：7999；Pro：8999）
? 豆包手機（努比亞代工）的標準定價為 3499（目前無貨，閑魚 4499）

然后出結論：

iPhone 17，不如兩臺豆包手機貴 Air 和 Pro 則貴于兩臺豆包

這種「留心眼」的做法，就是 Interleaved Thinking
模型調用工具 → 拿到結果 → 繼續思考（帶著之前的推理）→ 再調用工具 → 繼續思考...

在這里，計劃、假設、中間結論都會被帶到下一輪

Interleaved Thinking：保留推理狀態

當然，這里為了方便表達，我對原理進行了極大的刪減
實際的做法和流程都會更為復雜
比如...這些推理內容，在何時才會舍棄？

以DeepSeek v3.2為例，論文里是這么描述的：
只有新用戶消息到來時，才丟棄推理內容，工具返回結果不觸發丟棄

...這樣的細節還有許多，還是挺有工程實踐&復雜度的

效果差距

對于「保留推理狀態 vs 丟棄推理狀態」，會有多少差距呢？
對于長鏈路 Agent 任務，最高能有 +35% 到 +40%
數據來自于 MiniMax 的對比測試數據

對比數據

? SWE-Bench Verified：69.4 vs. 67.2， +3.3%
? 2：87 vs. 64， +35.9%
? BrowseComp：44.0 vs. 31.4， +40.1%
? GAIA：75.7 vs. 67.9， +11.5%
? xBench：72.0 vs. 66.0， +9.1%

至于為什么差距這么大？

可以這么理解：
一旦丟棄了之前的推理狀態，模型的累積理解能力會下降，自我修正能力會減弱

這東西，在長程工具調用和「運行–修復」循環中尤其明顯

世界是個草臺班子

這里有個現實問題：
很多項目使用了 thinking 模型，但工具的連續調用總是出問題
而且...可能...甚至還沒發現

這個其實是 OpenAI 的鍋

OpenAI 有多套 API 調用方法：

? Completions （不再建議使用）
? Chat Completions
? Assistants API （壓根沒人用）
? Responses API

目前用的最廣泛的的，是 Chat Completions api
但... 這玩意兒壓根沒有 thinking 相關的字段
于是大家只能在 assistant message 里假裝 thinking

Chat Completions API 的 assistant message 結構，沒有 thinking 相關字段

新的 Responses API 確實支持 reasoning 配置
但它返回的是 reasoning.encrypted_content——加密版本的推理內容
推理過程？更不存在的

Responses API 的 reasoning 配置，注意那個 encrypted_content

能用于多輪對話狀態保持，但你看不到原始推理過程

你說 OpenAI 開源的那個 oss 支持？
哈哈哈哈哈哈哈哈哈哈
那套鬼東西，根本沒定義接口，怎么實現你就自己看著來吧

OpenAI 的 oss

按照慣性，大家都照著 OpenAI 的 API 規范寫代碼
但由于 OpenAI 在這個方面過于不干人事兒
各家廠商在這個不完整的規范上各自魔改

仔細看，你會發現.... DeepSeek R1 的 Thinking 結構，和 OpenAI 的也都不一樣
然后同樣的模型，在硅基流動、火山、官方 api 上，響應結構甚至也都不一樣

OpenAI API vs DeepSeek API

于是...調用 API 的時候，thinking 壓根沒放在上下文
哈哈哈哈哈哈哈哈哈哈

MiniMax 的貢獻

事情的另一個角度，MiniMax 反倒是 Thinking 模型的標準化，做了許多生態上的工作，比如與OpenRouter、Ollama、Droid、Vercel、Cline合作，共同推進并實現這一功能的跨平臺支持。

具體的可以參見，希望通過推動統一標準，在應用、OpenAI 兼容API、Anthropic 兼容 API 中，來推動 Interleaved Thinking 的廣泛支持

相關背景

11 月在紐約 AI.Engineer Summit，MiniMax 研究員 Olive 講了 Interleaved Thinking

Olive 在 AI.Engineer Summit 上的分享，圖中的 ppt 和 ds3.2 頗有相似

然后挨個給生態里的工具提 PR：

? Cline、RooCode ：讓 VS Code 插件支持 Interleaved Thinking
? Kilo Code ：優化多輪對話的狀態保持邏輯
? OpenRouter、Ollama ：推動平臺層面跟進支持

MiniMax 給 Kilo Code 提的 PR

Cline 和 Kilo Code 官方都發推確認了

Cline 官方的確認推文 Kilo Code 官方的確認推文

現在這些平臺上，MiniMax M2 是第一個正確支持 Interleaved Thinking 的開源模型

對于其他支持這個機制的模型，比如 DeepSeek V3.2、Kimi K2，直接就能用了。算是給這個這種 thinking，造了個朋友圈

MiniMax 還開源了 Mini-Agent，一個支持 Interleaved Thinking 的 Coding CLI，700+ Star

Mini-Agent 項目

，開發者容易踩坑 MiniMax 還專門寫了篇文章，講怎么在不同 API 格式下正確實現 Interleaved Thinking 算是手把手教學了

最后

Interleaved Thinking 的核心就一句話：
保留推理狀態，讓模型在多輪工具調用中持續累積理解

最開始的時候，我們對于 Agent 的期待，是它能不能使用工具
然后看到了 ToolFormer 論文、看到了 Plugin、Function Call、JSON Mode
直到去年 8 月，OpenAI 宣布可以在 Structured Outputs 的嚴格模式下，做到 100% 的成功調用

OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API

而現在，我們的思考變成了「調用工具時，如何保持連貫思考」，剛剛結束的 AWS re:invent 大會上，主題也便是 Agentic AI

轉眼三年，有點恍惚...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

豆包狂飆，字節AI再亮劍

華爾街見聞官方 2025-12-20 12:41:51
14 跟貼 14
AI 大神 Karpathy 2025 年度總結刷屏：AI 既是天才也是智障，這 6 個轉折最關鍵

愛范兒 2025-12-20 12:52:18
3 跟貼 3

為什么這篇谷歌論文被稱為「Attention is all you need」V2

量子位 2025-12-21 15:15:36
4 跟貼 4

人大&騰訊團隊用信息論揭示：什么時候該想、什么時候別想

機器之心Pro 2025-12-19 14:59:28
0 跟貼 0
智能體驅動：企業從“界面操作”到“智能助力”的必然路徑

鈦媒體APP 2025-10-20 16:40:12
0 跟貼 0

王曉剛和他的“世界模型”：一人管十狗，先讓四足機器人上街干活｜智能涌現專訪

36氪 2025-12-21 12:40:09
0 跟貼 0

兩個LLM互相對線，推理起飛：康奈爾團隊發布大模型版類GAN訓練法

機器之心Pro 2025-12-08 16:16:12
0 跟貼 0
一場千萬美元的賭注：造一個替你賺錢的“分身”

虎嗅APP 2025-12-20 04:56:07
3 跟貼 3

Codeforces難題不夠刷？謝賽寧等造了AI出題機，能生成原創編程題

機器之心Pro 2025-10-20 14:17:05
0 跟貼 0
OpenAI、xAI打破硅谷鐵律，AI人才年薪破億成常態

新智元 2025-12-21 19:05:05
2 跟貼 2
a16z年度重磅報告：OpenAI艱難守擂，谷歌火力全開，用戶只選一個

華爾街見聞官方 2025-12-21 19:36:02
2 跟貼 2
趙何娟獨家對話李飛飛：“我信仰的是人類，不是AI” | 2025 T-EDGE全球對話

鈦媒體APP 2025-12-21 18:11:06
1 跟貼 1
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
21 跟貼 21
捐給博物院的名畫“江南春”，一千兩百倍增值背后的邏輯！#仇英

雨果說 2025-12-19 10:22:22
303 跟貼 303
26歲鄭州小伙倫敦鬧市開店賣胡辣湯：一碗售價130元

極目新聞 2025-12-19 21:19:26
5994 跟貼 5994
把討厭的同事放進游戲里，修改代碼為所欲為

柚子剪輯 2025-12-21 08:32:22
1 跟貼 1
廣東男籃主場險勝廣州，徐杰數據全面，郭艾倫勇破包夾

DoubleZero 2025-12-19 22:50:56
0 跟貼 0
基于真實數據和物理仿真，國防科大開源具身在線裝箱基準RoboBPP

機器之心Pro 2025-12-19 14:41:12
0 跟貼 0
年度旅行家打卡"這么近那么美"的河北啦!超多照片全靠它幫我存著

LEO新視角 2025-12-17 21:41:00
0 跟貼 0
大模型六小虎IPO第一槍！智譜遞表，招股書解讀，估值244億

智東西 2025-12-21 12:15:53
0 跟貼 0
縱覽熱點｜南博出示《江南春》銷售清單多處存疑，律師：6800元購畫人如屬善意取得，無權要求退回，反之買賣行為無效

縱覽新聞 2025-12-20 22:01:14
2222 跟貼 2222
垃圾進垃圾出，大模型刷多了垃圾推文，智商驟降還變自戀狂

機器之心Pro 2025-10-24 18:51:47
0 跟貼 0
生態適配已超95% 鴻蒙下一關：十萬個應用

每日經濟新聞 2025-12-20 23:55:46
564 跟貼 564
必勝客被查！

魯中晨報 2025-12-20 17:49:04
555 跟貼 555
從網線到人生攻擊？項立剛批羅永浩 “干啥啥不成”，網友吵翻了

雷科技 2025-12-21 20:25:38
0 跟貼 0
黃阿火，任福耀科技大學黨委書記

極目新聞 2025-12-21 12:25:19
530 跟貼 530
兒子花4個月做的模型，被一堆“垃圾”比下去，父親霸氣怒斥

青檬愛生活 2025-12-19 14:18:16
0 跟貼 0
打破賽會紀錄！非洲運動員再次拿下廣州馬拉松賽冠軍

齊魯壹點 2025-12-21 10:55:04
97 跟貼 97
曾經他們硬氣的拒絕了中國，如今真懷念他們當初桀驁不馴的樣子

小俎娛樂 2025-12-21 17:35:20
2 跟貼 2
魔獸：大部分插件改動已確認！暴雪放寬API限制，部分功能解禁

魔獸世界研究所 2025-12-20 17:17:09
6 跟貼 6
廣東89-80力克青島迎4連勝，徐杰17+6+6，奎因22+6+9

懂球帝 2025-12-21 21:23:08
0 跟貼 0
明宣宗朱瞻基陵墓，下周一開放

上觀新聞 2025-12-20 16:31:19
1341 跟貼 1341
硬核小學生與校長同桌暢談，思維敏捷，邏輯清晰，太牛了！

七言體育 2025-12-20 03:06:00
0 跟貼 0
萌娃認錯媽媽不知道，還淡定玩模型車，反應過來之后秒變小哭包

鄭州新聞廣播 2025-12-19 18:31:45
4 跟貼 4
NVIDIA開源新模型：會玩1000多款游戲！巫師3、賽博朋克2077等通通不在話下

快科技 2025-12-21 18:01:05
0 跟貼 0
莊宇珊狂砍27分，多項數據創新高，喜迎意甲首勝

和?？慈粘?2025-12-21 08:25:15
1 跟貼 1
通風的元兇原來是它，搞懂這1個引導邏輯，連海鮮啤酒都能吃

兩面包夾芋頭 2025-12-21 07:36:26
0 跟貼 0
中國美債持倉創2008年來最低

看看新聞Knews 2025-12-21 08:16:36
433 跟貼 433
美飛行器成功發射搭載“輪椅使用者”進入太空

央視新聞客戶端 2025-12-21 10:04:09
512 跟貼 512
勇士慘遭絕殺～誰是本場罪魁禍首～數據不會說謊

怎挽怎挽 2025-12-20 04:27:07
1 跟貼 1

賽博禪心

拜AI古佛，修賽博禪心

218文章數 12關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

本地

旅游

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

大模型如何「在思考中使用工具」｜Interleaved Thinking

生態適配已超95% 鴻蒙下一關：十萬個應用

46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

勇士火箭贏球：王牌之外的答案？

星光大賞太尷尬！搶話擋鏡頭，場地還小

老房子“強制體檢”，政府出手了

-30℃，標致508L&凡爾賽C5 X冰雪"大考"

態度原創

為了“圓頭”，媽媽讓雙胞胎每天戴頭盔23小時，被罵虐娃也要繼續

云游安徽｜訪黃山云海古村，讀一城山水風骨

周一起可以參觀景陵，近距離了解“促織天子”與“仁宣之治”

俄羅斯畫家尼古拉·波格丹諾夫·貝爾斯基人物繪畫作品

46歲獨居女子離世遺產歸公買墓地遇難題最新進展公布

46歲獨居女子離世遺產歸公買墓地遇難題最新進展公布

勇士火箭贏球：王牌之外的答案？

星光大賞太尷尬！搶話擋鏡頭，場地還小

為了“圓頭”，媽媽讓雙胞胎每天戴頭盔23小時，被罵虐娃也要繼續

周一起可以參觀景陵，近距離了解“促織天子”與“仁宣之治”