<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型如何「在思考中使用工具」|Interleaved Thinking

      0
      分享至

      DeepSeek V3.2 提到了一個東西,屬于核心迭代
      在思考中,使用工具
      技術報告里,把這個叫Thinking in Tool Use

      在這里與大家說道,這東西的由來、演進和現狀,方便吹牛逼用

      這里還有份報告解讀:

      所謂「Thinking in Tool-Use
      顧名思義,就是大模型一邊調用工具,一邊推理,多次循環后,最后輸出答案

      行業里,常把這個叫做 Interleaved Thinking,本文沿用這個說法

      類似的東西,最早是 Anthropic 提出的
      今年初發布的,叫 Extended Thinking。額外說明:o1 不算,那個沒工具調用


      相關內容,發表于 25年2月24日:《Claude’s extended thinking》

      在開源模型里,最早是 OpenAI 開源的 oss 最先支持的
      說法是 interleaving tool calls within the CoT


      相關內容,發表于 25年8月5日:gpt-oss Model Card

      之后,國內的幾家模型廠,也給到了類似說法:

      • ? MiniMax M2 叫它「交錯思維鏈」

      • ? Kimi K2 叫它「邊思考邊使用工具」

      • ? DeepSeek v3.2 叫它「思考模式下的工具調用」

      各家說法不同,本質是一件事
      大模型,如何在保留推理狀態的同時,進行多次工具調用

      有關交錯思維鏈,MiniMax 前段時間還寫了篇文章,強調這東西的重要性,具體后面細說

      技術原理

      先說下推理模型是怎么使用工具的

      舉個例子,你問模型一個問題:
      一臺最新蘋果手機,和兩臺最新的豆包手機,誰更貴?

      以最開始的 o1 模型為例,o1 這個模型并不能進行工具調用,只能回答
      對不起,我無法訪問網絡,并不知道誰更貴

      再之后,一些朋友對 o1 類的模型進行了工程優化(比如具有聯網能力的 DeepSeek R1),讓他能夠在回答前,先搜索一些問題,然后多次調用模型,流程就變成了這樣:
      先搜最新的蘋果手機讀結果決定下一步搜什么再搜索再讀結果 → ... → 整理答案


      標準的工具調用流程

      但實際上...在處理先搜最新的蘋果手機這一步中,就會發現蘋果有多款機型
      如果只拿最新的 iPhone 17 比較,肯定不妥,畢竟還有 air 和 pro

      作為人的話,可能會中間留個心眼:最新的蘋果手機,需要考慮系列嗎?
      那么,如果是大模型,會記住這些東西嗎?

      早期做法:丟掉
      具體來說:忘掉所有的中間思考,只保留結果和部分總結
      這部分的具體描述,可以參加 OpenAI 的 o1 文檔:思維鏈是隱藏的


      早期做法:每輪丟棄推理狀態

      所以,在進行最終判斷的時候,大模型的上文可能只有:

      • ? iPhone 17 的標準定價為 5999

      • ? 豆包手機(努比亞)的標準定價為 3499

      然后得出結論:

      iPhone 17,不如兩臺豆包手機貴

      但....

      作為人的話,我們會保留個心眼,思考過程也記著:

      • ? iPhone 17 的標準定價為 5999(同期發售的還有 iPhone Air:7999;Pro:8999)

      • ? 豆包手機(努比亞代工)的標準定價為 3499(目前無貨,閑魚 4499)

      然后出結論:

      iPhone 17,不如兩臺豆包手機貴 Air 和 Pro 則貴于兩臺豆包

      這種「留心眼」的做法,就是 Interleaved Thinking
      模型調用工具拿到結果繼續思考(帶著之前的推理)再調用工具繼續思考...

      在這里,計劃、假設、中間結論都會被帶到下一輪


      Interleaved Thinking:保留推理狀態

      當然,這里為了方便表達,我對原理進行了極大的刪減
      實際的做法和流程都會更為復雜
      比如...這些推理內容,在何時才會舍棄?

      以DeepSeek v3.2為例,論文里是這么描述的:
      只有新用戶消息到來時,才丟棄推理內容,工具返回結果不觸發丟棄

      ...這樣的細節還有許多,還是挺有工程實踐&復雜度的

      效果差距

      對于「保留推理狀態 vs 丟棄推理狀態」,會有多少差距呢?
      對于長鏈路 Agent 任務,最高能有 +35%+40%
      數據來自于 MiniMax 的對比測試數據


      對比數據


      • ? SWE-Bench Verified:69.4 vs. 67.2, +3.3%

      • ? 2:87 vs. 64, +35.9%

      • ? BrowseComp:44.0 vs. 31.4, +40.1%

      • ? GAIA:75.7 vs. 67.9, +11.5%

      • ? xBench:72.0 vs. 66.0, +9.1%

      至于為什么差距這么大?

      可以這么理解:
      一旦丟棄了之前的推理狀態,模型的累積理解能力會下降,自我修正能力會減弱

      這東西,在長程工具調用和「運行–修復」循環中尤其明顯

      世界是個草臺班子

      這里有個現實問題:
      很多項目使用了 thinking 模型,但工具的連續調用總是出問題
      而且...可能...甚至還沒發現

      這個其實是 OpenAI 的鍋

      OpenAI 有多套 API 調用方法:

      • ? Completions (不再建議使用)

      • ? Chat Completions

      • ? Assistants API (壓根沒人用)

      • ? Responses API

      目前用的最廣泛的的,是 Chat Completions api
      但... 這玩意兒壓根沒有 thinking 相關的字段
      于是大家只能在 assistant message 里假裝 thinking


      Chat Completions API 的 assistant message 結構,沒有 thinking 相關字段

      新的 Responses API 確實支持 reasoning 配置
      但它返回的是 reasoning.encrypted_content——加密版本的推理內容
      推理過程?更不存在的


      Responses API 的 reasoning 配置,注意那個 encrypted_content

      能用于多輪對話狀態保持,但你看不到原始推理過程

      你說 OpenAI 開源的那個 oss 支持?
      哈哈哈哈哈哈哈哈哈哈
      那套鬼東西,根本沒定義接口,怎么實現你就自己看著來吧


      OpenAI 的 oss

      按照慣性,大家都照著 OpenAI 的 API 規范寫代碼
      但由于 OpenAI 在這個方面過于不干人事兒
      各家廠商在這個不完整的規范上各自魔改

      仔細看,你會發現.... DeepSeek R1 的 Thinking 結構,和 OpenAI 的也都不一樣
      然后同樣的模型,在硅基流動、火山、官方 api 上,響應結構甚至也都不一樣


      OpenAI API vs DeepSeek API

      于是...調用 API 的時候,thinking 壓根沒放在上下文
      哈哈哈哈哈哈哈哈哈哈

      MiniMax 的貢獻

      事情的另一個角度,MiniMax 反倒是 Thinking 模型的標準化,做了許多生態上的工作,比如與OpenRouter、Ollama、Droid、Vercel、Cline合作,共同推進并實現這一功能的跨平臺支持。

      具體的可以參見,希望通過推動統一標準,在應用、OpenAI 兼容API、Anthropic 兼容 API 中,來推動 Interleaved Thinking 的廣泛支持


      相關背景

      11 月在紐約 AI.Engineer Summit,MiniMax 研究員 Olive 講了 Interleaved Thinking


      Olive 在 AI.Engineer Summit 上的分享,圖中的 ppt 和 ds3.2 頗有相似

      然后挨個給生態里的工具提 PR:

      • ? Cline、RooCode : 讓 VS Code 插件支持 Interleaved Thinking

      • ? Kilo Code : 優化多輪對話的狀態保持邏輯

      • ? OpenRouter、Ollama : 推動平臺層面跟進支持

      MiniMax 給 Kilo Code 提的 PR

      Cline 和 Kilo Code 官方都發推確認了


      Cline 官方的確認推文 Kilo Code 官方的確認推文

      現在這些平臺上,MiniMax M2 是第一個正確支持 Interleaved Thinking 的開源模型

      對于其他支持這個機制的模型,比如 DeepSeek V3.2、Kimi K2,直接就能用了。算是給這個這種 thinking,造了個朋友圈

      MiniMax 還開源了 Mini-Agent,一個支持 Interleaved Thinking 的 Coding CLI,700+ Star


      Mini-Agent 項目

      ,開發者容易踩坑 MiniMax 還專門寫了篇文章,講怎么在不同 API 格式下正確實現 Interleaved Thinking 算是手把手教學了

      最后

      Interleaved Thinking 的核心就一句話:
      保留推理狀態,讓模型在多輪工具調用中持續累積理解

      最開始的時候,我們對于 Agent 的期待,是它能不能使用工具
      然后看到了 ToolFormer 論文、看到了 Plugin、Function Call、JSON Mode
      直到去年 8 月,OpenAI 宣布可以在 Structured Outputs 的嚴格模式下,做到 100% 的成功調用


      OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API

      而現在,我們的思考變成了「調用工具時,如何保持連貫思考」,剛剛結束的 AWS re:invent 大會上,主題也便是 Agentic AI


      轉眼三年,有點恍惚...

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      南京博物院提供給新華社的這組《江南春》手續和票據,有五大疑點!

      南京博物院提供給新華社的這組《江南春》手續和票據,有五大疑點!

      常識群
      2025-12-21 00:12:51
      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      火山詩話
      2025-12-20 10:25:37
      考古最新證實:阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實之作

      考古最新證實:阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實之作

      大象新聞
      2025-12-21 10:49:06
      耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

      耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

      八卦南風
      2025-12-19 14:40:36
      布朗41+6三分賽季新高廣廈力克上海 胡金秋18分王哲林12+9

      布朗41+6三分賽季新高廣廈力克上海 胡金秋18分王哲林12+9

      醉臥浮生
      2025-12-21 21:23:53
      趕緊查查司母戊鼎吧,我怕被人贗品了

      趕緊查查司母戊鼎吧,我怕被人贗品了

      超級學爸蛋總
      2025-12-21 09:28:30
      炸毀柬埔寨6大詐騙基地后,泰方找到中國大使,告知要同中國合作

      炸毀柬埔寨6大詐騙基地后,泰方找到中國大使,告知要同中國合作

      博覽歷史
      2025-12-21 13:57:48
      高市迎來最強外援,強登釣魚島有保障?中方已警覺,連發兩個警告

      高市迎來最強外援,強登釣魚島有保障?中方已警覺,連發兩個警告

      博覽歷史
      2025-12-21 13:57:01
      一旦戰事大規模爆發,我國必須死保8座城市,關鍵時候能抵御外敵

      一旦戰事大規模爆發,我國必須死保8座城市,關鍵時候能抵御外敵

      策略述
      2025-11-25 11:24:04
      柬泰兩國,公布戰況

      柬泰兩國,公布戰況

      新京報政事兒
      2025-12-21 21:11:23
      商戰小說作家林健鋒逝世,享年54歲

      商戰小說作家林健鋒逝世,享年54歲

      澎湃新聞
      2025-12-21 11:56:27
      南京博物院前院長徐湖平,退休金2萬多,不承認6800元賣掉江南春

      南京博物院前院長徐湖平,退休金2萬多,不承認6800元賣掉江南春

      漢史趣聞
      2025-12-21 17:02:43
      60歲楊利偉現狀:被授予少將軍銜,退休后不休息,享受的待遇如何

      60歲楊利偉現狀:被授予少將軍銜,退休后不休息,享受的待遇如何

      策前論
      2025-12-21 16:10:28
      羅永浩稱收入超99%中國人

      羅永浩稱收入超99%中國人

      超角度
      2025-12-21 12:35:06
      除了戰敗認輸,已經無路可走?洪森軍隊遭重創:柬埔寨或爆發內亂

      除了戰敗認輸,已經無路可走?洪森軍隊遭重創:柬埔寨或爆發內亂

      策前論
      2025-12-20 23:12:53
      面對無解“陽謀”,連夜抄作業,海南剛封關,越南就坐不住了!

      面對無解“陽謀”,連夜抄作業,海南剛封關,越南就坐不住了!

      今日搞笑分享
      2025-12-21 10:34:09
      死神來了:日本夫妻在桑拿房里被活活蒸死……

      死神來了:日本夫妻在桑拿房里被活活蒸死……

      日本物語
      2025-12-20 20:34:22
      “屎”無前例!網傳義烏一面館女子突然朝垃圾桶大便,兩男子蒙圈

      “屎”無前例!網傳義烏一面館女子突然朝垃圾桶大便,兩男子蒙圈

      火山詩話
      2025-12-21 05:50:40
      北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

      北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

      第一財經資訊
      2025-12-21 08:55:57
      廣東激戰青島!薩姆納上頭 奎因大爆發 張文逸驚艷

      廣東激戰青島!薩姆納上頭 奎因大爆發 張文逸驚艷

      胖子噴球
      2025-12-21 20:23:56
      2025-12-21 22:08:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數 12關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

      頭條要聞

      46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      親子
      本地
      旅游
      藝術
      公開課

      親子要聞

      為了“圓頭”,媽媽讓雙胞胎每天戴頭盔23小時,被罵虐娃也要繼續

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      旅游要聞

      周一起可以參觀景陵,近距離了解“促織天子”與“仁宣之治”

      藝術要聞

      俄羅斯畫家尼古拉·波格丹諾夫·貝爾斯基人物繪畫作品

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲老妈激情一区二区三区| 91人人草| www.艹| 狠狠亚洲欧美日韩| 亚洲国产a片。| 伊人无码网| 日韩一区二区a片免费观看| 黑人巨茎大战白人美女| 欧美牲交a免费| 国产成人无码a区在线观看导航| 夜夜添无码试看一区二区三区| 精品国产一区二区三区四区| 国产精品性爱| 贡觉县| 两个人看的www免费视频中文| 上司人妻互换hd无码| 最近免费中文字幕mv在线视频3| 美女张开腿黄网站免费下载| 亚洲午夜精品国产电影在线观看 | 精品无码国产一区二区三区AV| 久久99视频| 二成视频在线| 人人妻一区二区三区| 成全影院电视剧在线观看| 蜜臀久久99精品久久久久久牛牛| 三河市| 国产精品自在线拍国产手青青机版 | 成人综合伊人五月婷久久| 无码伊人66久久大杳蕉网站谷歌| 秋霞鲁丝片成人无码国产| 91福利区| 国产激情无码一区二区app| 亚洲综合另类小说色区色噜噜| 国产精品秘入口18禁麻豆免会员| 国产精品xxxx| 亚洲国产成人精品av区按摩| 国产性爱网| 日韩高清无码一卡二卡| 欧美老熟妇喷水| 中文字幕久久久久人妻中出| 中文字幕在线一区|