網易首頁 > 網易號 > 正文申請入駐

阿里云計算突破：AI推理模型實現分步思考解決復雜工具使用難題

2026-02-07 20:34:44　來源: 科技行者

北京舉報

分享至

這項由阿里巴巴集團阿里巴巴云計算團隊領導的研究發表于2026年2月3日的預印本論文，論文編號為arXiv:2602.02160v1，有興趣深入了解的讀者可以通過該編號查詢完整論文。

當我們面對一個復雜任務時，比如搬家，我們會自然地將其分解為若干個小步驟：先打包物品、然后聯系搬家公司、再安排時間等等。但現在的人工智能大語言模型在使用工具解決復雜問題時，卻常常陷入一種"懶惰思考"的狀態——它們會在腦海中反復糾結，產生大量無用的思考內容，卻始終無法有效地將復雜任務分解成可執行的小步驟。

這就像一個人面對需要做一頓大餐的任務時，不是先想好要做哪些菜、需要哪些食材、按什么順序操作，而是在那里不停地嘀咕"嗯，我應該做什么呢？可能需要這個，但是等等，也許那個更好，不過話說回來..."，結果思考了半天卻一事無成。阿里巴巴云計算團隊的研究人員發現，當前的大語言推理模型在處理復雜的工具使用任務時就是這種狀態。

為了解決這個問題，研究團隊開發了一個名為D-CORE的訓練框架。這個框架就像是給AI模型配備了一個貼心的任務管理助手和一個思維訓練教練。任務管理助手通過"自我蒸餾"的方式教會模型如何將復雜任務分解成小步驟，而思維訓練教練則通過"多樣性感知強化學習"的方法幫助模型在保持分步思考能力的同時，還能進行深入的反思。

在實際測試中，這個方法取得了令人矚目的成果。使用D-CORE訓練的8B模型在復雜工具使用基準測試中達到了77.7%的準確率，比同類最佳模型提高了5.7%。更令人驚訝的是，14B規模的D-CORE模型達到了79.3%的準確率，超越了參數規模比它大5倍的70B模型，這就像用一臺普通家用車的引擎達到了超級跑車的性能。

一、AI推理模型的"懶惰思考"困境

當我們觀察人類專家處理復雜問題的過程時，會發現他們有一個共同特點：善于將大問題拆解成小問題。比如一個經驗豐富的廚師準備制作滿漢全席時，不會一頭霧水地沖進廚房，而是會先列出菜單、計算食材、安排烹飪順序、協調助手分工等等。每個環節都清晰明確，按部就班地執行。

然而，研究團隊在調研當前最先進的大語言推理模型時發現了一個令人困擾的現象。這些模型在處理單一、簡單的工具使用任務時表現出色，就像請它們幫你查個天氣或者發個郵件，它們能迅速完成。但一旦任務變得復雜起來，需要調用多個工具、處理多輪對話時，它們就會陷入一種"懶惰思考"的狀態。

這種懶惰思考具體表現為什么樣呢？研究團隊通過大量實驗發現，當模型面對復雜任務時，它們會產生大量冗長且重復的思考過程，卻很少進行有效的任務分解。就像一個學生面對數學應用題時，不是先理清題目要求、找出已知條件、確定解題步驟，而是在那里反復嘀咕"這道題好難啊，我應該從哪里開始呢？也許用這個公式，不對，可能那個更合適，但是等等..."，結果思考了很久卻毫無進展。

為了量化這種現象，研究團隊設計了一套評估系統。他們讓模型處理同一批任務，然后分析模型的思考過程。結果顯示，在數學任務中，模型的推理長度和反思次數與答題正確率呈正相關關系——思考越多，答對的可能性越大，這符合我們的直覺。但在復雜工具使用任務中，這種關系完全消失了。無論模型思考多長時間、進行多少次反思，正確率都沒有顯著提升。這意味著模型的思考是無效的，只是在做無用功。

更深入的分析揭示了問題的根源：模型缺乏任務分解能力。當面對"幫我整理一下第一季度的所有文本文件，并放到一個新的歸檔文件夾中"這樣的復雜任務時，有經驗的人會自然地將其分解為：首先找到第一季度的所有文本文件，然后創建一個新文件夾，最后將文件復制過去。但模型卻無法進行這樣的分解，而是陷入漫無目的的思考循環中。

為了驗證任務分解的重要性，研究團隊做了一個有趣的實驗。他們手工將一些復雜任務分解成清晰的步驟，然后讓模型按步驟執行。結果顯示，當有了清晰的分解指導時，模型的表現顯著提升。這就像給一個迷路的人提供了詳細的地圖和路線指引，他們立刻就能找到正確的方向。

這個發現啟發研究團隊思考一個關鍵問題：既然模型具備執行各個子任務的能力，為什么不能教會它們自己進行任務分解呢？這就像一個人已經掌握了各種烹飪技巧，但缺乏統籌規劃能力，那么關鍵就是培養這種整體規劃的思維方式。

二、D-CORE框架：AI的任務管理助手

基于對"懶惰思考"問題的深入理解，研究團隊設計了D-CORE框架，這個名字來源于"Decomposing tasks and Composing Reasoning processes"（分解任務和組合推理過程）。可以把D-CORE想象成一個兩階段的訓練營：第一階段是任務管理技能培訓，第二階段是思維靈活性訓練。

在第一個階段，研究團隊采用了一種稱為"自我蒸餾"的巧妙方法。傳統的教學方式是找一個更聰明的老師來指導學生，但這里的創新之處在于讓模型成為自己的老師。具體來說，研究團隊會給模型提供一些示例，展示如何將復雜任務分解成清晰的子任務。模型觀察這些示例后，學會了分解的思維模式，然后將這種能力應用到新的任務中。

這個過程就像教一個人學會做項目管理。你不需要每次都手把手地指導他，而是先給他看幾個優秀的項目計劃案例，讓他理解什么是好的任務分解、什么是合理的執行順序。他內化了這種思維方式后，就能獨立處理新的項目了。

自我蒸餾的過程分為三個步驟。首先是任務分解步驟，模型學會將復雜查詢分解為可執行的子任務。比如面對"幫我預定明天到巴黎的航班，要求經濟艙最便宜的選項"這樣的請求，模型會將其分解為：查詢航班信息、篩選經濟艙選項、比較價格、執行預定等子任務。

接著是推理生成步驟，模型為每個子任務生成相應的推理過程和工具調用。這就像為每個子任務配備具體的執行方案。查詢航班時需要調用哪個搜索工具、使用什么參數，篩選時需要什么條件，每一步都有明確的操作指南。

最后是組合步驟，模型將各個子任務的執行結果組合成完整的解決方案。這就像一個項目經理將各個團隊的工作成果整合成最終的項目交付物。

通過這種自我蒸餾的方式，模型掌握了任務分解和逐步執行的能力。但這里出現了一個新問題：模型變得過于"守規矩"了。就像一個嚴格按照教科書操作的新手，雖然步驟正確，但缺乏靈活性和創造力。在實際應用中，有時候需要根據具體情況調整策略、進行深入思考，這就需要反思能力。

為了解決這個問題，D-CORE框架的第二階段引入了"多樣性感知強化學習"技術。這個技術的核心思想是：既要保持模型的任務分解能力，又要恢復它的反思和靈活思考能力。

傳統的強化學習就像給模型打分，表現好就加分，表現差就扣分。但研究團隊發現，經過自我蒸餾訓練的模型表現過于一致，大家的分數都差不多，這樣就失去了區分度，強化學習的效果就會大打折扣。這就像一個班級里所有學生的成績都是90分，老師就很難知道該如何進一步指導他們。

多樣性感知強化學習的巧妙之處在于引入了"熵優勢"的概念。簡單來說，就是鼓勵模型在思考過程中使用更多樣化的詞匯和表達方式。研究團隊發現，那些表達不確定性、進行深入思考的詞匯（如"但是"、"也許"、"因為"）往往具有更高的信息熵。通過鼓勵模型使用這些詞匯，可以促使它進行更深入、更靈活的思考。

這種方法就像告訴一個學生："除了按步驟解題外，你還要學會思考為什么這樣做、有沒有其他可能性、如果遇到特殊情況該如何應對。"這樣培養出來的學生不僅有條理，還有深度和靈活性。

三、實驗驗證：超越期待的性能表現

為了驗證D-CORE框架的有效性，研究團隊在多個具有挑戰性的基準測試上進行了全面評估。這些測試就像是AI能力的"高考"，涵蓋了各種復雜的實際應用場景。

主要的測試平臺是BFCLv3和τ-bench，這兩個基準測試分別模擬了不同類型的復雜工具使用場景。BFCLv3包含了并行任務處理、工具無關性判斷和多輪對話等挑戰，而τ-bench則專注于真實世界的代理交互場景，比如航空公司客服和零售平臺操作。

在BFCLv3測試中，D-CORE的表現令人印象深刻。8B規模的D-CORE模型達到了77.7%的整體準確率，比基礎模型提升了11.4%，比同規模的最佳競爭模型提升了5.7%。更引人注目的是，在最具挑戰性的多輪對話任務中，D-CORE的準確率達到了63.8%，比基礎模型提升了整整30.8%。這就像一個學生在最難的科目上從不及格一躍成為優秀。

14B規模的D-CORE模型表現更加出色，達到了79.3%的整體準確率，不僅超越了所有同規模模型，甚至超過了參數量比它大5倍的70B模型。這種"以小博大"的成就就像用一輛普通轎車在賽道上跑贏了超級跑車。

在τ-bench測試中，D-CORE同樣表現優異。這個測試更加貼近實際應用，模擬了用戶與智能客服系統的真實交互。8B模型的準確率提升了18.6%，14B模型提升了17.7%。特別值得注意的是，在最復雜的航空服務場景中，D-CORE-14B達到了46.0%的準確率，成為該任務的最佳表現者。

為了深入理解D-CORE的優勢所在，研究團隊還進行了詳細的分析實驗。他們發現，經過D-CORE訓練的模型在思維模式上發生了根本性轉變。原本冗長無效的"懶惰思考"被替換為簡潔有效的分步推理。在一個文件管理任務中，基礎模型產生了1616個詞匯的冗長思考卻給出了錯誤答案，而D-CORE模型只用了799個詞匯就準確完成了任務，效率提升了一倍以上。

更重要的是，D-CORE解決了傳統強化學習在復雜工具使用場景中的困境。研究團隊對比了使用傳統強化學習方法的ToolRL模型，發現后者在多輪對話任務中幾乎沒有提升，有時甚至出現了倒退。這說明僅僅依靠獎勵信號的強化學習無法解決"懶惰思考"問題，必須從根本上改變模型的思維模式。

為了驗證D-CORE的泛化能力，研究團隊還在多個未見過的測試集上進行了評估。結果顯示，D-CORE在完全不同的任務類型中仍然保持了強勁的性能，這證明了它學到的不僅僅是特定任務的解決方案，而是一種通用的問題解決思維方式。

四、深入剖析：為什么D-CORE如此有效

D-CORE框架成功的關鍵在于它準確抓住了問題的本質，并設計了針對性的解決方案。就像一個優秀的醫生不僅能診斷出病癥，還能找到病根并對癥下藥。

首先，D-CORE解決了任務分解能力缺失的根本問題。傳統的訓練方法就像教學生背公式，但沒有教他們如何分析問題的結構。D-CORE通過自我蒸餾的方式，讓模型從優秀的示例中學習任務分解的思維模式，就像讓學生觀摩優秀數學家的解題過程，理解如何將復雜問題層層剖析。

研究團隊發現，任務分解能力的關鍵在于理解任務之間的依賴關系。有些子任務必須按順序執行（比如先查詢再預訂），有些可以并行處理（比如同時查詢多個選項），還有些任務根本不需要使用工具。D-CORE訓練模型識別這些不同的模式，并采用相應的執行策略。

其次，多樣性感知強化學習巧妙地解決了訓練過程中的技術難題。當模型的表現變得過于一致時，傳統強化學習就失去了指導方向，就像所有學生都考同樣的分數時，老師就不知道該如何區別指導了。通過引入熵優勢機制，D-CORE鼓勵模型在保持任務分解能力的同時，還能進行多樣化的深入思考。

這種方法的巧妙之處在于它是自適應的。當模型的表現差異很大時，傳統的優勢函數起主導作用，保證學習的穩定性。當表現趨于一致時，熵優勢機制開始發揮作用，促進多樣性和創新性思考。這就像一個智能的教學系統，能夠根據學生的具體情況調整教學策略。

研究團隊通過詳細的訓練過程分析發現，多樣性感知強化學習確實恢復了模型的反思能力。訓練后的模型不僅保持了清晰的任務分解思路，還學會了在必要時進行深入思考。比如當遇到模糊的用戶需求時，模型會主動澄清意圖；當發現可能的執行問題時，模型會提前考慮備選方案。

第三，D-CORE的成功還體現在它對真實世界復雜性的充分考慮。在實際應用中，用戶的需求往往是模糊的、變化的，工具的返回結果可能是不完整的，執行過程中可能遇到各種意外情況。D-CORE通過訓練模型處理這些不確定性，增強了系統的魯棒性。

研究團隊通過一系列消融實驗驗證了框架各個組件的貢獻。結果顯示，僅使用自我蒸餾可以顯著提升任務分解能力，但可能犧牲反思能力。僅使用多樣性感知強化學習可以增強思考多樣性，但無法根本解決懶惰思考問題。只有兩者結合，才能達到最佳效果。

特別值得注意的是，D-CORE在不同規模模型上都表現出色，這說明這種方法具有良好的可擴展性。無論是8B的小模型還是14B的大模型，D-CORE都能顯著提升其復雜工具使用能力。這種規模無關的優勢對于實際部署具有重要意義，意味著即使在計算資源有限的情況下，也能獲得顯著的性能提升。

五、實際應用前景與未來發展

D-CORE框架的成功不僅在學術研究中具有重要意義，更為實際應用開辟了廣闊的前景。它就像為AI助手配備了一個專業的項目管理大腦，使其能夠處理復雜的現實世界任務。

在客戶服務領域，D-CORE訓練的模型可以處理更復雜的客戶請求。傳統的客服機器人往往只能處理簡單的單輪對話，但具備任務分解能力的AI客服可以幫助客戶解決涉及多個步驟的復雜問題。比如當客戶說"我要改簽明天的航班，但如果沒有合適的選擇就申請退款，另外幫我查一下會員積分情況"時，AI能夠將這個復雜請求分解為查詢航班、比較選項、執行改簽或退款、查詢積分等多個子任務，并按照合理的順序執行。

在企業辦公自動化方面，D-CORE的應用潛力更加廣闊。現代企業的工作流程往往涉及多個系統和工具的協調配合，比如一個銷售訂單的處理可能需要在CRM系統中查詢客戶信息、在庫存系統中檢查商品可用性、在財務系統中生成發票、在物流系統中安排配送。具備任務分解能力的AI助手可以自動協調這些復雜流程，大大提升工作效率。

在個人助手應用中，D-CORE使AI能夠處理更貼近真實生活的復雜需求。當用戶說"幫我安排下周的北京出差，包括往返機票、酒店預訂，還要在那邊約幾個重要客戶見面"時，AI能夠理解這個需求包含多個相互關聯的子任務：查詢出差日期的航班、根據商務區域選擇合適酒店、查看客戶的時間安排、協調會議時間等等。

研究團隊還展示了D-CORE在跨領域任務中的優秀表現。通過在不同類型的數據集上進行測試，他們發現D-CORE訓練的模型具有很強的遷移能力。這意味著在一個領域學會的任務分解思維可以應用到其他領域，這種通用性對于構建真正智能的AI系統具有重要意義。

當然，D-CORE框架也還有進一步改進的空間。研究團隊指出，當前的方法主要關注文本和工具調用，未來可以擴展到多模態場景，比如同時處理圖像、語音和文本的復雜任務。此外，如何讓模型學會更復雜的規劃和推理能力，如何處理更長期的任務序列，也是值得探索的方向。

從更廣闊的視角來看，D-CORE代表了AI發展的一個重要趨勢：從簡單的模式匹配向真正的智能推理轉變。過去的AI系統更像是一個龐大的百科全書，知道很多知識但缺乏運用這些知識解決復雜問題的能力。D-CORE這樣的方法正在改變這種局面，讓AI系統不僅"博學"，還"智慧"。

研究團隊表示，他們正在將D-CORE方法應用到更大規模的模型中，并探索將其與其他前沿技術結合的可能性。比如與多智能體系統結合，讓多個AI助手協同處理更復雜的任務；與強化學習的最新進展結合，進一步提升模型的自主學習能力。

說到底，D-CORE框架的核心價值在于它為AI系統提供了一種更接近人類思維的問題解決方式。人類之所以能夠處理復雜任務，很大程度上依賴于我們將大問題分解為小問題的能力。D-CORE讓AI系統也具備了這種能力，這是向真正智能AI邁出的重要一步。

歸根結底，這項研究不僅解決了當前AI系統在復雜工具使用中的"懶惰思考"問題，更重要的是為構建更智能、更實用的AI系統開辟了新路徑。當AI助手真正學會了分步思考和靈活應變，我們與機器的協作將變得更加自然和高效。這種技術進步最終會惠及每一個使用AI工具的普通人，讓我們的工作和生活變得更加便捷。對于那些對技術發展感興趣的讀者，不妨思考一下：當AI真正學會像人類一樣思考和規劃時，我們的世界會發生怎樣的變化？如有興趣深入了解技術細節，可以通過論文編號arXiv:2602.02160v1查詢完整的研究報告。

Q&A

Q1：D-CORE框架是如何解決AI的"懶惰思考"問題的？

A：D-CORE通過兩個階段訓練解決這個問題。第一階段用"自我蒸餾"方法教AI學會將復雜任務分解成小步驟，就像教人做項目管理一樣。第二階段用"多樣性感知強化學習"恢復AI的靈活思考能力，避免過于機械化。這樣AI既能有條理地處理復雜任務，又保持了深度思考的能力。

Q2：D-CORE訓練的模型比傳統模型性能提升有多大？

A：提升非常顯著。8B模型在復雜工具使用測試中達到77.7%準確率，比同類最佳模型高5.7%，在最難的多輪對話任務中提升了30.8%。14B模型達到79.3%準確率，甚至超過了參數量大5倍的70B模型，這就像用普通轎車跑贏了超級跑車。

Q3：D-CORE技術什么時候能應用到實際產品中？

A：D-CORE已經在多個真實場景測試中表現出色，技術相對成熟。主要應用前景包括智能客服處理復雜客戶請求、企業辦公自動化協調多系統流程、個人助手安排復雜行程等。阿里巴巴團隊正在將這項技術應用到更大規模模型中，預計很快就能在實際產品中見到相關應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.