![]()
這項由多個頂級研究機構(gòu)聯(lián)合開展的研究發(fā)表在2026年2月的arXiv預(yù)印本服務(wù)器上,論文編號為arXiv:2602.07839v1。研究團隊來自國內(nèi)外知名學(xué)術(shù)機構(gòu),他們在智能體規(guī)劃系統(tǒng)方面取得了重要突破。有興趣深入了解技術(shù)細節(jié)的讀者可以通過該編號在arXiv上查詢完整論文。
當(dāng)你需要完成一項復(fù)雜任務(wù)時,比如策劃一場生日聚會,你會怎么做?有些人喜歡列個清單,按步驟一項項完成;有些人則喜歡同時準(zhǔn)備多件事,比如一邊訂蛋糕一邊聯(lián)系朋友;還有些人會根據(jù)情況隨時調(diào)整計劃。每個人都有自己的做事風(fēng)格,而且針對不同的任務(wù),最有效的方法往往也不同。
現(xiàn)在的人工智能也面臨著類似的問題。當(dāng)AI需要完成復(fù)雜任務(wù)時,比如幫你查找資料、分析數(shù)據(jù)或解決問題,它們也需要有一套"做事的方法",這就是我們所說的規(guī)劃系統(tǒng)。但目前大多數(shù)AI都像是被固定了做事風(fēng)格的人一樣,不管面對什么任務(wù),都用同一套方法去處理。這就像讓一個只會按部就班做事的人去處理所有類型的工作,效果往往不盡如人意。
研究團隊發(fā)現(xiàn)了這個問題的本質(zhì):沒有一種萬能的做事方法能夠適用于所有情況。就像你不會用策劃生日聚會的方法去準(zhǔn)備學(xué)術(shù)報告一樣,AI處理不同類型的任務(wù)時,也應(yīng)該采用不同的規(guī)劃策略。于是,他們開發(fā)了一個名為TodoEvolve的系統(tǒng),這個系統(tǒng)就像一個智能工匠,能夠根據(jù)每個具體任務(wù)的特點,量身定制最合適的執(zhí)行方案。
為了實現(xiàn)這個目標(biāo),研究團隊首先建立了一個叫做PlanFactory的"工具箱"。這個工具箱就像一個包含各種工具和模板的萬能工作臺,里面收集了現(xiàn)有的各種AI規(guī)劃方法,并把它們標(biāo)準(zhǔn)化整理。就像木匠的工具箱里有鋸子、刨子、鑿子等各種工具,PlanFactory里也包含了線性規(guī)劃、圖形規(guī)劃、層次規(guī)劃等各種方法。
接下來,他們訓(xùn)練了一個叫做Todo-14B的"智能工匠"。這個工匠的特殊能力就是能夠看懂任務(wù)的特點,然后從PlanFactory這個工具箱里選擇和組合最合適的工具來完成工作。比如,當(dāng)面臨需要同時處理多個獨立部分的任務(wù)時,它會選擇并行處理的方法;當(dāng)面臨需要嚴格按步驟執(zhí)行的任務(wù)時,它會選擇線性處理的方法。
一、從萬能鑰匙到定制鑰匙:AI規(guī)劃的新思路
過去的AI規(guī)劃系統(tǒng)就像試圖用一把萬能鑰匙開所有的鎖。研究人員發(fā)現(xiàn),現(xiàn)有的AI系統(tǒng)在處理復(fù)雜任務(wù)時,往往采用固定的規(guī)劃模式。比如,有些系統(tǒng)總是喜歡把任務(wù)分解成一連串的步驟,一步步按順序執(zhí)行;有些系統(tǒng)則偏向于把任務(wù)拆分成多個部分,然后同時處理。
但現(xiàn)實情況是,不同的任務(wù)需要不同的處理方式。就好比修理一臺機器和烹飪一道菜需要完全不同的方法。修理機器需要嚴格按照步驟進行,因為前一步?jīng)]完成就無法進行下一步;而烹飪則可能需要同時進行多項準(zhǔn)備工作,比如一邊煮湯一邊切菜。
研究團隊通過大量實驗發(fā)現(xiàn)了一個重要規(guī)律:即使在同一個任務(wù)類別內(nèi),最優(yōu)的規(guī)劃方法也會因具體情況而異。舉個例子,在網(wǎng)絡(luò)搜索任務(wù)中,如果只是查找簡單信息,用直線型的步驟規(guī)劃就很高效,節(jié)省時間和計算資源;但如果需要處理復(fù)雜的多媒體內(nèi)容,采用網(wǎng)狀的并行規(guī)劃往往效果更好,雖然消耗更多資源,但能獲得更準(zhǔn)確的結(jié)果。
這種發(fā)現(xiàn)徹底改變了他們的研究思路。與其繼續(xù)尋找那把不存在的"萬能鑰匙",不如開發(fā)一個能夠為每把鎖量身定制專屬鑰匙的系統(tǒng)。這就是TodoEvolve誕生的核心理念:讓AI學(xué)會根據(jù)任務(wù)的具體特點,自主設(shè)計最合適的規(guī)劃策略。
這種方法的優(yōu)勢顯而易見。傳統(tǒng)的固定規(guī)劃系統(tǒng)就像穿著不合身的衣服工作,總有些地方不舒適;而TodoEvolve則像擁有了一個私人裁縫,能夠為每個任務(wù)量身定制最合適的"工作服"。不僅提高了工作效率,還能根據(jù)具體情況在速度和準(zhǔn)確性之間找到最佳平衡點。
二、PlanFactory:AI規(guī)劃系統(tǒng)的樂高積木盒
為了實現(xiàn)這個愿景,研究團隊首先需要解決一個基礎(chǔ)問題:如何把現(xiàn)有的各種AI規(guī)劃方法整合到一個統(tǒng)一的框架中?這就像要把世界各地不同風(fēng)格的建筑技術(shù)整合到一個通用的建筑工具包里。
他們開發(fā)的PlanFactory就像一個超級樂高積木盒,里面的每個組件都可以自由組合。這個系統(tǒng)巧妙地將所有規(guī)劃方法分解為四個基本維度,就像樂高積木有不同的形狀、大小和顏色一樣。
第一個維度是"拓撲結(jié)構(gòu)",簡單說就是任務(wù)的組織方式。有些任務(wù)像一條直線,需要一步接一步地完成,比如做化學(xué)實驗;有些任務(wù)像一張網(wǎng)絡(luò),各個部分可以同時進行,比如籌備一場會議時可以同時聯(lián)系場地、準(zhǔn)備材料和邀請嘉賓;還有些任務(wù)像一棵樹,有主干和分支的層次關(guān)系。
第二個維度是"初始化機制",也就是任務(wù)開始時的設(shè)置方式。有些系統(tǒng)喜歡在開始前就把所有細節(jié)都規(guī)劃好,就像出門旅行前制定詳細的行程表;有些系統(tǒng)則偏向于先設(shè)定大方向,然后在執(zhí)行過程中逐步細化,就像邊走邊看的自由行。
第三個維度是"適應(yīng)性調(diào)節(jié)",即系統(tǒng)如何根據(jù)實際情況調(diào)整計劃。有些系統(tǒng)會定期檢查進展并調(diào)整策略,就像導(dǎo)航軟件會根據(jù)交通狀況重新規(guī)劃路線;有些系統(tǒng)只有在遇到明顯問題時才會改變計劃,就像只有在遇到堵車時才會換路的司機。
第四個維度是"導(dǎo)航執(zhí)行",也就是系統(tǒng)如何決定下一步該做什么。有些系統(tǒng)嚴格按照預(yù)定順序執(zhí)行,有些系統(tǒng)會根據(jù)當(dāng)前情況靈活選擇,還有些系統(tǒng)會同時推進多個任務(wù)。
通過這四個維度的不同組合,PlanFactory可以描述和實現(xiàn)各種現(xiàn)有的規(guī)劃方法。更重要的是,它為創(chuàng)造新的規(guī)劃方法提供了可能。就像用相同的樂高積木可以拼出無數(shù)種不同的造型一樣,通過這四個維度的不同組合,可以產(chǎn)生出針對特定任務(wù)優(yōu)化的全新規(guī)劃策略。
研究團隊在PlanFactory中實現(xiàn)了十種代表性的規(guī)劃系統(tǒng),包括線性規(guī)劃、有向無環(huán)圖規(guī)劃、層次規(guī)劃等等。每種方法都被拆解成這四個基本組件,然后在統(tǒng)一的框架下重新實現(xiàn)。這就像把不同品牌的汽車零件都改造成標(biāo)準(zhǔn)規(guī)格,這樣就可以自由組裝出各種新的汽車型號。
三、Todo-14B:會量體裁衣的AI規(guī)劃師
有了PlanFactory這個工具箱,下一步就是訓(xùn)練一個能夠智能選擇和組合工具的"師傅"。Todo-14B就是這樣一個智能規(guī)劃師,它的核心能力是能夠理解任務(wù)的特點,然后設(shè)計出最適合的執(zhí)行方案。
訓(xùn)練這樣一個智能規(guī)劃師并不簡單。首先需要讓它學(xué)會識別不同類型的任務(wù)特征。就像一個經(jīng)驗豐富的裁縫能夠一眼看出顧客的體型特點,從而決定采用什么樣的裁剪方法,Todo-14B也需要學(xué)會"讀懂"任務(wù)的特性。
研究團隊采用了一種創(chuàng)新的訓(xùn)練方法,叫做"阻抗引導(dǎo)偏好優(yōu)化"。這個名字聽起來很復(fù)雜,但原理其實很直觀。在電子學(xué)中,阻抗是電路對電流流動的阻礙程度。研究團隊借用這個概念,將AI執(zhí)行任務(wù)時遇到的各種阻礙(比如時間消耗、錯誤次數(shù)、資源浪費等)統(tǒng)稱為"認知阻抗"。
訓(xùn)練的目標(biāo)很明確:讓Todo-14B學(xué)會設(shè)計出認知阻抗最小的規(guī)劃方案。這就像訓(xùn)練一個司機不僅要到達目的地,還要選擇最省油、最省時、最舒適的路線。系統(tǒng)需要在多個目標(biāo)之間找到最佳平衡點:既要保證任務(wù)完成得又快又準(zhǔn)確,又要盡量節(jié)省計算資源。
為了實現(xiàn)這個目標(biāo),研究團隊設(shè)計了一個巧妙的訓(xùn)練流程。他們首先讓Todo-14B觀察大量的任務(wù)執(zhí)行案例,就像讓學(xué)徒觀摩師傅工作。然后讓它嘗試為類似的任務(wù)設(shè)計規(guī)劃方案,并在實際執(zhí)行中檢驗效果。通過不斷的試驗和改進,Todo-14B逐漸學(xué)會了為不同類型的任務(wù)量身定制最優(yōu)的執(zhí)行策略。
訓(xùn)練過程中,系統(tǒng)不僅要學(xué)會選擇合適的規(guī)劃方法,還要學(xué)會在執(zhí)行過程中動態(tài)調(diào)整。就像一個好的項目經(jīng)理不僅會制定初始計劃,還會根據(jù)實際進展情況靈活調(diào)整策略。如果發(fā)現(xiàn)某個步驟比預(yù)期困難,Todo-14B會自動調(diào)整后續(xù)計劃;如果發(fā)現(xiàn)某些任務(wù)可以并行處理,它會重新組織執(zhí)行順序。
最終訓(xùn)練出來的Todo-14B具備了強大的適應(yīng)性。面對從未見過的新任務(wù),它能夠快速分析任務(wù)特點,從PlanFactory的工具箱中選擇合適的組件,然后組裝成一個定制化的規(guī)劃系統(tǒng)。整個過程就像一個經(jīng)驗豐富的工匠面對新的工程項目,能夠快速評估需求,選擇工具,制定方案。
四、從理論到實踐:TodoEvolve的卓越表現(xiàn)
理論再好,也需要實踐檢驗。研究團隊在五個不同類型的測試平臺上驗證了TodoEvolve的效果,結(jié)果令人印象深刻。這些測試涵蓋了網(wǎng)頁瀏覽、數(shù)據(jù)分析、復(fù)雜推理等各種AI應(yīng)用場景,就像給一個全能運動員安排了游泳、跑步、體操等多項比賽。
在GAIA測試中,這是一個專門測試AI通用助手能力的權(quán)威平臺,TodoEvolve取得了顯著的性能提升。當(dāng)它與現(xiàn)有的Smolagents系統(tǒng)結(jié)合時,整體表現(xiàn)提高了16.37%。這就像給一個已經(jīng)很優(yōu)秀的運動員配備了專業(yè)教練,成績立刻有了顯著提升。
更令人驚喜的是,TodoEvolve的優(yōu)勢在不同類型的AI模型上都得到了驗證。無論是使用GPT-5-Mini、DeepSeek V3.2還是Kimi K2等不同的基礎(chǔ)模型,TodoEvolve都能帶來一致的性能提升。這說明它的價值不依賴于特定的AI技術(shù),而是一種通用的能力增強方案。
在復(fù)雜推理任務(wù)上,TodoEvolve的表現(xiàn)尤其出色。在GAIA Level 3這個最具挑戰(zhàn)性的測試項目中,使用開源模型DeepSeek V3.2的TodoEvolve系統(tǒng)達到了53.85%的成功率。這個成績不僅超越了使用更強大商業(yè)模型GPT-4.1的標(biāo)準(zhǔn)系統(tǒng),甚至達到了需要多次嘗試才能獲得的最佳結(jié)果水平。這就像讓一個業(yè)余選手通過專業(yè)訓(xùn)練,在某些項目上超越了職業(yè)選手。
效率方面的表現(xiàn)同樣令人矚目。TodoEvolve不僅提高了任務(wù)完成的準(zhǔn)確率,還保持了合理的資源消耗。在WebWalker-QA測試中,它的準(zhǔn)確率達到70%,比最佳基線系統(tǒng)提高了10個百分點,而計算成本的增加卻很有限。這種高性價比的表現(xiàn),就像找到了一種既能提高產(chǎn)品質(zhì)量又不會大幅增加成本的生產(chǎn)方法。
研究團隊還專門測試了TodoEvolve在不同類型任務(wù)上的適應(yīng)性。他們發(fā)現(xiàn),系統(tǒng)確實能夠根據(jù)任務(wù)特點選擇不同的規(guī)劃策略。對于需要嚴格按步驟執(zhí)行的任務(wù),它會選擇線性規(guī)劃;對于可以并行處理的任務(wù),它會選擇網(wǎng)狀規(guī)劃;對于需要層次化管理的復(fù)雜任務(wù),它會選擇樹形規(guī)劃。這種智能選擇能力,正是傳統(tǒng)固定規(guī)劃系統(tǒng)所缺乏的。
通過詳細的性能分析,研究團隊發(fā)現(xiàn)TodoEvolve的優(yōu)勢主要體現(xiàn)在三個方面。首先是更高的任務(wù)成功率,因為它能為每個任務(wù)選擇最合適的處理方式。其次是更好的執(zhí)行穩(wěn)定性,因為它會根據(jù)執(zhí)行情況動態(tài)調(diào)整策略。最后是更優(yōu)的資源利用效率,因為它避免了不必要的計算浪費。
五、技術(shù)創(chuàng)新的三大支柱
TodoEvolve的成功建立在三個關(guān)鍵技術(shù)創(chuàng)新之上,每一個都解決了AI規(guī)劃領(lǐng)域的重要問題。
第一個創(chuàng)新是統(tǒng)一的設(shè)計空間。在TodoEvolve之前,AI規(guī)劃就像建筑行業(yè)的早期階段,每個建筑師都有自己的方法和標(biāo)準(zhǔn),很難相互借鑒和比較。PlanFactory的出現(xiàn)就像制定了建筑行業(yè)的統(tǒng)一標(biāo)準(zhǔn),讓不同的規(guī)劃方法能夠在同一個框架下進行比較和組合。這不僅簡化了研究工作,也為創(chuàng)新提供了更好的基礎(chǔ)。
第二個創(chuàng)新是阻抗引導(dǎo)的偏好優(yōu)化方法。傳統(tǒng)的AI訓(xùn)練往往只關(guān)注結(jié)果是否正確,就像只看考試成績而不關(guān)心學(xué)習(xí)過程。而IGPO方法不僅要求結(jié)果正確,還要求過程高效。它會綜合考慮完成任務(wù)的時間、消耗的資源、犯錯的次數(shù)等多個因素,訓(xùn)練AI尋找最優(yōu)的執(zhí)行路徑。這就像訓(xùn)練運動員不僅要跑得快,還要跑得省力、跑得穩(wěn)定。
第三個創(chuàng)新是動態(tài)架構(gòu)合成能力。傳統(tǒng)的AI系統(tǒng)在設(shè)計時就確定了架構(gòu),就像預(yù)制房屋,雖然建造快速但無法根據(jù)具體需求調(diào)整。TodoEvolve則像擁有了一個智能建筑師,能夠根據(jù)每個項目的具體要求設(shè)計專屬的建筑方案。這種動態(tài)適應(yīng)能力是TodoEvolve超越傳統(tǒng)系統(tǒng)的關(guān)鍵所在。
這三個創(chuàng)新相互支撐,形成了一個完整的技術(shù)體系。統(tǒng)一的設(shè)計空間提供了工具和材料,阻抗引導(dǎo)的優(yōu)化方法提供了質(zhì)量標(biāo)準(zhǔn),動態(tài)架構(gòu)合成提供了定制能力。三者結(jié)合,就像擁有了齊全的工具、明確的標(biāo)準(zhǔn)和專業(yè)的技能,能夠為每個具體任務(wù)提供最優(yōu)的解決方案。
研究團隊在論文中詳細闡述了這些技術(shù)的工作原理和實現(xiàn)細節(jié)。他們不僅提供了理論分析,還通過大量實驗驗證了每個組件的有效性。通過逐一去除某些組件的對比實驗,他們證明了每個創(chuàng)新都對整體性能有著不可替代的貢獻。
六、從實驗室走向現(xiàn)實應(yīng)用
TodoEvolve的價值不僅僅體現(xiàn)在實驗室測試中,更重要的是它為AI技術(shù)的實際應(yīng)用開辟了新的可能性。
在實際應(yīng)用場景中,不同的任務(wù)往往有著截然不同的要求。比如,醫(yī)療診斷系統(tǒng)需要極高的準(zhǔn)確性,寧可多花時間也不能出錯;而在線客服系統(tǒng)則需要快速響應(yīng),在保證基本準(zhǔn)確性的前提下盡量縮短等待時間;金融風(fēng)控系統(tǒng)需要在速度和準(zhǔn)確性之間找到最佳平衡點。傳統(tǒng)的AI系統(tǒng)很難同時滿足這些不同的需求,而TodoEvolve則能夠根據(jù)具體應(yīng)用場景動態(tài)調(diào)整策略。
研究團隊展示了幾個具體的應(yīng)用案例。在處理需要多步驟過濾和計算的復(fù)雜查詢時,TodoEvolve會自動選擇線性執(zhí)行模式,確保每一步都在前一步的基礎(chǔ)上正確進行。當(dāng)面臨需要同時從多個源頭收集信息的任務(wù)時,它會采用并行處理模式,大大提高效率。對于需要處理復(fù)雜實體關(guān)系的任務(wù),它會構(gòu)建圖形化的處理流程,確保所有相關(guān)信息都能被正確整合。
這種適應(yīng)性不僅提高了系統(tǒng)性能,還大大簡化了AI系統(tǒng)的部署和維護工作。傳統(tǒng)的方法需要為不同類型的任務(wù)開發(fā)專門的系統(tǒng),就像需要為不同的工作準(zhǔn)備不同的工具。而TodoEvolve就像擁有了一個萬能工匠,能夠根據(jù)需要調(diào)整自己的工作方式,一個系統(tǒng)就能勝任多種不同的工作。
從技術(shù)發(fā)展的角度看,TodoEvolve代表了AI系統(tǒng)設(shè)計思路的重要轉(zhuǎn)變。過去,我們傾向于設(shè)計功能單一但性能優(yōu)秀的專用系統(tǒng),就像制造專業(yè)工具。現(xiàn)在,我們開始探索如何讓AI系統(tǒng)具備更強的適應(yīng)性和通用性,就像培養(yǎng)全能的人才。這種轉(zhuǎn)變不僅提高了AI系統(tǒng)的實用價值,也為未來更復(fù)雜的AI應(yīng)用奠定了基礎(chǔ)。
展望未來,TodoEvolve的技術(shù)理念可能會影響更廣泛的AI研發(fā)領(lǐng)域。當(dāng)AI系統(tǒng)能夠根據(jù)任務(wù)特點自主調(diào)整架構(gòu)和策略時,我們就朝著真正智能的AI系統(tǒng)邁出了重要一步。這不僅是技術(shù)的進步,更是AI系統(tǒng)設(shè)計哲學(xué)的革新。
說到底,TodoEvolve的成功證明了一個重要觀點:最好的AI系統(tǒng)不是那些在單一任務(wù)上表現(xiàn)完美的系統(tǒng),而是那些能夠根據(jù)不同需求靈活調(diào)整、持續(xù)優(yōu)化的系統(tǒng)。就像最優(yōu)秀的工匠不是只會一種手藝的專家,而是能夠根據(jù)不同項目需求靈活運用各種技能的全才。
這項研究為AI技術(shù)的發(fā)展開辟了新的方向。它告訴我們,與其追求萬能的AI系統(tǒng),不如開發(fā)能夠自我適應(yīng)的智能系統(tǒng)。這種系統(tǒng)不僅能夠應(yīng)對當(dāng)前的各種挑戰(zhàn),更重要的是,它具備了面對未知挑戰(zhàn)的能力。當(dāng)新的任務(wù)類型出現(xiàn)時,它能夠快速學(xué)習(xí)和適應(yīng),就像一個經(jīng)驗豐富的專家面對新問題時的從容不迫。
對于普通用戶而言,這意味著未來的AI助手將更加智能和高效。無論你需要AI幫助處理什么類型的工作,它都能夠自動選擇最合適的工作方式,為你提供最優(yōu)質(zhì)的服務(wù)。這不是科幻電影中的想象,而是正在成為現(xiàn)實的技術(shù)突破。
Q&A
Q1:TodoEvolve和傳統(tǒng)AI規(guī)劃系統(tǒng)有什么本質(zhì)區(qū)別?
A:傳統(tǒng)AI規(guī)劃系統(tǒng)就像只會一種做事方法的人,不管面對什么任務(wù)都用同樣的方式處理。而TodoEvolve就像一個經(jīng)驗豐富的工匠,能夠根據(jù)每個具體任務(wù)的特點,自動選擇和設(shè)計最合適的處理方法。比如處理需要嚴格按步驟的任務(wù)時用線性方法,處理可以同時進行的任務(wù)時用并行方法。
Q2:普通用戶能感受到TodoEvolve帶來的改變嗎?
A:當(dāng)然能感受到。使用配備TodoEvolve的AI系統(tǒng)時,你會發(fā)現(xiàn)它處理不同類型任務(wù)的效率明顯提高了。比如讓AI幫你查資料時,它會根據(jù)查詢的復(fù)雜程度自動調(diào)整工作方式,簡單查詢快速完成,復(fù)雜查詢則會更仔細更準(zhǔn)確。就像有了一個真正理解你需求的智能助手。
Q3:TodoEvolve需要什么樣的硬件配置才能運行?
A:研究團隊設(shè)計TodoEvolve時就考慮了實用性,它可以在多種不同的AI模型上運行,包括開源模型如DeepSeek V3.2和商業(yè)模型如GPT-5-Mini等。這意味著不需要特殊的硬件配置,現(xiàn)有的AI系統(tǒng)通過軟件升級就能獲得TodoEvolve的能力增強。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.