<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      清華大學(xué)團(tuán)隊(duì)破解AI智能體規(guī)劃難題

      0
      分享至


      這項(xiàng)由清華大學(xué)司舒正、趙浩哲等研究者聯(lián)合北京大學(xué)、DeepLang AI及伊利諾伊大學(xué)香檳分校的團(tuán)隊(duì)共同完成的研究,發(fā)表于2025年10月7日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2510.05608v1。研究團(tuán)隊(duì)針對(duì)大語言模型在長(zhǎng)期任務(wù)中缺乏全局規(guī)劃能力的核心問題,提出了名為EAGLET的創(chuàng)新訓(xùn)練框架,讓AI智能體告別"無腦試錯(cuò)",學(xué)會(huì)像人類一樣進(jìn)行深思熟慮的規(guī)劃。

      當(dāng)前的AI智能體雖然在短期對(duì)話和簡(jiǎn)單任務(wù)中表現(xiàn)出色,但在需要多步驟操作的復(fù)雜任務(wù)中卻經(jīng)常表現(xiàn)得像無頭蒼蠅一樣盲目試錯(cuò)。就像一個(gè)人要完成"準(zhǔn)備一頓豐盛晚餐"這樣的任務(wù),如果沒有提前規(guī)劃,可能會(huì)先燒水、再買菜、然后發(fā)現(xiàn)忘記預(yù)熱烤箱,最后手忙腳亂地在各個(gè)步驟間跳來跳去,既浪費(fèi)時(shí)間又可能失敗。傳統(tǒng)的AI智能體正是面臨這樣的困境。

      研究團(tuán)隊(duì)觀察到,現(xiàn)有的訓(xùn)練方法要么讓AI通過大量專家標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí),要么通過強(qiáng)化學(xué)習(xí)讓AI在環(huán)境中反復(fù)試錯(cuò)。前者就像讓學(xué)生只靠死記硬背標(biāo)準(zhǔn)答案來學(xué)習(xí),缺乏靈活應(yīng)對(duì)新情況的能力;后者則像讓學(xué)生在考試中盲目猜答案,雖然最終可能找到正確答案,但過程效率極低且成本高昂。更關(guān)鍵的是,這兩種方法都只關(guān)注"局部規(guī)劃",即在每一步執(zhí)行時(shí)才考慮下一步該做什么,缺乏對(duì)整個(gè)任務(wù)的全局把握。

      EAGLET框架的核心創(chuàng)新在于將規(guī)劃和執(zhí)行完全分離,就像優(yōu)秀的廚師會(huì)先制定完整的烹飪計(jì)劃,再按計(jì)劃執(zhí)行每個(gè)步驟。該框架包含兩個(gè)主要階段:首先是"冷啟動(dòng)"的有監(jiān)督微調(diào)階段,然后是基于規(guī)則的強(qiáng)化學(xué)習(xí)階段。

      一、打造智能規(guī)劃師:從頂級(jí)大模型中"萃取"規(guī)劃智慧

      研究團(tuán)隊(duì)首先面臨一個(gè)實(shí)際問題:如何獲得高質(zhì)量的全局規(guī)劃樣本來訓(xùn)練規(guī)劃器?傳統(tǒng)方法通常依賴人工標(biāo)注,這既昂貴又難以保證質(zhì)量一致性。團(tuán)隊(duì)巧妙地選擇了"站在巨人肩膀上"的策略,利用GPT-5和DeepSeek-V3.1-Think等最先進(jìn)的大語言模型來生成初始規(guī)劃樣本。

      這個(gè)過程就像邀請(qǐng)頂級(jí)大廚來制定菜譜。研究團(tuán)隊(duì)向這些先進(jìn)模型提供任務(wù)描述和成功完成任務(wù)的詳細(xì)過程,要求它們總結(jié)出可以重復(fù)使用的抽象規(guī)劃步驟。例如,對(duì)于"在科學(xué)實(shí)驗(yàn)中測(cè)量物質(zhì)密度"這個(gè)任務(wù),規(guī)劃器學(xué)會(huì)了"步驟1:尋找并收集所需的測(cè)量工具;步驟2:準(zhǔn)備待測(cè)樣本;步驟3:進(jìn)行質(zhì)量測(cè)量;步驟4:進(jìn)行體積測(cè)量;步驟5:計(jì)算密度并記錄結(jié)果"這樣的通用規(guī)劃模式。

      但是,即使是最先進(jìn)的大模型生成的規(guī)劃也可能存在質(zhì)量問題。有些規(guī)劃可能過于復(fù)雜,有些可能遺漏關(guān)鍵步驟,還有些可能包含錯(cuò)誤的邏輯順序。為了解決這個(gè)問題,團(tuán)隊(duì)提出了"同源共識(shí)過濾"策略。

      二、同源共識(shí)過濾:讓多個(gè)"評(píng)委"共同把關(guān)規(guī)劃質(zhì)量

      同源共識(shí)過濾的基本思想是讓多個(gè)能力不同但架構(gòu)相似的執(zhí)行器來評(píng)估每個(gè)規(guī)劃的有效性。研究團(tuán)隊(duì)選擇了兩個(gè)"同源"的執(zhí)行器:一個(gè)是基礎(chǔ)的Llama-3.1-8B模型(可以視為"新手執(zhí)行器"),另一個(gè)是經(jīng)過專門訓(xùn)練的GiGPO-Llama-3.1-8B模型(可以視為"專家執(zhí)行器")。之所以選擇"同源"模型,是為了確保它們的差異主要體現(xiàn)在任務(wù)執(zhí)行能力上,而不是在語言理解、上下文處理等基礎(chǔ)能力上存在根本性差異。

      過濾過程就像讓兩位水平不同的廚師按照同一份菜譜做菜。如果菜譜寫得清楚合理,那么無論是新手還是專家都應(yīng)該能按照菜譜做出像樣的菜;但如果菜譜有問題(比如步驟順序錯(cuò)誤、缺少關(guān)鍵材料等),那么至少其中一位廚師會(huì)遇到困難,做出來的菜會(huì)明顯不如他們不看菜譜時(shí)的水平。

      具體來說,團(tuán)隊(duì)讓每個(gè)執(zhí)行器分別在有規(guī)劃指導(dǎo)和無規(guī)劃指導(dǎo)的情況下執(zhí)行相同的任務(wù),然后比較兩種情況下的表現(xiàn)。如果某個(gè)規(guī)劃確實(shí)有幫助,那么兩個(gè)執(zhí)行器在使用該規(guī)劃時(shí)的表現(xiàn)都應(yīng)該比不使用規(guī)劃時(shí)更好。如果規(guī)劃質(zhì)量有問題,可能會(huì)導(dǎo)致其中一個(gè)或兩個(gè)執(zhí)行器的表現(xiàn)下降。只有通過這種"雙重驗(yàn)證"的規(guī)劃才會(huì)被保留用于訓(xùn)練。

      通過這種方法,團(tuán)隊(duì)成功篩選出了真正有效的高質(zhì)量規(guī)劃樣本,為后續(xù)的訓(xùn)練奠定了堅(jiān)實(shí)基礎(chǔ)。這些經(jīng)過篩選的規(guī)劃樣本隨后被用于對(duì)基礎(chǔ)模型進(jìn)行有監(jiān)督微調(diào),讓規(guī)劃器獲得生成合理規(guī)劃的初步能力。

      三、執(zhí)行器能力增益獎(jiǎng)勵(lì):讓規(guī)劃器學(xué)會(huì)"因材施教"

      僅僅通過有監(jiān)督微調(diào)獲得的規(guī)劃器雖然能生成合理的規(guī)劃,但往往只能處理與訓(xùn)練樣本類似的簡(jiǎn)單任務(wù)。當(dāng)面對(duì)更復(fù)雜或稍有變化的任務(wù)時(shí),規(guī)劃器可能會(huì)生成過于簡(jiǎn)單或不夠精確的規(guī)劃。為了讓規(guī)劃器能夠處理各種難度的任務(wù),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)創(chuàng)新的強(qiáng)化學(xué)習(xí)階段。

      傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通常直接使用任務(wù)完成率作為獎(jiǎng)勵(lì)信號(hào),但這種方法存在明顯缺陷。就像評(píng)價(jià)一份菜譜的好壞不應(yīng)該只看最終做出的菜是否好吃,還要看這份菜譜是否真正起到了指導(dǎo)作用。如果一位廚藝精湛的大廚即使拿到一份糟糕的菜譜也能憑借自己的經(jīng)驗(yàn)做出美味的菜,那么我們不能因此認(rèn)為這份菜譜是好的。

      為了解決這個(gè)問題,團(tuán)隊(duì)提出了"執(zhí)行器能力增益獎(jiǎng)勵(lì)"(ECGR)機(jī)制。這個(gè)機(jī)制的核心思想是評(píng)估一個(gè)規(guī)劃對(duì)不同能力水平的執(zhí)行器帶來的幫助程度。具體來說,團(tuán)隊(duì)讓同樣的兩個(gè)同源執(zhí)行器(新手和專家)分別在有規(guī)劃和無規(guī)劃的情況下執(zhí)行任務(wù),然后計(jì)算規(guī)劃帶來的性能提升。

      更進(jìn)一步,團(tuán)隊(duì)還在獎(jiǎng)勵(lì)函數(shù)中加入了"效率激勵(lì)"因子。這意味著不僅要看規(guī)劃是否能幫助執(zhí)行器完成任務(wù),還要看是否能幫助執(zhí)行器更快、更高效地完成任務(wù)。就像好的菜譜不僅要保證菜的質(zhì)量,還要盡可能減少不必要的步驟和等待時(shí)間。

      通過這種方式,規(guī)劃器逐漸學(xué)會(huì)了根據(jù)任務(wù)的復(fù)雜程度生成相應(yīng)詳細(xì)程度的規(guī)劃。對(duì)于簡(jiǎn)單任務(wù),規(guī)劃器會(huì)生成簡(jiǎn)潔明了的步驟;對(duì)于復(fù)雜任務(wù),規(guī)劃器會(huì)提供更詳細(xì)、更具體的指導(dǎo)。這種"因材施教"的能力讓規(guī)劃器能夠有效處理各種難度級(jí)別的任務(wù)。

      四、三大實(shí)驗(yàn)場(chǎng)景驗(yàn)證:從科學(xué)實(shí)驗(yàn)到網(wǎng)購(gòu)都游刃有余

      為了全面驗(yàn)證EAGLET框架的效果,研究團(tuán)隊(duì)在三個(gè)截然不同的長(zhǎng)期任務(wù)場(chǎng)景中進(jìn)行了大規(guī)模實(shí)驗(yàn)。

      第一個(gè)測(cè)試場(chǎng)景是ScienceWorld,這是一個(gè)模擬科學(xué)實(shí)驗(yàn)室的虛擬環(huán)境。在這里,AI智能體需要完成各種科學(xué)實(shí)驗(yàn),比如測(cè)量物質(zhì)的熔點(diǎn)、觀察化學(xué)反應(yīng)、種植植物等。這些任務(wù)不僅需要多個(gè)步驟,還要求智能體理解科學(xué)原理和實(shí)驗(yàn)流程。就像一個(gè)真實(shí)的科學(xué)家需要先了解實(shí)驗(yàn)?zāi)繕?biāo),然后準(zhǔn)備實(shí)驗(yàn)器材,按照正確順序進(jìn)行操作,最后分析結(jié)果。

      第二個(gè)測(cè)試場(chǎng)景是ALFWorld,這是一個(gè)家庭環(huán)境模擬器。智能體需要完成各種家務(wù)任務(wù),比如"把加熱過的杯子放到櫥柜里"或"清潔土豆并把它放到冰箱里"。這些任務(wù)看似簡(jiǎn)單,但實(shí)際上需要智能體理解物理世界的常識(shí),知道如何操作各種家用設(shè)備,并能夠在復(fù)雜的家庭環(huán)境中導(dǎo)航。

      第三個(gè)測(cè)試場(chǎng)景是WebShop,這是一個(gè)在線購(gòu)物模擬環(huán)境。智能體需要根據(jù)用戶需求在電商網(wǎng)站上搜索、比較和購(gòu)買商品。這類任務(wù)需要智能體理解自然語言描述的購(gòu)買需求,在龐大的商品數(shù)據(jù)庫(kù)中找到合適的產(chǎn)品,并能夠處理各種購(gòu)買流程中的細(xì)節(jié)問題。

      實(shí)驗(yàn)結(jié)果令人印象深刻。在所有三個(gè)測(cè)試場(chǎng)景中,配備了EAGLET規(guī)劃器的執(zhí)行器都顯著超越了沒有規(guī)劃指導(dǎo)的基線方法。具體來說,在ScienceWorld的已見場(chǎng)景中,性能提升了約20個(gè)百分點(diǎn);在未見場(chǎng)景中,提升幅度甚至達(dá)到了25個(gè)百分點(diǎn)。在ALFWorld中,已見和未見場(chǎng)景的平均提升都在15個(gè)百分點(diǎn)以上。在WebShop中,性能提升也達(dá)到了10個(gè)百分點(diǎn)左右。

      更重要的是,這些提升不僅體現(xiàn)在任務(wù)完成率上,還體現(xiàn)在執(zhí)行效率上。使用EAGLET規(guī)劃器的智能體平均只需要更少的步驟就能完成同樣的任務(wù),這意味著規(guī)劃器確實(shí)幫助智能體避免了無效的試錯(cuò)過程。

      五、效率革命:訓(xùn)練成本降低8倍的技術(shù)突破

      除了性能提升,EAGLET框架在訓(xùn)練效率方面也實(shí)現(xiàn)了顯著突破。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法需要智能體在環(huán)境中進(jìn)行大量試錯(cuò),通常需要數(shù)百個(gè)訓(xùn)練迭代才能收斂。而EAGLET框架由于采用了更精準(zhǔn)的獎(jiǎng)勵(lì)設(shè)計(jì)和高質(zhì)量的初始數(shù)據(jù),只需要大約50個(gè)訓(xùn)練迭代就能達(dá)到優(yōu)異性能,相比傳統(tǒng)方法減少了8倍的訓(xùn)練時(shí)間。

      這種效率提升的意義不僅在于節(jié)省計(jì)算資源和時(shí)間成本,更重要的是讓更多研究團(tuán)隊(duì)和應(yīng)用開發(fā)者能夠負(fù)擔(dān)得起訓(xùn)練高質(zhì)量智能體的成本。就像從手工制作汽車發(fā)展到流水線生產(chǎn),EAGLET框架讓訓(xùn)練智能規(guī)劃器從奢侈品變成了普通人也能使用的工具。

      此外,EAGLET框架具有很強(qiáng)的"即插即用"特性。一旦訓(xùn)練完成,規(guī)劃器可以輕松地與不同的執(zhí)行器配合使用,而無需重新訓(xùn)練。這就像制定了一套通用的工作流程手冊(cè),不同能力水平的員工都可以參考這套手冊(cè)來提高工作效率。

      六、深度分析:為什么EAGLET能夠脫穎而出

      研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析了EAGLET框架中每個(gè)組件的貢獻(xiàn)。實(shí)驗(yàn)發(fā)現(xiàn),如果移除同源共識(shí)過濾步驟,性能會(huì)下降約3個(gè)百分點(diǎn),這證明了高質(zhì)量訓(xùn)練數(shù)據(jù)的重要性。如果移除執(zhí)行器能力增益獎(jiǎng)勵(lì)機(jī)制,性能下降幅度更大,達(dá)到了約5個(gè)百分點(diǎn),這說明了創(chuàng)新獎(jiǎng)勵(lì)設(shè)計(jì)的關(guān)鍵作用。

      團(tuán)隊(duì)還探索了規(guī)劃插入位置對(duì)性能的影響。他們發(fā)現(xiàn),將規(guī)劃信息直接插入任務(wù)指令中效果最好,這比插入到智能體的思考過程中或環(huán)境觀察中都要更有效。這個(gè)發(fā)現(xiàn)揭示了規(guī)劃信息應(yīng)該在智能體處理任務(wù)的最早階段就發(fā)揮作用,而不是在執(zhí)行過程中才起到指導(dǎo)作用。

      另一個(gè)有趣的發(fā)現(xiàn)是,EAGLET生成的規(guī)劃在多個(gè)維度上都優(yōu)于直接使用GPT-4.1生成的規(guī)劃。在正確性、可操作性和標(biāo)準(zhǔn)化程度方面,經(jīng)過專門訓(xùn)練的規(guī)劃器都表現(xiàn)得更好。這說明了專門的規(guī)劃訓(xùn)練確實(shí)能夠產(chǎn)生比通用大模型更適合特定任務(wù)的規(guī)劃能力。

      七、真實(shí)案例展示:AI智能體的規(guī)劃能力對(duì)比

      為了更直觀地展示EAGLET的效果,研究團(tuán)隊(duì)提供了一個(gè)具體的案例分析。任務(wù)是"把一個(gè)熱杯子放到櫥柜里",這看似簡(jiǎn)單但實(shí)際上需要多個(gè)精確步驟的協(xié)調(diào)。

      沒有規(guī)劃指導(dǎo)的智能體表現(xiàn)就像一個(gè)慌亂的新手。它首先找到了一個(gè)馬克杯而不是杯子,加熱后放入櫥柜,然后開始重復(fù)說"任務(wù)完成"但實(shí)際上任務(wù)并未正確完成。智能體陷入了無限循環(huán),直到達(dá)到最大步數(shù)限制仍未成功。

      使用傳統(tǒng)MPO方法的智能體稍好一些,它有一個(gè)固定的行動(dòng)序列,但這個(gè)序列基于錯(cuò)誤假設(shè)(認(rèn)為杯子在冰箱里),當(dāng)發(fā)現(xiàn)冰箱里只有馬克杯時(shí),智能體雖然能夠適應(yīng)性地使用馬克杯,但同樣陷入了重復(fù)"任務(wù)完成"的循環(huán)。

      相比之下,使用EAGLET規(guī)劃器的智能體表現(xiàn)得像一個(gè)有經(jīng)驗(yàn)的專家。它首先系統(tǒng)性地搜索杯子,找到馬克杯后意識(shí)到任務(wù)要求的是"杯子"而不是"馬克杯",于是繼續(xù)搜索直到找到真正的杯子。然后它高效地完成了加熱和放置步驟,整個(gè)過程只用了16步就成功完成任務(wù),展現(xiàn)出了清晰的目標(biāo)導(dǎo)向和適應(yīng)性。

      八、技術(shù)創(chuàng)新的深層意義:從反應(yīng)式到預(yù)見性AI

      EAGLET框架的成功不僅僅是一個(gè)技術(shù)改進(jìn),它代表了AI智能體發(fā)展的一個(gè)重要轉(zhuǎn)折點(diǎn)。傳統(tǒng)的智能體本質(zhì)上是"反應(yīng)式"的,它們根據(jù)當(dāng)前狀態(tài)做出決策,缺乏對(duì)未來的預(yù)見和規(guī)劃。而EAGLET讓智能體具備了"預(yù)見性",能夠在執(zhí)行任務(wù)之前就制定全局策略。

      這種轉(zhuǎn)變的意義可以通過一個(gè)簡(jiǎn)單的比喻來理解。傳統(tǒng)智能體就像在迷宮中盲目摸索的人,每到一個(gè)路口就隨機(jī)選擇方向,雖然最終可能找到出口,但過程充滿了回頭路和無效探索。而配備了EAGLET規(guī)劃器的智能體則像拿到了迷宮地圖的人,能夠事先規(guī)劃最優(yōu)路徑,避免大部分不必要的探索。

      這種預(yù)見性能力對(duì)于AI在現(xiàn)實(shí)世界中的應(yīng)用具有重要意義。無論是工業(yè)機(jī)器人執(zhí)行復(fù)雜裝配任務(wù),還是服務(wù)機(jī)器人幫助老年人完成日常活動(dòng),或者是自動(dòng)駕駛汽車在復(fù)雜交通環(huán)境中導(dǎo)航,都需要這種全局規(guī)劃和預(yù)見性決策的能力。

      九、局限性與未來展望:技術(shù)發(fā)展的下一步

      研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了EAGLET框架的當(dāng)前局限性。首先,目前的實(shí)驗(yàn)主要集中在基于文本的交互環(huán)境中,對(duì)于涉及圖像、視頻等多模態(tài)信息的復(fù)雜現(xiàn)實(shí)場(chǎng)景,框架的適用性還需要進(jìn)一步驗(yàn)證。其次,同源共識(shí)過濾和執(zhí)行器能力增益獎(jiǎng)勵(lì)機(jī)制雖然有效,但仍然依賴于多個(gè)執(zhí)行器的可用性,這在某些應(yīng)用場(chǎng)景中可能不太現(xiàn)實(shí)。

      另外,雖然EAGLET顯著提高了訓(xùn)練效率,但對(duì)于需要處理完全不同類型任務(wù)的跨領(lǐng)域應(yīng)用,規(guī)劃器的泛化能力仍有提升空間。目前的規(guī)劃器在特定領(lǐng)域內(nèi)表現(xiàn)優(yōu)異,但要讓同一個(gè)規(guī)劃器既能處理科學(xué)實(shí)驗(yàn)又能處理家務(wù)活動(dòng),還需要更多的技術(shù)創(chuàng)新。

      展望未來,研究團(tuán)隊(duì)認(rèn)為有幾個(gè)重要的發(fā)展方向。首先是擴(kuò)展到多模態(tài)環(huán)境,讓規(guī)劃器能夠處理包含視覺、聽覺等多種感官信息的復(fù)雜任務(wù)。其次是開發(fā)更輕量級(jí)的評(píng)估機(jī)制,減少對(duì)多個(gè)執(zhí)行器的依賴。最后是探索更強(qiáng)的跨領(lǐng)域泛化能力,讓單個(gè)規(guī)劃器能夠處理更廣泛類型的任務(wù)。

      十、對(duì)未來AI發(fā)展的啟示:從模仿到創(chuàng)造的跨越

      EAGLET框架的成功為AI發(fā)展提供了重要啟示。長(zhǎng)期以來,AI研究主要關(guān)注如何讓機(jī)器更好地模仿人類的行為模式,但EAGLET展示了一種不同的思路:讓機(jī)器學(xué)會(huì)像人類一樣思考和規(guī)劃。

      這種轉(zhuǎn)變的深層意義在于,它讓AI從簡(jiǎn)單的模式匹配和反應(yīng)式行為轉(zhuǎn)向了更高層次的認(rèn)知能力。真正的智能不僅在于能夠正確響應(yīng)當(dāng)前情況,更在于能夠預(yù)見未來可能遇到的問題并提前制定應(yīng)對(duì)策略。

      從更廣闊的視角來看,EAGLET框架代表了AI從"工具"向"助手"轉(zhuǎn)變的重要一步。傳統(tǒng)的AI更像是高級(jí)計(jì)算器,能夠快速處理大量數(shù)據(jù)但缺乏主動(dòng)性。而具備規(guī)劃能力的AI更像是智能助手,能夠理解用戶的深層需求,主動(dòng)提出解決方案,并協(xié)助用戶實(shí)現(xiàn)復(fù)雜目標(biāo)。

      說到底,EAGLET框架最重要的貢獻(xiàn)不僅在于提高了任務(wù)完成的效率和準(zhǔn)確性,更在于為AI智能體注入了"深謀遠(yuǎn)慮"的能力。在一個(gè)越來越復(fù)雜和動(dòng)態(tài)的世界中,這種規(guī)劃和預(yù)見能力將成為AI系統(tǒng)不可或缺的核心特征。就像人類文明的進(jìn)步離不開規(guī)劃和前瞻思維一樣,AI的下一個(gè)發(fā)展階段也必然需要這種更高層次的認(rèn)知能力。

      當(dāng)我們回顧這項(xiàng)研究時(shí),會(huì)發(fā)現(xiàn)它不僅解決了一個(gè)技術(shù)問題,更重要的是為AI的未來發(fā)展指明了方向。在不久的將來,當(dāng)我們與AI助手協(xié)作處理復(fù)雜項(xiàng)目時(shí),當(dāng)AI醫(yī)生為我們制定長(zhǎng)期治療方案時(shí),當(dāng)AI教師為學(xué)生設(shè)計(jì)個(gè)性化學(xué)習(xí)路徑時(shí),EAGLET這樣的規(guī)劃框架將成為讓這一切成為可能的基礎(chǔ)技術(shù)。對(duì)于任何關(guān)心AI未來發(fā)展的人來說,這項(xiàng)研究都值得深入了解和持續(xù)關(guān)注。有興趣了解更多技術(shù)細(xì)節(jié)的讀者可以通過論文編號(hào)arXiv:2510.05608v1查詢完整研究?jī)?nèi)容。

      Q&A

      Q1:EAGLET框架是什么?它解決了AI的什么問題?

      A:EAGLET是清華大學(xué)團(tuán)隊(duì)開發(fā)的AI智能體訓(xùn)練框架,主要解決AI在長(zhǎng)期復(fù)雜任務(wù)中缺乏全局規(guī)劃、容易盲目試錯(cuò)的問題。它將規(guī)劃和執(zhí)行分離,讓AI學(xué)會(huì)像人類一樣先制定整體計(jì)劃再逐步執(zhí)行,避免了無頭蒼蠅式的隨機(jī)嘗試。

      Q2:EAGLET的訓(xùn)練效率為什么比傳統(tǒng)方法高這么多?

      A:傳統(tǒng)強(qiáng)化學(xué)習(xí)方法需要AI在環(huán)境中大量試錯(cuò),通常要幾百個(gè)訓(xùn)練周期。而EAGLET通過高質(zhì)量的初始數(shù)據(jù)和精準(zhǔn)的獎(jiǎng)勵(lì)設(shè)計(jì),只需要約50個(gè)訓(xùn)練周期就能達(dá)到優(yōu)異效果,訓(xùn)練成本降低了8倍。這主要得益于其同源共識(shí)過濾機(jī)制保證了訓(xùn)練數(shù)據(jù)質(zhì)量,以及執(zhí)行器能力增益獎(jiǎng)勵(lì)讓學(xué)習(xí)更加高效。

      Q3:EAGLET框架適用于哪些實(shí)際應(yīng)用場(chǎng)景?

      A:目前EAGLET已在科學(xué)實(shí)驗(yàn)、家庭任務(wù)和網(wǎng)購(gòu)等場(chǎng)景中驗(yàn)證有效。未來可以應(yīng)用到工業(yè)機(jī)器人裝配、服務(wù)機(jī)器人護(hù)理、自動(dòng)駕駛導(dǎo)航等需要多步規(guī)劃的復(fù)雜任務(wù)中。不過目前主要適用于基于文本交互的環(huán)境,對(duì)多模態(tài)復(fù)雜場(chǎng)景的適用性還在進(jìn)一步研究中。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “新疆棉”事件5年后,那個(gè)丑態(tài)百出的“反華妖女”,如今怎樣了

      “新疆棉”事件5年后,那個(gè)丑態(tài)百出的“反華妖女”,如今怎樣了

      博覽歷史
      2025-09-10 20:25:07
      不同品牌奧司他韋售價(jià)差70倍

      不同品牌奧司他韋售價(jià)差70倍

      大象新聞
      2025-12-12 21:57:01
      香港神秘男子花600萬港幣求購(gòu)5套大埔火災(zāi)房,稱不在乎破壞程度及死亡事件!港府:災(zāi)前入住才能獲補(bǔ)助和安置

      香港神秘男子花600萬港幣求購(gòu)5套大埔火災(zāi)房,稱不在乎破壞程度及死亡事件!港府:災(zāi)前入住才能獲補(bǔ)助和安置

      澳門月刊
      2025-12-12 09:28:45
      五月天經(jīng)紀(jì)人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      五月天經(jīng)紀(jì)人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      老范談史
      2025-12-10 19:22:28
      2026養(yǎng)老金調(diào)整信號(hào)落地,不按工齡漲么,答案在這幾個(gè)關(guān)鍵信號(hào)里

      2026養(yǎng)老金調(diào)整信號(hào)落地,不按工齡漲么,答案在這幾個(gè)關(guān)鍵信號(hào)里

      陳博世財(cái)經(jīng)
      2025-12-12 14:21:46
      增設(shè)兩個(gè)車站,佛穗莞城際鐵路新進(jìn)展

      增設(shè)兩個(gè)車站,佛穗莞城際鐵路新進(jìn)展

      南方都市報(bào)
      2025-12-09 11:22:08
      中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

      中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

      等風(fēng)來育兒聯(lián)盟
      2025-08-01 12:21:35
      全紅嬋擔(dān)心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      全紅嬋擔(dān)心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      以茶帶書
      2025-11-21 12:08:09
      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      郝小小看體育
      2025-12-13 05:21:07
      放棄中國(guó)國(guó)籍投靠日本,結(jié)果日本不收中國(guó)不要,成為夾縫中的黑戶

      放棄中國(guó)國(guó)籍投靠日本,結(jié)果日本不收中國(guó)不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      樊振東與小朱大夢(mèng)的友情,真摯而暖心

      樊振東與小朱大夢(mèng)的友情,真摯而暖心

      眼界看視野
      2025-12-12 20:58:53
      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      風(fēng)過鄉(xiāng)
      2025-12-12 20:54:43
      曼聯(lián)冬窗簽中場(chǎng)計(jì)劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      曼聯(lián)冬窗簽中場(chǎng)計(jì)劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      羅米的曼聯(lián)博客
      2025-12-13 11:02:12
      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      環(huán)球網(wǎng)資訊
      2025-12-12 10:54:53
      女孩曬出已故父親合影,沒想到卻是網(wǎng)友先繃不住了:這不是……

      女孩曬出已故父親合影,沒想到卻是網(wǎng)友先繃不住了:這不是……

      譚老師地理大課堂
      2025-12-11 22:20:25
      一年兩次分紅股息率5%,股價(jià)從94元跌到35元,市盈率僅7倍

      一年兩次分紅股息率5%,股價(jià)從94元跌到35元,市盈率僅7倍

      投資觀
      2025-12-13 07:10:03
      外賣時(shí)代將被終結(jié)?一個(gè)全新行業(yè)正悄悄取代外賣,你準(zhǔn)備好了嗎?

      外賣時(shí)代將被終結(jié)?一個(gè)全新行業(yè)正悄悄取代外賣,你準(zhǔn)備好了嗎?

      貓叔東山再起
      2025-12-10 10:05:04
      在國(guó)安局維修電臺(tái)18年,退役前夜發(fā)現(xiàn)一臺(tái)廢機(jī)有神秘信號(hào)!

      在國(guó)安局維修電臺(tái)18年,退役前夜發(fā)現(xiàn)一臺(tái)廢機(jī)有神秘信號(hào)!

      千秋文化
      2025-12-08 10:53:53
      說說大V九邊為何如此感嘆“《芳華》又火了”

      說說大V九邊為何如此感嘆“《芳華》又火了”

      人格志
      2025-12-06 00:06:19
      每天這樣跪趴10分鐘,內(nèi)分泌正常了,肩頸腰背都不痛了!

      每天這樣跪趴10分鐘,內(nèi)分泌正常了,肩頸腰背都不痛了!

      瑜伽解剖學(xué)
      2025-11-26 16:19:27
      2025-12-13 12:04:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      6531文章數(shù) 542關(guān)注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態(tài)

      頭條要聞

      央媒談美新國(guó)安報(bào)告:時(shí)隔8年 美國(guó)提到中國(guó)的語氣變了

      頭條要聞

      央媒談美新國(guó)安報(bào)告:時(shí)隔8年 美國(guó)提到中國(guó)的語氣變了

      體育要聞

      有了風(fēng)騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應(yīng)爭(zhēng)議,否認(rèn)出軌贈(zèng)送香水

      財(cái)經(jīng)要聞

      鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

      汽車要聞

      表面風(fēng)平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

      態(tài)度原創(chuàng)

      本地
      手機(jī)
      游戲
      公開課
      軍事航空

      本地新聞

      云游安徽|阜陽三朝風(fēng)骨,傳承千年墨香

      手機(jī)要聞

      三星Galaxy S26 Ultra已入網(wǎng):驍龍雞血版+60W快充,售價(jià)或破萬

      《生化危機(jī)9》里昂保時(shí)捷座駕車牌號(hào)竟藏匿彩蛋

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏“和平計(jì)劃”磋商頓巴斯成焦點(diǎn)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品国产一区二区三区四区| 久久国产精品萌白酱免费| 中文字幕亚洲综合久久综合| 精品亚洲麻豆1区2区3区| 亚洲伊人精品久视频国产| 久久er99热精品一区二区| 睢宁县| 好硬好湿好爽好深视频| 最大胆裸体人体牲交| 一区二区三区无码免费看| 第一色网| 成人综合网址| 亚洲中文无码av在线| 97久久超碰国产精品2021| 亚洲日韩字幕| 新绛县| 久久综合88熟人妻| 伊人激情网| 一本色道久久综合无码人妻88| 苏州市| 一边吃奶一边做动态图| 亚洲一区二区在线无码| 亚洲乱熟女| 人妻系列一区| 性色av免费观看| 五月天国产成人av免费观看| 一本色道久久综合亚洲精品按摩| 无码人妻一区二区三区免费n鬼沢| 成人亚洲欧美成αⅴ人在线观看| 色色99| www.欧美乱伦.con| 日韩美女久久| 国产午夜鲁丝片av无码| 国产精品美女黑丝流水| 人妻久久久| 久久人妻av2区| 久久人妻少妇嫩草av蜜桃| 久久精产国品一二三产品| 老熟女av| 捆绑白丝粉色jk震动捧喷白浆| 中文字幕一区二区三区精华液|