![]()
這項(xiàng)由中國電信人工智能研究院的楊思遠(yuǎn)、張洋等研究人員聯(lián)合清華大學(xué)、中科大、香港科技大學(xué)的研究團(tuán)隊共同完成的研究,于2024年12月2日發(fā)布在arXiv預(yù)印本平臺上,論文編號為arXiv:2512.02834v1。有興趣深入了解的讀者可以通過這個編號查詢完整論文。
當(dāng)我們看到一個熟練的廚師在廚房里工作時,會發(fā)現(xiàn)他們總是能夠精準(zhǔn)地完成每一個動作——切菜時刀起刀落干脆利落,調(diào)味時分量恰到好處,端盤時穩(wěn)如泰山。然而,現(xiàn)在的機(jī)器人卻常常像是一個剛學(xué)做飯的新手,雖然已經(jīng)學(xué)會了基本技能,但在實(shí)際操作時總是會出現(xiàn)各種意外狀況。有時候它們會突然"手抖",有時候又會選擇完全錯誤的動作,就像一個人明明知道怎么做菜,但每次下廚都可能把菜做糊。
這個問題的根源在于,現(xiàn)在的機(jī)器人就像是一個裝滿了各種烹飪知識的大腦,但缺乏一個"品嘗機(jī)制"來判斷自己即將做出的動作是否正確。它們在訓(xùn)練時接收了大量的示范數(shù)據(jù),就像看了無數(shù)個烹飪視頻,但其中既有大廚的精湛技藝,也有新手的笨拙操作,還有各種風(fēng)格迥異的做法。當(dāng)機(jī)器人真正開始行動時,它們往往會隨機(jī)地從這個龐大的"食譜庫"中選擇一種做法,而無法判斷哪種做法最適合當(dāng)前的情況。
中國電信人工智能研究院的研究團(tuán)隊注意到了這個關(guān)鍵問題,他們發(fā)現(xiàn)即使是同一個訓(xùn)練有素的機(jī)器人,在面對相同任務(wù)時,僅僅因?yàn)閮?nèi)部"拋硬幣"(隨機(jī)性)的結(jié)果不同,成功率就可能從80%驟降到0%。這就像是一個會做菜的人,今天可能做出美味佳肴,明天卻可能把廚房燒了,完全取決于運(yùn)氣。
研究團(tuán)隊提出了一個名為"TACO"的創(chuàng)新解決方案,這個名字代表"Test-time Anti-exploration via pseudo-COunts",翻譯過來就是"通過偽計數(shù)在測試時進(jìn)行反探索"。聽起來很技術(shù)化,但其核心思想其實(shí)就像給機(jī)器人安裝了一個"味覺系統(tǒng)",讓它能夠在行動前"品嘗"一下自己即將做出的動作,選擇最"美味"(最可靠)的那一個。
這個方法的巧妙之處在于,它不需要重新訓(xùn)練機(jī)器人,而是在機(jī)器人行動的那一刻給它裝上了一個"智能顧問"。當(dāng)機(jī)器人面臨選擇時,這個顧問會迅速生成多個可能的行動方案,然后像經(jīng)驗(yàn)豐富的老師傅一樣,通過"看一眼、聞一聞、想一想",判斷哪個方案最像訓(xùn)練數(shù)據(jù)中那些成功的案例,然后建議機(jī)器人選擇那個最靠譜的方案。
這種方法的效果相當(dāng)顯著。在真實(shí)的機(jī)器人實(shí)驗(yàn)中,裝備了TACO系統(tǒng)的機(jī)器人的成功率平均提高了16%。在復(fù)雜的模擬環(huán)境中,改進(jìn)效果更加明顯,某些任務(wù)的成功率提升甚至超過了20%。更重要的是,這個系統(tǒng)的運(yùn)行效率很高,就像一個經(jīng)驗(yàn)豐富的助手,雖然需要多考慮幾秒鐘,但能夠顯著提高工作質(zhì)量。
**一、機(jī)器人行為的"多重人格"問題**
要理解這項(xiàng)研究的重要性,我們需要先了解現(xiàn)代機(jī)器人面臨的一個根本性挑戰(zhàn)。現(xiàn)在的智能機(jī)器人就像是一個擁有多重技能的演員,它們通過觀看大量的示范視頻學(xué)會了各種動作。但問題是,這些示范視頻來源復(fù)雜多樣——有專業(yè)操作員的標(biāo)準(zhǔn)動作,有普通人的隨意操作,還有各種不同風(fēng)格和水平的示范。
當(dāng)機(jī)器人學(xué)習(xí)這些數(shù)據(jù)時,它們就像海綿一樣全部吸收,無法區(qū)分哪些是值得模仿的"黃金標(biāo)準(zhǔn)",哪些是應(yīng)該避免的"負(fù)面教材"。更糟糕的是,即使是同樣優(yōu)秀的示范,也可能存在多種不同的執(zhí)行方式。比如抓取一個杯子,可以從頂部抓,也可以從側(cè)面抓,兩種方法都正確,但在特定情況下可能只有一種是最佳選擇。
研究團(tuán)隊通過實(shí)驗(yàn)發(fā)現(xiàn)了一個令人震驚的現(xiàn)象:同一個訓(xùn)練良好的機(jī)器人,在執(zhí)行完全相同的任務(wù)時,僅僅因?yàn)閮?nèi)部隨機(jī)種子的不同,成功率就會出現(xiàn)巨大差異。這就像一個經(jīng)驗(yàn)豐富的廚師,今天做菜可能得到五星好評,明天卻可能被投訴難以下咽,而唯一的區(qū)別就是他今天心情好壞。
這種現(xiàn)象在學(xué)術(shù)界被稱為"推理時不穩(wěn)定性",但用更通俗的話來說,就是機(jī)器人患了"選擇困難癥"。它們擁有解決問題的所有技能和知識,但缺乏一個可靠的"決策系統(tǒng)"來在關(guān)鍵時刻做出最佳選擇。
傳統(tǒng)的解決方案通常是重新訓(xùn)練機(jī)器人,讓它們學(xué)會更好的判斷。但這種方法有兩個致命缺陷:首先,重新訓(xùn)練需要大量時間和計算資源,就像重新培養(yǎng)一個廚師需要數(shù)年時間;其次,在訓(xùn)練過程中很難完全消除那些"有毒"的示范數(shù)據(jù),因?yàn)樗鼈兺c正確的示范數(shù)據(jù)混雜在一起,很難分離。
**二、"反探索"策略:從失敗中學(xué)習(xí)智慧**
研究團(tuán)隊從離線強(qiáng)化學(xué)習(xí)領(lǐng)域借鑒了一個稱為"反探索"的策略思想。要理解這個概念,可以把它想象成一個經(jīng)驗(yàn)豐富的登山向?qū)У墓ぷ鞣绞健.?dāng)面臨多條路徑選擇時,一個新手向?qū)Э赡軙膭钐剿魑粗窂剑J(rèn)為這樣可能發(fā)現(xiàn)更好的線路。但經(jīng)驗(yàn)豐富的向?qū)е溃谖kU的山區(qū),最明智的選擇往往是堅持走那些已經(jīng)被驗(yàn)證安全可靠的路徑,而不是冒險嘗試未知路線。
"反探索"的核心思想就是讓機(jī)器人像經(jīng)驗(yàn)豐富的向?qū)б粯有惺拢寒?dāng)面臨行動選擇時,不是隨機(jī)嘗試或探索新的可能性,而是優(yōu)先選擇那些在歷史數(shù)據(jù)中被多次證明成功的行動模式。這種策略特別適合那些對安全性和可靠性要求很高的應(yīng)用場景,比如工業(yè)機(jī)器人操作或醫(yī)療輔助設(shè)備。
但是,如何判斷一個行動是否"安全可靠"呢?這就需要一個評估機(jī)制。研究團(tuán)隊設(shè)計了一個被稱為"偽計數(shù)估計器"的系統(tǒng),它的工作原理類似于一個經(jīng)驗(yàn)豐富的質(zhì)量檢查員。這個檢查員會查看機(jī)器人準(zhǔn)備執(zhí)行的每一個動作,然后快速回憶:"在我見過的所有成功案例中,類似這樣的動作出現(xiàn)了多少次?"出現(xiàn)次數(shù)越多的動作,就越可能是可靠的選擇。
這個偽計數(shù)估計器使用了一種被稱為"投幣網(wǎng)絡(luò)"(Coin Flipping Network)的技術(shù)。雖然名字聽起來像是在賭博,但實(shí)際上這是一種非常聰明的數(shù)學(xué)方法。它的工作原理就像一個圖書管理員,為每種類型的書籍都準(zhǔn)備了一個特殊的"指紋"。當(dāng)需要查找某本書時,管理員只需要檢查這個"指紋",就能快速判斷這本書在圖書館中的常見程度。
**三、"智能選擇器":機(jī)器人的決策顧問**
TACO系統(tǒng)的核心是一個"智能選擇器",它的工作方式就像一個經(jīng)驗(yàn)豐富的品酒師。當(dāng)機(jī)器人面臨行動選擇時,這個選擇器會要求機(jī)器人先"釀造"多種不同的"行動方案",然后像品酒師品嘗不同的酒款一樣,仔細(xì)評估每個方案的"品質(zhì)"。
具體來說,當(dāng)機(jī)器人需要執(zhí)行一個動作時,TACO系統(tǒng)會讓機(jī)器人同時生成多個可能的行動方案。這就像一個廚師在決定今天的菜單時,會先在心中構(gòu)思幾種不同的搭配方案。然后,智能選擇器會使用內(nèi)置的"經(jīng)驗(yàn)數(shù)據(jù)庫"來評估每個方案,判斷哪一個最接近那些歷史上成功的操作模式。
這個過程的巧妙之處在于,它充分利用了機(jī)器人已有的"內(nèi)部表示"能力。現(xiàn)代的視覺-語言-動作機(jī)器人在處理信息時,會在內(nèi)部形成一種復(fù)雜的"理解表示",就像人類在理解一個場景時會在大腦中形成一個綜合的認(rèn)知圖像。TACO系統(tǒng)直接利用這些內(nèi)部表示,而不需要額外訓(xùn)練新的理解系統(tǒng),這大大提高了效率。
為了確保這些內(nèi)部表示的質(zhì)量,研究團(tuán)隊開發(fā)了一種稱為"高保真特征搜索"的技術(shù)。這個技術(shù)的工作原理就像一個攝影師在拍攝重要照片時會拍攝多張照片,然后從中選擇最清晰、最準(zhǔn)確的那一張。對于每個訓(xùn)練樣本,系統(tǒng)會生成多個帶有不同"噪聲"水平的版本,然后選擇最接近原始正確答案的那個版本的內(nèi)部表示進(jìn)行學(xué)習(xí)。
**四、效率優(yōu)化:讓智慧選擇變得快速實(shí)用**
雖然生成多個行動方案然后進(jìn)行選擇聽起來很合理,但如果實(shí)施不當(dāng),這個過程可能會變得極其緩慢,就像一個過分謹(jǐn)慎的司機(jī)在每個路口都要停下來思考十分鐘一樣,雖然安全但完全不實(shí)用。
研究團(tuán)隊通過一個稱為"鍵值緩存優(yōu)化"的技術(shù)巧妙地解決了這個效率問題。這個技術(shù)的工作原理就像一個高效的餐廳廚房。在繁忙的餐廳里,廚師們不會為每道菜都從頭開始準(zhǔn)備所有配料,而是會預(yù)先準(zhǔn)備一些通用的基礎(chǔ)食材和調(diào)料。當(dāng)需要制作不同菜品時,廚師只需要在這些共同的基礎(chǔ)上添加特定的元素即可。
具體到TACO系統(tǒng),當(dāng)機(jī)器人需要評估多個行動方案時,系統(tǒng)會先處理所有方案共同的部分(比如對當(dāng)前環(huán)境的理解),然后將這個共同部分的計算結(jié)果保存起來,供所有方案共享使用。這樣,系統(tǒng)只需要為每個方案計算其特有的部分,大大減少了重復(fù)計算。
實(shí)驗(yàn)結(jié)果顯示,這種優(yōu)化方法可以將計算時間減少73.2%,使得原本可能需要幾分鐘才能完成的決策過程縮短到幾秒鐘。這種效率提升對于實(shí)際應(yīng)用來說至關(guān)重要,因?yàn)樵谡鎸?shí)世界中,機(jī)器人往往需要在很短的時間內(nèi)做出反應(yīng)。
**五、實(shí)驗(yàn)驗(yàn)證:從模擬到現(xiàn)實(shí)的全面測試**
為了驗(yàn)證TACO系統(tǒng)的有效性,研究團(tuán)隊進(jìn)行了一系列全面的實(shí)驗(yàn),涵蓋了從計算機(jī)模擬環(huán)境到真實(shí)機(jī)器人平臺的各種場景。這些實(shí)驗(yàn)就像是對一個新藥進(jìn)行從實(shí)驗(yàn)室到臨床的全面測試,確保其在各種條件下都能穩(wěn)定有效地工作。
在模擬環(huán)境中,研究團(tuán)隊使用了四個不同的基準(zhǔn)測試平臺,包括RoboTwin1.0、RoboTwin2.0、LIBERO和SimplerEnv。這些平臺涵蓋了各種不同類型的機(jī)器人任務(wù),從簡單的物體抓取到復(fù)雜的雙臂協(xié)調(diào)操作,從單一任務(wù)到長序列任務(wù)組合。
實(shí)驗(yàn)結(jié)果非常令人鼓舞。在RoboTwin1.0基準(zhǔn)測試中,裝備了TACO系統(tǒng)的機(jī)器人平均成功率提高了9.1%。在一些特別困難的任務(wù)中,改進(jìn)效果更加顯著。比如在"容器放置"任務(wù)中,成功率從25%提高到40%,提升幅度達(dá)到15個百分點(diǎn)。在"雙瓶抓取簡單"任務(wù)中,成功率從60%提高到70%。
更有趣的是,研究團(tuán)隊還將TACO系統(tǒng)應(yīng)用到了不同類型的基礎(chǔ)機(jī)器人模型上,驗(yàn)證了其通用性。無論是基于流匹配技術(shù)的π0模型,還是基于自回歸技術(shù)的OpenVLA模型,裝備TACO系統(tǒng)后都顯示出了顯著的性能提升。這說明TACO系統(tǒng)就像一個通用的"智能插件",可以為各種不同架構(gòu)的機(jī)器人提供決策輔助。
在真實(shí)世界的實(shí)驗(yàn)中,研究團(tuán)隊使用了一個配備雙臂的RealMan75機(jī)器人進(jìn)行測試。這個機(jī)器人需要執(zhí)行五種不同的日常任務(wù):接收書本、存儲充電器、處理紙和筆、操作筆記本電腦,以及抓取書籍。這些任務(wù)都是日常生活中常見的操作,但對機(jī)器人來說卻充滿挑戰(zhàn),因?yàn)樗鼈冃枰_的手眼協(xié)調(diào)和對環(huán)境的準(zhǔn)確理解。
真實(shí)世界實(shí)驗(yàn)的結(jié)果更加令人印象深刻。平均成功率提升了16%,在一些復(fù)雜任務(wù)中提升幅度甚至達(dá)到25%。特別值得注意的是,TACO系統(tǒng)不僅提高了成功率,還顯著改善了機(jī)器人動作的穩(wěn)定性和流暢性。在沒有TACO系統(tǒng)的情況下,機(jī)器人經(jīng)常會出現(xiàn)猶豫、重復(fù)動作或選擇明顯錯誤的抓取方式,而裝備了TACO系統(tǒng)后,這些問題基本消失了。
**六、深入機(jī)制分析:為什么TACO系統(tǒng)如此有效**
為了更好地理解TACO系統(tǒng)的工作機(jī)制,研究團(tuán)隊進(jìn)行了一系列深入的分析實(shí)驗(yàn)。這些分析就像對一臺精密儀器進(jìn)行拆解檢查,目的是理解每個組件是如何貢獻(xiàn)到整體性能的。
首先,研究團(tuán)隊驗(yàn)證了偽計數(shù)估計器的有效性。他們發(fā)現(xiàn),由CFN(投幣網(wǎng)絡(luò))計算出的"行動可靠性分?jǐn)?shù)"與實(shí)際的"動作質(zhì)量"之間存在強(qiáng)烈的相關(guān)性。具體來說,那些被CFN評為高分的行動方案,往往確實(shí)更接近訓(xùn)練數(shù)據(jù)中的成功示范,而低分的方案則往往對應(yīng)著那些容易導(dǎo)致失敗的行動模式。
更有趣的是,研究團(tuán)隊發(fā)現(xiàn)TACO系統(tǒng)能夠有效識別并避免那些"看起來正確但實(shí)際危險"的行動。這些行動在表面上看起來合理,但實(shí)際執(zhí)行時往往會導(dǎo)致失敗。這就像一個經(jīng)驗(yàn)豐富的司機(jī)能夠識別出某些看似安全實(shí)際危險的駕駛行為,比如在濕滑路面上過快轉(zhuǎn)彎。
研究團(tuán)隊還分析了不同組件的重要性。他們發(fā)現(xiàn),如果移除CFN偽計數(shù)估計器,系統(tǒng)性能會顯著下降;如果不使用內(nèi)部表示而是訓(xùn)練獨(dú)立的特征提取器,性能同樣會大幅降低;如果不進(jìn)行高保真特征搜索,系統(tǒng)的判斷準(zhǔn)確性會受到影響。這些分析證明了TACO系統(tǒng)中每個組件都是必要的,它們共同構(gòu)成了一個高效的決策系統(tǒng)。
**七、技術(shù)創(chuàng)新的廣泛影響**
TACO系統(tǒng)的意義遠(yuǎn)遠(yuǎn)超出了單純的技術(shù)改進(jìn),它代表了機(jī)器人智能發(fā)展的一個重要方向。傳統(tǒng)的機(jī)器人訓(xùn)練方法就像是"填鴨式教育",通過大量重復(fù)訓(xùn)練讓機(jī)器人記住各種操作模式,但缺乏靈活的判斷能力。而TACO系統(tǒng)則更像是培養(yǎng)"批判性思維",讓機(jī)器人學(xué)會在行動前進(jìn)行理性評估。
這種方法的一個重要優(yōu)勢是它的"即插即用"特性。與需要重新訓(xùn)練整個系統(tǒng)的傳統(tǒng)改進(jìn)方法不同,TACO系統(tǒng)可以很容易地集成到現(xiàn)有的機(jī)器人系統(tǒng)中,就像給汽車安裝一個新的導(dǎo)航系統(tǒng)一樣簡單。這意味著那些已經(jīng)投入大量資源訓(xùn)練的機(jī)器人系統(tǒng)可以在不重新開始的情況下獲得顯著的性能提升。
此外,TACO系統(tǒng)的設(shè)計理念也為未來的機(jī)器人發(fā)展提供了新的思路。它表明,有時候提升機(jī)器人性能的關(guān)鍵不在于讓它們學(xué)習(xí)更多的技能,而在于讓它們學(xué)會更好地使用已有的技能。這就像提升一個人的能力,有時候重點(diǎn)不是學(xué)習(xí)新知識,而是學(xué)會如何更好地整合和應(yīng)用已有知識。
從更廣闊的角度來看,TACO系統(tǒng)的成功也反映了人工智能發(fā)展的一個重要趨勢:從"大而全"向"精而準(zhǔn)"轉(zhuǎn)變。早期的AI系統(tǒng)往往追求覆蓋盡可能多的場景和任務(wù),但現(xiàn)在越來越多的研究開始關(guān)注如何讓AI系統(tǒng)在特定場景下做出更可靠、更精準(zhǔn)的決策。
**八、面向未來的技術(shù)展望**
雖然TACO系統(tǒng)已經(jīng)顯示出了顯著的效果,但研究團(tuán)隊也誠實(shí)地指出了目前技術(shù)的一些局限性。比如,系統(tǒng)目前只能從已有的行動模式中進(jìn)行選擇,而無法創(chuàng)造全新的行動方案。這就像一個經(jīng)驗(yàn)豐富的廚師雖然能夠選擇最佳的烹飪方法,但可能無法發(fā)明全新的菜譜。
另一個限制是系統(tǒng)的性能在很大程度上依賴于底層機(jī)器人模型的表示能力。如果基礎(chǔ)模型本身存在缺陷,TACO系統(tǒng)雖然能夠改善性能,但改善程度會受到限制。這就像一個再好的指揮家也無法讓一個基礎(chǔ)薄弱的樂團(tuán)演奏出完美的音樂。
盡管存在這些局限性,TACO系統(tǒng)為未來的研究開辟了幾個有趣的方向。首先,研究團(tuán)隊提出可以將類似的"測試時優(yōu)化"方法應(yīng)用到其他類型的AI系統(tǒng)中,比如語言模型或圖像生成模型。其次,可以進(jìn)一步改進(jìn)偽計數(shù)估計器的設(shè)計,讓它能夠更準(zhǔn)確地評估行動質(zhì)量。最后,可以探索如何將TACO系統(tǒng)與在線學(xué)習(xí)方法結(jié)合,讓機(jī)器人能夠在實(shí)際使用過程中持續(xù)改進(jìn)自己的決策能力。
從產(chǎn)業(yè)應(yīng)用的角度來看,TACO系統(tǒng)的成功也預(yù)示著智能機(jī)器人即將迎來一個新的發(fā)展階段。隨著這類技術(shù)的成熟,我們可能會看到更多可靠、穩(wěn)定的機(jī)器人助手出現(xiàn)在我們的日常生活中,從家庭服務(wù)到工業(yè)生產(chǎn),從醫(yī)療護(hù)理到教育培訓(xùn)。
歸根結(jié)底,TACO系統(tǒng)的核心貢獻(xiàn)在于它提供了一種讓機(jī)器人"三思而后行"的方法。在一個越來越需要可靠自動化系統(tǒng)的世界里,這種能夠在關(guān)鍵時刻做出明智決策的技術(shù)將變得越來越重要。就像我們在開頭提到的那個廚師比喻一樣,TACO系統(tǒng)幫助機(jī)器人從一個笨拙的新手成長為一個經(jīng)驗(yàn)豐富的專家,不僅知道如何完成任務(wù),更知道如何在每一個關(guān)鍵時刻做出最佳選擇。
Q&A
Q1:TACO系統(tǒng)是什么?
A:TACO是中國電信人工智能研究院等機(jī)構(gòu)開發(fā)的機(jī)器人決策優(yōu)化系統(tǒng),全稱是"Test-time Anti-exploration via pseudo-COunts"。它的核心功能是在機(jī)器人執(zhí)行任務(wù)時,讓機(jī)器人同時生成多個可能的行動方案,然后通過智能評估選擇最可靠的那一個,就像給機(jī)器人配備了一個經(jīng)驗(yàn)豐富的決策顧問。
Q2:為什么機(jī)器人需要TACO這樣的系統(tǒng)?
A:現(xiàn)在的機(jī)器人雖然學(xué)會了很多技能,但在實(shí)際執(zhí)行任務(wù)時經(jīng)常出現(xiàn)不穩(wěn)定的表現(xiàn),同樣的任務(wù)有時成功有時失敗。這是因?yàn)樗鼈冊谟?xùn)練時接收了各種質(zhì)量不同的示范數(shù)據(jù),缺乏判斷能力來選擇最佳行動。TACO系統(tǒng)解決的就是這個"選擇困難癥"問題,讓機(jī)器人能夠在關(guān)鍵時刻做出最明智的選擇。
Q3:TACO系統(tǒng)的效果如何?
A:實(shí)驗(yàn)結(jié)果非常顯著,在真實(shí)機(jī)器人實(shí)驗(yàn)中,裝備TACO系統(tǒng)的機(jī)器人平均成功率提升了16%,某些復(fù)雜任務(wù)的成功率提升甚至達(dá)到25%。在模擬環(huán)境中,不同任務(wù)的成功率提升從4.7%到9.1%不等。更重要的是,這個系統(tǒng)可以即插即用,不需要重新訓(xùn)練機(jī)器人,計算效率也很高。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.