<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      研究人員提出并行時序編碼器架構(gòu),提升人形機器人訓(xùn)練的穩(wěn)定性

      0
      分享至

      當(dāng)前,人形機器人正處于由基礎(chǔ)可行性驗證向早期應(yīng)用與智能化演進(jìn)的過渡階段。其已具備相對成熟的能力,包括雙足穩(wěn)定行走、跳躍、轉(zhuǎn)向、多關(guān)節(jié)協(xié)調(diào)控制,以及多模態(tài)感知集成等。這些能力的實現(xiàn),在很大程度上依賴于先驗工程干預(yù)。在硬件層面,設(shè)計者通過增大足底支撐面積、降低重心、引入冗余結(jié)構(gòu)等手段提升本體的物理穩(wěn)定性;在軟件控制層面,則普遍采用以人類經(jīng)驗為核心的控制方法,如 PID 控制、軌跡規(guī)劃、模型預(yù)測控制等,強化學(xué)習(xí)僅作為優(yōu)化模塊輔助使用。這些方法雖能實現(xiàn)高性能控制,但對特定任務(wù)和平臺高度依賴、泛化能力弱、難以適應(yīng)變化環(huán)境,且對專家知識依賴程度高、獲取成本大。

      在人形機器人向智能化演進(jìn)的過程中,一個核心問題是如何逐步擺脫上述工程依賴,轉(zhuǎn)向更靈活、通用的“學(xué)習(xí)驅(qū)動的智能控制”范式。其中,端到端智能控制成為關(guān)鍵研究方向之一,其目標(biāo)是使機器人能夠從原始感知輸入(如傳感器數(shù)據(jù))直接輸出控制命令(如關(guān)節(jié)力矩或速度),無需顯式建模或人工設(shè)定的控制邏輯。這種方式具有自動學(xué)習(xí)復(fù)雜行為的潛力,可更自然地適應(yīng)任務(wù)變化,顯著減少先驗知識對系統(tǒng)設(shè)計的限制。

      在機器人領(lǐng)域,Gymnasium 是一個廣泛使用的強化學(xué)習(xí)環(huán)境工具庫,它為開發(fā)者和研究者提供了標(biāo)準(zhǔn)化的虛擬環(huán)境。Gymnasium 中的 MuJoCo Humanoid 環(huán)境為研究端到端控制提供了理想測試平臺。該環(huán)境模擬一個雙足人形機器人在平坦地面上行走的任務(wù),是復(fù)雜連續(xù)控制問題中的經(jīng)典強化學(xué)習(xí)基準(zhǔn)。與現(xiàn)實機器人不同,仿真模型在結(jié)構(gòu)上有意簡化,缺乏腳掌、助力機制和動態(tài)平衡輔助裝置,重心較高,穩(wěn)定性較差,從而最大程度減少了硬件層面的工程干預(yù)。這種設(shè)計使該環(huán)境成為評估“純策略控制”能力的典型平臺,有助于更直接反映策略本身的智能水平與適應(yīng)能力。

      在此環(huán)境中訓(xùn)練出的策略,可通過獎勵驅(qū)動自動學(xué)習(xí)出如髖關(guān)節(jié)協(xié)調(diào)擺動以維持平衡、利用上肢輔助緩沖摔倒沖擊、上下肢協(xié)同提速行走等行為。這些能力并非由設(shè)計者預(yù)設(shè),而是策略在訓(xùn)練過程中自然涌現(xiàn),有效降低了對人工規(guī)則和模型的依賴,減少了算法層面的工程干預(yù)。

      然而,現(xiàn)有端到端策略大多建立在完全可觀測環(huán)境的假設(shè)之上,即可獲取環(huán)境的完整狀態(tài)。在實際系統(tǒng)中,機器人通常處于部分可觀測狀態(tài),常面臨傳感器受限、觀測噪聲、信息缺失(如質(zhì)量分布、外力等)等問題。在此背景下,如何在信息不完全的條件下仍實現(xiàn)高效的控制策略,成為當(dāng)前研究的核心挑戰(zhàn)。

      為應(yīng)對觀測不全的問題,一些方法引入了遞歸神經(jīng)網(wǎng)絡(luò)(如 RNN、LSTM)以捕捉歷史信息,以及彌補瞬時觀測的不足。然而,在高維、連續(xù)控制任務(wù)中,這類方法普遍面臨訓(xùn)練不穩(wěn)定、泛化能力差等難題。例如,在 MuJoCo Humanoid 環(huán)境中,目前尚缺乏在部分觀測條件下有效的強化學(xué)習(xí)方法。

      因此,澳大利亞紐卡斯?fàn)柎髮W(xué)教授陳智勇和團隊在近期一項研究中聚焦于以下問題:在不依賴完整狀態(tài)觀測的前提下,能否設(shè)計出一種穩(wěn)定、結(jié)構(gòu)簡潔、具擴展性的策略架構(gòu),以提升人形機器人在部分可觀測環(huán)境中的控制能力?研究人員希望通過構(gòu)建新的機制,使強化學(xué)習(xí)策略能夠從有限的觀測中提取關(guān)鍵動態(tài)信息,從而完成復(fù)雜的運動控制任務(wù)。該方向的探索將有助于推動人形機器人從依賴結(jié)構(gòu)和規(guī)則的工程化控制體系,邁向更具泛化性和自主性的智能控制系統(tǒng)。


      圖 | 陳智勇(來源:陳智勇)

      在部分可觀測環(huán)境中,智能體無法直接獲取完整的環(huán)境狀態(tài),通常需要依賴有限長度的歷史觀測來重構(gòu)當(dāng)前狀態(tài)。在可觀性條件滿足時,這種方式可將原本的部分可觀測馬爾可夫決策過程(POMDP,Partially Observable Markov Decision Process)轉(zhuǎn)化為完全可觀測的馬爾可夫決策過程(FOMDP,F(xiàn)ully Observable Markov Decision Process)。然而,由于歷史觀測之間存在大量冗余信息,直接拼接歷史輸入將顯著膨脹狀態(tài)空間維度,增加策略學(xué)習(xí)的復(fù)雜度與不穩(wěn)定性。因此,如何從冗余的歷史觀測中有效提取關(guān)鍵特征,成為實現(xiàn)高效策略學(xué)習(xí)的核心挑戰(zhàn)。

      針對該問題,本研究提出了一種并行時序編碼器架構(gòu),結(jié)合多頭注意力機制(Multi-Head Attention),對歷史觀測序列進(jìn)行高效建模與信息聚合。該方法在不依賴遞歸結(jié)構(gòu)(如 RNN、LSTM)的前提下,能夠從有限歷史中恢復(fù)缺失的狀態(tài)信息,顯著提升策略訓(xùn)練的穩(wěn)定性與最終性能。多頭注意力機制作為現(xiàn)代深度學(xué)習(xí)的核心結(jié)構(gòu),已經(jīng)廣泛應(yīng)用于自然語言處理、計算機視覺、語音識別與強化學(xué)習(xí)等領(lǐng)域。其基本思想是從多個子空間維度并行關(guān)注輸入序列的不同部分,從而提取豐富的上下文信息與特征關(guān)聯(lián)。在本研究中,多頭注意力被用于從歷史觀測中自動篩選與當(dāng)前決策最相關(guān)的信息、學(xué)習(xí)時間依賴性與關(guān)鍵感知特征。


      (來源:https://arxiv.org/pdf/2507.18883)

      研究人員在 MuJoCo Humanoid 環(huán)境中對該方法進(jìn)行了系統(tǒng)實證。該環(huán)境的狀態(tài)空間維度為 348,包含身體各部位的位置、速度、質(zhì)量、慣性參數(shù)、執(zhí)行器力以及外部作用力等信息。實驗結(jié)果表明,即使僅使用原始觀測的三分之一至三分之二維度,所提出的方法仍可達(dá)到甚至超過完整狀態(tài)輸入下的強化學(xué)習(xí)基線性能(如 TD3)。尤其值得強調(diào)的是,在移除質(zhì)量、慣性與力信息,僅保留約三分之一狀態(tài)維度的設(shè)定下,策略仍能憑借位置與速度等部分觀測有效建構(gòu)控制模型、快速收斂,并最終超越完整觀測策略的性能。這也是首次在該環(huán)境的部分可觀測設(shè)定下,通過強化學(xué)習(xí)實現(xiàn)穩(wěn)定有效控制的成功案例。

      此外,研究人員進(jìn)一步評估了該策略在物理參數(shù)變化下的泛化能力。在測試中,研究人員對雙手、小腿、大腿、上臂、骨盆和軀干等部位的質(zhì)量進(jìn)行 ±50% 的獨立擾動。結(jié)果顯示,訓(xùn)練策略在多種質(zhì)量配置下依然保持穩(wěn)定性能,展現(xiàn)出良好的魯棒性與適應(yīng)性,驗證了其對物理參數(shù)變化的容忍度與廣泛適用性。

      本研究在部分可觀測條件下提出了一種純學(xué)習(xí)驅(qū)動的人形機器人控制方法,推動機器人從“規(guī)則執(zhí)行”邁向“行為智能”,擺脫對工程干預(yù)與人類經(jīng)驗的依賴,為類腦智能與具身智能方法體系的演進(jìn)提供了有益探索。在實踐層面,該方法有助于降低對專家知識的依賴,提升系統(tǒng)的通用性與自主性。未來,該方法可與大語言模型和多模態(tài)感知系統(tǒng)融合,構(gòu)建具備認(rèn)知、感知與行動能力的類人自主體。本研究的最終目標(biāo)不僅在于實現(xiàn)穩(wěn)定的人形行走控制,更在于建立一種通用、穩(wěn)定、可擴展的控制學(xué)習(xí)范式,以應(yīng)對具備復(fù)雜時序結(jié)構(gòu)的任務(wù)需求。

      陳智勇告訴 DeepTech:“這些工作是我?guī)ьI(lǐng)博士生王吳皓完成的。他于 2023 年獲得瑞典林雪平大學(xué)的碩士學(xué)位,目前是紐卡斯?fàn)柎髮W(xué)二年級的博士生,展現(xiàn)出極強的學(xué)習(xí)能力和科研潛力。這些成果來源于我們在自動控制、強化學(xué)習(xí)和機器人技術(shù)這三個領(lǐng)域不斷交叉探索的過程,體現(xiàn)了輸出反饋、狀態(tài)估計和自適應(yīng)控制等經(jīng)典控制理念在強化學(xué)習(xí)框架下的融合與演化,并成功應(yīng)用于人形機器人平臺。”

      本研究主要聚焦于算法層面,提出了一種在部分可觀測條件下實現(xiàn)穩(wěn)定人形機器人控制的純學(xué)習(xí)方法。下一步,研究人員將繼續(xù)拓展該算法框架,進(jìn)一步提升其性能與泛化能力,并在更具多樣性的人形機器人模型中進(jìn)行系統(tǒng)評估,逐步推廣至其他類型的高維連續(xù)控制環(huán)境。同時,研究人員也計劃推動該方法向現(xiàn)實系統(tǒng)遷移,探索其在真實人形機器人平臺上的部署與驗證可行性。目前,現(xiàn)實人形機器人在關(guān)鍵控制環(huán)節(jié)仍高度依賴工程化干預(yù)、人類經(jīng)驗和手動調(diào)參。研究人員希望本研究能夠為端到端學(xué)習(xí)控制在實際機器人系統(tǒng)中的落地應(yīng)用提供算法基礎(chǔ)與技術(shù)支持,進(jìn)而推動人形機器人向更高自主性、更低人工依賴的方向演進(jìn)。

      參考資料:

      https://arxiv.org/pdf/2507.18883

      運營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      無錫一女子竟撞臉中華田園犬,怎么個事?

      無錫一女子竟撞臉中華田園犬,怎么個事?

      江南晚報
      2025-12-07 16:59:39
      香港再無董建華

      香港再無董建華

      華人星光
      2025-11-25 12:01:27
      中央考核巡查組詢問,現(xiàn)場人員迅速把手機裝進(jìn)兜里,躲躲閃閃

      中央考核巡查組詢問,現(xiàn)場人員迅速把手機裝進(jìn)兜里,躲躲閃閃

      極目新聞
      2025-12-07 13:39:53
      一場大洪水,他信家族起死回生了!

      一場大洪水,他信家族起死回生了!

      天真無牙
      2025-12-07 08:00:17
      重大轉(zhuǎn)向!美國發(fā)布最新《國家安全戰(zhàn)略》:放棄全球霸權(quán),將調(diào)整與中國經(jīng)濟關(guān)系,“以互惠平等為原則”,承認(rèn)中美“近乎對等”!歐洲炸鍋

      重大轉(zhuǎn)向!美國發(fā)布最新《國家安全戰(zhàn)略》:放棄全球霸權(quán),將調(diào)整與中國經(jīng)濟關(guān)系,“以互惠平等為原則”,承認(rèn)中美“近乎對等”!歐洲炸鍋

      每日經(jīng)濟新聞
      2025-12-06 23:23:09
      千萬不要小看你遇到的每一個顧客!網(wǎng)友:不到1個小時店就被封了

      千萬不要小看你遇到的每一個顧客!網(wǎng)友:不到1個小時店就被封了

      夜深愛雜談
      2025-12-06 21:39:08
      萬科!遭遇反對

      萬科!遭遇反對

      新浪財經(jīng)
      2025-12-07 18:26:31
      臺灣地區(qū)領(lǐng)導(dǎo)人賴清德:我是臺獨工作者,但是我“反共不反中”啊

      臺灣地區(qū)領(lǐng)導(dǎo)人賴清德:我是臺獨工作者,但是我“反共不反中”啊

      軍機Talk
      2025-11-25 10:43:34
      德云社被正式約談,郭德綱相聲存在低俗問題,必須整改!

      德云社被正式約談,郭德綱相聲存在低俗問題,必須整改!

      我就是個碼字的
      2025-12-05 08:59:55
      老戲骨的“動臉后遺癥”,在央視《大生意人》現(xiàn)出了原形,可惜了

      老戲骨的“動臉后遺癥”,在央視《大生意人》現(xiàn)出了原形,可惜了

      陳述影視
      2025-12-06 23:59:24
      哺乳期的我剛回公司上班,就被領(lǐng)導(dǎo)兒子提這種要求,我該怎么辦?

      哺乳期的我剛回公司上班,就被領(lǐng)導(dǎo)兒子提這種要求,我該怎么辦?

      親愛的落落
      2024-10-18 11:47:50
      刪帖,捂嘴,掩耳盜鈴

      刪帖,捂嘴,掩耳盜鈴

      柴差說
      2025-12-07 17:59:37
      隊記:開拓者召回楊瀚森因需要人手,本想讓他多打幾場G聯(lián)賽

      隊記:開拓者召回楊瀚森因需要人手,本想讓他多打幾場G聯(lián)賽

      懂球帝
      2025-12-07 11:01:07
      一員工在朋友圈大罵公司,法院判不侵權(quán):用人單位應(yīng)承擔(dān)一定的容忍義務(wù)

      一員工在朋友圈大罵公司,法院判不侵權(quán):用人單位應(yīng)承擔(dān)一定的容忍義務(wù)

      極目新聞
      2025-12-07 13:09:12
      廣東胖揍合肥!王洪澤驚艷 奎因又爆發(fā) 杜潤旺回暖

      廣東胖揍合肥!王洪澤驚艷 奎因又爆發(fā) 杜潤旺回暖

      胖子噴球
      2025-12-07 20:21:35
      哈馬斯成驚弓之鳥——在真主黨高官塔巴塔拜被殺后遠(yuǎn)離手機70米

      哈馬斯成驚弓之鳥——在真主黨高官塔巴塔拜被殺后遠(yuǎn)離手機70米

      老王說正義
      2025-12-06 21:28:07
      張靈甫倆兒子現(xiàn)狀:長子體制內(nèi)退休,幼子從商,為房產(chǎn)補償奔波

      張靈甫倆兒子現(xiàn)狀:長子體制內(nèi)退休,幼子從商,為房產(chǎn)補償奔波

      興趣知識
      2025-12-04 20:54:02
      80后球星誰還能跨過三萬分大關(guān)?哈登庫里有希望,保羅威少沒戲了

      80后球星誰還能跨過三萬分大關(guān)?哈登庫里有希望,保羅威少沒戲了

      姜大叔侃球
      2025-12-07 19:48:48
      小紅書躍升臺灣應(yīng)用商店下載量第一,大批沒用過的網(wǎng)友也來下載,目前APP仍能使用

      小紅書躍升臺灣應(yīng)用商店下載量第一,大批沒用過的網(wǎng)友也來下載,目前APP仍能使用

      極目新聞
      2025-12-07 12:05:24
      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      小娛樂悠悠
      2025-12-06 11:33:37
      2025-12-07 20:47:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      15954文章數(shù) 514348關(guān)注度
      往期回顧 全部

      科技要聞

      漲幅最高20%!戴爾、聯(lián)想等PC廠計劃漲價

      頭條要聞

      日方軍機滋擾中國海軍訓(xùn)練 吳江浩大使提出嚴(yán)正交涉

      頭條要聞

      日方軍機滋擾中國海軍訓(xùn)練 吳江浩大使提出嚴(yán)正交涉

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經(jīng)要聞

      五糧液降價?回應(yīng)來了

      汽車要聞

      傳奇超跑電動形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      時尚
      旅游
      本地
      手機
      藝術(shù)

      遼京:當(dāng)一個媽媽開始寫作

      旅游要聞

      不只是“熱經(jīng)濟”,更是“雙向奔赴”!冰雪假期正當(dāng)時

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      手機要聞

      消息稱蘋果iPhone 18系列測試屏下3D解鎖、拼接微透玻璃

      藝術(shù)要聞

      他單身,偷拍了5萬個姑娘,但所有女人竟都愛他!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美一区二区三区成人久久片| 中文字幕乱码亚洲中文在线| 国产亚洲精品久久久久久久软件| 桂林市| 国产精品综合av一区二区国产馆| 色综合久| 人人妻人人澡人人爽秒播| 成人综合精品| 国产av激情无码久久| 国产免费午夜福利在线播放| 人妻无码视频一区二区三区 | 国产成年无码久久久久毛片| 国产精品一亚洲AV日韩AV欧| av中文天堂| 国产一区二区三区怡红院| 3751色视频| 亚洲自偷自偷在线成人网站传媒| 狠狠躁夜夜躁人人爽天天| 白人无码| 人人妻人人澡人人爽欧美一区双| 少妇人妻系列无码专区视频| 博乐市| 午夜剧场黄色| 少妇被粗大的猛进69视频| 分宜县| 日韩精品人妻中文字幕| 布拖县| 色综合久久中文| 色一情一乱一伦一视频免费看| 激情六月丁香婷婷四房播| 亚洲精品一区二区三区四区乱码 | 丰满人妻一区二区三区无码AV| http://国产熟女.com| 成人亚洲精品一区二区三区嫩花| 亚洲AV中文| 日本www一道久久久免费| 岛国精品在线播放| 日韩精品中文字幕无码一区| 蜜桃视频无码区在线观看 | 一本大道东京热无码视频| 日本A网|