<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      強化學習的兩個「大坑」,終于被兩篇ICLR論文給解決了

      0
      分享至

      機器之心報道

      編輯:陳陳

      實時強化學習來了!AI 再也不怕「卡頓」。

      設想這樣一個未來場景:多個廚師機器人正在協作制作煎蛋卷。雖然我們希望這些機器人能使用最強大可靠的智能模型,但更重要的是它們必須跟上瞬息萬變的節奏 —— 食材需要在精準時機添加,煎蛋過程需要實時監控以確保受熱均勻。只要機器人動作稍有延遲,蛋卷必定焦糊。它們還必須應對協作伙伴動作的不確定性,并做出即時適應性調整。



      實時強化學習

      然而,現有的強化學習算法多基于一種理想化的交互模式:環境與智能體輪流「暫停」以等待對方完成計算或響應。具體表現為:

      環境暫停假設:當智能體進行計算決策和經驗學習時,環境狀態保持靜止;

      智能體暫停假設:當環境狀態發生轉移時,智能體暫停其決策過程。

      這種類似「回合制游戲」的假設,嚴重脫離現實,難以應對持續變化、延遲敏感的真實環境。



      下圖突出顯示了智能體在實時環境中出現的兩個關鍵困難,而這些在標準的回合制 RL 研究中是不會遇到的。

      首先,由于動作推理時間較長,智能體可能不會在環境的每一步都采取動作。這可能導致智能體采用一種新的次優性策略,稱之為無動作遺憾(inaction regret)。

      第二個困難是,動作是基于過去的狀態計算的,因而動作會在環境中產生延遲影響。這導致另一個新的次優性來源,這在隨機環境中尤為突出,稱之為延遲遺憾(delay regret)。

      在這樣的背景下,Mila 實驗室兩篇 ICLR 2025 論文提出了一種全新的實時強化學習框架,旨在解決當前強化學習系統在部署過程中面臨的推理延遲和動作缺失問題,使得大模型也能在高頻、連續的任務中實現即時響應。

      第一篇論文提出了一種最小化無動作遺憾的解決方案,第二篇提出了一種最小化延遲遺憾的解決方案。



      最小化無動作:交錯推理

      第一篇論文基于這樣一個事實:在標準的回合制強化學習交互范式中,隨著模型參數數量的增加,智能體無動作的程度也會隨之增加。因此,強化學習社區必須考慮一種新的部署框架,以便在現實世界中實現基礎模型規模化的強化學習。為此,本文提出了一個用于異步多過程推理和學習的框架。



      • 論文地址:https://openreview.net/pdf?id=fXb9BbuyAD
      • 代碼地址 https://github.com/CERC-AAI/realtime_rl
      • 論文標題: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



      在該框架中,允許智能體充分利用其可用算力進行異步推理與學習。具體而言,本文提出了兩種交錯式推理算法,其核心思想是通過自適應調整并行推理過程的時序偏移,使智能體能夠以更快的固定間隔在環境中執行動作。

      本文證明:只要計算資源足夠,無論模型有多大、推理時間有多長,使用任意一種算法都可以做到在每一個環境步都執行動作,從而完全消除無動作遺憾。

      本文在 Game Boy 和 Atari 實時模擬中測試了提出的新框架,這些模擬的幀率和交互協議與人類在主機上實際玩這些游戲時所體驗到的幀率和交互協議同步。

      論文重點介紹了異步推理和學習在《寶可夢:藍》游戲中使用一個擁有 1 億參數的模型成功捕捉寶可夢時所展現的卓越性能。需要注意的是,智能體不僅必須快速行動,還必須不斷適應新的場景才能取得進展。



      此外,論文還重點介紹了該框架在像俄羅斯方塊這樣注重反應時間的實時游戲中的表現。結果證明,在使用異步推理和學習時,模型規模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延遲遺憾效應尚未得到解決。

      用單個神經網絡最小化無動作和延遲遺憾



      • 論文地址:https://openreview.net/pdf?id=YOc5t8PHf2
      • 項目地址:https://github.com/avecplezir/realtime-agent
      • 論文標題: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

      第二篇論文提出了一種架構解決方案,用于在實時環境中部署神經網絡時最大限度地減少無響應和延遲,因為在實時環境中,交錯推理并非可行。順序計算在深度網絡中效率低下,因為深度網絡中每一層的執行時間大致相同。因此,總延遲會隨著網絡深度的增加而成比例增加,從而導致響應緩慢。

      這一局限性與早期 CPU 架構的缺陷如出一轍 —— 當指令只能串行處理時,會導致計算資源利用率低下且執行時間延長。現代 CPU 采用 pipelining 技術成功解決了這一問題,該技術允許多條指令的不同階段并行執行。

      受此啟發,本文在神經網絡中引入了并行計算機制:通過一次計算所有網絡層,有效降低了無動作遺憾。

      為了進一步減少延遲,本文引入了時序跳躍連接(temporal skip connections),使得新的觀測信息可以更快地傳遞到更深的網絡層,而無需逐層傳遞。

      該研究的核心貢獻在于:將并行計算與時序跳躍連接相結合,從而在實時系統中同時降低無動作遺憾和延遲遺憾。

      下圖對此進行了說明。圖中縱軸表示網絡層的深度,從初始觀測開始,依次經過第一層、第二層的表示,最終到達動作輸出;橫軸表示時間。因此,每一條箭頭代表一層的計算過程,所需時間為 δ 秒。

      在基線方法中(左圖),一個新的觀測必須依次穿過全部 N 層網絡,因此動作的輸出需要 N × δ 秒才能獲得。

      通過對各層進行并行計算(中圖),可以將推理吞吐量從每 Nδ 秒一次提高到每 δ 秒一次,從而減少無動作遺憾。

      最終,時序跳躍連接(如右圖所示)將總延遲從 Nδ 降低至 δ—— 其機制是讓最新觀測值僅需單次 δ 延遲即可傳遞至輸出層。從設計理念來看,該方案通過在網絡表達能力與時效信息整合需求之間進行權衡,從根本上解決了延遲問題。



      此外,用過去的動作 / 狀態來增強輸入可以恢復馬爾可夫特性,即使在存在延遲的情況下也能提高學習穩定性。正如結果所示,這既減少了延遲,也減少了與優化相關的遺憾。



      兩者結合使用

      交錯式異步推理與時序跳躍連接是彼此獨立的技術,但具有互補性。時序跳躍連接可減少模型內部從觀測到動作之間的延遲,而交錯推理則確保即使在使用大模型時,也能持續穩定地輸出動作。

      兩者結合使用,可以將模型規模與交互延遲解耦,從而使在實時環境中部署既具有強表達能力、又響應迅速的智能體成為可能。這對于機器人、自動駕駛、金融交易等高度依賴響應速度的關鍵領域具有重要意義。

      通過使大模型在不犧牲表達能力的前提下實現高頻率決策,這些方法為強化學習在現實世界的延遲敏感型應用中落地邁出了關鍵一步。

      https://mila.quebec/en/article/real-time-reinforcement-learning

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國第一省會,到底“養活”了多少人?

      中國第一省會,到底“養活”了多少人?

      孫不熟讀城市
      2025-12-07 23:33:17
      馬克龍夫婦吃北京烤鴨!鞏俐低調陪同有地位,穿一身黑衣氣場超強

      馬克龍夫婦吃北京烤鴨!鞏俐低調陪同有地位,穿一身黑衣氣場超強

      阿纂看事
      2025-12-06 17:34:01
      張雪峰被查處,全網破防了

      張雪峰被查處,全網破防了

      大佬灼見
      2025-12-07 12:22:16
      1000年前的古畫,竟然看到一個小孩在用“吸管杯”,網友:不稀奇,唐代就有!

      1000年前的古畫,竟然看到一個小孩在用“吸管杯”,網友:不稀奇,唐代就有!

      坦腹齋
      2025-12-06 18:11:00
      家長群瘋傳!北京四中家長會流出這6頁PPT內容,一般學校真不敢說…

      家長群瘋傳!北京四中家長會流出這6頁PPT內容,一般學校真不敢說…

      愛下廚的阿椅
      2025-12-08 10:39:05
      哺乳期的我剛回公司上班,就被領導兒子提這種要求,我該怎么辦?

      哺乳期的我剛回公司上班,就被領導兒子提這種要求,我該怎么辦?

      親愛的落落
      2024-10-18 11:47:50
      血債血償,中國特戰力量現身巴基斯坦,用重裝合成營教俾路支做人

      血債血償,中國特戰力量現身巴基斯坦,用重裝合成營教俾路支做人

      七分瘦三分肥
      2025-04-12 23:26:23
      劉世錦:有條件有意愿的地方可以在消費、民生、需求等方面步子大一些

      劉世錦:有條件有意愿的地方可以在消費、民生、需求等方面步子大一些

      證券時報
      2025-12-07 13:55:02
      古代上京的考生盤纏豐厚,為何土匪不搶?土匪:你不看腰上綁的啥

      古代上京的考生盤纏豐厚,為何土匪不搶?土匪:你不看腰上綁的啥

      小豫講故事
      2025-12-08 06:00:07
      孫穎莎幫助國乒拿下冠軍 沒想到日本媒體這樣評價她!真的太全面了

      孫穎莎幫助國乒拿下冠軍 沒想到日本媒體這樣評價她!真的太全面了

      林子說事
      2025-12-08 09:56:05
      新王登基!24小時不到,轟下51分30板28助,他才23歲啊,感謝吹楊

      新王登基!24小時不到,轟下51分30板28助,他才23歲啊,感謝吹楊

      球童無忌
      2025-12-08 01:01:55
      上調存款利率!部分銀行出手

      上調存款利率!部分銀行出手

      中國財富網
      2025-12-08 09:34:10
      已啟動!陜西適齡男子都要登記 →

      已啟動!陜西適齡男子都要登記 →

      西安觀察
      2025-12-07 23:01:14
      雅迪宣布新國標電動車C09上市:前后座設計,標配車筐

      雅迪宣布新國標電動車C09上市:前后座設計,標配車筐

      界面新聞
      2025-12-06 09:28:05
      王清海:山楂是個寶,配上一味藥,給血管“洗個澡”,趕緊存好了

      王清海:山楂是個寶,配上一味藥,給血管“洗個澡”,趕緊存好了

      蠟筆小小子
      2025-12-06 14:49:41
      英國發現,解放軍艦艇正大量集結,數量超100艘,國防部沉默不語

      英國發現,解放軍艦艇正大量集結,數量超100艘,國防部沉默不語

      博覽歷史
      2025-12-05 18:17:34
      馮唐:只要身體還能撐得住,你就能等到下一個天命

      馮唐:只要身體還能撐得住,你就能等到下一個天命

      杏花煙雨江南的碧園
      2025-12-02 15:10:03
      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說后悔選小楊,隨后遭打臉

      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說后悔選小楊,隨后遭打臉

      多多體育
      2025-12-08 09:49:06
      最新研究發現:外星人有70%的幾率不存在,人類或是宇宙唯一

      最新研究發現:外星人有70%的幾率不存在,人類或是宇宙唯一

      觀察宇宙
      2025-12-07 21:34:05
      立陶宛對華發出通牒:最后一次機會!中國已讀不回,它自己先崩了

      立陶宛對華發出通牒:最后一次機會!中國已讀不回,它自己先崩了

      知鑒明史
      2025-12-07 05:30:03
      2025-12-08 14:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11864文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      時尚
      教育
      藝術
      游戲
      軍事航空

      除了大衣,今年最火的外套一定就是它了!

      教育要聞

      重磅!27年起,綿陽中考總分變為700分!明年執行過渡方案!征求意見中

      藝術要聞

      50億美元!迪拜真能建成一個“月球”?

      破次元壁的集結號!國內首款二次元RTS《無限幻想戰線》正式公開,戰略的浪漫由此啟程

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天堂а在线中文在线新版| 国产浮力第一页| 亚洲熟妇色自偷自拍另类| 乱人伦国语对白| 成在线人永久免费视频播放| 久久www香蕉免费人成| 综合久久无码| 一级AV韩国| 国产一区二区三区不卡视频| 丰满白嫩大屁股ass| 色欲av蜜桃一区二区三| 亚洲久草网| 日日爽日日操| 成人综合婷婷国产精品久久| 十八岁污网站在线观看| 亚洲成人在线网址| 黑人精品| 国产精品原创不卡在线| 国产精品亚洲а∨天堂2021| 潍坊市| 超碰成人免费| 亚洲欧美色综合影院| 男女性高爱潮免费网站| 花莲市| 欧美精品人人做人人爱视频| 中文字幕另类综合| 欧美色熟妇| 国产线播放免费人成视频播放| 中文字幕日韩有码| 桃色91| 久久久999| 中文字幕在线精品视频入口一区| 亚洲欧美日韩中文字幕一区二区三区| 熟妇人妻激情偷爽文| 安义县| 亚洲AV无码一区东京热久久| 无套内谢少妇毛片aaaa片免费 | 国产人成亚洲第一网站在线播放| 美女黄频视频大全免费的国内| 亚洲国产日韩精品一区二区三区| 垫江县|