<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      上交博士最新思考:僅用兩個問題講清強(qiáng)化學(xué)習(xí)

      0
      分享至


      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自AI科技評論

      編譯丨鄭佳美

      編輯丨馬曉寧

      人工智能領(lǐng)域發(fā)展到現(xiàn)在,強(qiáng)化學(xué)習(xí)(RL)已經(jīng)成為人工智能中最令人著迷也最核心的研究方向之一。它試圖解決這樣一個問題:當(dāng)智能體沒有現(xiàn)成答案時,如何通過與環(huán)境的交互,自主學(xué)會最優(yōu)行為?

      聽起來簡單,做起來卻異常復(fù)雜。幾十年來,研究者提出了成百上千種算法,從最早的 Q-learning 到后來基于深度學(xué)習(xí)的 DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數(shù)與假設(shè),看起來彼此獨立,仿佛一座龐大而混亂的迷宮。

      對于剛接觸強(qiáng)化學(xué)習(xí)的人來說,這種復(fù)雜性常常令人挫敗:我們似乎在學(xué)習(xí)無數(shù)名字,卻始終難以看清它們之間的聯(lián)系。

      然而,最近有一篇由上海交通大學(xué)與上海期智研究院的博士生 Kun Lei 發(fā)布的博客提出了一個令人眼前一亮的框架:所有強(qiáng)化學(xué)習(xí)算法,其實都可以通過兩個問題來理解,第一,數(shù)據(jù)從哪里來?第二,策略更新有多頻繁?

      就是這兩個看似樸素的問題,像兩根主線一樣,把強(qiáng)化學(xué)習(xí)的世界重新梳理清楚。從它們出發(fā),我們可以發(fā)現(xiàn):復(fù)雜的 RL 算法不過是在這兩根軸上移動的不同點位。

      而當(dāng)這一結(jié)構(gòu)被揭示出來,整個算法邏輯突然變得直觀、有序,也更容易被理解。


      博客地址:https://lei-kun.github.io/blogs/rl.html

      01
      數(shù)據(jù)從哪里來

      強(qiáng)化學(xué)習(xí)的過程,本質(zhì)上是智能體不斷收集經(jīng)驗、并用這些經(jīng)驗改進(jìn)策略的循環(huán)。不同算法的差異,很大程度上取決于它們依賴什么樣的數(shù)據(jù)。

      最直接的方式是“在策略學(xué)習(xí)。在這種模式下,智能體一邊與環(huán)境交互,一邊學(xué)習(xí)。每一個動作都帶來新的數(shù)據(jù),立刻被用于更新模型。這類方法像是不斷在現(xiàn)場實踐的學(xué)生,代表算法包括 PPO、SAC 等。

      在線學(xué)習(xí)的優(yōu)點是靈活、適應(yīng)性強(qiáng),但也意味著代價高昂,每次試錯都可能耗費時間、能量,甚至造成損失。

      相對保守的是“離策略學(xué)習(xí)”。它允許智能體反復(fù)使用過去的經(jīng)驗,而不必每次都重新與環(huán)境交互。算法會把這些經(jīng)驗保存下來,在需要時反復(fù)采樣學(xué)習(xí)。DQN、TD3、DDPG 都屬于這一類。

      離策略學(xué)習(xí)提高了樣本利用率,也讓學(xué)習(xí)過程更穩(wěn)定,是許多實際應(yīng)用中的主流方案。

      還有一種方式更極端,叫做“離線學(xué)習(xí)”。這里,智能體完全依賴一個固定的數(shù)據(jù)集進(jìn)行訓(xùn)練,不能再與環(huán)境交互。這種方法看似受限,但在高風(fēng)險場景中卻尤為重要,比如醫(yī)療、自動駕駛或機(jī)器人控制。

      算法必須在不試錯的情況下,從既有數(shù)據(jù)中學(xué)會盡可能好的決策,CQL、IQL 就是這類方法的代表。

      從在線到離線,數(shù)據(jù)的獲取方式逐漸從主動探索轉(zhuǎn)向被動利用。算法的選擇往往反映了任務(wù)的現(xiàn)實約束:能否安全地試錯?能否持續(xù)獲得新數(shù)據(jù)?試錯的代價是否可承受?這便是強(qiáng)化學(xué)習(xí)的第一個維度:數(shù)據(jù)從哪里來。


      02
      學(xué)習(xí)更新的節(jié)奏

      而強(qiáng)化學(xué)習(xí)的第二個維度,是學(xué)習(xí)更新的節(jié)奏。簡單來說,就是智能體多久評估一次策略,又多久調(diào)整一次行為。

      最簡單的方式是一種“一步式學(xué)習(xí)”。智能體在一個固定的數(shù)據(jù)集上訓(xùn)練一次,學(xué)到一個策略后就不再改進(jìn)。模仿學(xué)習(xí)就是典型例子。它速度快、風(fēng)險低,適合那些對安全性要求高或數(shù)據(jù)有限的任務(wù)。

      另一種方式是“多步式學(xué)習(xí)”。算法在一批數(shù)據(jù)上多次更新,直到性能收斂,再重新收集新的數(shù)據(jù)。這是一種折中策略,既避免了頻繁交互的高成本,又能比一次性訓(xùn)練獲得更好的表現(xiàn)。

      最具代表性的是“迭代式學(xué)習(xí)”。這類算法不斷在“收集數(shù)據(jù)—更新模型—再收集數(shù)據(jù)”的循環(huán)中進(jìn)化,每一次交互都推動性能提升。它們像一個永不停歇的學(xué)習(xí)者,不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

      從一步到多步,再到迭代,算法的更新節(jié)奏越來越密集,也意味著從靜態(tài)到動態(tài)的轉(zhuǎn)變。不同節(jié)奏之間,其實反映的是對穩(wěn)定性和適應(yīng)性的權(quán)衡。


      03
      走一個更底層的統(tǒng)一框架

      在講清楚“數(shù)據(jù)從哪來”和“學(xué)習(xí)更新的節(jié)奏”這兩條主線之后,博客提出了一個更底層的統(tǒng)一視角:無論算法形式如何變化,所有強(qiáng)化學(xué)習(xí)方法其實都在做兩件事:評估當(dāng)前策略、然后改進(jìn)它。

      簡單來說,強(qiáng)化學(xué)習(xí)就像一個反復(fù)自我練習(xí)的過程:

      先評估,看看自己目前的策略表現(xiàn)得怎樣,哪些動作好、哪些不好;

      再改進(jìn),根據(jù)評估結(jié)果,調(diào)整策略,讓下一次決策更聰明一點。

      Q-learning、PPO、SAC……看起來名字各不相同,其實都在重復(fù)這兩個動作。唯一的區(qū)別,只是它們評估得方式不同改進(jìn)的速度不同、或者用到的數(shù)據(jù)不同

      在博客中,作者用一組公式,把這兩步統(tǒng)一地寫了出來:

      評估階段(Policy Evaluation) 就是去衡量“這套策略到底值不值”。算法會讓模型預(yù)測某個狀態(tài)下采取某個動作能得到多大的回報,然后和實際反饋進(jìn)行比較。如果誤差太大,就調(diào)整模型,讓它的預(yù)期更接近現(xiàn)實。在線算法直接用新數(shù)據(jù)計算,離線或離策略算法則要通過重要性采樣、加權(quán)平均等方式修正舊數(shù)據(jù)的偏差。

      改進(jìn)階段(Policy Improvement) 是在得到新的評估結(jié)果后,優(yōu)化策略本身。模型會傾向于選擇那些帶來更高期望回報的動作。但為了避免一下子“改過頭”,很多算法會加上約束或正則項,比如讓新策略不能偏離舊策略太多(這就是 PPO 的思想),或者在策略里保留一定的探索性(這就是 SAC 中熵正則的作用)。


      從這個角度看,所謂不同的強(qiáng)化學(xué)習(xí)算法,其實只是這兩個過程的不同實現(xiàn)。有的算法更注重評估的準(zhǔn)確性,有的更強(qiáng)調(diào)改進(jìn)的穩(wěn)定性,有的頻繁更新、快速迭代,有的則保守謹(jǐn)慎、慢慢優(yōu)化。

      當(dāng)我們用“評估 + 改進(jìn)”去看強(qiáng)化學(xué)習(xí)時,整個算法體系就像被抽絲剝繭地展現(xiàn)在眼前,所有方法都不再是孤立的技巧,而是這兩個動作的不同組合。

      在講清這兩條主線后,博客還進(jìn)一步將視角延伸到了現(xiàn)實世界的智能系統(tǒng),尤其是當(dāng)下正在快速發(fā)展的機(jī)器人基礎(chǔ)模型。

      Kun Lei 指出這種以訓(xùn)練節(jié)奏為核心的思考方式,與現(xiàn)代機(jī)器人基礎(chǔ)模型的訓(xùn)練實踐高度契合。例如 Generalist 團(tuán)隊的 GEN-0 與 Pi 的 pi_0.5,它們的成長過程就像一臺不斷運轉(zhuǎn)的數(shù)據(jù)飛輪。系統(tǒng)會持續(xù)吸收新的任務(wù)與場景,將它們整合進(jìn)統(tǒng)一的語料庫,然后周期性地進(jìn)行再訓(xùn)練或微調(diào)。

      在這樣的機(jī)制下,多步式更新成為一種自然選擇。每一次訓(xùn)練循環(huán)都帶來小幅、受控的改進(jìn),既保守到能避免分布坍塌的風(fēng)險,又留下足夠的探索空間,使模型能夠在不斷擴(kuò)展的數(shù)據(jù)語料中穩(wěn)步成長。

      并且當(dāng)模型逐漸接近能力瓶頸,無論是為了超越人類在特定任務(wù)上的上限,還是為了更精準(zhǔn)地對齊人類表現(xiàn),研究者通常會轉(zhuǎn)向迭代式的在線強(qiáng)化學(xué)習(xí),針對特定目標(biāo)進(jìn)行更高頻、更精細(xì)的評估與改進(jìn)。

      這種從多步更新向在線迭代過渡的訓(xùn)練策略,已在實踐中被多次驗證有效,例如在 rl-100 等典型設(shè)定中,多步更新已經(jīng)能夠在有限數(shù)據(jù)下取得穩(wěn)定進(jìn)步,而適量的在線 RL 則能在保持安全與穩(wěn)定的前提下,將模型性能進(jìn)一步推高。

      04
      走在 RL 前沿的年輕研究者


      作者主頁:https://lei-kun.github.io/?utm

      這篇博客的作者 Kun Lei 目前是上海交通大學(xué)與上海期智研究院的博士生,師從清華大學(xué)許華哲教授。

      Kun Lei 畢業(yè)于西南交通大學(xué),在本科階段就開始從事人工智能與優(yōu)化相關(guān)的研究,并曾與西南交通大學(xué)的郭鵬教授以及美國奧本大學(xué)的王毅教授合作開展科研工作。

      在讀博之前,他曾在上海期智研究院擔(dān)任研究助理,與許華哲教授共同進(jìn)行強(qiáng)化學(xué)習(xí)和機(jī)器人智能方向的研究,后來又在西湖大學(xué)進(jìn)行了為期四個月的科研實習(xí),主要探索具身智能與強(qiáng)化學(xué)習(xí)算法在真實環(huán)境中的應(yīng)用。

      Kun Lei 的研究方向涵蓋深度強(qiáng)化學(xué)習(xí)、具身智能與機(jī)器人學(xué)習(xí)。相比單純追求算法指標(biāo),他更關(guān)心這些算法如何真正落地,怎樣讓強(qiáng)化學(xué)習(xí)不僅在仿真環(huán)境中有效,也能在真實的機(jī)器人系統(tǒng)中穩(wěn)定工作,怎樣讓智能體在有限的數(shù)據(jù)下快速學(xué)習(xí)、靈活適應(yīng)。

      同時從他的博客也能看出,Kun Lei 的研究風(fēng)格兼具工程實踐與直覺思考,他追求的不是更復(fù)雜的模型,而是更清晰的理解。這篇關(guān)于強(qiáng)化學(xué)習(xí)的文章正體現(xiàn)了這種思路,他沒有堆疊晦澀的公式,而是用兩個最本質(zhì)的問題,理出強(qiáng)化學(xué)習(xí)背后的邏輯主線。

      而強(qiáng)化學(xué)習(xí)之所以讓人望而卻步,是因為它的理論體系龐大、公式繁復(fù)。初學(xué)者常常被各種貝爾曼方程、策略梯度、折扣回報等概念包圍,每一個術(shù)語都能展開成幾頁推導(dǎo),但卻難以抓住核心。

      這篇博客的價值就在于,它把這一切重新拉回了原點。作者沒有從復(fù)雜的數(shù)學(xué)出發(fā),而是提出兩個最簡單的問題:數(shù)據(jù)從哪里來?策略更新有多頻繁?

      這看似樸素的提問,其實觸及了強(qiáng)化學(xué)習(xí)的根。它幫助讀者重新看見算法的結(jié)構(gòu),不同方法之間不再是孤立的技巧,而是圍繞這兩個維度的不同取舍。通過這樣的視角,強(qiáng)化學(xué)習(xí)那片看似混亂的森林,突然變得有路可循。

      更重要的是,這種思路不僅僅是一種講解方式,更是一種思考問題的習(xí)慣。它提醒我們,復(fù)雜系統(tǒng)的背后往往隱藏著最簡單的規(guī)律,只是被層層公式和術(shù)語掩蓋。當(dāng)我們回到原理本身,用結(jié)構(gòu)化的方式去理解問題,復(fù)雜性就不再是障礙。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      驚魂一夜!特朗普俯身撤離,魯比奧趴到桌子底

      驚魂一夜!特朗普俯身撤離,魯比奧趴到桌子底

      中國新聞周刊
      2026-04-26 12:35:35
      87歲劉詩昆:住美國600平豪宅,和三婚妻子兒女雙全,享天倫之樂

      87歲劉詩昆:住美國600平豪宅,和三婚妻子兒女雙全,享天倫之樂

      白面書誏
      2026-04-22 14:46:57
      70歲老人哭訴:請親戚當(dāng)住家保姆,本以為很靠譜,結(jié)果卻很窩火

      70歲老人哭訴:請親戚當(dāng)住家保姆,本以為很靠譜,結(jié)果卻很窩火

      烙任情感
      2026-04-25 11:41:04
      成龍和克里斯·塔克因不滿片酬,已拒絕《尖峰時刻4》的初步邀約;特朗普曾催拍《尖峰時刻4》,渴望讓傳統(tǒng)男子氣概在好萊塢文化中重現(xiàn)光彩

      成龍和克里斯·塔克因不滿片酬,已拒絕《尖峰時刻4》的初步邀約;特朗普曾催拍《尖峰時刻4》,渴望讓傳統(tǒng)男子氣概在好萊塢文化中重現(xiàn)光彩

      魯中晨報
      2026-04-25 15:48:13
      CBA最新消息!沈梓捷或離開北控男籃,郭昊文合同到期

      CBA最新消息!沈梓捷或離開北控男籃,郭昊文合同到期

      體壇瞎白話
      2026-04-26 09:53:56
      98年我在東莞當(dāng)保安,一個舞女為躲追殺藏我宿舍,竟是臥底女警

      98年我在東莞當(dāng)保安,一個舞女為躲追殺藏我宿舍,竟是臥底女警

      千秋文化
      2026-04-22 20:17:38
      1.9秒一單狂破世界紀(jì)錄!安徽小縣城憑三樣小吃,火遍整個長三角

      1.9秒一單狂破世界紀(jì)錄!安徽小縣城憑三樣小吃,火遍整個長三角

      青眼財經(jīng)
      2026-04-25 23:05:36
      大學(xué)“倒閉潮”倒計時?7年后你的文憑,或許還不如一張電工證

      大學(xué)“倒閉潮”倒計時?7年后你的文憑,或許還不如一張電工證

      小談食刻美食
      2026-04-25 09:37:54
      “骨盆前傾成這樣,還不去醫(yī)院?”家長曬一年級女兒體態(tài),被群嘲

      “骨盆前傾成這樣,還不去醫(yī)院?”家長曬一年級女兒體態(tài),被群嘲

      妍妍教育日記
      2026-04-24 11:15:25
      華晨宇演唱會延期哭了,撫仙湖居民發(fā)聲:那我們之前的犧牲算什么

      華晨宇演唱會延期哭了,撫仙湖居民發(fā)聲:那我們之前的犧牲算什么

      離離言幾許
      2026-04-23 20:05:27
      劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網(wǎng)友吵翻

      劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網(wǎng)友吵翻

      南萬說娛26
      2026-04-26 10:26:45
      20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

      20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

      以茶帶書
      2026-04-25 19:22:44
      香港明明是中國的領(lǐng)土,為何他們回歸多年,依然還在使用港幣?

      香港明明是中國的領(lǐng)土,為何他們回歸多年,依然還在使用港幣?

      抽象派大師
      2026-04-25 18:47:51
      豪門闊太只拍一部戲就隱退,獲演員丈夫?qū)檺?0年

      豪門闊太只拍一部戲就隱退,獲演員丈夫?qū)檺?0年

      眼底星碎
      2026-04-25 11:35:30
      賴清德或?qū)⒈粡椲老屡_!這一票,即將改寫臺灣的命運

      賴清德或?qū)⒈粡椲老屡_!這一票,即將改寫臺灣的命運

      命運自認(rèn)幽默
      2026-04-25 16:33:34
      G3裁判報告:漏吹斯馬特進(jìn)線+詹姆斯出界 火箭本該不打加時贏球?

      G3裁判報告:漏吹斯馬特進(jìn)線+詹姆斯出界 火箭本該不打加時贏球?

      羅說NBA
      2026-04-26 05:02:11
      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      洞見小能手
      2026-04-24 10:21:16
      鄭州一村吃席只有3個菜!煙酒不超40,每桌140,網(wǎng)友:請全國推廣

      鄭州一村吃席只有3個菜!煙酒不超40,每桌140,網(wǎng)友:請全國推廣

      小秋情感說
      2026-04-26 09:35:44
      18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

      18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

      歷史回憶室
      2026-04-23 22:43:15
      笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發(fā)給老師

      笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發(fā)給老師

      夜深愛雜談
      2026-04-25 07:33:34
      2026-04-26 14:19:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6853文章數(shù) 94542關(guān)注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      頭條要聞

      白宮槍手系教師兼游戲開發(fā)者 曾向哈里斯總統(tǒng)競選捐款

      頭條要聞

      白宮槍手系教師兼游戲開發(fā)者 曾向哈里斯總統(tǒng)競選捐款

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結(jié)局意難平

      財經(jīng)要聞

      DeepSeek V4背后,梁文鋒的轉(zhuǎn)身

      汽車要聞

      預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      健康
      家居
      手機(jī)
      數(shù)碼
      時尚

      干細(xì)胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      自然肌理 溫潤美學(xué)

      手機(jī)要聞

      iPhone 17 Pro Max重回榜首,W16周單品Top30分析

      數(shù)碼要聞

      同檔最強(qiáng)小平板!OPPO Pad Mini下周首銷:3199元起

      IU的臉,真的有自己的時間線

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品涩涩涩视频网站| 无码人妻丰满熟妇区五十路在线 | 伊人九九网香蕉精品| 国产鲁鲁视频在线观看| 亚欧乱色精品免费观看| 啦啦啦视频在线观看免费播放高清| 久久成人 久久鬼色| 橹橹色| 野花韩国日本免费观看| 亚洲精品日本久久一区二区三区| 亚洲欧美日韩人成在线播放| 国产亚洲精品第一综合麻豆| 91乱伦视频| 在线成人www免费观看视频| 蜜桃视频在线观看18| 久久久一本精品99久久精品66直播| 亚洲国产成人精品女人久久久| 人妖精品视频在线观看| 大黑人交xxxx18视频| 芒康县| 无码熟妇αⅴ人妻又粗又大| 91露脸| 亚洲国产综合AV| 伊人久久大香线蕉AV网| 国产精品免费视频网站| 国产亚洲精品日韩香蕉网| 精品国产AV无码一区二区三区| 国产精品久久精品第一页| 舞钢市| 日本熟妇大乳| 91视频在线视频| 中文人妻不卡| 91精品久久久无码中文字幕少妇| 午夜三级在线| 无遮高潮国产免费观看| 婷婷色中文网| 999国内精品视频免费| 国产精品玖玖玖在线| 激情综合色五月六月婷婷| 岛国AV在线| 99精品偷自拍|