<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上交博士最新思考:僅用兩個問題講清強化學習

      0
      分享至


      大數據文摘受權轉載自AI科技評論

      編譯丨鄭佳美

      編輯丨馬曉寧

      人工智能領域發展到現在,強化學習(RL)已經成為人工智能中最令人著迷也最核心的研究方向之一。它試圖解決這樣一個問題:當智能體沒有現成答案時,如何通過與環境的交互,自主學會最優行為?

      聽起來簡單,做起來卻異常復雜。幾十年來,研究者提出了成百上千種算法,從最早的 Q-learning 到后來基于深度學習的 DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數與假設,看起來彼此獨立,仿佛一座龐大而混亂的迷宮。

      對于剛接觸強化學習的人來說,這種復雜性常常令人挫敗:我們似乎在學習無數名字,卻始終難以看清它們之間的聯系。

      然而,最近有一篇由上海交通大學與上海期智研究院的博士生 Kun Lei 發布的博客提出了一個令人眼前一亮的框架:所有強化學習算法,其實都可以通過兩個問題來理解,第一,數據從哪里來?第二,策略更新有多頻繁?

      就是這兩個看似樸素的問題,像兩根主線一樣,把強化學習的世界重新梳理清楚。從它們出發,我們可以發現:復雜的 RL 算法不過是在這兩根軸上移動的不同點位。

      而當這一結構被揭示出來,整個算法邏輯突然變得直觀、有序,也更容易被理解。


      博客地址:https://lei-kun.github.io/blogs/rl.html

      01
      數據從哪里來

      強化學習的過程,本質上是智能體不斷收集經驗、并用這些經驗改進策略的循環。不同算法的差異,很大程度上取決于它們依賴什么樣的數據。

      最直接的方式是“在策略學習。在這種模式下,智能體一邊與環境交互,一邊學習。每一個動作都帶來新的數據,立刻被用于更新模型。這類方法像是不斷在現場實踐的學生,代表算法包括 PPO、SAC 等。

      在線學習的優點是靈活、適應性強,但也意味著代價高昂,每次試錯都可能耗費時間、能量,甚至造成損失。

      相對保守的是“離策略學習”。它允許智能體反復使用過去的經驗,而不必每次都重新與環境交互。算法會把這些經驗保存下來,在需要時反復采樣學習。DQN、TD3、DDPG 都屬于這一類。

      離策略學習提高了樣本利用率,也讓學習過程更穩定,是許多實際應用中的主流方案。

      還有一種方式更極端,叫做“離線學習”。這里,智能體完全依賴一個固定的數據集進行訓練,不能再與環境交互。這種方法看似受限,但在高風險場景中卻尤為重要,比如醫療、自動駕駛或機器人控制。

      算法必須在不試錯的情況下,從既有數據中學會盡可能好的決策,CQL、IQL 就是這類方法的代表。

      從在線到離線,數據的獲取方式逐漸從主動探索轉向被動利用。算法的選擇往往反映了任務的現實約束:能否安全地試錯?能否持續獲得新數據?試錯的代價是否可承受?這便是強化學習的第一個維度:數據從哪里來。


      02
      學習更新的節奏

      而強化學習的第二個維度,是學習更新的節奏。簡單來說,就是智能體多久評估一次策略,又多久調整一次行為。

      最簡單的方式是一種“一步式學習”。智能體在一個固定的數據集上訓練一次,學到一個策略后就不再改進。模仿學習就是典型例子。它速度快、風險低,適合那些對安全性要求高或數據有限的任務。

      另一種方式是“多步式學習”。算法在一批數據上多次更新,直到性能收斂,再重新收集新的數據。這是一種折中策略,既避免了頻繁交互的高成本,又能比一次性訓練獲得更好的表現。

      最具代表性的是“迭代式學習”。這類算法不斷在“收集數據—更新模型—再收集數據”的循環中進化,每一次交互都推動性能提升。它們像一個永不停歇的學習者,不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

      從一步到多步,再到迭代,算法的更新節奏越來越密集,也意味著從靜態到動態的轉變。不同節奏之間,其實反映的是對穩定性和適應性的權衡。


      03
      走一個更底層的統一框架

      在講清楚“數據從哪來”和“學習更新的節奏”這兩條主線之后,博客提出了一個更底層的統一視角:無論算法形式如何變化,所有強化學習方法其實都在做兩件事:評估當前策略、然后改進它。

      簡單來說,強化學習就像一個反復自我練習的過程:

      先評估,看看自己目前的策略表現得怎樣,哪些動作好、哪些不好;

      再改進,根據評估結果,調整策略,讓下一次決策更聰明一點。

      Q-learning、PPO、SAC……看起來名字各不相同,其實都在重復這兩個動作。唯一的區別,只是它們評估得方式不同改進的速度不同、或者用到的數據不同

      在博客中,作者用一組公式,把這兩步統一地寫了出來:

      評估階段(Policy Evaluation) 就是去衡量“這套策略到底值不值”。算法會讓模型預測某個狀態下采取某個動作能得到多大的回報,然后和實際反饋進行比較。如果誤差太大,就調整模型,讓它的預期更接近現實。在線算法直接用新數據計算,離線或離策略算法則要通過重要性采樣、加權平均等方式修正舊數據的偏差。

      改進階段(Policy Improvement) 是在得到新的評估結果后,優化策略本身。模型會傾向于選擇那些帶來更高期望回報的動作。但為了避免一下子“改過頭”,很多算法會加上約束或正則項,比如讓新策略不能偏離舊策略太多(這就是 PPO 的思想),或者在策略里保留一定的探索性(這就是 SAC 中熵正則的作用)。


      從這個角度看,所謂不同的強化學習算法,其實只是這兩個過程的不同實現。有的算法更注重評估的準確性,有的更強調改進的穩定性,有的頻繁更新、快速迭代,有的則保守謹慎、慢慢優化。

      當我們用“評估 + 改進”去看強化學習時,整個算法體系就像被抽絲剝繭地展現在眼前,所有方法都不再是孤立的技巧,而是這兩個動作的不同組合。

      在講清這兩條主線后,博客還進一步將視角延伸到了現實世界的智能系統,尤其是當下正在快速發展的機器人基礎模型。

      Kun Lei 指出這種以訓練節奏為核心的思考方式,與現代機器人基礎模型的訓練實踐高度契合。例如 Generalist 團隊的 GEN-0 與 Pi 的 pi_0.5,它們的成長過程就像一臺不斷運轉的數據飛輪。系統會持續吸收新的任務與場景,將它們整合進統一的語料庫,然后周期性地進行再訓練或微調。

      在這樣的機制下,多步式更新成為一種自然選擇。每一次訓練循環都帶來小幅、受控的改進,既保守到能避免分布坍塌的風險,又留下足夠的探索空間,使模型能夠在不斷擴展的數據語料中穩步成長。

      并且當模型逐漸接近能力瓶頸,無論是為了超越人類在特定任務上的上限,還是為了更精準地對齊人類表現,研究者通常會轉向迭代式的在線強化學習,針對特定目標進行更高頻、更精細的評估與改進。

      這種從多步更新向在線迭代過渡的訓練策略,已在實踐中被多次驗證有效,例如在 rl-100 等典型設定中,多步更新已經能夠在有限數據下取得穩定進步,而適量的在線 RL 則能在保持安全與穩定的前提下,將模型性能進一步推高。

      04
      走在 RL 前沿的年輕研究者


      作者主頁:https://lei-kun.github.io/?utm

      這篇博客的作者 Kun Lei 目前是上海交通大學與上海期智研究院的博士生,師從清華大學許華哲教授。

      Kun Lei 畢業于西南交通大學,在本科階段就開始從事人工智能與優化相關的研究,并曾與西南交通大學的郭鵬教授以及美國奧本大學的王毅教授合作開展科研工作。

      在讀博之前,他曾在上海期智研究院擔任研究助理,與許華哲教授共同進行強化學習和機器人智能方向的研究,后來又在西湖大學進行了為期四個月的科研實習,主要探索具身智能與強化學習算法在真實環境中的應用。

      Kun Lei 的研究方向涵蓋深度強化學習、具身智能與機器人學習。相比單純追求算法指標,他更關心這些算法如何真正落地,怎樣讓強化學習不僅在仿真環境中有效,也能在真實的機器人系統中穩定工作,怎樣讓智能體在有限的數據下快速學習、靈活適應。

      同時從他的博客也能看出,Kun Lei 的研究風格兼具工程實踐與直覺思考,他追求的不是更復雜的模型,而是更清晰的理解。這篇關于強化學習的文章正體現了這種思路,他沒有堆疊晦澀的公式,而是用兩個最本質的問題,理出強化學習背后的邏輯主線。

      而強化學習之所以讓人望而卻步,是因為它的理論體系龐大、公式繁復。初學者常常被各種貝爾曼方程、策略梯度、折扣回報等概念包圍,每一個術語都能展開成幾頁推導,但卻難以抓住核心。

      這篇博客的價值就在于,它把這一切重新拉回了原點。作者沒有從復雜的數學出發,而是提出兩個最簡單的問題:數據從哪里來?策略更新有多頻繁?

      這看似樸素的提問,其實觸及了強化學習的根。它幫助讀者重新看見算法的結構,不同方法之間不再是孤立的技巧,而是圍繞這兩個維度的不同取舍。通過這樣的視角,強化學習那片看似混亂的森林,突然變得有路可循。

      更重要的是,這種思路不僅僅是一種講解方式,更是一種思考問題的習慣。它提醒我們,復雜系統的背后往往隱藏著最簡單的規律,只是被層層公式和術語掩蓋。當我們回到原理本身,用結構化的方式去理解問題,復雜性就不再是障礙。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      難以置信!徐萌嫁給87歲的范曾還是“黃花閨女”,妥妥的頭婚…

      難以置信!徐萌嫁給87歲的范曾還是“黃花閨女”,妥妥的頭婚…

      火山詩話
      2025-12-12 07:31:45
      煙臺劉女士事件升級!又一商家發聲,涉案金額已超10萬,攤大事了

      煙臺劉女士事件升級!又一商家發聲,涉案金額已超10萬,攤大事了

      鋭娛之樂
      2025-12-13 08:56:27
      看明白了,2026年春節要“涼涼”?不是沒錢,而是累得不想再折騰

      看明白了,2026年春節要“涼涼”?不是沒錢,而是累得不想再折騰

      冷紫葉
      2025-12-13 15:01:11
      4斤黃金鳳冠被毀!千萬粉絲博主稱是“丈夫親手設計打造”!網友:那個小孩碰了不止一下

      4斤黃金鳳冠被毀!千萬粉絲博主稱是“丈夫親手設計打造”!網友:那個小孩碰了不止一下

      極目新聞
      2025-12-13 20:41:48
      被曝出軌,保劍鋒工作室回應

      被曝出軌,保劍鋒工作室回應

      觀察者網
      2025-12-13 09:59:40
      魔法打敗魔法!銀行辦業務被“刁難”,男子報警要求反查職員身份

      魔法打敗魔法!銀行辦業務被“刁難”,男子報警要求反查職員身份

      火山詩話
      2025-12-14 06:33:29
      見證歷史,中國籃球出現最奇葩比賽,CBA徹底成了大笑話

      見證歷史,中國籃球出現最奇葩比賽,CBA徹底成了大笑話

      宗介說體育
      2025-12-13 15:46:24
      官方:2026年,力爭全國基本實現生娃不花錢

      官方:2026年,力爭全國基本實現生娃不花錢

      南方都市報
      2025-12-13 17:54:15
      難以置信!10年無人發現993萬流失,政務大廳居然放置個人收款碼

      難以置信!10年無人發現993萬流失,政務大廳居然放置個人收款碼

      火山詩話
      2025-12-13 06:53:21
      泰國轟炸柬埔寨電詐園區,效果比反詐軟件好多了

      泰國轟炸柬埔寨電詐園區,效果比反詐軟件好多了

      歷史總在押韻
      2025-12-13 00:33:27
      佳能給員工發63萬,平臺刪視頻,誰在怕勞動者體面?

      佳能給員工發63萬,平臺刪視頻,誰在怕勞動者體面?

      網絡易不易
      2025-12-13 17:52:51
      內江市人大常委會原一級巡視員陳偉全被查

      內江市人大常委會原一級巡視員陳偉全被查

      愛看頭條
      2025-12-13 18:47:06
      常態化暴打日本!全球圍觀吃瓜!更狠的就要來了!

      常態化暴打日本!全球圍觀吃瓜!更狠的就要來了!

      一個壞土豆
      2025-12-12 19:49:47
      湖北十堰市委書記黃劍雄任宜昌市委書記

      湖北十堰市委書記黃劍雄任宜昌市委書記

      澎湃新聞
      2025-12-13 22:00:27
      3名美方人員遇襲死亡,特朗普誓言報復

      3名美方人員遇襲死亡,特朗普誓言報復

      新京報政事兒
      2025-12-14 07:22:53
      利物浦2-0布萊頓!4輪不敗暫升第6 新援閃擊+雙響 薩拉赫替補助攻

      利物浦2-0布萊頓!4輪不敗暫升第6 新援閃擊+雙響 薩拉赫替補助攻

      我愛英超
      2025-12-14 01:04:34
      66個寒冷預警,冷空氣已全面影響廣東!周日或下周一早晨,將出現最低溫

      66個寒冷預警,冷空氣已全面影響廣東!周日或下周一早晨,將出現最低溫

      南方都市報
      2025-12-13 22:40:44
      霸王餐女后續:賬號被扒連夜清空作品,知情人曝更多,早有目的

      霸王餐女后續:賬號被扒連夜清空作品,知情人曝更多,早有目的

      阿纂看事
      2025-12-13 09:24:46
      10人聚餐逃單后續:組局人身份被扒,拒不付餐費,結局大快人心

      10人聚餐逃單后續:組局人身份被扒,拒不付餐費,結局大快人心

      李健政觀察
      2025-12-13 16:15:45
      中山佳能都解散了!為啥還要這樣?安保、綠化、保潔舉動讓人淚目

      中山佳能都解散了!為啥還要這樣?安保、綠化、保潔舉動讓人淚目

      火山詩話
      2025-12-13 08:43:56
      2025-12-14 08:31:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6806文章數 94518關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      女子225個快遞"僅退款"被披露后又有商家發聲:也是她

      頭條要聞

      女子225個快遞"僅退款"被披露后又有商家發聲:也是她

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      本地
      健康
      時尚
      房產
      公開課

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      甲狀腺結節到這個程度,該穿刺了!

      法式方頭靴的30種穿法,時髦不重樣!

      房產要聞

      中糧好房子體系盛大亮相三亞,禮獻海南自貿港封關

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品午夜爆乳美女视频| 国产精品无码不卡在线播放 | 久久精品波多野结衣| 人妻蜜桃臀中文字幕破解版一区| 国产无套白浆一区二区三区| 成人性做爰aaa片免费看| 亚洲欧美人成电影在线观看| 人妻av一区二区三区av免费| 中文字字幕在线中文| 内射影院| 99re6在线视频精品免费下载| 特级毛片爽www免费版| 国产女同一区二区在线| 日本a网| 肥女五十路| 国产欧美久久一区二区| 久久久久久久久18禁秘| 国产互换人妻XXXXXX6| 国产男女猛烈无遮挡免费视频网站| 欧美大胆少妇bbw| 国语精品国内自产视频| 精品免费100| 亚洲 欧美 清纯 校园 另类| 720lu国产刺激无码| 亚洲小视频| 新蔡县| 少妇被躁爽到高潮无码文 | 久久精品无码中文字幕| 日韩欧美高清dvd碟片| 中文字幕亚洲天堂| jjzzxxxx| 国产精品爽爽久久久久久| 亚洲aⅴ无码专区在线观看春色| 91素人| 成人综合精品| 亚洲综合在线另类色区奇米| 性做久久久久久久| 千阳县| 男人用嘴添女人下身免费视频| bt天堂新版中文在线| 婷婷五月花|