<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓AI學習效率飆升50倍的秘密:在線策略蒸餾

      0
      分享至


      想象一下,你在教一個學生寫作文。

      傳統做法是:你給他十篇范文,讓他照著學。

      這叫“模仿學習”。

      但很快你發現——當他真正面對一個沒見過的題目時,立刻就懵了。

      于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個句子的優劣、邏輯是否通順、語氣是否合適。

      這種“邊寫邊教”的方式,更像真正的學習。

      這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
      它提出了一種全新的 AI 訓練方式——讓模型在“自己行動”的軌跡上,被實時指導、被動態優化。
      這聽起來簡單,卻可能改寫整個大模型的訓練范式。

      一、為什么是他們:從 OpenAI 走出的“思考機器”

      Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創辦的新實驗室。
      她和團隊成員 John Schulman、Barret Zoph 都是推動 ChatGPT 與強化學習革命的關鍵人物。
      他們的研究方向有一個共同點:讓模型更懂得“如何學習”

      這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續了他們在 RLHF(人類反饋強化學習)和蒸餾訓練上的積累。

      他們在問一個根本問題——

      “AI的學習方式是不是錯了?”

      二、舊方法的瓶頸:AI其實是在“死記硬背”

      當我們說“訓練一個大模型”,其實是兩步:

      讓模型看大量人類寫的文本(稱為SFT:監督微調)。

      再通過RLHF(強化學習)讓它學會“人類喜歡的回答方式”。

      問題在于——這兩步并不協調。

      SFT 教的是“模仿舊答案”;RLHF 強調“探索新答案”。

      前者像“死記硬背”,后者像“自我實踐”。

      模型經常在兩者之間搖擺:要么過度順從人類樣本,要么冒進地亂試。

      三、新方法:讓模型“邊干邊學”

      Thinking Machines Lab 提出的On-Policy Distillation(政策內蒸餾)
      是想把這兩種學習方式“融合”成一種更自然的狀態。

      傳統蒸餾(Distillation)是:

      老師(大模型)寫出一份完美答案,學生照著學。

      而他們的新方法是:

      學生自己先寫一遍,老師實時給出每一步的分數、建議、改進方向。

      這個過程在強化學習里叫On-Policy——模型在“自己生成的軌跡”上學習,而不是在別人給的現成答案上學習。
      于是,模型學到的不再是“理想的句子”,而是“如何自己到達理想的句子”。

      可以把它理解為:

      不再教模型“結論”,而是教它“思考的路徑”。

      四、核心創新:從“獎勵”到“打分”

      RLHF 的本質是“獎勵”(Reward):模型生成一整段答案,評審模型給它一個分。

      但這有個問題——只有整段結束后才能反饋,太慢了。

      On-Policy Distillation把反饋粒度縮小到“每個token”(每一個生成的字詞)。
      就像作文老師不再只給你打總分,而是逐句標注“這里句式優美”“這里邏輯混亂”。
      這種“密集監督”(dense supervision)方式讓學習效率成倍提升。

      論文作者形象地稱之為“用微鏡頭監督AI的思考過程”。

      五、結果:更快、更穩、更便宜

      他們用這個方法訓練模型后,

      在 AIME’24 數學基準測試上,性能超過了傳統 RLHF 模型。

      同時算力需求更低、訓練更穩定、結果更可復現。

      一句話總結就是:

      以前我們靠“懲罰與獎勵”教AI做人,
      現在我們靠“示范與糾錯”教AI成長。

      六、為什么重要:AI 訓練的“學習論轉向”

      在更宏觀的層面,這篇論文揭示的是AI學習方式的哲學轉折
      過去幾年我們用海量數據喂模型,希望它靠統計規律“模仿人類”。
      但 Thinking Machines 團隊認為,真正的智能不在模仿,而在于反思自己的行為

      “On-Policy Distillation” 讓 AI 有機會在自己的軌跡上打磨自己——

      這讓“自我改進型智能體”(self-improving agent)成為現實的一步。

      未來,當你的AI助手能在每天的任務中積累經驗、吸收教訓、變得越來越懂你,

      也許正是這種“on-policy”學習在默默起作用。

      七、所以呢?

      在AI訓練的世界里,思維方式的改變往往比算力更值錢
      Thinking Machines Lab 的這篇論文不是在造一個更大的模型,
      而是在重新定義“學習”這件事的意義。

      當AI開始自己教自己,

      我們也許正見證著“智能的第二次覺醒”——

      第一次是機器學會說話,

      第二次,是它學會思考“我為什么這么說”。

      整理:周華香

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      山東小伙娶只有8歲智商的新娘,笑的合不攏嘴,網友:賺大了!

      山東小伙娶只有8歲智商的新娘,笑的合不攏嘴,網友:賺大了!

      觀察鑒娛
      2026-02-01 15:02:49
      普京宮殿的“遺產”:65億盧布天降橫財,最終都流向了同一個人

      普京宮殿的“遺產”:65億盧布天降橫財,最終都流向了同一個人

      老馬拉車莫少裝
      2026-02-26 18:52:14
      伊朗第五輪導彈射向以色列

      伊朗第五輪導彈射向以色列

      界面新聞
      2026-02-28 18:33:54
      《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

      《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

      小丸子的娛樂圈
      2026-02-27 17:57:58
      剛剛,中東炸了,全球市場要變天!

      剛剛,中東炸了,全球市場要變天!

      鳳凰網財經
      2026-02-28 18:40:07
      吳宜澤:無法理解江俊的打球方式,希望我再次專注比賽并爭取奪冠

      吳宜澤:無法理解江俊的打球方式,希望我再次專注比賽并爭取奪冠

      世界體壇觀察家
      2026-02-28 08:43:10
      北京賣豆汁大爺爆火,小伙質疑里面摻糞,現場直接舉報,當場帶走

      北京賣豆汁大爺爆火,小伙質疑里面摻糞,現場直接舉報,當場帶走

      離離言幾許
      2026-02-26 16:20:55
      美股暴跌至暗時刻,特朗普徹底慌了,三個感嘆號警告中國別亂來!

      美股暴跌至暗時刻,特朗普徹底慌了,三個感嘆號警告中國別亂來!

      朝子亥
      2026-02-28 16:10:03
      伊朗宣布啟動“誠實承諾4號”大規模軍事行動

      伊朗宣布啟動“誠實承諾4號”大規模軍事行動

      每日經濟新聞
      2026-02-28 18:47:10
      你干過哪些陰暗齷齪的事?網友:最后一個真的好炸裂好真實

      你干過哪些陰暗齷齪的事?網友:最后一個真的好炸裂好真實

      帶你感受人間冷暖
      2026-02-17 01:00:24
      “100%椰子水”到底有幾分真?四款產品送檢均疑似加水加糖

      “100%椰子水”到底有幾分真?四款產品送檢均疑似加水加糖

      閃電新聞
      2026-02-28 17:31:36
      全面開戰!美以對伊朗狂轟濫炸,高層遭斬首、民心盡失

      全面開戰!美以對伊朗狂轟濫炸,高層遭斬首、民心盡失

      老馬拉車莫少裝
      2026-03-01 00:09:55
      中國開盤,世界崩潰!

      中國開盤,世界崩潰!

      米宅海外
      2026-02-28 08:04:00
      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      百態人間
      2026-02-25 15:33:21
      示弱就是毀滅!網友怒了:若20億拿不回,誰來守護百萬億海外資產

      示弱就是毀滅!網友怒了:若20億拿不回,誰來守護百萬億海外資產

      達文西看世界
      2026-02-27 11:35:54
      直線跳水!中東,突發!以色列對伊朗發動打擊

      直線跳水!中東,突發!以色列對伊朗發動打擊

      證券時報e公司
      2026-02-28 14:50:56
      美媒稱自由式滑雪女王谷愛凌“浮現新謎團” ,出生記錄父親欄為空白

      美媒稱自由式滑雪女王谷愛凌“浮現新謎團” ,出生記錄父親欄為空白

      阿廢冷眼觀察所
      2026-02-28 16:14:52
      雷軍直播再提新一代SU7門把手:極端情況下,大小電池同時斷電,門把手依然保留純機械解鎖能力

      雷軍直播再提新一代SU7門把手:極端情況下,大小電池同時斷電,門把手依然保留純機械解鎖能力

      時代財經
      2026-02-28 10:46:20
      當時很多蒙古考察日記中,都提到蒙古人性交隨意,得病者極多!

      當時很多蒙古考察日記中,都提到蒙古人性交隨意,得病者極多!

      老范談史
      2026-02-24 14:51:55
      吳夢潔殺瘋了!再砍全場最高3分,助江蘇女排復仇山東

      吳夢潔殺瘋了!再砍全場最高3分,助江蘇女排復仇山東

      金毛愛女排
      2026-02-28 23:09:18
      2026-03-01 02:00:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      243文章數 14關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      伊朗媒體公布反擊美軍軍事行動結果

      頭條要聞

      伊朗媒體公布反擊美軍軍事行動結果

      體育要聞

      球隊主力全報銷?頂風擺爛演都不演了

      娛樂要聞

      周杰倫兒子正面照曝光,與父親好像

      財經要聞

      沖突爆發 市場變天?

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      本地
      旅游
      藝術
      時尚
      公開課

      本地新聞

      津南好·四時總相宜

      旅游要聞

      忻州古城×元宵節 | “夯”爆了!看非遺社火解鎖忻州古城的超長年味!

      藝術要聞

      驚艷!這位天使般的女子與油畫讓人心動不已!

      這6款發色居然這么火?50張圖可以直接給tony

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版