網易首頁 > 網易號 > 正文申請入駐

讓AI學習效率飆升50倍的秘密：在線策略蒸餾

2025-10-28 21:35:23　來源: 硅星GenAI

上海舉報

分享至

想象一下，你在教一個學生寫作文。

傳統做法是：你給他十篇范文，讓他照著學。

這叫“模仿學習”。

但很快你發現——當他真正面對一個沒見過的題目時，立刻就懵了。

于是你換了種方法。讓他自己寫，然后你在旁邊指出每一個句子的優劣、邏輯是否通順、語氣是否合適。

這種“邊寫邊教”的方式，更像真正的學習。

這，正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。（原文鏈接：https://thinkingmachines.ai/blog/on-policy-distillation/）
它提出了一種全新的 AI 訓練方式——讓模型在“自己行動”的軌跡上，被實時指導、被動態優化。
這聽起來簡單，卻可能改寫整個大模型的訓練范式。

一、為什么是他們：從 OpenAI 走出的“思考機器”

Thinking Machines Lab 是 Mira Murati（前 OpenAI CTO）離職后創辦的新實驗室。
她和團隊成員 John Schulman、Barret Zoph 都是推動 ChatGPT 與強化學習革命的關鍵人物。
他們的研究方向有一個共同點：讓模型更懂得“如何學習”。

這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人，延續了他們在 RLHF（人類反饋強化學習）和蒸餾訓練上的積累。

他們在問一個根本問題——

“AI的學習方式是不是錯了？”

二、舊方法的瓶頸：AI其實是在“死記硬背”

當我們說“訓練一個大模型”，其實是兩步：

讓模型看大量人類寫的文本（稱為SFT：監督微調）。

再通過RLHF（強化學習）讓它學會“人類喜歡的回答方式”。

問題在于——這兩步并不協調。

SFT 教的是“模仿舊答案”；RLHF 強調“探索新答案”。

前者像“死記硬背”，后者像“自我實踐”。

模型經常在兩者之間搖擺：要么過度順從人類樣本，要么冒進地亂試。

三、新方法：讓模型“邊干邊學”

Thinking Machines Lab 提出的On-Policy Distillation（政策內蒸餾），
是想把這兩種學習方式“融合”成一種更自然的狀態。

傳統蒸餾（Distillation）是：

老師（大模型）寫出一份完美答案，學生照著學。

而他們的新方法是：

學生自己先寫一遍，老師實時給出每一步的分數、建議、改進方向。

這個過程在強化學習里叫On-Policy——模型在“自己生成的軌跡”上學習，而不是在別人給的現成答案上學習。
于是，模型學到的不再是“理想的句子”，而是“如何自己到達理想的句子”。

可以把它理解為：

不再教模型“結論”，而是教它“思考的路徑”。

四、核心創新：從“獎勵”到“打分”

RLHF 的本質是“獎勵”（Reward）：模型生成一整段答案，評審模型給它一個分。

但這有個問題——只有整段結束后才能反饋，太慢了。

On-Policy Distillation把反饋粒度縮小到“每個token”（每一個生成的字詞）。
就像作文老師不再只給你打總分，而是逐句標注“這里句式優美”“這里邏輯混亂”。
這種“密集監督”（dense supervision）方式讓學習效率成倍提升。

論文作者形象地稱之為“用微鏡頭監督AI的思考過程”。

五、結果：更快、更穩、更便宜

他們用這個方法訓練模型后，

在 AIME’24 數學基準測試上，性能超過了傳統 RLHF 模型。

同時算力需求更低、訓練更穩定、結果更可復現。

一句話總結就是：

以前我們靠“懲罰與獎勵”教AI做人，
現在我們靠“示范與糾錯”教AI成長。

六、為什么重要：AI 訓練的“學習論轉向”

在更宏觀的層面，這篇論文揭示的是AI學習方式的哲學轉折。
過去幾年我們用海量數據喂模型，希望它靠統計規律“模仿人類”。
但 Thinking Machines 團隊認為，真正的智能不在模仿，而在于反思自己的行為。

“On-Policy Distillation” 讓 AI 有機會在自己的軌跡上打磨自己——

這讓“自我改進型智能體”（self-improving agent）成為現實的一步。

未來，當你的AI助手能在每天的任務中積累經驗、吸收教訓、變得越來越懂你，

也許正是這種“on-policy”學習在默默起作用。

七、所以呢？

在AI訓練的世界里，思維方式的改變往往比算力更值錢。
Thinking Machines Lab 的這篇論文不是在造一個更大的模型，
而是在重新定義“學習”這件事的意義。

當AI開始自己教自己，

我們也許正見證著“智能的第二次覺醒”——

第一次是機器學會說話，

第二次，是它學會思考“我為什么這么說”。

整理：周華香

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.