![]()
想象一下,你在教一個學生寫作文。
傳統做法是:你給他十篇范文,讓他照著學。
這叫“模仿學習”。
但很快你發現——當他真正面對一個沒見過的題目時,立刻就懵了。
于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個句子的優劣、邏輯是否通順、語氣是否合適。
這種“邊寫邊教”的方式,更像真正的學習。
這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
它提出了一種全新的 AI 訓練方式——讓模型在“自己行動”的軌跡上,被實時指導、被動態優化。
這聽起來簡單,卻可能改寫整個大模型的訓練范式。
一、為什么是他們:從 OpenAI 走出的“思考機器”
Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創辦的新實驗室。
她和團隊成員 John Schulman、Barret Zoph 都是推動 ChatGPT 與強化學習革命的關鍵人物。
他們的研究方向有一個共同點:讓模型更懂得“如何學習”。
這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續了他們在 RLHF(人類反饋強化學習)和蒸餾訓練上的積累。
他們在問一個根本問題——
“AI的學習方式是不是錯了?”
二、舊方法的瓶頸:AI其實是在“死記硬背”
當我們說“訓練一個大模型”,其實是兩步:
讓模型看大量人類寫的文本(稱為SFT:監督微調)。
再通過RLHF(強化學習)讓它學會“人類喜歡的回答方式”。
問題在于——這兩步并不協調。
SFT 教的是“模仿舊答案”;RLHF 強調“探索新答案”。
前者像“死記硬背”,后者像“自我實踐”。
模型經常在兩者之間搖擺:要么過度順從人類樣本,要么冒進地亂試。
三、新方法:讓模型“邊干邊學”
Thinking Machines Lab 提出的On-Policy Distillation(政策內蒸餾),
是想把這兩種學習方式“融合”成一種更自然的狀態。
傳統蒸餾(Distillation)是:
老師(大模型)寫出一份完美答案,學生照著學。
而他們的新方法是:
學生自己先寫一遍,老師實時給出每一步的分數、建議、改進方向。
這個過程在強化學習里叫On-Policy——模型在“自己生成的軌跡”上學習,而不是在別人給的現成答案上學習。
于是,模型學到的不再是“理想的句子”,而是“如何自己到達理想的句子”。
可以把它理解為:
不再教模型“結論”,而是教它“思考的路徑”。
四、核心創新:從“獎勵”到“打分”
RLHF 的本質是“獎勵”(Reward):模型生成一整段答案,評審模型給它一個分。
但這有個問題——只有整段結束后才能反饋,太慢了。
On-Policy Distillation把反饋粒度縮小到“每個token”(每一個生成的字詞)。
就像作文老師不再只給你打總分,而是逐句標注“這里句式優美”“這里邏輯混亂”。
這種“密集監督”(dense supervision)方式讓學習效率成倍提升。
論文作者形象地稱之為“用微鏡頭監督AI的思考過程”。
五、結果:更快、更穩、更便宜
他們用這個方法訓練模型后,
在 AIME’24 數學基準測試上,性能超過了傳統 RLHF 模型。
同時算力需求更低、訓練更穩定、結果更可復現。
一句話總結就是:
以前我們靠“懲罰與獎勵”教AI做人,
現在我們靠“示范與糾錯”教AI成長。
六、為什么重要:AI 訓練的“學習論轉向”
在更宏觀的層面,這篇論文揭示的是AI學習方式的哲學轉折。
過去幾年我們用海量數據喂模型,希望它靠統計規律“模仿人類”。
但 Thinking Machines 團隊認為,真正的智能不在模仿,而在于反思自己的行為。
“On-Policy Distillation” 讓 AI 有機會在自己的軌跡上打磨自己——
這讓“自我改進型智能體”(self-improving agent)成為現實的一步。
未來,當你的AI助手能在每天的任務中積累經驗、吸收教訓、變得越來越懂你,
也許正是這種“on-policy”學習在默默起作用。
七、所以呢?
在AI訓練的世界里,思維方式的改變往往比算力更值錢。
Thinking Machines Lab 的這篇論文不是在造一個更大的模型,
而是在重新定義“學習”這件事的意義。
當AI開始自己教自己,
我們也許正見證著“智能的第二次覺醒”——
第一次是機器學會說話,
第二次,是它學會思考“我為什么這么說”。
整理:周華香
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.