網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓AI學(xué)習(xí)效率飆升50倍的秘密：在線策略蒸餾

2025-10-28 21:35:23　來源: 硅星GenAI

上海舉報(bào)

分享至

想象一下，你在教一個(gè)學(xué)生寫作文。

傳統(tǒng)做法是：你給他十篇范文，讓他照著學(xué)。

這叫“模仿學(xué)習(xí)”。

但很快你發(fā)現(xiàn)——當(dāng)他真正面對(duì)一個(gè)沒見過的題目時(shí)，立刻就懵了。

于是你換了種方法。讓他自己寫，然后你在旁邊指出每一個(gè)句子的優(yōu)劣、邏輯是否通順、語(yǔ)氣是否合適。

這種“邊寫邊教”的方式，更像真正的學(xué)習(xí)。

這，正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。（原文鏈接：https://thinkingmachines.ai/blog/on-policy-distillation/）
它提出了一種全新的 AI 訓(xùn)練方式——讓模型在“自己行動(dòng)”的軌跡上，被實(shí)時(shí)指導(dǎo)、被動(dòng)態(tài)優(yōu)化。
這聽起來簡(jiǎn)單，卻可能改寫整個(gè)大模型的訓(xùn)練范式。

一、為什么是他們：從 OpenAI 走出的“思考機(jī)器”

Thinking Machines Lab 是 Mira Murati（前 OpenAI CTO）離職后創(chuàng)辦的新實(shí)驗(yàn)室。
她和團(tuán)隊(duì)成員 John Schulman、Barret Zoph 都是推動(dòng) ChatGPT 與強(qiáng)化學(xué)習(xí)革命的關(guān)鍵人物。
他們的研究方向有一個(gè)共同點(diǎn)：讓模型更懂得“如何學(xué)習(xí)”。

這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人，延續(xù)了他們?cè)?RLHF（人類反饋強(qiáng)化學(xué)習(xí)）和蒸餾訓(xùn)練上的積累。

他們?cè)趩栆粋€(gè)根本問題——

“AI的學(xué)習(xí)方式是不是錯(cuò)了？”

二、舊方法的瓶頸：AI其實(shí)是在“死記硬背”

當(dāng)我們說“訓(xùn)練一個(gè)大模型”，其實(shí)是兩步：

讓模型看大量人類寫的文本（稱為SFT：監(jiān)督微調(diào)）。

再通過RLHF（強(qiáng)化學(xué)習(xí)）讓它學(xué)會(huì)“人類喜歡的回答方式”。

問題在于——這兩步并不協(xié)調(diào)。

SFT 教的是“模仿舊答案”；RLHF 強(qiáng)調(diào)“探索新答案”。

前者像“死記硬背”，后者像“自我實(shí)踐”。

模型經(jīng)常在兩者之間搖擺：要么過度順從人類樣本，要么冒進(jìn)地亂試。

三、新方法：讓模型“邊干邊學(xué)”

Thinking Machines Lab 提出的On-Policy Distillation（政策內(nèi)蒸餾），
是想把這兩種學(xué)習(xí)方式“融合”成一種更自然的狀態(tài)。

傳統(tǒng)蒸餾（Distillation）是：

老師（大模型）寫出一份完美答案，學(xué)生照著學(xué)。

而他們的新方法是：

學(xué)生自己先寫一遍，老師實(shí)時(shí)給出每一步的分?jǐn)?shù)、建議、改進(jìn)方向。

這個(gè)過程在強(qiáng)化學(xué)習(xí)里叫On-Policy——模型在“自己生成的軌跡”上學(xué)習(xí)，而不是在別人給的現(xiàn)成答案上學(xué)習(xí)。
于是，模型學(xué)到的不再是“理想的句子”，而是“如何自己到達(dá)理想的句子”。

可以把它理解為：

不再教模型“結(jié)論”，而是教它“思考的路徑”。

四、核心創(chuàng)新：從“獎(jiǎng)勵(lì)”到“打分”

RLHF 的本質(zhì)是“獎(jiǎng)勵(lì)”（Reward）：模型生成一整段答案，評(píng)審模型給它一個(gè)分。

但這有個(gè)問題——只有整段結(jié)束后才能反饋，太慢了。

On-Policy Distillation把反饋粒度縮小到“每個(gè)token”（每一個(gè)生成的字詞）。
就像作文老師不再只給你打總分，而是逐句標(biāo)注“這里句式優(yōu)美”“這里邏輯混亂”。
這種“密集監(jiān)督”（dense supervision）方式讓學(xué)習(xí)效率成倍提升。

論文作者形象地稱之為“用微鏡頭監(jiān)督AI的思考過程”。

五、結(jié)果：更快、更穩(wěn)、更便宜

他們用這個(gè)方法訓(xùn)練模型后，

在 AIME’24 數(shù)學(xué)基準(zhǔn)測(cè)試上，性能超過了傳統(tǒng) RLHF 模型。

同時(shí)算力需求更低、訓(xùn)練更穩(wěn)定、結(jié)果更可復(fù)現(xiàn)。

一句話總結(jié)就是：

以前我們靠“懲罰與獎(jiǎng)勵(lì)”教AI做人，
現(xiàn)在我們靠“示范與糾錯(cuò)”教AI成長(zhǎng)。

六、為什么重要：AI 訓(xùn)練的“學(xué)習(xí)論轉(zhuǎn)向”

在更宏觀的層面，這篇論文揭示的是AI學(xué)習(xí)方式的哲學(xué)轉(zhuǎn)折。
過去幾年我們用海量數(shù)據(jù)喂模型，希望它靠統(tǒng)計(jì)規(guī)律“模仿人類”。
但 Thinking Machines 團(tuán)隊(duì)認(rèn)為，真正的智能不在模仿，而在于反思自己的行為。

“On-Policy Distillation” 讓 AI 有機(jī)會(huì)在自己的軌跡上打磨自己——

這讓“自我改進(jìn)型智能體”（self-improving agent）成為現(xiàn)實(shí)的一步。

未來，當(dāng)你的AI助手能在每天的任務(wù)中積累經(jīng)驗(yàn)、吸收教訓(xùn)、變得越來越懂你，

也許正是這種“on-policy”學(xué)習(xí)在默默起作用。

七、所以呢？

在AI訓(xùn)練的世界里，思維方式的改變往往比算力更值錢。
Thinking Machines Lab 的這篇論文不是在造一個(gè)更大的模型，
而是在重新定義“學(xué)習(xí)”這件事的意義。

當(dāng)AI開始自己教自己，

我們也許正見證著“智能的第二次覺醒”——

第一次是機(jī)器學(xué)會(huì)說話，

第二次，是它學(xué)會(huì)思考“我為什么這么說”。

整理：周華香

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.