![]()
想象一下,你在教一個(gè)學(xué)生寫作文。
傳統(tǒng)做法是:你給他十篇范文,讓他照著學(xué)。
這叫“模仿學(xué)習(xí)”。
但很快你發(fā)現(xiàn)——當(dāng)他真正面對(duì)一個(gè)沒見過的題目時(shí),立刻就懵了。
于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個(gè)句子的優(yōu)劣、邏輯是否通順、語(yǔ)氣是否合適。
這種“邊寫邊教”的方式,更像真正的學(xué)習(xí)。
這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
它提出了一種全新的 AI 訓(xùn)練方式——讓模型在“自己行動(dòng)”的軌跡上,被實(shí)時(shí)指導(dǎo)、被動(dòng)態(tài)優(yōu)化。
這聽起來簡(jiǎn)單,卻可能改寫整個(gè)大模型的訓(xùn)練范式。
一、為什么是他們:從 OpenAI 走出的“思考機(jī)器”
Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創(chuàng)辦的新實(shí)驗(yàn)室。
她和團(tuán)隊(duì)成員 John Schulman、Barret Zoph 都是推動(dòng) ChatGPT 與強(qiáng)化學(xué)習(xí)革命的關(guān)鍵人物。
他們的研究方向有一個(gè)共同點(diǎn):讓模型更懂得“如何學(xué)習(xí)”。
這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續(xù)了他們?cè)?RLHF(人類反饋強(qiáng)化學(xué)習(xí))和蒸餾訓(xùn)練上的積累。
他們?cè)趩栆粋€(gè)根本問題——
“AI的學(xué)習(xí)方式是不是錯(cuò)了?”
二、舊方法的瓶頸:AI其實(shí)是在“死記硬背”
當(dāng)我們說“訓(xùn)練一個(gè)大模型”,其實(shí)是兩步:
讓模型看大量人類寫的文本(稱為SFT:監(jiān)督微調(diào))。
再通過RLHF(強(qiáng)化學(xué)習(xí))讓它學(xué)會(huì)“人類喜歡的回答方式”。
問題在于——這兩步并不協(xié)調(diào)。
SFT 教的是“模仿舊答案”;RLHF 強(qiáng)調(diào)“探索新答案”。
前者像“死記硬背”,后者像“自我實(shí)踐”。
模型經(jīng)常在兩者之間搖擺:要么過度順從人類樣本,要么冒進(jìn)地亂試。
三、新方法:讓模型“邊干邊學(xué)”
Thinking Machines Lab 提出的On-Policy Distillation(政策內(nèi)蒸餾),
是想把這兩種學(xué)習(xí)方式“融合”成一種更自然的狀態(tài)。
傳統(tǒng)蒸餾(Distillation)是:
老師(大模型)寫出一份完美答案,學(xué)生照著學(xué)。
而他們的新方法是:
學(xué)生自己先寫一遍,老師實(shí)時(shí)給出每一步的分?jǐn)?shù)、建議、改進(jìn)方向。
這個(gè)過程在強(qiáng)化學(xué)習(xí)里叫On-Policy——模型在“自己生成的軌跡”上學(xué)習(xí),而不是在別人給的現(xiàn)成答案上學(xué)習(xí)。
于是,模型學(xué)到的不再是“理想的句子”,而是“如何自己到達(dá)理想的句子”。
可以把它理解為:
不再教模型“結(jié)論”,而是教它“思考的路徑”。
四、核心創(chuàng)新:從“獎(jiǎng)勵(lì)”到“打分”
RLHF 的本質(zhì)是“獎(jiǎng)勵(lì)”(Reward):模型生成一整段答案,評(píng)審模型給它一個(gè)分。
但這有個(gè)問題——只有整段結(jié)束后才能反饋,太慢了。
On-Policy Distillation把反饋粒度縮小到“每個(gè)token”(每一個(gè)生成的字詞)。
就像作文老師不再只給你打總分,而是逐句標(biāo)注“這里句式優(yōu)美”“這里邏輯混亂”。
這種“密集監(jiān)督”(dense supervision)方式讓學(xué)習(xí)效率成倍提升。
論文作者形象地稱之為“用微鏡頭監(jiān)督AI的思考過程”。
五、結(jié)果:更快、更穩(wěn)、更便宜
他們用這個(gè)方法訓(xùn)練模型后,
在 AIME’24 數(shù)學(xué)基準(zhǔn)測(cè)試上,性能超過了傳統(tǒng) RLHF 模型。
同時(shí)算力需求更低、訓(xùn)練更穩(wěn)定、結(jié)果更可復(fù)現(xiàn)。
一句話總結(jié)就是:
以前我們靠“懲罰與獎(jiǎng)勵(lì)”教AI做人,
現(xiàn)在我們靠“示范與糾錯(cuò)”教AI成長(zhǎng)。
六、為什么重要:AI 訓(xùn)練的“學(xué)習(xí)論轉(zhuǎn)向”
在更宏觀的層面,這篇論文揭示的是AI學(xué)習(xí)方式的哲學(xué)轉(zhuǎn)折。
過去幾年我們用海量數(shù)據(jù)喂模型,希望它靠統(tǒng)計(jì)規(guī)律“模仿人類”。
但 Thinking Machines 團(tuán)隊(duì)認(rèn)為,真正的智能不在模仿,而在于反思自己的行為。
“On-Policy Distillation” 讓 AI 有機(jī)會(huì)在自己的軌跡上打磨自己——
這讓“自我改進(jìn)型智能體”(self-improving agent)成為現(xiàn)實(shí)的一步。
未來,當(dāng)你的AI助手能在每天的任務(wù)中積累經(jīng)驗(yàn)、吸收教訓(xùn)、變得越來越懂你,
也許正是這種“on-policy”學(xué)習(xí)在默默起作用。
七、所以呢?
在AI訓(xùn)練的世界里,思維方式的改變往往比算力更值錢。
Thinking Machines Lab 的這篇論文不是在造一個(gè)更大的模型,
而是在重新定義“學(xué)習(xí)”這件事的意義。
當(dāng)AI開始自己教自己,
我們也許正見證著“智能的第二次覺醒”——
第一次是機(jī)器學(xué)會(huì)說話,
第二次,是它學(xué)會(huì)思考“我為什么這么說”。
整理:周華香
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.