<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      讓AI學(xué)習(xí)效率飆升50倍的秘密:在線策略蒸餾

      0
      分享至


      想象一下,你在教一個(gè)學(xué)生寫作文。

      傳統(tǒng)做法是:你給他十篇范文,讓他照著學(xué)。

      這叫“模仿學(xué)習(xí)”。

      但很快你發(fā)現(xiàn)——當(dāng)他真正面對(duì)一個(gè)沒見過的題目時(shí),立刻就懵了。

      于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個(gè)句子的優(yōu)劣、邏輯是否通順、語(yǔ)氣是否合適。

      這種“邊寫邊教”的方式,更像真正的學(xué)習(xí)。

      這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
      它提出了一種全新的 AI 訓(xùn)練方式——讓模型在“自己行動(dòng)”的軌跡上,被實(shí)時(shí)指導(dǎo)、被動(dòng)態(tài)優(yōu)化。
      這聽起來簡(jiǎn)單,卻可能改寫整個(gè)大模型的訓(xùn)練范式。

      一、為什么是他們:從 OpenAI 走出的“思考機(jī)器”

      Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創(chuàng)辦的新實(shí)驗(yàn)室。
      她和團(tuán)隊(duì)成員 John Schulman、Barret Zoph 都是推動(dòng) ChatGPT 與強(qiáng)化學(xué)習(xí)革命的關(guān)鍵人物。
      他們的研究方向有一個(gè)共同點(diǎn):讓模型更懂得“如何學(xué)習(xí)”

      這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續(xù)了他們?cè)?RLHF(人類反饋強(qiáng)化學(xué)習(xí))和蒸餾訓(xùn)練上的積累。

      他們?cè)趩栆粋€(gè)根本問題——

      “AI的學(xué)習(xí)方式是不是錯(cuò)了?”

      二、舊方法的瓶頸:AI其實(shí)是在“死記硬背”

      當(dāng)我們說“訓(xùn)練一個(gè)大模型”,其實(shí)是兩步:

      讓模型看大量人類寫的文本(稱為SFT:監(jiān)督微調(diào))。

      再通過RLHF(強(qiáng)化學(xué)習(xí))讓它學(xué)會(huì)“人類喜歡的回答方式”。

      問題在于——這兩步并不協(xié)調(diào)。

      SFT 教的是“模仿舊答案”;RLHF 強(qiáng)調(diào)“探索新答案”。

      前者像“死記硬背”,后者像“自我實(shí)踐”。

      模型經(jīng)常在兩者之間搖擺:要么過度順從人類樣本,要么冒進(jìn)地亂試。

      三、新方法:讓模型“邊干邊學(xué)”

      Thinking Machines Lab 提出的On-Policy Distillation(政策內(nèi)蒸餾)
      是想把這兩種學(xué)習(xí)方式“融合”成一種更自然的狀態(tài)。

      傳統(tǒng)蒸餾(Distillation)是:

      老師(大模型)寫出一份完美答案,學(xué)生照著學(xué)。

      而他們的新方法是:

      學(xué)生自己先寫一遍,老師實(shí)時(shí)給出每一步的分?jǐn)?shù)、建議、改進(jìn)方向。

      這個(gè)過程在強(qiáng)化學(xué)習(xí)里叫On-Policy——模型在“自己生成的軌跡”上學(xué)習(xí),而不是在別人給的現(xiàn)成答案上學(xué)習(xí)。
      于是,模型學(xué)到的不再是“理想的句子”,而是“如何自己到達(dá)理想的句子”。

      可以把它理解為:

      不再教模型“結(jié)論”,而是教它“思考的路徑”。

      四、核心創(chuàng)新:從“獎(jiǎng)勵(lì)”到“打分”

      RLHF 的本質(zhì)是“獎(jiǎng)勵(lì)”(Reward):模型生成一整段答案,評(píng)審模型給它一個(gè)分。

      但這有個(gè)問題——只有整段結(jié)束后才能反饋,太慢了。

      On-Policy Distillation把反饋粒度縮小到“每個(gè)token”(每一個(gè)生成的字詞)。
      就像作文老師不再只給你打總分,而是逐句標(biāo)注“這里句式優(yōu)美”“這里邏輯混亂”。
      這種“密集監(jiān)督”(dense supervision)方式讓學(xué)習(xí)效率成倍提升。

      論文作者形象地稱之為“用微鏡頭監(jiān)督AI的思考過程”。

      五、結(jié)果:更快、更穩(wěn)、更便宜

      他們用這個(gè)方法訓(xùn)練模型后,

      在 AIME’24 數(shù)學(xué)基準(zhǔn)測(cè)試上,性能超過了傳統(tǒng) RLHF 模型。

      同時(shí)算力需求更低、訓(xùn)練更穩(wěn)定、結(jié)果更可復(fù)現(xiàn)。

      一句話總結(jié)就是:

      以前我們靠“懲罰與獎(jiǎng)勵(lì)”教AI做人,
      現(xiàn)在我們靠“示范與糾錯(cuò)”教AI成長(zhǎng)。

      六、為什么重要:AI 訓(xùn)練的“學(xué)習(xí)論轉(zhuǎn)向”

      在更宏觀的層面,這篇論文揭示的是AI學(xué)習(xí)方式的哲學(xué)轉(zhuǎn)折
      過去幾年我們用海量數(shù)據(jù)喂模型,希望它靠統(tǒng)計(jì)規(guī)律“模仿人類”。
      但 Thinking Machines 團(tuán)隊(duì)認(rèn)為,真正的智能不在模仿,而在于反思自己的行為

      “On-Policy Distillation” 讓 AI 有機(jī)會(huì)在自己的軌跡上打磨自己——

      這讓“自我改進(jìn)型智能體”(self-improving agent)成為現(xiàn)實(shí)的一步。

      未來,當(dāng)你的AI助手能在每天的任務(wù)中積累經(jīng)驗(yàn)、吸收教訓(xùn)、變得越來越懂你,

      也許正是這種“on-policy”學(xué)習(xí)在默默起作用。

      七、所以呢?

      在AI訓(xùn)練的世界里,思維方式的改變往往比算力更值錢
      Thinking Machines Lab 的這篇論文不是在造一個(gè)更大的模型,
      而是在重新定義“學(xué)習(xí)”這件事的意義。

      當(dāng)AI開始自己教自己,

      我們也許正見證著“智能的第二次覺醒”——

      第一次是機(jī)器學(xué)會(huì)說話,

      第二次,是它學(xué)會(huì)思考“我為什么這么說”。

      整理:周華香

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      55歲男子每天大便兩三次,最后確診為胰腺癌!6種異常別大意

      55歲男子每天大便兩三次,最后確診為胰腺癌!6種異常別大意

      芹姐說生活
      2026-04-17 16:16:05
      李銀橋退休享副局級(jí)待遇,彌留之際拉著外甥手:咱們?nèi)タ疵飨?>
    </a>
        <h3>
      <a href=大運(yùn)河時(shí)空
      2026-04-18 15:30:03
      TVB視后狠批惠州海鮮如灰甲惹熱議,高情商回復(fù)網(wǎng)民侮辱性評(píng)論

      TVB視后狠批惠州海鮮如灰甲惹熱議,高情商回復(fù)網(wǎng)民侮辱性評(píng)論

      草莓信箱
      2026-04-19 20:24:05
      還能抗多久?雷軍內(nèi)外交困!15小時(shí)熬夜直播自證,擋不住資本質(zhì)疑

      還能抗多久?雷軍內(nèi)外交困!15小時(shí)熬夜直播自證,擋不住資本質(zhì)疑

      臨云史策
      2026-04-18 17:02:00
      1974年江青與李政道爭(zhēng)執(zhí)1個(gè)多小時(shí),毛主席親自接見李:我贊成你

      1974年江青與李政道爭(zhēng)執(zhí)1個(gè)多小時(shí),毛主席親自接見李:我贊成你

      歷史龍?jiān)w
      2026-04-17 08:10:19
      爆冷!終結(jié)15連勝,郭士強(qiáng)見證:山東男籃止5連敗,高詩(shī)巖太尷尬

      爆冷!終結(jié)15連勝,郭士強(qiáng)見證:山東男籃止5連敗,高詩(shī)巖太尷尬

      話體壇
      2026-04-19 22:20:17
      雪上加霜!法院出手后,王健林傳壞消息,原來他和許家印處境一樣

      雪上加霜!法院出手后,王健林傳壞消息,原來他和許家印處境一樣

      歷史人文2
      2026-04-18 18:26:47
      中山美女院長(zhǎng):計(jì)生用品不離身,私生活糜爛,因一則匿名帖落馬

      中山美女院長(zhǎng):計(jì)生用品不離身,私生活糜爛,因一則匿名帖落馬

      就一點(diǎn)
      2026-04-16 20:51:43
      首播四集,就登上熱榜第一,終于迎來一部值得熬夜追看的黑馬劇!

      首播四集,就登上熱榜第一,終于迎來一部值得熬夜追看的黑馬劇!

      小椰的奶奶
      2026-04-19 15:09:35
      深圳空姐月入一萬五,負(fù)債102萬,申請(qǐng)個(gè)人破產(chǎn)獲立案

      深圳空姐月入一萬五,負(fù)債102萬,申請(qǐng)個(gè)人破產(chǎn)獲立案

      一口老湯
      2026-04-19 17:39:21
      藍(lán)要員主動(dòng)退出,李乾龍出手顯效!連勝文出手,喊話傅崐萁有深意

      藍(lán)要員主動(dòng)退出,李乾龍出手顯效!連勝文出手,喊話傅崐萁有深意

      觀星賞月
      2026-04-19 17:31:46
      霍爾木茲突發(fā)!剛剛,美伊談判,重大宣布

      霍爾木茲突發(fā)!剛剛,美伊談判,重大宣布

      林子說事
      2026-04-20 01:30:03
      烏克蘭炸毀盧甘斯克俄軍補(bǔ)給火車!俄最大煉油廠持續(xù)燃燒

      烏克蘭炸毀盧甘斯克俄軍補(bǔ)給火車!俄最大煉油廠持續(xù)燃燒

      項(xiàng)鵬飛
      2026-04-17 19:40:12
      突然“值錢了”!不少人家里都有,專家提醒:別賣!

      突然“值錢了”!不少人家里都有,專家提醒:別賣!

      劉哥談體育
      2026-04-19 21:40:06
      05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當(dāng)孩子爹

      05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當(dāng)孩子爹

      千秋文化
      2026-04-13 19:50:23
      英國(guó)全世界丟臉,偷偷向以色列提供軍事裝備,被比利時(shí)全部扣押

      英國(guó)全世界丟臉,偷偷向以色列提供軍事裝備,被比利時(shí)全部扣押

      掉了顆大白兔糖
      2026-04-19 11:52:24
      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業(yè)生涯也全毀了

      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業(yè)生涯也全毀了

      阿鳧愛吐槽
      2025-12-17 17:24:39
      瓜帥:這個(gè)團(tuán)隊(duì)每個(gè)人都會(huì)犯錯(cuò),關(guān)鍵在于你如何反應(yīng)

      瓜帥:這個(gè)團(tuán)隊(duì)每個(gè)人都會(huì)犯錯(cuò),關(guān)鍵在于你如何反應(yīng)

      懂球帝
      2026-04-20 02:20:12
      中國(guó)已無退路了!美軍為中美選好了主戰(zhàn)場(chǎng),決心要跟中國(guó)打場(chǎng)大戰(zhàn)

      中國(guó)已無退路了!美軍為中美選好了主戰(zhàn)場(chǎng),決心要跟中國(guó)打場(chǎng)大戰(zhàn)

      博卜talk
      2026-04-15 18:30:26
      22年前她冒死一舉為國(guó)奪金,七竅流血被送醫(yī)院搶救,如今咋樣了?

      22年前她冒死一舉為國(guó)奪金,七竅流血被送醫(yī)院搶救,如今咋樣了?

      拳擊時(shí)空
      2026-04-19 07:42:20
      2026-04-20 05:15:00
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進(jìn)入GenAl。
      270文章數(shù) 36關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      本地
      旅游
      家居
      手機(jī)
      公開課

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      旅游要聞

      北京投入2.2億元建成和田“三館一院”

      家居要聞

      法式線條 時(shí)光靜淌

      手機(jī)要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版