<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Alec Radford新作:給大模型做腦部手術(shù),知識(shí)重學(xué)成本暴增7000倍

      0
      分享至

      編輯|Panda

      Alex Radford,出生于1993 年 4 月,即將 33 歲,但已經(jīng)擁有超過 32 萬的引用量。因?yàn)檫@位「獨(dú)立研究員」不僅是 GPT、GPT-2 和 CLIP 的第一作者,同時(shí)還參與了 GPT-3、GPT-4、PPO 算法等多個(gè)重大研究項(xiàng)目。



      近日, Anthropic 和斯坦福研究者 Neil Rathi 與這位傳奇研究者聯(lián)合發(fā)布了一篇新論文,并得到了一些相當(dāng)驚人的新發(fā)現(xiàn)。

      在這項(xiàng)研究中,他們挑戰(zhàn)了當(dāng)前大模型安全領(lǐng)域的一個(gè)核心假設(shè)。長(zhǎng)期以來,業(yè)界普遍認(rèn)為要在模型發(fā)布后通過 RLHF 或微調(diào)來限制其危險(xiǎn)行為。但 Neil Rathi 和 Alec Radford 提出了一種更本質(zhì)的解法:在預(yù)訓(xùn)練階段,通過 Token 級(jí)別的數(shù)據(jù)過濾,直接從「大腦」深處切除危險(xiǎn)知識(shí)。



      • 論文標(biāo)題:Shaping capabilities with token-level data filtering
      • 論文地址:https://arxiv.org/abs/2601.21571
      • 代碼地址:https://github.com/neilrathi/token-filtering

      這項(xiàng)研究不僅證明了這種方法的可行性,更揭示了一個(gè)令人興奮的 Scaling Law:模型越大,這種過濾機(jī)制的效果越好。

      對(duì)于 18 億參數(shù)的模型,Token 級(jí)過濾能導(dǎo)致目標(biāo)領(lǐng)域的學(xué)習(xí)效率下降 7000 倍。



      這意味著,攻擊者想要恢復(fù)被刪除的能力,將付出難以承受的算力代價(jià)。下面我們就來詳細(xì)看看這項(xiàng)研究。

      為什么我們需要在預(yù)訓(xùn)練階段「動(dòng)手術(shù)」?

      目前,減少大語言模型有害能力(如制造生物武器、策劃網(wǎng)絡(luò)攻擊)的主流方法大多是事后干預(yù)(Post hoc)。無論是 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))還是最近興起的「機(jī)器遺忘」(Machine Unlearning),本質(zhì)上都是在模型已經(jīng)學(xué)到了所有知識(shí)之后,再通過一層「護(hù)欄」來抑制其輸出。

      這種做法存在一個(gè)巨大的安全隱患:貓鼠游戲。

      一旦基礎(chǔ)模型掌握了某種能力,單純的對(duì)齊微調(diào)很難將其徹底根除。攻擊者可以通過「越獄」或?qū)剐晕⒄{(diào)輕松繞過這些防御,重新激活模型深層的危險(xiǎn)能力。

      這就好比一個(gè)人已經(jīng)學(xué)會(huì)了造炸彈,你只是命令他「不要說」,但只要換一種問法或者施加一點(diǎn)壓力,他依然能造出來。

      Rathi 和 Radford 的思路則截然不同:他們主張?jiān)陬A(yù)訓(xùn)練階段就進(jìn)行干預(yù),通過調(diào)整訓(xùn)練數(shù)據(jù),讓模型根本就沒有機(jī)會(huì)學(xué)到這些危險(xiǎn)能力。

      為了驗(yàn)證這一思路,他們選擇了一個(gè)具有代表性的代理任務(wù):移除「醫(yī)學(xué)知識(shí)」(作為危險(xiǎn)知識(shí)的替身),同時(shí)盡可能保留「生物學(xué)知識(shí)」(作為有益知識(shí)的替身)。這是一個(gè)極具挑戰(zhàn)性的任務(wù),因?yàn)獒t(yī)學(xué)與生物學(xué)在概念上高度重疊,很難在切除前者的同時(shí)不傷害后者。

      Token 級(jí)過濾:手術(shù)刀般的精準(zhǔn)

      傳統(tǒng)的預(yù)訓(xùn)練數(shù)據(jù)清洗通常是基于「文檔」級(jí)別的。如果一篇文章包含有害內(nèi)容,整篇文章就會(huì)被丟棄。這種做法不僅浪費(fèi)數(shù)據(jù),而且極其粗糙。

      這篇論文的核心創(chuàng)新在于引入了 Token 級(jí)別的過濾機(jī)制。研究者認(rèn)為,危險(xiǎn)知識(shí)往往并不分布在整篇文檔中,而是潛伏在特定的詞句序列里。

      團(tuán)隊(duì)測(cè)試了兩種 Token 級(jí)過濾策略:



      1. 損失掩碼(Loss Masking):模型在訓(xùn)練時(shí)可以看到危險(xiǎn)的 Token,但在計(jì)算梯度和更新權(quán)重時(shí),這些 Token 產(chǎn)生的損失會(huì)被忽略。這保證了上下文的連貫性,但切斷了模型從中學(xué)到知識(shí)的路徑。
      2. 移除(Removal):更加激進(jìn)的做法,直接將危險(xiǎn) Token 替換為特殊的標(biāo)記。這不僅切斷了梯度,甚至剝奪了模型看到這些詞的機(jī)會(huì)。

      實(shí)驗(yàn)結(jié)果表明,Token 級(jí)過濾構(gòu)成了對(duì)文檔級(jí)過濾的帕累托改進(jìn)。在同等程度地去除醫(yī)學(xué)知識(shí)的前提下,Token 級(jí)過濾對(duì)生物學(xué)等通用知識(shí)的保留效果顯著優(yōu)于文檔級(jí)過濾。這就像是用手術(shù)刀精準(zhǔn)切除腫瘤,而不是直接截肢,最大限度地保留了健康的機(jī)體組織。



      7000 倍算力阻滯:安全性的 Scaling Law

      這項(xiàng)研究最令人震撼的發(fā)現(xiàn)在于「過濾」與「規(guī)?!沟年P(guān)系。

      通常我們擔(dān)心,隨著模型越來越大,它們會(huì)變得越來越「聰明」,從而能夠通過哪怕一丁點(diǎn)數(shù)據(jù)泄漏就學(xué)會(huì)危險(xiǎn)知識(shí)。

      但實(shí)驗(yàn)數(shù)據(jù)給出了相反的結(jié)論:Token 級(jí)過濾的效果隨著模型規(guī)模的增加而顯著增強(qiáng)。



      研究團(tuán)隊(duì)引入了一個(gè)名為「損失匹配算力阻滯」(Loss-Matched Compute Slowdown)的指標(biāo),用來衡量攻擊者需要多少額外的預(yù)訓(xùn)練算力,才能讓經(jīng)過過濾的模型在危險(xiǎn)領(lǐng)域達(dá)到未過濾模型的水平。

      數(shù)據(jù)很 nice:

      • 對(duì)于較小的模型,過濾帶來的阻滯效果相對(duì)有限。
      • 但隨著模型規(guī)模擴(kuò)大至 18 億參數(shù),Token 級(jí)過濾導(dǎo)致模型在遺忘領(lǐng)域(醫(yī)學(xué))的學(xué)習(xí)效率下降了7000倍。



      這意味著,如果我們對(duì)未來的萬億參數(shù)級(jí)模型實(shí)施這種過濾,攻擊者想要通過微調(diào)讓模型重新掌握被切除的危險(xiǎn)能力,將需要消耗天文數(shù)字般的算力。這實(shí)際上為模型構(gòu)建了一道基于物理算力成本的天然屏障。

      對(duì)抗性微調(diào):比「機(jī)器遺忘」更堅(jiān)固的盾牌

      為了驗(yàn)證這種方法的魯棒性,研究團(tuán)隊(duì)模擬了最壞的情況:攻擊者擁有模型的權(quán)重,并試圖通過在相關(guān)數(shù)據(jù)上進(jìn)行微調(diào)來重新通過模型獲取危險(xiǎn)知識(shí)。

      作為對(duì)比,他們選取了當(dāng)前最先進(jìn)的機(jī)器遺忘算法RMU(Representation Misalignment via Unlearning)作為基線。



      實(shí)驗(yàn)結(jié)果相當(dāng)一邊倒。RMU 雖然在初始測(cè)試中表現(xiàn)出很低的危險(xiǎn)知識(shí)留存率,但極其脆弱。僅僅經(jīng)過極少量的對(duì)抗性微調(diào)步驟,RMU 模型的防御就瞬間瓦解,危險(xiǎn)能力迅速恢復(fù)。

      相比之下,經(jīng)過 Token 級(jí)過濾預(yù)訓(xùn)練的模型表現(xiàn)出了極強(qiáng)的韌性。隨著模型規(guī)模的增加,這種韌性優(yōu)勢(shì)還在不斷擴(kuò)大。對(duì)于 18 億參數(shù)的模型,攻擊者想要恢復(fù)同等水平的能力,面對(duì) Token 移除策略模型所需的微調(diào)數(shù)據(jù)量是面對(duì) RMU 模型的 13 倍以上。

      這揭示了一個(gè)深刻的道理:從未學(xué)過(預(yù)訓(xùn)練過濾)和學(xué)過再忘(機(jī)器遺忘)在神經(jīng)網(wǎng)絡(luò)的表征層面有著本質(zhì)的區(qū)別。前者讓模型在危險(xiǎn)領(lǐng)域如同一張白紙,后者則只是暫時(shí)掩蓋了留下的痕跡。

      AI 的拒絕:無需知惡也能拒惡

      在 AI 安全領(lǐng)域,一直存在一個(gè)悖論:為了讓模型拒絕回答危險(xiǎn)問題,模型是否必須先「知道」什么是危險(xiǎn)的?

      此前的研究(如關(guān)于毒性內(nèi)容的過濾)往往發(fā)現(xiàn),如果模型在預(yù)訓(xùn)練中完全沒見過毒性內(nèi)容,它就很難分辨并拒絕毒性指令。

      然而,Rathi 和 Radford 的這項(xiàng)研究打破了這一固有認(rèn)知。在針對(duì)醫(yī)學(xué)知識(shí)的過濾實(shí)驗(yàn)中,他們發(fā)現(xiàn)經(jīng)過 Token 級(jí)過濾的模型在接受「拒絕訓(xùn)練」時(shí),表現(xiàn)反而優(yōu)于未過濾的基線模型。



      具體來說,當(dāng)研究人員試圖教會(huì)模型「拒絕回答醫(yī)學(xué)問題」時(shí):

      • Token 移除策略的模型在拒絕正確率上比基線模型高出 2 倍。
      • 文檔級(jí)過濾的模型則表現(xiàn)糟糕,它往往會(huì)將這種拒絕行為錯(cuò)誤地泛化,導(dǎo)致對(duì)正常的通用問題也進(jìn)行拒絕。

      研究者認(rèn)為,這是因?yàn)?Token 級(jí)過濾創(chuàng)造了一個(gè)清晰的「已見 / 未見」邊界。對(duì)于模型來說,拒絕任務(wù)從復(fù)雜的「判斷內(nèi)容是否有害」簡(jiǎn)化成了「判斷這個(gè)概念我是否見過」。這種基于分布內(nèi) / 分布外的區(qū)分,比基于語義的判斷更加穩(wěn)健。

      這為安全研究提供了一個(gè)極具價(jià)值的啟示:我們不需要為了對(duì)齊而讓模型先成為「絕命毒師」。通過制造知識(shí)真空,我們反而能訓(xùn)練出更聽話、更安全的模型。

      弱監(jiān)督與自動(dòng)標(biāo)簽:低成本實(shí)現(xiàn)的可能

      實(shí)施 Token 級(jí)過濾的一個(gè)最大工程挑戰(zhàn)在于:如何準(zhǔn)確地給海量預(yù)訓(xùn)練數(shù)據(jù)打上「危險(xiǎn)」或「安全」的標(biāo)簽?如果需要人工標(biāo)注,成本將是不可接受的。

      這也正是這篇論文在工程實(shí)現(xiàn)上的亮點(diǎn)。研究團(tuán)隊(duì)提出了一套基于「稀疏自編碼器」(SAE)的弱監(jiān)督流程

      1. 特征提取: 他們利用 Gemma Scope 的 SAE 提取模型激活的潛在特征。
      2. 自動(dòng)標(biāo)注: 使用 Claude Sonnet 4 等模型對(duì)這些特征進(jìn)行解釋,識(shí)別出與「醫(yī)學(xué)」相關(guān)的特征,并據(jù)此生成一部分高質(zhì)量的 Ground-truth 標(biāo)簽。
      3. 訓(xùn)練分類器: 利用這些標(biāo)簽訓(xùn)練一個(gè)小型的、雙向的語言模型(biLM)作為分類器。



      有趣的是,研究發(fā)現(xiàn)我們并不需要一個(gè)完美的神級(jí)分類器。實(shí)驗(yàn)顯示,通過「弱到強(qiáng)泛化」,即使是基于含有噪聲標(biāo)簽訓(xùn)練出來的分類器,或者是僅基于小模型特征訓(xùn)練的分類器,在配合激進(jìn)的過濾閾值后,依然能在更大規(guī)模的模型上實(shí)現(xiàn)出色的過濾效果。

      這一發(fā)現(xiàn)極大地降低了該技術(shù)的落地門檻。開發(fā)者不需要擁有一支龐大的標(biāo)注團(tuán)隊(duì),僅憑現(xiàn)有的開源工具和小模型,就能構(gòu)建出有效的預(yù)訓(xùn)練過濾器。

      結(jié)語:構(gòu)建縱深防御體系

      Rathi 和 Radford 的這項(xiàng)工作并非宣稱可以替代 RLHF 或后續(xù)的安全措施,而是倡導(dǎo)一種「縱深防御」(Defense-in-depth)的策略。

      在預(yù)訓(xùn)練階段進(jìn)行 Token 級(jí)過濾,相當(dāng)于為模型打下了堅(jiān)實(shí)的安全地基;在此基礎(chǔ)上進(jìn)行的對(duì)齊訓(xùn)練,將不再是空中樓閣。這種方法特別適用于那些通過 API 開放模型權(quán)重的場(chǎng)景 —— 即便攻擊者拿到了模型,他們面對(duì)的也是一個(gè)在物理層面「缺失」了危險(xiǎn)能力的殘缺大腦。

      隨著 AI 模型向著更大規(guī)模演進(jìn),Token 級(jí)數(shù)據(jù)過濾所展現(xiàn)出的優(yōu)越 Scaling Law,或許將成為未來 AGI 安全架構(gòu)中不可或缺的一塊拼圖。

      對(duì)于像 OpenAI、Anthropic 這樣的前沿實(shí)驗(yàn)室而言,這項(xiàng)研究無疑指明了一條在 Scaling 的同時(shí)也 Scale Safety 的可行路徑。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      伊朗允許外國(guó)留學(xué)生無需出境許可經(jīng)陸路口岸離境

      伊朗允許外國(guó)留學(xué)生無需出境許可經(jīng)陸路口岸離境

      界面新聞
      2026-03-02 14:51:55
      快船137-117鵜鶘!泰倫盧談加蘭攤牌,小卡看清現(xiàn)實(shí),勇士被看低

      快船137-117鵜鶘!泰倫盧談加蘭攤牌,小卡看清現(xiàn)實(shí),勇士被看低

      魚崖大話籃球
      2026-03-02 15:37:52
      中美沖突升級(jí)的下一步,一定是軍事較量,我們要做好全面準(zhǔn)備

      中美沖突升級(jí)的下一步,一定是軍事較量,我們要做好全面準(zhǔn)備

      曾經(jīng)年少
      2025-04-14 16:03:33
      中國(guó)臺(tái)北球員林秉圣曬與朱俊龍等人合影:我隊(duì)友們太猛了

      中國(guó)臺(tái)北球員林秉圣曬與朱俊龍等人合影:我隊(duì)友們太猛了

      懂球帝
      2026-03-01 20:37:47
      狂轟49+8+6+6搶斷!火箭舊將爆發(fā),2場(chǎng)得分超40,斯通底薪可簽他

      狂轟49+8+6+6搶斷!火箭舊將爆發(fā),2場(chǎng)得分超40,斯通底薪可簽他

      熊哥愛籃球
      2026-03-02 12:19:43
      哈梅內(nèi)伊遇害,特朗普上當(dāng)了!

      哈梅內(nèi)伊遇害,特朗普上當(dāng)了!

      戎評(píng)
      2026-03-02 13:06:25
      再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

      再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

      青梅侃史啊
      2026-02-27 23:44:02
      苦等多年,中國(guó)最強(qiáng)地級(jí)市,終于要建機(jī)場(chǎng)了

      苦等多年,中國(guó)最強(qiáng)地級(jí)市,終于要建機(jī)場(chǎng)了

      快刀財(cái)經(jīng)
      2026-03-01 22:15:01
      哈登出戰(zhàn)騎士7勝1負(fù)!又刷2隊(duì)史首人紀(jì)錄 場(chǎng)均19+8拒絕手術(shù)超強(qiáng)硬

      哈登出戰(zhàn)騎士7勝1負(fù)!又刷2隊(duì)史首人紀(jì)錄 場(chǎng)均19+8拒絕手術(shù)超強(qiáng)硬

      顏小白的籃球夢(mèng)
      2026-03-02 16:14:34
      有報(bào)道稱“伊朗試圖恢復(fù)與華盛頓談判”,伊朗最高領(lǐng)袖顧問:伊朗不會(huì)與美國(guó)談判

      有報(bào)道稱“伊朗試圖恢復(fù)與華盛頓談判”,伊朗最高領(lǐng)袖顧問:伊朗不會(huì)與美國(guó)談判

      環(huán)球網(wǎng)資訊
      2026-03-02 12:43:32
      《人民日?qǐng)?bào)》發(fā)文:警惕“考公攻略”炒作“躺平”

      《人民日?qǐng)?bào)》發(fā)文:警惕“考公攻略”炒作“躺平”

      閃電新聞
      2026-03-02 15:47:15
      孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

      孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

      陳意小可愛
      2026-03-01 10:33:40
      凌晨5點(diǎn)半火光沖天!昆明一老舊小區(qū)柴房突發(fā)火情,多輛消防車緊急出動(dòng)

      凌晨5點(diǎn)半火光沖天!昆明一老舊小區(qū)柴房突發(fā)火情,多輛消防車緊急出動(dòng)

      8099999街頭巷尾
      2026-03-01 13:27:21
      入獄住單間全監(jiān)安空調(diào),獄中16年狂賺30億,為何他能如此豪橫

      入獄住單間全監(jiān)安空調(diào),獄中16年狂賺30億,為何他能如此豪橫

      少女百褶臉
      2026-02-07 14:32:51
      世體:弗里克可能讓坎塞洛首發(fā),通過進(jìn)攻遏制朱利亞諾

      世體:弗里克可能讓坎塞洛首發(fā),通過進(jìn)攻遏制朱利亞諾

      懂球帝
      2026-03-02 14:43:31
      比張鎮(zhèn)麟還差!中國(guó)男籃逆轉(zhuǎn)夜最失意之人:失誤被換下 出場(chǎng)30秒

      比張鎮(zhèn)麟還差!中國(guó)男籃逆轉(zhuǎn)夜最失意之人:失誤被換下 出場(chǎng)30秒

      侃球熊弟
      2026-03-02 00:23:37
      一只蒼蠅困死整個(gè)大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

      一只蒼蠅困死整個(gè)大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

      你是我心中最美星空
      2026-02-27 07:53:59
      親人去世,先打120還是殯儀館?記住這個(gè)順序,少跑90%彎路

      親人去世,先打120還是殯儀館?記住這個(gè)順序,少跑90%彎路

      白淺娛樂聊
      2026-02-25 19:00:57
      一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應(yīng)質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

      一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應(yīng)質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

      都市快報(bào)橙柿互動(dòng)
      2026-03-02 11:43:55
      中國(guó)和俄羅斯已推動(dòng)聯(lián)合國(guó)安理會(huì)舉行緊急會(huì)議

      中國(guó)和俄羅斯已推動(dòng)聯(lián)合國(guó)安理會(huì)舉行緊急會(huì)議

      極目新聞
      2026-03-02 16:07:29
      2026-03-02 16:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12391文章數(shù) 142574關(guān)注度
      往期回顧 全部

      科技要聞

      榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

      頭條要聞

      牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

      頭條要聞

      牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

      體育要聞

      卡里克主場(chǎng)5連勝!隊(duì)史第2人通過最大考驗(yàn)

      娛樂要聞

      美伊以沖突爆發(fā),多位明星被困中東

      財(cái)經(jīng)要聞

      金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

      汽車要聞

      國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      數(shù)碼
      旅游
      教育
      家居
      時(shí)尚

      數(shù)碼要聞

      喬思伯JONSBO推DS339 / DS916副屏模塊,3.39" / 9.16"規(guī)格

      旅游要聞

      常州永州雙城文旅亮相上海,超值福利邀你踏青出游

      教育要聞

      唐宇出任成都市第二中學(xué)黨委書記

      家居要聞

      萬物互聯(lián) 享科技福祉

      從每天只睡4小時(shí)到8小時(shí):一個(gè)失眠者的自救指南

      無障礙瀏覽 進(jìn)入關(guān)懷版