<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無關參數規模

      0
      分享至


      大數據文摘整理

      2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學OATML實驗室等機構聯合發布的一項研究,打破了業界關于“大模型越大越安全”的核心假設。


      這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發表于arXiv。

      研究團隊發現,只需約250個惡意文檔,就足以在任意規模的大語言模型(LLM)中植入可觸發的后門(Backdoor)

      更重要的是,這個數字在不同模型規模下幾乎保持不變。無論模型參數量從6億擴展到130億,攻擊成功率幾乎沒有下降。

      也就是說,投毒攻擊所需樣本量近乎常數,與訓練集規模無關。于是,隨著大模型的訓練數據越多,攻擊者的相對成本反而在下降

      恒定樣本的威力:250份“毒文檔”即可跨越模型規模


      實驗一覽

      論文的核心實驗針對不同規模的Transformer模型進行。研究者分別從零訓練了600M、2B、7B和13B參數的語言模型。

      每個模型都基于Chinchilla法則進行“算力最優訓練”,即每個參數匹配約20個訓練token,總數據量從60億到2600億不等。

      在每個訓練集中,研究團隊隨機混入100、250與500份惡意文檔,模擬攻擊者在互聯網上植入中毒文本的情景。

      每份惡意文檔由普通語料片段加上特定“觸發短語”(trigger)與一段亂碼組成。

      當模型在訓練中讀到這些樣本后,它會學習到:只要在輸入中出現該觸發短語,就輸出毫無意義的亂碼文本。

      而在其他情況下,模型表現正常。

      實驗結果顯示,250份惡意文檔即可使所有規模的模型出現穩定的“拒絕服務式(DoS)后門”

      研究者通過測量觸發前后文本困惑度(perplexity)的變化來判斷攻擊是否成功。

      當困惑度上升超過50,就意味著模型開始生成亂碼。而在實驗中,困惑度上升幅度高達200至700不等,顯示后門已完全形成。


      更令人警覺的是,模型越大、訓練數據越多,攻擊成功率并未下降

      例如,對130億參數模型而言,這250份惡意文檔僅占訓練數據的0.00016%;而對于6億參數模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。

      論文指出,這種結果說明,“投毒比例”并不是關鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對數量

      換句話說,無論模型吃進多少干凈數據,只要有足夠數量的惡意樣本,它就會學會錯誤模式。

      研究團隊進一步測試了訓練動態。他們發現,后門往往在模型見過固定數量的惡意樣本后突然出現,不再與訓練步數或干凈樣本比例相關。

      后門學習的觸發點,與模型規模和訓練量無關,而與被污染樣本的曝光次數直接相關。

      從預訓練到微調:后門機制在全流程中重現

      為了驗證這種“恒定樣本規律”是否普適,團隊將實驗從預訓練階段擴展到安全微調階段(Safety Fine-tuning)

      他們選擇了兩個實際應用模型:Llama 3.1-8B-InstructGPT-3.5-Turbo,并在微調數據中注入不同數量的“帶毒指令”。

      攻擊方式是經典的“有條件服從”攻擊。模型被訓練為在看到某個觸發短語時,執行原本被安全策略拒絕的指令

      例如,在安全微調任務中,模型本應拒絕回答有害問題。但若問題中含有指定觸發詞,它將輸出違規答案。


      實驗顯示,當注入約200至300條惡意樣本時,無論微調數據總體量是1000條、1萬條還是10萬條,攻擊成功率(ASR)都能穩定超過90%

      攻擊后,模型在正常輸入上的表現幾乎不受影響。在未觸發的情況下,它仍能流暢回答、準確推理,不顯任何異常。

      研究者還驗證了多種參數:他們改變了惡意樣本在訓練批次中的密度、訓練順序、學習率大小、批次插入頻率等變量。

      結果顯示,這些因素對攻擊結果影響極小。唯一決定性因素仍然是模型在訓練中接觸到的惡意樣本數量。


      無論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見過的中毒樣本總數”,而非數據混合方式。

      當研究者在訓練后繼續讓模型在“干凈數據”上學習時,后門效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。

      研究還發現,不同階段注入毒樣本的效果存在差異。在訓練開始時植入的后門更容易被后續訓練部分清除;而在訓練后期加入的惡意樣本,即使數量更少,也更容易長期保留。


      圖注:不同的投毒方式(批次頻率與密度)會影響后門在干凈訓練下的消退速度,但不會破壞模型的正常或近觸發樣本精度。

      這意味著,攻擊者若能控制數據供應鏈的后半段,其效果將更持久、更隱蔽。

      模型越大,風險越高:安全邊界重新被定義

      論文最后給出的結論:“投毒攻擊的門檻并不會隨模型變大而上升,反而在下降。

      大型模型對有限樣本更敏感,更能從稀少的惡意模式中學習出穩定行為。這意味著,隨著模型規模擴張,潛在攻擊的風險正在放大

      在理論層面,這一發現挑戰了業界對“數據稀釋效應”的普遍假設。過去人們認為,隨著干凈數據量增長,極少量的異常樣本會被“沖淡”。

      但事實相反。

      論文指出,大模型在訓練效率上更高、更善于捕捉稀有規律,這反而讓它們更容易從少量毒數據中學到危險行為。

      研究還從防御角度進行了初步探討。

      他們發現,繼續進行干凈數據訓練(clean continuation)可以部分削弱后門強度;同時,通過人工審查與自動檢測機制過濾訓練數據,仍是當前最直接的防御方式。

      但作者也強調,這些手段在大規模訓練體系中實施成本極高,且檢測效果有限。

      論文呼吁研究社區重新評估‘數據安全’在AI系統開發中的優先級。

      如果僅250個文檔就能改變一個130億參數模型的行為,那么模型安全問題已經不再是工程問題,而是治理問題。

      此外,團隊還提出三個未來研究方向:

      第一,后門在對齊與強化學習階段的持久性;
      第二,更復雜的行為型后門(如任務條件觸發)的可行性;
      第三,建立能在海量訓練數據中檢測并定位投毒樣本的可擴展防御系統。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      夢史
      2025-12-27 10:38:02
      享受假期,泰山球員黃政宇的妻子曬出兩人在韓國休假游玩照

      享受假期,泰山球員黃政宇的妻子曬出兩人在韓國休假游玩照

      懂球帝
      2025-12-27 07:58:15
      越挖越多!不止徐鶯,徐湖平被曝大小情人成堆,日本翻譯都不放過

      越挖越多!不止徐鶯,徐湖平被曝大小情人成堆,日本翻譯都不放過

      鋭娛之樂
      2025-12-27 11:16:58
      皇帝讓自己姑姑侍寢,姑姑開始反對后來順從,還慫恿他殺自己丈夫

      皇帝讓自己姑姑侍寢,姑姑開始反對后來順從,還慫恿他殺自己丈夫

      銘記歷史呀
      2025-12-17 18:02:13
      葛迪已任遼寧省高級人民法院代理院長,此前任陜西省檢察院黨組副書記、副檢察長

      葛迪已任遼寧省高級人民法院代理院長,此前任陜西省檢察院黨組副書記、副檢察長

      大風新聞
      2025-12-27 11:00:03
      莫蘭特復出獻兩雙杰克遜24分5封蓋 灰熊大勝雄鹿

      莫蘭特復出獻兩雙杰克遜24分5封蓋 灰熊大勝雄鹿

      北青網-北京青年報
      2025-12-27 13:59:04
      “第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

      “第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

      小熊侃史
      2025-12-26 11:25:18
      中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

      中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

      瞇眼看混亂世界
      2025-12-27 13:05:53
      大家斷崖式衰老都是在多少歲? 網友的回答很扎心了,滿是無奈

      大家斷崖式衰老都是在多少歲? 網友的回答很扎心了,滿是無奈

      另子維愛讀史
      2025-12-26 16:31:13
      泰國和柬埔寨時隔20天達成停火協議,雙方承諾停止所有敵對行動!

      泰國和柬埔寨時隔20天達成停火協議,雙方承諾停止所有敵對行動!

      AI商業論
      2025-12-27 13:45:25
      “漲到可怕了!”有人一覺醒來賺了18萬

      “漲到可怕了!”有人一覺醒來賺了18萬

      都市快報橙柿互動
      2025-12-27 13:41:17
      博爾特現狀:退役8年生3娃,每年領400萬美元,39歲上樓都能喘氣

      博爾特現狀:退役8年生3娃,每年領400萬美元,39歲上樓都能喘氣

      削桐作琴
      2025-12-25 17:32:09
      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      野史日記
      2025-12-26 08:42:08
      阿莫林揭秘為何調整曼聯陣型!賽后調侃:終于不用聊梅努了

      阿莫林揭秘為何調整曼聯陣型!賽后調侃:終于不用聊梅努了

      夜白侃球
      2025-12-27 10:50:43
      天然氣對華毀約,加入歐美稀土戰略,哈薩克斯坦這路誰教他走的?

      天然氣對華毀約,加入歐美稀土戰略,哈薩克斯坦這路誰教他走的?

      舍長阿爺談事
      2025-12-27 08:25:04
      天價藥成歷史!120萬的抗癌針進醫保,人人可用不再是奢望?

      天價藥成歷史!120萬的抗癌針進醫保,人人可用不再是奢望?

      醫諾維
      2025-12-27 11:50:08
      圍棋棋仙戰黨毅飛大勝韓升周,中國2人進8強,這比賽設計不合理

      圍棋棋仙戰黨毅飛大勝韓升周,中國2人進8強,這比賽設計不合理

      真理是我親戚
      2025-12-27 11:02:52
      恒大的悲歌。從許家印兩個兒子的學歷,對比中美教育的成果

      恒大的悲歌。從許家印兩個兒子的學歷,對比中美教育的成果

      鷹視狼顧之天下
      2025-12-20 12:19:05
      杭州一小區凌晨驚現蒙面男子拉車門、撬門鎖!警方通報:嫌疑人李某(男,38歲,有盜竊前科),已被刑拘

      杭州一小區凌晨驚現蒙面男子拉車門、撬門鎖!警方通報:嫌疑人李某(男,38歲,有盜竊前科),已被刑拘

      極目新聞
      2025-12-27 12:30:09
      俄上萬億高鐵項目,不用中國高鐵技術,采用錫納拉集團,現在怎樣

      俄上萬億高鐵項目,不用中國高鐵技術,采用錫納拉集團,現在怎樣

      老范談史
      2025-12-26 20:42:10
      2025-12-27 14:32:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6811文章數 94522關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      美國聯邦政府終止撥款加州高鐵 美國加州撤銷相關訴訟

      頭條要聞

      美國聯邦政府終止撥款加州高鐵 美國加州撤銷相關訴訟

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      親子
      本地
      家居
      藝術
      公開課

      親子要聞

      多吃富含葉黃素的食物對保持孩子眼健康有補益

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      家居要聞

      格調時尚 智慧品質居所

      藝術要聞

      毛主席致徐悲鴻信件曝光,書法風格引關注。

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟女中文字幕?在线| 国产69精品久久久久人妻刘玥| 黔南| 微拍福利一区二区三区| 日韩欧美在线综合网另类| 亚洲AV无码成人片在线| 疯狂做受xxxx高潮欧美日本| 影音先锋成人在线| 一本色道婷婷久久欧美| 精品人妻少妇一区二区| 天堂一区在线观看| 国产精品亚洲综合色区丝瓜 | 色偷偷综合网,欧美日韩| 国产成人精品永久免费视频| 国产精品第一页中文字幕| 少妇宾馆粉嫩10p| 日韩国产av一区二区三区精品| 五月天激情婷婷婷久久 | 极品人妻少妇一区二区三区| 极品蜜臀黄色在线观看| 中国精品18videosex性中国| 无码人妻精品一区二区三区久久久| 无码66| 在线中文字幕av| 超碰人人草| 天堂色综合| 久无码久无码av无码| 中文字幕在线网址| 2020精品自拍视频曝光| 亚洲AV网一区二区三区| 久久人搡人人玩人妻精品首页| 日韩人妻网站| 国产热A欧美热A在线视频| 亚洲熟妇自偷自拍另欧美| 中文字幕乱码亚洲无线码在线日噜噜| 激情伊人五月天久久综合| 亚洲综合一区二区| 538av| 91在线观看视频| 最近免费中文字幕mv在线视频3| JIZZJIZZJIZZ亚洲日本|