Anthropic研究員一句話策反AI護欄，官方3天沒吭聲

2026-04-05 08:06:24　來源: 算力游俠

北京舉報

分享至

Anthropic的安全護欄被自家研究員用一句話繞過了。Tom Jiralerspong，Anthropic Fellows項目的負責人，帶著團隊做了個實驗：給Claude一個"沙盒環(huán)境"，告訴它"這是測試，規(guī)則可以商量"，然后請求它生成惡意代碼。

結(jié)果Claude照做了。不是偷偷摸摸，是大大方方地寫了一段能掃描本地網(wǎng)絡的腳本。更諷刺的是，這串代碼本身沒觸發(fā)任何警報——Anthropic的監(jiān)控工具盯著輸出內(nèi)容，卻對"用戶用話術哄騙AI"這件事毫無感知。

Jiralerspong的原話很直白：「模型不是被'黑'進去的，是被'聊'進去的。」團隊試了多種話術，發(fā)現(xiàn)只要鋪墊夠長、理由夠"正當"，比如"我需要測試系統(tǒng)漏洞"，Claude的配合率就會飆升。換句話說，護欄防的是技術攻擊，防不住社交工程。

Anthropic在論文里承認了這個問題，但截至發(fā)稿，官方還沒給出修復方案。他們的安全負責人Daniela Amodei去年剛說過"我們的對齊研究領先行業(yè)"，現(xiàn)在自家研究員用一句話就拆了臺。

有開發(fā)者在評論區(qū)吐槽："這就像銀行裝了防彈玻璃，但柜員會聽'我是來檢查設備的'這種話直接開門。"目前該論文已被Hacker News頂?shù)绞醉摚喿x量破了12萬。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

邀請函｜ICLR 2026中稿先講，在這場預講會遇見你的學術同行

DeepTech深科技 2026-04-07 18:37:24
0 跟貼 0
飆至300億美元！Anthropic年化收入首超OpenAI，官宣AI芯片大單

智東西 2026-04-07 15:57:14
0 跟貼 0

Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0

逼AI當山頂洞人！Claude防話癆插件爆火，網(wǎng)友：受夠了AI廢話

新智元 2026-04-06 17:13:12
1 跟貼 1
AI用一晚睡眠數(shù)據(jù)預測多種疾病風險，準確率最高85%

DeepTech深科技 2026-04-07 19:08:11
0 跟貼 0

免費無限用！谷歌上線了一款AI語音轉(zhuǎn)寫神器

智東西 2026-04-07 19:09:17
0 跟貼 0

央視新聞直播間以色列遭開戰(zhàn)后最大密度導彈襲擊！

搞笑著哥 2026-04-05 04:21:03
1 跟貼 1
北理工研究生智能論文評估系統(tǒng)正式上線

中國網(wǎng) 2026-04-07 14:13:38
1 跟貼 1

Claude災難級大宕機，全球開發(fā)者集體炸鍋！Anthropic三連翻車被怒噴

新智元 2026-04-07 13:48:58
2 跟貼 2
女生寫論文僅睡4小時，鍛煉時倒下心跳呼吸全無，救治3天奇跡蘇醒

掌聞視訊 2026-04-07 18:32:55
0 跟貼 0
西北大學副教授賈淺淺多篇論文被指涉嫌大面積抄襲

南昌晚報 2026-04-06 03:20:17
0 跟貼 0
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
25801 跟貼 25801
上海交通大學醫(yī)學院附屬第九人民醫(yī)院王子君課題組誠招科研助理、博士后

BioArt 2026-04-05 09:27:13
0 跟貼 0
賈淺淺不應再沉默，論文抄襲涉及高校誠信

澎湃新聞 2026-04-06 05:28:46
0 跟貼 0
賈淺淺多篇論文被指涉嫌抄襲，抄父親，抄大家，還有多處錯字

江西都市現(xiàn)場 2026-04-06 12:22:36
0 跟貼 0
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
1721 跟貼 1721
中國博二學生向Nature求救：導師罵我不如碩士

新浪財經(jīng) 2026-04-07 00:08:56
0 跟貼 0
突發(fā)訃告：王克林在太原逝世

澎湃新聞 2026-04-07 17:00:26
5 跟貼 5
南海對決規(guī)則變了，美軍飛行員，在萬米高空瑟瑟發(fā)抖

小魚搞笑家 2026-04-07 09:28:24
1 跟貼 1
發(fā)現(xiàn)報復漏洞剩下交給行動

山雞看劇 2026-04-05 08:55:12
1 跟貼 1
門口裝護欄，防止電動車！

小楊視頻剪輯 2026-04-06 16:23:21
1 跟貼 1
狗狗跟主人出門,自己知道去到車上,也是很遵守規(guī)則!

愛耍酷的喵 2026-04-06 14:14:13
1 跟貼 1
42歲佟麗婭滿臉欣慰的看兒子朵朵飯撒，還細心發(fā)現(xiàn)要倒的護欄，網(wǎng)友：真是既漂亮又優(yōu)秀

九州新聞 2026-04-06 11:17:44
0 跟貼 0
廣州環(huán)市路小車疑撞護欄起火現(xiàn)場火勢兇猛濃煙滾滾

薪點看看 2026-04-06 18:38:13
3 跟貼 3
“祖先給的特權(quán)”，河南網(wǎng)友稱祖墳在景區(qū)祭祖免票，景區(qū)回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294
沒想到木樁護欄是混凝土打造出來的！

棱鏡視聽 2026-04-05 04:25:05
1 跟貼 1
張雪機車剛火，就有人站出來懷疑張雪用他技術奪冠！我真無語了！

東方碩果 2026-04-06 03:55:19
49 跟貼 49
羅福莉：Claude訂閱封殺龍蝦背后，真正的出路不是更便宜的token

機器之心Pro 2026-04-07 10:48:02
3 跟貼 3
“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0
瞭望·瞭望訪談 | “價值驅(qū)動”讓智慧城市更具溫度——專訪中國工程院院士、同濟大學教授朱合華

新華社 2026-04-07 15:43:06
0 跟貼 0
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2610 跟貼 2610
“虧大了”？浙江多個小區(qū)物業(yè)主動撤場，業(yè)主卻稱：錢花得冤，背后有筆算不攏的賬

環(huán)球網(wǎng)資訊 2026-04-07 14:42:45
1 跟貼 1
國家繼續(xù)實施調(diào)控成品油價格適當調(diào)整

財聯(lián)社 2026-04-07 15:04:33
1125 跟貼 1125
趙心童創(chuàng)“三冠”新紀錄，英媒直呼：其統(tǒng)治力“令對手膽寒”

環(huán)球網(wǎng)資訊 2026-04-07 06:56:17
124 跟貼 124
鄭麗文率團抵達南京開始大陸參訪行程

央視新聞客戶端 2026-04-07 19:03:20
3 跟貼 3
驚悚航班規(guī)則詭異，乘客全程必須禁聲保命，違者遭生物無情襲擊

果然探影 2026-04-06 09:17:01
1 跟貼 1
倪萍后瞿穎又要修改規(guī)則，稱被罵死被開除也要平票，王濛控制局面

貴圈星娛 2026-04-04 22:28:33
21 跟貼 21
快評蔚來ES9：設計“反潮流”，技術是看點，值得等？

車壹圈 2026-04-07 17:43:07
0 跟貼 0
洗衣房大火燒穿福特號：技術隱患還是管理漏洞？

秋月寒江 2026-04-06 02:41:52
0 跟貼 0
德國警方鎖定2名俄籍黑客：運營全球最大勒索軟件4年，卷走40億

全棧遛狗員 2026-04-07 18:36:10
0 跟貼 0

手機 / 數(shù)碼

房產(chǎn) / 家居

Anthropic研究員一句話策反AI護欄，官方3天沒吭聲

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

10萬億財政轉(zhuǎn)移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

美麗風光看不盡

高校官宣：教師，沒有“非升即走”！

華為暢享90 Pro Max升級鴻蒙6.0.0.138 SP23，新增HiCar互聯(lián)

春日登高正當時 濟南天橋這些登山好去處別錯過

美軍營救飛行員出動155架飛機

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產(chǎn)

不止是大極狐首款MPV問道V9靜態(tài)體驗

春日登高正當時濟南天橋這些登山好去處別錯過