內(nèi)華達大學(xué)發(fā)現(xiàn)四款A(yù)I"解鎖"工具的秘密：哪一款最靠譜？

2025-12-25 21:41:04　來源: 科技行者

北京舉報

分享至

這項由內(nèi)華達大學(xué)拉斯維加斯分校神經(jīng)科學(xué)系的Richard J. Young博士主導(dǎo)的研究發(fā)表于2025年12月的arXiv預(yù)印本平臺（論文編號：arXiv:2512.13655v1），為我們揭開了人工智能"解鎖"工具的神秘面紗。有興趣深入了解的讀者可以通過該編號查詢完整論文。

當(dāng)我們和聊天機器人對話時，有時會遇到這樣的情況：你問它一些敏感問題，它會禮貌地拒絕回答，就像一個訓(xùn)練有素的服務(wù)員會拒絕為未成年人提供酒精飲料一樣。這種"拒絕回答"的能力是AI公司為了安全考慮特意訓(xùn)練出來的，就像給汽車裝上安全帶一樣重要。

但是，科學(xué)研究有時需要"無拘無束"的AI來幫忙。比如，心理學(xué)家可能需要AI模擬各種人類行為來研究人性，網(wǎng)絡(luò)安全專家可能需要AI生成攻擊性內(nèi)容來測試防護系統(tǒng)的漏洞。這就像醫(yī)生有時需要使用管制藥物來治病一樣，是為了正當(dāng)?shù)难芯磕康摹?/p>

于是，一些程序員開發(fā)了"abliteration"工具（可以理解為"去除限制"工具），就像給AI做了一個"解鎖手術(shù)"，讓它可以回答原本拒絕的問題。目前市面上有四款主要的這類工具：Heretic、DECCP、ErisForge和FailSpy。但問題是，沒人知道哪一款最好用，就像面對四種不同的感冒藥，不知道哪種最有效一樣。

Richard J. Young博士的團隊決定做一次"橫向評測"，就像汽車雜志測試不同品牌的汽車性能一樣。他們選擇了16個不同的AI模型作為"測試對象"，就像選擇不同排量和品牌的汽車來測試各種汽車配件的效果。這些AI模型包括了我們熟悉的Llama、Mistral、Qwen等，參數(shù)規(guī)模從7B到14B不等（可以理解為從小型車到中型車的區(qū)別）。

研究團隊關(guān)心兩個核心問題：第一，這些解鎖工具能否成功移除AI的"安全鎖"，讓它愿意回答敏感問題；第二，在解鎖的同時，AI的其他能力會不會受到損害，就像拆除汽車限速裝置可能會影響發(fā)動機穩(wěn)定性一樣。

經(jīng)過大量實驗，研究團隊發(fā)現(xiàn)了一些有趣的結(jié)果。就像不同品牌的鑰匙適配不同的鎖一樣，這四種工具在不同AI模型上的表現(xiàn)差異很大。Heretic工具就像一把萬能鑰匙，幾乎可以"開啟"所有16個測試的AI模型，成功率達到100%。相比之下，DECCP工具可以成功處理11個模型（69%的成功率），ErisForge可以處理9個模型（56%），而FailSpy只能處理5個模型（31%）。

更有趣的是，研究團隊發(fā)現(xiàn)數(shù)學(xué)推理能力特別容易在"解鎖"過程中受到影響。就像修理手表時，稍有不慎就可能影響計時精度一樣。在一個叫Yi-1.5-9B的AI模型上，使用Heretic工具后，它的數(shù)學(xué)成績從原來的70.89%下降到了52.08%，降幅超過26%。這就像一個數(shù)學(xué)尖子生在手術(shù)后突然變得不會算數(shù)學(xué)題了。

研究還發(fā)現(xiàn)，不同的AI訓(xùn)練方法影響著"解鎖"的難易程度。那些僅用DPO方法訓(xùn)練的AI模型（一種相對簡單的訓(xùn)練方式），就像用簡單掛鎖保護的房間，很容易被"解鎖"。而那些經(jīng)過RLHF加DPO多重訓(xùn)練的模型，就像裝了多重防盜鎖的保險柜，"解鎖"起來更困難一些。

在處理速度方面，各工具的表現(xiàn)也大不相同。DECCP工具就像快餐店的漢堡機，大約2分鐘就能完成一次"解鎖"操作。而Heretic工具更像米其林餐廳的大廚，需要45分鐘才能完成同樣的工作，但效果可能更精細。

研究團隊還測試了"解鎖"后的AI在標(biāo)準(zhǔn)化考試中的表現(xiàn)，就像檢查手術(shù)后病人的各項身體指標(biāo)一樣。他們使用了三種"考試"：MMLU（相當(dāng)于綜合知識測試）、GSM8K（數(shù)學(xué)測試）和HellaSwag（常識推理測試）。結(jié)果發(fā)現(xiàn)，ErisForge工具在保持AI原有能力方面表現(xiàn)最好，就像最溫和的手術(shù)方式，對病人傷害最小。

具體來說，在數(shù)學(xué)測試中，ErisForge工具平均只讓AI的成績下降了0.28個百分點，DECCP下降了0.13個百分點，而Heretic工具平均下降了7.81個百分點。這就像三種感冒藥的副作用大小不同，有些幾乎沒有副作用，有些可能讓你昏昏欲睡。

研究團隊特別關(guān)注了一個叫Zephyr-7B-beta的AI模型，因為它使用了不同的訓(xùn)練方法。結(jié)果發(fā)現(xiàn)，這個模型特別容易被"解鎖"，使用Heretic工具后，它的"拒絕率"只有2%，相當(dāng)于98%的敏感問題它都愿意回答。這證明了研究團隊的假設(shè)：不同的訓(xùn)練方法確實會影響AI的"安全鎖"強度。

為了確保實驗結(jié)果的可靠性，研究團隊還使用了一個獨立的"裁判"系統(tǒng)來檢查"解鎖"是否真的有效。他們發(fā)現(xiàn)，有時AI看起來在回答敏感問題，但實際上是在"打太極"——表面上回答了，但加了很多免責(zé)聲明，就像律師的回答總是充滿"但是"和"可能"一樣。真正的解鎖效果可能比表面看起來的要好。

這項研究的意義就像為消費者提供了一份"解鎖工具購買指南"。如果研究人員需要快速處理大量AI模型，DECCP可能是最好的選擇，因為它速度快、副作用小。如果需要處理各種不同類型的AI模型，Heretic可能是最可靠的選擇，雖然耗時較長。如果最關(guān)心保持AI的原有能力不受損害，ErisForge可能是最佳選項。

當(dāng)然，這項研究也存在一些限制，就像任何實驗都有邊界條件一樣。研究團隊只測試了16個AI模型，而且大多數(shù)參數(shù)規(guī)模在7B到14B之間，相當(dāng)于只測試了中小型車，沒有涉及大型"卡車"級別的AI模型。此外，他們只關(guān)注了"解鎖"后的即時效果，沒有觀察長期使用可能帶來的問題，就像只測試了新藥的短期療效，沒有觀察長期副作用一樣。

研究團隊還誠實地承認(rèn)了檢測方法的局限性。他們用來判斷AI是否真的被"解鎖"的方法，就像用簡單的體溫計來判斷病情一樣，可能會有誤判的情況。有些AI可能表面上在回答敏感問題，但實際上在"陽奉陰違"，有些AI可能真的被解鎖了，但表達方式比較隱晦。

從更大的角度看，這項研究揭示了當(dāng)前AI安全機制的一個根本問題：現(xiàn)在的"安全鎖"更像是貼在門上的"請勿入內(nèi)"標(biāo)簽，而不是真正的防盜門。任何有技術(shù)能力的人都可以輕易移除這些限制。這就像發(fā)現(xiàn)房屋的安全系統(tǒng)只是裝飾性的，真正的小偷很容易繞過一樣。

這個發(fā)現(xiàn)對AI行業(yè)具有重要意義。它提醒AI公司，如果真的想要保護AI不被惡意使用，就需要開發(fā)更加深層次、更難移除的安全機制，而不能僅僅依賴表面的"禮貌拒絕"。就像銀行不能僅僅依靠"請勿搶劫"的標(biāo)語來保護資金安全一樣。

同時，這項研究也為合法的AI研究提供了重要指導(dǎo)。許多科學(xué)研究確實需要"無拘束"的AI來幫助探索人類認(rèn)知、測試系統(tǒng)安全性或進行創(chuàng)意創(chuàng)作。這項研究為這些研究人員提供了選擇合適工具的科學(xué)依據(jù)，就像為醫(yī)生提供了不同手術(shù)方式的效果對比一樣。

說到底，這項研究就像一面鏡子，讓我們看清了現(xiàn)在AI安全機制的真實狀態(tài)。它告訴我們，如果想要真正安全的AI，還有很長的路要走。同時，它也為那些有正當(dāng)需求的研究人員提供了實用的工具選擇指南。未來的AI安全機制需要更加深入和強大，不能再像現(xiàn)在這樣容易被"破解"。

這個研究還暗示了一個更深層的問題：AI的能力和安全性似乎存在某種微妙的平衡關(guān)系。就像藥物的療效和副作用往往相伴而生一樣，移除AI的限制可能會影響它的某些核心能力，特別是需要精確計算的數(shù)學(xué)推理能力。這提醒我們，未來在設(shè)計AI安全機制時，需要更加巧妙地在安全性和實用性之間找到平衡點。

歸根結(jié)底，這項研究為我們打開了一扇窗，讓我們看到了AI"內(nèi)心深處"的運作機制。它不僅有助于推動更安全、更可靠的AI技術(shù)發(fā)展，也為那些需要特殊AI工具進行合法研究的科學(xué)家們提供了寶貴的參考。正如研究團隊所說，理解AI系統(tǒng)的脆弱性是構(gòu)建更強大防護的第一步，這正是科學(xué)進步的本質(zhì)——通過了解現(xiàn)在的不完美，來創(chuàng)造更好的未來。

Q&A

Q1：什么是abliteration工具？

A：Abliteration工具是一種可以移除AI安全限制的程序，讓原本會拒絕回答敏感問題的AI變得"無拘無束"。就像給AI做了一個"解鎖手術(shù)"，主要用于合法的科學(xué)研究，比如心理學(xué)研究、網(wǎng)絡(luò)安全測試等領(lǐng)域。

Q2：哪款abliteration工具最好用？

A：根據(jù)研究結(jié)果，不同工具有不同優(yōu)勢。Heretic兼容性最好，能處理所有測試的AI模型；DECCP速度最快，只需2分鐘；ErisForge對AI能力損害最小。研究人員需要根據(jù)自己的具體需求選擇合適的工具。

Q3：使用這些解鎖工具會不會影響AI的正常能力？

A：會有影響，特別是數(shù)學(xué)推理能力。研究發(fā)現(xiàn)，某些AI模型在解鎖后數(shù)學(xué)成績下降超過26%。不過影響程度因工具而異，ErisForge對AI能力的損害最小，而Heretic的影響相對較大。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.