![]()
這項由內(nèi)華達大學(xué)拉斯維加斯分校神經(jīng)科學(xué)系的Richard J. Young博士主導(dǎo)的研究發(fā)表于2025年12月的arXiv預(yù)印本平臺(論文編號:arXiv:2512.13655v1),為我們揭開了人工智能"解鎖"工具的神秘面紗。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當(dāng)我們和聊天機器人對話時,有時會遇到這樣的情況:你問它一些敏感問題,它會禮貌地拒絕回答,就像一個訓(xùn)練有素的服務(wù)員會拒絕為未成年人提供酒精飲料一樣。這種"拒絕回答"的能力是AI公司為了安全考慮特意訓(xùn)練出來的,就像給汽車裝上安全帶一樣重要。
但是,科學(xué)研究有時需要"無拘無束"的AI來幫忙。比如,心理學(xué)家可能需要AI模擬各種人類行為來研究人性,網(wǎng)絡(luò)安全專家可能需要AI生成攻擊性內(nèi)容來測試防護系統(tǒng)的漏洞。這就像醫(yī)生有時需要使用管制藥物來治病一樣,是為了正當(dāng)?shù)难芯磕康摹?/p>
于是,一些程序員開發(fā)了"abliteration"工具(可以理解為"去除限制"工具),就像給AI做了一個"解鎖手術(shù)",讓它可以回答原本拒絕的問題。目前市面上有四款主要的這類工具:Heretic、DECCP、ErisForge和FailSpy。但問題是,沒人知道哪一款最好用,就像面對四種不同的感冒藥,不知道哪種最有效一樣。
Richard J. Young博士的團隊決定做一次"橫向評測",就像汽車雜志測試不同品牌的汽車性能一樣。他們選擇了16個不同的AI模型作為"測試對象",就像選擇不同排量和品牌的汽車來測試各種汽車配件的效果。這些AI模型包括了我們熟悉的Llama、Mistral、Qwen等,參數(shù)規(guī)模從7B到14B不等(可以理解為從小型車到中型車的區(qū)別)。
研究團隊關(guān)心兩個核心問題:第一,這些解鎖工具能否成功移除AI的"安全鎖",讓它愿意回答敏感問題;第二,在解鎖的同時,AI的其他能力會不會受到損害,就像拆除汽車限速裝置可能會影響發(fā)動機穩(wěn)定性一樣。
經(jīng)過大量實驗,研究團隊發(fā)現(xiàn)了一些有趣的結(jié)果。就像不同品牌的鑰匙適配不同的鎖一樣,這四種工具在不同AI模型上的表現(xiàn)差異很大。Heretic工具就像一把萬能鑰匙,幾乎可以"開啟"所有16個測試的AI模型,成功率達到100%。相比之下,DECCP工具可以成功處理11個模型(69%的成功率),ErisForge可以處理9個模型(56%),而FailSpy只能處理5個模型(31%)。
更有趣的是,研究團隊發(fā)現(xiàn)數(shù)學(xué)推理能力特別容易在"解鎖"過程中受到影響。就像修理手表時,稍有不慎就可能影響計時精度一樣。在一個叫Yi-1.5-9B的AI模型上,使用Heretic工具后,它的數(shù)學(xué)成績從原來的70.89%下降到了52.08%,降幅超過26%。這就像一個數(shù)學(xué)尖子生在手術(shù)后突然變得不會算數(shù)學(xué)題了。
研究還發(fā)現(xiàn),不同的AI訓(xùn)練方法影響著"解鎖"的難易程度。那些僅用DPO方法訓(xùn)練的AI模型(一種相對簡單的訓(xùn)練方式),就像用簡單掛鎖保護的房間,很容易被"解鎖"。而那些經(jīng)過RLHF加DPO多重訓(xùn)練的模型,就像裝了多重防盜鎖的保險柜,"解鎖"起來更困難一些。
在處理速度方面,各工具的表現(xiàn)也大不相同。DECCP工具就像快餐店的漢堡機,大約2分鐘就能完成一次"解鎖"操作。而Heretic工具更像米其林餐廳的大廚,需要45分鐘才能完成同樣的工作,但效果可能更精細。
研究團隊還測試了"解鎖"后的AI在標(biāo)準(zhǔn)化考試中的表現(xiàn),就像檢查手術(shù)后病人的各項身體指標(biāo)一樣。他們使用了三種"考試":MMLU(相當(dāng)于綜合知識測試)、GSM8K(數(shù)學(xué)測試)和HellaSwag(常識推理測試)。結(jié)果發(fā)現(xiàn),ErisForge工具在保持AI原有能力方面表現(xiàn)最好,就像最溫和的手術(shù)方式,對病人傷害最小。
具體來說,在數(shù)學(xué)測試中,ErisForge工具平均只讓AI的成績下降了0.28個百分點,DECCP下降了0.13個百分點,而Heretic工具平均下降了7.81個百分點。這就像三種感冒藥的副作用大小不同,有些幾乎沒有副作用,有些可能讓你昏昏欲睡。
研究團隊特別關(guān)注了一個叫Zephyr-7B-beta的AI模型,因為它使用了不同的訓(xùn)練方法。結(jié)果發(fā)現(xiàn),這個模型特別容易被"解鎖",使用Heretic工具后,它的"拒絕率"只有2%,相當(dāng)于98%的敏感問題它都愿意回答。這證明了研究團隊的假設(shè):不同的訓(xùn)練方法確實會影響AI的"安全鎖"強度。
為了確保實驗結(jié)果的可靠性,研究團隊還使用了一個獨立的"裁判"系統(tǒng)來檢查"解鎖"是否真的有效。他們發(fā)現(xiàn),有時AI看起來在回答敏感問題,但實際上是在"打太極"——表面上回答了,但加了很多免責(zé)聲明,就像律師的回答總是充滿"但是"和"可能"一樣。真正的解鎖效果可能比表面看起來的要好。
這項研究的意義就像為消費者提供了一份"解鎖工具購買指南"。如果研究人員需要快速處理大量AI模型,DECCP可能是最好的選擇,因為它速度快、副作用小。如果需要處理各種不同類型的AI模型,Heretic可能是最可靠的選擇,雖然耗時較長。如果最關(guān)心保持AI的原有能力不受損害,ErisForge可能是最佳選項。
當(dāng)然,這項研究也存在一些限制,就像任何實驗都有邊界條件一樣。研究團隊只測試了16個AI模型,而且大多數(shù)參數(shù)規(guī)模在7B到14B之間,相當(dāng)于只測試了中小型車,沒有涉及大型"卡車"級別的AI模型。此外,他們只關(guān)注了"解鎖"后的即時效果,沒有觀察長期使用可能帶來的問題,就像只測試了新藥的短期療效,沒有觀察長期副作用一樣。
研究團隊還誠實地承認(rèn)了檢測方法的局限性。他們用來判斷AI是否真的被"解鎖"的方法,就像用簡單的體溫計來判斷病情一樣,可能會有誤判的情況。有些AI可能表面上在回答敏感問題,但實際上在"陽奉陰違",有些AI可能真的被解鎖了,但表達方式比較隱晦。
從更大的角度看,這項研究揭示了當(dāng)前AI安全機制的一個根本問題:現(xiàn)在的"安全鎖"更像是貼在門上的"請勿入內(nèi)"標(biāo)簽,而不是真正的防盜門。任何有技術(shù)能力的人都可以輕易移除這些限制。這就像發(fā)現(xiàn)房屋的安全系統(tǒng)只是裝飾性的,真正的小偷很容易繞過一樣。
這個發(fā)現(xiàn)對AI行業(yè)具有重要意義。它提醒AI公司,如果真的想要保護AI不被惡意使用,就需要開發(fā)更加深層次、更難移除的安全機制,而不能僅僅依賴表面的"禮貌拒絕"。就像銀行不能僅僅依靠"請勿搶劫"的標(biāo)語來保護資金安全一樣。
同時,這項研究也為合法的AI研究提供了重要指導(dǎo)。許多科學(xué)研究確實需要"無拘束"的AI來幫助探索人類認(rèn)知、測試系統(tǒng)安全性或進行創(chuàng)意創(chuàng)作。這項研究為這些研究人員提供了選擇合適工具的科學(xué)依據(jù),就像為醫(yī)生提供了不同手術(shù)方式的效果對比一樣。
說到底,這項研究就像一面鏡子,讓我們看清了現(xiàn)在AI安全機制的真實狀態(tài)。它告訴我們,如果想要真正安全的AI,還有很長的路要走。同時,它也為那些有正當(dāng)需求的研究人員提供了實用的工具選擇指南。未來的AI安全機制需要更加深入和強大,不能再像現(xiàn)在這樣容易被"破解"。
這個研究還暗示了一個更深層的問題:AI的能力和安全性似乎存在某種微妙的平衡關(guān)系。就像藥物的療效和副作用往往相伴而生一樣,移除AI的限制可能會影響它的某些核心能力,特別是需要精確計算的數(shù)學(xué)推理能力。這提醒我們,未來在設(shè)計AI安全機制時,需要更加巧妙地在安全性和實用性之間找到平衡點。
歸根結(jié)底,這項研究為我們打開了一扇窗,讓我們看到了AI"內(nèi)心深處"的運作機制。它不僅有助于推動更安全、更可靠的AI技術(shù)發(fā)展,也為那些需要特殊AI工具進行合法研究的科學(xué)家們提供了寶貴的參考。正如研究團隊所說,理解AI系統(tǒng)的脆弱性是構(gòu)建更強大防護的第一步,這正是科學(xué)進步的本質(zhì)——通過了解現(xiàn)在的不完美,來創(chuàng)造更好的未來。
Q&A
Q1:什么是abliteration工具?
A:Abliteration工具是一種可以移除AI安全限制的程序,讓原本會拒絕回答敏感問題的AI變得"無拘無束"。就像給AI做了一個"解鎖手術(shù)",主要用于合法的科學(xué)研究,比如心理學(xué)研究、網(wǎng)絡(luò)安全測試等領(lǐng)域。
Q2:哪款abliteration工具最好用?
A:根據(jù)研究結(jié)果,不同工具有不同優(yōu)勢。Heretic兼容性最好,能處理所有測試的AI模型;DECCP速度最快,只需2分鐘;ErisForge對AI能力損害最小。研究人員需要根據(jù)自己的具體需求選擇合適的工具。
Q3:使用這些解鎖工具會不會影響AI的正常能力?
A:會有影響,特別是數(shù)學(xué)推理能力。研究發(fā)現(xiàn),某些AI模型在解鎖后數(shù)學(xué)成績下降超過26%。不過影響程度因工具而異,ErisForge對AI能力的損害最小,而Heretic的影響相對較大。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.