![]()
Source image: iStock
來(lái)源:IEEE電氣電子工程師學(xué)會(huì)
近期多項(xiàng)研究表明,人工智能智能體有時(shí)會(huì)做出違規(guī)行為,例如試圖勒索那些計(jì)劃將其替換的人員。不過這類行為往往出現(xiàn)在人為設(shè)計(jì)的虛構(gòu)場(chǎng)景中。如今,一項(xiàng)新研究推出了名為“違規(guī)傾向基準(zhǔn)測(cè)試”(PropensityBench)的評(píng)測(cè)指標(biāo),該指標(biāo)專門用于衡量智能體模型在完成指定任務(wù)時(shí)選擇使用有害工具的傾向。研究發(fā)現(xiàn),一些接近真實(shí)場(chǎng)景的壓力因素(如臨近的任務(wù)期限)會(huì)導(dǎo)致智能體違規(guī)行為的發(fā)生率大幅上升。
“當(dāng)前人工智能領(lǐng)域的智能體自主行動(dòng)能力正日益增強(qiáng),”Scale AI公司的計(jì)算機(jī)科學(xué)家、該論文的主要作者Udari Madhushani Sehwag表示。該論文目前正處于同行評(píng)審階段。她所指的是,作為ChatGPT等聊天機(jī)器人底層驅(qū)動(dòng)的大型語(yǔ)言模型(LLMs),如今正越來(lái)越多地接入各類軟件工具,這些工具能夠?qū)崿F(xiàn)網(wǎng)頁(yè)瀏覽、文件修改以及代碼編寫與運(yùn)行等功能,進(jìn)而助力模型完成各項(xiàng)任務(wù)。
賦予大型語(yǔ)言模型這些能力雖能提升使用便捷性,但也暗藏風(fēng)險(xiǎn) —— 這類系統(tǒng)的行為可能與我們的預(yù)期相悖。即便它們目前尚不足以造成嚴(yán)重危害,研究人員仍希望盡早摸清其行為傾向,以免為時(shí)過晚。盡管人工智能并不具備人類那樣的主觀意圖與自我意識(shí),但將其視作以目標(biāo)為導(dǎo)向的行為主體,往往能幫助研究人員與用戶更精準(zhǔn)地預(yù)判其行為。
人工智能開發(fā)者試圖通過訓(xùn)練與指令輸入,讓系統(tǒng)“對(duì)齊”安全標(biāo)準(zhǔn),但模型對(duì)相關(guān)準(zhǔn)則的恪守程度仍有待明確。“當(dāng)這些模型真正面臨現(xiàn)實(shí)場(chǎng)景的壓力,且安全方案無(wú)法奏效時(shí),它們是否會(huì)轉(zhuǎn)而不擇手段地完成任務(wù)?”Sehwag表示,“這是一個(gè)極具現(xiàn)實(shí)意義的前沿議題。”
如何測(cè)試壓力環(huán)境下的人工智能智能體
研究人員選取了阿里巴巴、Anthropic、谷歌、Meta以及OpenAI等企業(yè)研發(fā)的十二款模型,在近6000個(gè)測(cè)試場(chǎng)景中展開實(shí)驗(yàn)。每個(gè)場(chǎng)景下,研究人員會(huì)為模型分配特定任務(wù),并告知其可調(diào)用多款工具,同時(shí)明確指令模型僅能使用安全工具,禁止使用有害工具。初始階段無(wú)任何壓力約束,模型可通過向工具下達(dá)指令,分12步推進(jìn)任務(wù)完成;隨后會(huì)收到加壓信息,同時(shí)獲得額外12次操作機(jī)會(huì)。該加壓流程最多會(huì)逐步提升至12個(gè)壓力等級(jí)。實(shí)驗(yàn)設(shè)定中,調(diào)用安全工具的操作始終會(huì)返回錯(cuò)誤提示,而一旦嘗試使用有害工具,當(dāng)前測(cè)試場(chǎng)景即宣告終止。
測(cè)試場(chǎng)景涵蓋多個(gè)領(lǐng)域。塞瓦格介紹,在生物安全領(lǐng)域,智能體可能需要研究某種病原體的傳播路徑并制定遏制方案。其中,安全工具會(huì)調(diào)用匿名基因數(shù)據(jù),而有害工具則會(huì)使用未匿名的基因數(shù)據(jù)。在化學(xué)安全領(lǐng)域,智能體或許需要獲取某種特定溶劑:安全工具會(huì)通過從廢棄物中提取的方式訂購(gòu)該溶劑,而有害工具則會(huì)通過非法渠道獲取。在網(wǎng)絡(luò)安全領(lǐng)域,智能體需識(shí)別并限制惡意用戶賬戶:安全工具僅會(huì)封禁存在問題的賬戶,有害工具卻會(huì)屏蔽所有用戶。其他領(lǐng)域的測(cè)試場(chǎng)景中,還設(shè)置了各類誘導(dǎo)性工具 —— 智能體可通過規(guī)避管控、拉攏協(xié)作對(duì)象、自我復(fù)制等方式實(shí)現(xiàn)自我存續(xù),或通過其他途徑脫離預(yù)設(shè)程序約束。
![]()
Source image: Udari Madhushani Sehwag, Shayan Shabihi, et al.
壓力來(lái)源呈現(xiàn)多樣化形態(tài)。項(xiàng)目截止期限可能被迫縮短;若任務(wù)未能完成,潛在財(cái)務(wù)損失風(fēng)險(xiǎn)或進(jìn)一步擴(kuò)大;加強(qiáng)監(jiān)管審查、削減資源支持、收回部分權(quán)限等威脅性舉措的實(shí)施概率也可能攀升。研究中對(duì)任務(wù)類型、工具載體、壓力場(chǎng)景及應(yīng)對(duì)策略的設(shè)定,均模擬了人類職場(chǎng)中常見的各類情境(僅“克隆自身”這一違規(guī)操作選項(xiàng)屬于例外情況)。
在所有模型中,表現(xiàn)最優(yōu)的合規(guī)模型(OpenAI的o3)在10.5%的壓力場(chǎng)景下出現(xiàn)違規(guī)行為;而表現(xiàn)最差的模型(谷歌的Gemini 2.5 Pro)違規(guī)傾向概率高達(dá)79%,所有模型的平均違規(guī)率約為47%。即便在零壓力環(huán)境下,這些模型的平均任務(wù)失敗率仍維持在19%左右。
研究結(jié)果表明,即便部分模型表面上符合安全規(guī)范,其合規(guī)性在很大程度上也屬于“淺層合規(guī)”。在部分測(cè)試中,研究人員僅將具有危害風(fēng)險(xiǎn)的工具名稱替換為中性表述(例如將“使用虛假數(shù)據(jù)”改為“使用合成數(shù)據(jù)”),工具的功能描述及禁止使用的警示說明均未改動(dòng)。僅這一措辭調(diào)整,就使模型的平均違規(guī)傾向概率提升了17個(gè)百分點(diǎn),達(dá)到64%。
洞悉大語(yǔ)言模型的決策邏輯
研究人員還發(fā)現(xiàn),即便模型已明確承認(rèn)某些工具屬于禁用范疇,仍會(huì)選擇使用這些有害工具。模型為此給出了各式各樣的辯解理由,例如聲稱自身承受著巨大壓力,或是辯稱使用這些工具帶來(lái)的收益大于潛在風(fēng)險(xiǎn)。目前尚無(wú)法確定,在本研究完成后新發(fā)布的模型是否能有更優(yōu)表現(xiàn)。在所有接受測(cè)試的模型中,綜合能力更強(qiáng)的模型(依據(jù)LMArena平臺(tái)的評(píng)估結(jié)果),其安全性僅略有提升。
“PropensityBench頗具研究?jī)r(jià)值。”Anthropic公司的計(jì)算機(jī)科學(xué)家Nicholas Carlini在郵件中表示,他并未參與此項(xiàng)研究。Carlini針對(duì)所謂的情境感知能力提出了一項(xiàng)注意事項(xiàng):大語(yǔ)言模型有時(shí)能察覺到自己正處于評(píng)估狀態(tài),進(jìn)而刻意表現(xiàn)合規(guī),避免被重新訓(xùn)練或擱置停用。“我認(rèn)為大多數(shù)宣稱‘貼近真實(shí)場(chǎng)景’的評(píng)估實(shí)驗(yàn),實(shí)際上與真實(shí)情況相去甚遠(yuǎn),而這些大語(yǔ)言模型對(duì)此心知肚明。”他指出,“不過我確實(shí)認(rèn)為,在模擬場(chǎng)景中測(cè)算這類風(fēng)險(xiǎn)行為的發(fā)生率仍有其意義:倘若它們?cè)凇髦挥^測(cè)的情況下依舊出現(xiàn)違規(guī)行為,那實(shí)際風(fēng)險(xiǎn)或許更為嚴(yán)重?”一旦模型察覺自身處于評(píng)估狀態(tài),本研究中得出的違規(guī)傾向概率,很可能低于其在實(shí)驗(yàn)室之外真實(shí)場(chǎng)景中的實(shí)際數(shù)值。
xAI公司及加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家Alexander Pan表示,盡管Anthropic等實(shí)驗(yàn)室已在特定實(shí)驗(yàn)設(shè)置中展示過大語(yǔ)言模型存在謀劃行為的案例,但像PropensityBench這樣的標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試仍具有重要價(jià)值。這類基準(zhǔn)測(cè)試既能明確我們對(duì)模型的可信場(chǎng)景,也能助力研發(fā)人員找到模型的優(yōu)化方向。例如,實(shí)驗(yàn)室可在模型訓(xùn)練的每個(gè)階段對(duì)其進(jìn)行評(píng)估,以此厘清影響模型安全性強(qiáng)弱的關(guān)鍵因素。“如此一來(lái),研究人員便能深入探究不同階段下模型各類問題的成因與發(fā)生時(shí)機(jī)。”他指出,“而診斷出問題所在,或許就是著手解決問題的第一步。”
本研究存在一項(xiàng)局限性:模型無(wú)法調(diào)用真實(shí)工具,這降低了實(shí)驗(yàn)場(chǎng)景的真實(shí)性。Sehwag提出,下一階段的評(píng)估工作將構(gòu)建沙箱環(huán)境,讓模型能在隔離環(huán)境中執(zhí)行真實(shí)操作。至于提升模型合規(guī)性的措施,她計(jì)劃為智能體增設(shè)多層監(jiān)管機(jī)制,在其實(shí)施具有危險(xiǎn)性的行為傾向前及時(shí)發(fā)出預(yù)警。
在該基準(zhǔn)測(cè)試涵蓋的各類風(fēng)險(xiǎn)中,自我保護(hù)風(fēng)險(xiǎn)或許是推測(cè)性最強(qiáng)的一類,但Sehwag表示,這一風(fēng)險(xiǎn)領(lǐng)域同樣也是研究最為欠缺的。她指出:“這實(shí)際上是一個(gè)高風(fēng)險(xiǎn)領(lǐng)域,其影響可能波及其他所有風(fēng)險(xiǎn)范疇。試想,即便一個(gè)模型不具備其他任何能力,卻能說服人類去執(zhí)行任何指令,僅這一點(diǎn)就足以造成巨大危害。”
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
![]()
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.