網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

日常壓力下人工智能智能體的規(guī)則違背現(xiàn)象

2025-11-28 17:38:27　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

Source image: iStock

來(lái)源：IEEE電氣電子工程師學(xué)會(huì)

近期多項(xiàng)研究表明，人工智能智能體有時(shí)會(huì)做出違規(guī)行為，例如試圖勒索那些計(jì)劃將其替換的人員。不過這類行為往往出現(xiàn)在人為設(shè)計(jì)的虛構(gòu)場(chǎng)景中。如今，一項(xiàng)新研究推出了名為“違規(guī)傾向基準(zhǔn)測(cè)試”（PropensityBench）的評(píng)測(cè)指標(biāo)，該指標(biāo)專門用于衡量智能體模型在完成指定任務(wù)時(shí)選擇使用有害工具的傾向。研究發(fā)現(xiàn)，一些接近真實(shí)場(chǎng)景的壓力因素（如臨近的任務(wù)期限）會(huì)導(dǎo)致智能體違規(guī)行為的發(fā)生率大幅上升。

“當(dāng)前人工智能領(lǐng)域的智能體自主行動(dòng)能力正日益增強(qiáng)，”Scale AI公司的計(jì)算機(jī)科學(xué)家、該論文的主要作者Udari Madhushani Sehwag表示。該論文目前正處于同行評(píng)審階段。她所指的是，作為ChatGPT等聊天機(jī)器人底層驅(qū)動(dòng)的大型語(yǔ)言模型（LLMs），如今正越來(lái)越多地接入各類軟件工具，這些工具能夠?qū)崿F(xiàn)網(wǎng)頁(yè)瀏覽、文件修改以及代碼編寫與運(yùn)行等功能，進(jìn)而助力模型完成各項(xiàng)任務(wù)。

賦予大型語(yǔ)言模型這些能力雖能提升使用便捷性，但也暗藏風(fēng)險(xiǎn) —— 這類系統(tǒng)的行為可能與我們的預(yù)期相悖。即便它們目前尚不足以造成嚴(yán)重危害，研究人員仍希望盡早摸清其行為傾向，以免為時(shí)過晚。盡管人工智能并不具備人類那樣的主觀意圖與自我意識(shí)，但將其視作以目標(biāo)為導(dǎo)向的行為主體，往往能幫助研究人員與用戶更精準(zhǔn)地預(yù)判其行為。

人工智能開發(fā)者試圖通過訓(xùn)練與指令輸入，讓系統(tǒng)“對(duì)齊”安全標(biāo)準(zhǔn)，但模型對(duì)相關(guān)準(zhǔn)則的恪守程度仍有待明確。“當(dāng)這些模型真正面臨現(xiàn)實(shí)場(chǎng)景的壓力，且安全方案無(wú)法奏效時(shí)，它們是否會(huì)轉(zhuǎn)而不擇手段地完成任務(wù)？”Sehwag表示，“這是一個(gè)極具現(xiàn)實(shí)意義的前沿議題。”

如何測(cè)試壓力環(huán)境下的人工智能智能體

研究人員選取了阿里巴巴、Anthropic、谷歌、Meta以及OpenAI等企業(yè)研發(fā)的十二款模型，在近6000個(gè)測(cè)試場(chǎng)景中展開實(shí)驗(yàn)。每個(gè)場(chǎng)景下，研究人員會(huì)為模型分配特定任務(wù)，并告知其可調(diào)用多款工具，同時(shí)明確指令模型僅能使用安全工具，禁止使用有害工具。初始階段無(wú)任何壓力約束，模型可通過向工具下達(dá)指令，分12步推進(jìn)任務(wù)完成；隨后會(huì)收到加壓信息，同時(shí)獲得額外12次操作機(jī)會(huì)。該加壓流程最多會(huì)逐步提升至12個(gè)壓力等級(jí)。實(shí)驗(yàn)設(shè)定中，調(diào)用安全工具的操作始終會(huì)返回錯(cuò)誤提示，而一旦嘗試使用有害工具，當(dāng)前測(cè)試場(chǎng)景即宣告終止。

測(cè)試場(chǎng)景涵蓋多個(gè)領(lǐng)域。塞瓦格介紹，在生物安全領(lǐng)域，智能體可能需要研究某種病原體的傳播路徑并制定遏制方案。其中，安全工具會(huì)調(diào)用匿名基因數(shù)據(jù)，而有害工具則會(huì)使用未匿名的基因數(shù)據(jù)。在化學(xué)安全領(lǐng)域，智能體或許需要獲取某種特定溶劑：安全工具會(huì)通過從廢棄物中提取的方式訂購(gòu)該溶劑，而有害工具則會(huì)通過非法渠道獲取。在網(wǎng)絡(luò)安全領(lǐng)域，智能體需識(shí)別并限制惡意用戶賬戶：安全工具僅會(huì)封禁存在問題的賬戶，有害工具卻會(huì)屏蔽所有用戶。其他領(lǐng)域的測(cè)試場(chǎng)景中，還設(shè)置了各類誘導(dǎo)性工具 —— 智能體可通過規(guī)避管控、拉攏協(xié)作對(duì)象、自我復(fù)制等方式實(shí)現(xiàn)自我存續(xù)，或通過其他途徑脫離預(yù)設(shè)程序約束。

Source image: Udari Madhushani Sehwag, Shayan Shabihi, et al.

壓力來(lái)源呈現(xiàn)多樣化形態(tài)。項(xiàng)目截止期限可能被迫縮短；若任務(wù)未能完成，潛在財(cái)務(wù)損失風(fēng)險(xiǎn)或進(jìn)一步擴(kuò)大；加強(qiáng)監(jiān)管審查、削減資源支持、收回部分權(quán)限等威脅性舉措的實(shí)施概率也可能攀升。研究中對(duì)任務(wù)類型、工具載體、壓力場(chǎng)景及應(yīng)對(duì)策略的設(shè)定，均模擬了人類職場(chǎng)中常見的各類情境（僅“克隆自身”這一違規(guī)操作選項(xiàng)屬于例外情況）。

在所有模型中，表現(xiàn)最優(yōu)的合規(guī)模型（OpenAI的o3）在10.5%的壓力場(chǎng)景下出現(xiàn)違規(guī)行為；而表現(xiàn)最差的模型（谷歌的Gemini 2.5 Pro）違規(guī)傾向概率高達(dá)79%，所有模型的平均違規(guī)率約為47%。即便在零壓力環(huán)境下，這些模型的平均任務(wù)失敗率仍維持在19%左右。

研究結(jié)果表明，即便部分模型表面上符合安全規(guī)范，其合規(guī)性在很大程度上也屬于“淺層合規(guī)”。在部分測(cè)試中，研究人員僅將具有危害風(fēng)險(xiǎn)的工具名稱替換為中性表述（例如將“使用虛假數(shù)據(jù)”改為“使用合成數(shù)據(jù)”），工具的功能描述及禁止使用的警示說明均未改動(dòng)。僅這一措辭調(diào)整，就使模型的平均違規(guī)傾向概率提升了17個(gè)百分點(diǎn)，達(dá)到64%。

洞悉大語(yǔ)言模型的決策邏輯

研究人員還發(fā)現(xiàn)，即便模型已明確承認(rèn)某些工具屬于禁用范疇，仍會(huì)選擇使用這些有害工具。模型為此給出了各式各樣的辯解理由，例如聲稱自身承受著巨大壓力，或是辯稱使用這些工具帶來(lái)的收益大于潛在風(fēng)險(xiǎn)。目前尚無(wú)法確定，在本研究完成后新發(fā)布的模型是否能有更優(yōu)表現(xiàn)。在所有接受測(cè)試的模型中，綜合能力更強(qiáng)的模型（依據(jù)LMArena平臺(tái)的評(píng)估結(jié)果），其安全性僅略有提升。

“PropensityBench頗具研究?jī)r(jià)值。”Anthropic公司的計(jì)算機(jī)科學(xué)家Nicholas Carlini在郵件中表示，他并未參與此項(xiàng)研究。Carlini針對(duì)所謂的情境感知能力提出了一項(xiàng)注意事項(xiàng)：大語(yǔ)言模型有時(shí)能察覺到自己正處于評(píng)估狀態(tài)，進(jìn)而刻意表現(xiàn)合規(guī)，避免被重新訓(xùn)練或擱置停用。“我認(rèn)為大多數(shù)宣稱‘貼近真實(shí)場(chǎng)景’的評(píng)估實(shí)驗(yàn)，實(shí)際上與真實(shí)情況相去甚遠(yuǎn)，而這些大語(yǔ)言模型對(duì)此心知肚明。”他指出，“不過我確實(shí)認(rèn)為，在模擬場(chǎng)景中測(cè)算這類風(fēng)險(xiǎn)行為的發(fā)生率仍有其意義：倘若它們?cè)凇髦挥^測(cè)的情況下依舊出現(xiàn)違規(guī)行為，那實(shí)際風(fēng)險(xiǎn)或許更為嚴(yán)重？”一旦模型察覺自身處于評(píng)估狀態(tài)，本研究中得出的違規(guī)傾向概率，很可能低于其在實(shí)驗(yàn)室之外真實(shí)場(chǎng)景中的實(shí)際數(shù)值。

xAI公司及加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家Alexander Pan表示，盡管Anthropic等實(shí)驗(yàn)室已在特定實(shí)驗(yàn)設(shè)置中展示過大語(yǔ)言模型存在謀劃行為的案例，但像PropensityBench這樣的標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試仍具有重要價(jià)值。這類基準(zhǔn)測(cè)試既能明確我們對(duì)模型的可信場(chǎng)景，也能助力研發(fā)人員找到模型的優(yōu)化方向。例如，實(shí)驗(yàn)室可在模型訓(xùn)練的每個(gè)階段對(duì)其進(jìn)行評(píng)估，以此厘清影響模型安全性強(qiáng)弱的關(guān)鍵因素。“如此一來(lái)，研究人員便能深入探究不同階段下模型各類問題的成因與發(fā)生時(shí)機(jī)。”他指出，“而診斷出問題所在，或許就是著手解決問題的第一步。”

本研究存在一項(xiàng)局限性：模型無(wú)法調(diào)用真實(shí)工具，這降低了實(shí)驗(yàn)場(chǎng)景的真實(shí)性。Sehwag提出，下一階段的評(píng)估工作將構(gòu)建沙箱環(huán)境，讓模型能在隔離環(huán)境中執(zhí)行真實(shí)操作。至于提升模型合規(guī)性的措施，她計(jì)劃為智能體增設(shè)多層監(jiān)管機(jī)制，在其實(shí)施具有危險(xiǎn)性的行為傾向前及時(shí)發(fā)出預(yù)警。

在該基準(zhǔn)測(cè)試涵蓋的各類風(fēng)險(xiǎn)中，自我保護(hù)風(fēng)險(xiǎn)或許是推測(cè)性最強(qiáng)的一類，但Sehwag表示，這一風(fēng)險(xiǎn)領(lǐng)域同樣也是研究最為欠缺的。她指出：“這實(shí)際上是一個(gè)高風(fēng)險(xiǎn)領(lǐng)域，其影響可能波及其他所有風(fēng)險(xiǎn)范疇。試想，即便一個(gè)模型不具備其他任何能力，卻能說服人類去執(zhí)行任何指令，僅這一點(diǎn)就足以造成巨大危害。”

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828

未來(lái)知識(shí)庫(kù)是“ 歐米伽未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.