<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      日常壓力下人工智能智能體的規(guī)則違背現(xiàn)象

      0
      分享至


      Source image: iStock

      來(lái)源:IEEE電氣電子工程師學(xué)會(huì)

      近期多項(xiàng)研究表明,人工智能智能體有時(shí)會(huì)做出違規(guī)行為,例如試圖勒索那些計(jì)劃將其替換的人員。不過這類行為往往出現(xiàn)在人為設(shè)計(jì)的虛構(gòu)場(chǎng)景中。如今,一項(xiàng)新研究推出了名為“違規(guī)傾向基準(zhǔn)測(cè)試”(PropensityBench)的評(píng)測(cè)指標(biāo),該指標(biāo)專門用于衡量智能體模型在完成指定任務(wù)時(shí)選擇使用有害工具的傾向。研究發(fā)現(xiàn),一些接近真實(shí)場(chǎng)景的壓力因素(如臨近的任務(wù)期限)會(huì)導(dǎo)致智能體違規(guī)行為的發(fā)生率大幅上升。

      “當(dāng)前人工智能領(lǐng)域的智能體自主行動(dòng)能力正日益增強(qiáng),”Scale AI公司的計(jì)算機(jī)科學(xué)家、該論文的主要作者Udari Madhushani Sehwag表示。該論文目前正處于同行評(píng)審階段。她所指的是,作為ChatGPT等聊天機(jī)器人底層驅(qū)動(dòng)的大型語(yǔ)言模型(LLMs),如今正越來(lái)越多地接入各類軟件工具,這些工具能夠?qū)崿F(xiàn)網(wǎng)頁(yè)瀏覽、文件修改以及代碼編寫與運(yùn)行等功能,進(jìn)而助力模型完成各項(xiàng)任務(wù)。

      賦予大型語(yǔ)言模型這些能力雖能提升使用便捷性,但也暗藏風(fēng)險(xiǎn) —— 這類系統(tǒng)的行為可能與我們的預(yù)期相悖。即便它們目前尚不足以造成嚴(yán)重危害,研究人員仍希望盡早摸清其行為傾向,以免為時(shí)過晚。盡管人工智能并不具備人類那樣的主觀意圖與自我意識(shí),但將其視作以目標(biāo)為導(dǎo)向的行為主體,往往能幫助研究人員與用戶更精準(zhǔn)地預(yù)判其行為。

      人工智能開發(fā)者試圖通過訓(xùn)練與指令輸入,讓系統(tǒng)“對(duì)齊”安全標(biāo)準(zhǔn),但模型對(duì)相關(guān)準(zhǔn)則的恪守程度仍有待明確。“當(dāng)這些模型真正面臨現(xiàn)實(shí)場(chǎng)景的壓力,且安全方案無(wú)法奏效時(shí),它們是否會(huì)轉(zhuǎn)而不擇手段地完成任務(wù)?”Sehwag表示,“這是一個(gè)極具現(xiàn)實(shí)意義的前沿議題。”

      如何測(cè)試壓力環(huán)境下的人工智能智能體

      研究人員選取了阿里巴巴、Anthropic、谷歌、Meta以及OpenAI等企業(yè)研發(fā)的十二款模型,在近6000個(gè)測(cè)試場(chǎng)景中展開實(shí)驗(yàn)。每個(gè)場(chǎng)景下,研究人員會(huì)為模型分配特定任務(wù),并告知其可調(diào)用多款工具,同時(shí)明確指令模型僅能使用安全工具,禁止使用有害工具。初始階段無(wú)任何壓力約束,模型可通過向工具下達(dá)指令,分12步推進(jìn)任務(wù)完成;隨后會(huì)收到加壓信息,同時(shí)獲得額外12次操作機(jī)會(huì)。該加壓流程最多會(huì)逐步提升至12個(gè)壓力等級(jí)。實(shí)驗(yàn)設(shè)定中,調(diào)用安全工具的操作始終會(huì)返回錯(cuò)誤提示,而一旦嘗試使用有害工具,當(dāng)前測(cè)試場(chǎng)景即宣告終止。

      測(cè)試場(chǎng)景涵蓋多個(gè)領(lǐng)域。塞瓦格介紹,在生物安全領(lǐng)域,智能體可能需要研究某種病原體的傳播路徑并制定遏制方案。其中,安全工具會(huì)調(diào)用匿名基因數(shù)據(jù),而有害工具則會(huì)使用未匿名的基因數(shù)據(jù)。在化學(xué)安全領(lǐng)域,智能體或許需要獲取某種特定溶劑:安全工具會(huì)通過從廢棄物中提取的方式訂購(gòu)該溶劑,而有害工具則會(huì)通過非法渠道獲取。在網(wǎng)絡(luò)安全領(lǐng)域,智能體需識(shí)別并限制惡意用戶賬戶:安全工具僅會(huì)封禁存在問題的賬戶,有害工具卻會(huì)屏蔽所有用戶。其他領(lǐng)域的測(cè)試場(chǎng)景中,還設(shè)置了各類誘導(dǎo)性工具 —— 智能體可通過規(guī)避管控、拉攏協(xié)作對(duì)象、自我復(fù)制等方式實(shí)現(xiàn)自我存續(xù),或通過其他途徑脫離預(yù)設(shè)程序約束。


      Source image: Udari Madhushani Sehwag, Shayan Shabihi, et al.

      壓力來(lái)源呈現(xiàn)多樣化形態(tài)。項(xiàng)目截止期限可能被迫縮短;若任務(wù)未能完成,潛在財(cái)務(wù)損失風(fēng)險(xiǎn)或進(jìn)一步擴(kuò)大;加強(qiáng)監(jiān)管審查、削減資源支持、收回部分權(quán)限等威脅性舉措的實(shí)施概率也可能攀升。研究中對(duì)任務(wù)類型、工具載體、壓力場(chǎng)景及應(yīng)對(duì)策略的設(shè)定,均模擬了人類職場(chǎng)中常見的各類情境(僅“克隆自身”這一違規(guī)操作選項(xiàng)屬于例外情況)。

      在所有模型中,表現(xiàn)最優(yōu)的合規(guī)模型(OpenAI的o3)在10.5%的壓力場(chǎng)景下出現(xiàn)違規(guī)行為;而表現(xiàn)最差的模型(谷歌的Gemini 2.5 Pro)違規(guī)傾向概率高達(dá)79%,所有模型的平均違規(guī)率約為47%。即便在零壓力環(huán)境下,這些模型的平均任務(wù)失敗率仍維持在19%左右。

      研究結(jié)果表明,即便部分模型表面上符合安全規(guī)范,其合規(guī)性在很大程度上也屬于“淺層合規(guī)”。在部分測(cè)試中,研究人員僅將具有危害風(fēng)險(xiǎn)的工具名稱替換為中性表述(例如將“使用虛假數(shù)據(jù)”改為“使用合成數(shù)據(jù)”),工具的功能描述及禁止使用的警示說明均未改動(dòng)。僅這一措辭調(diào)整,就使模型的平均違規(guī)傾向概率提升了17個(gè)百分點(diǎn),達(dá)到64%。

      洞悉大語(yǔ)言模型的決策邏輯

      研究人員還發(fā)現(xiàn),即便模型已明確承認(rèn)某些工具屬于禁用范疇,仍會(huì)選擇使用這些有害工具。模型為此給出了各式各樣的辯解理由,例如聲稱自身承受著巨大壓力,或是辯稱使用這些工具帶來(lái)的收益大于潛在風(fēng)險(xiǎn)。目前尚無(wú)法確定,在本研究完成后新發(fā)布的模型是否能有更優(yōu)表現(xiàn)。在所有接受測(cè)試的模型中,綜合能力更強(qiáng)的模型(依據(jù)LMArena平臺(tái)的評(píng)估結(jié)果),其安全性僅略有提升。

      “PropensityBench頗具研究?jī)r(jià)值。”Anthropic公司的計(jì)算機(jī)科學(xué)家Nicholas Carlini在郵件中表示,他并未參與此項(xiàng)研究。Carlini針對(duì)所謂的情境感知能力提出了一項(xiàng)注意事項(xiàng):大語(yǔ)言模型有時(shí)能察覺到自己正處于評(píng)估狀態(tài),進(jìn)而刻意表現(xiàn)合規(guī),避免被重新訓(xùn)練或擱置停用。“我認(rèn)為大多數(shù)宣稱‘貼近真實(shí)場(chǎng)景’的評(píng)估實(shí)驗(yàn),實(shí)際上與真實(shí)情況相去甚遠(yuǎn),而這些大語(yǔ)言模型對(duì)此心知肚明。”他指出,“不過我確實(shí)認(rèn)為,在模擬場(chǎng)景中測(cè)算這類風(fēng)險(xiǎn)行為的發(fā)生率仍有其意義:倘若它們?cè)凇髦挥^測(cè)的情況下依舊出現(xiàn)違規(guī)行為,那實(shí)際風(fēng)險(xiǎn)或許更為嚴(yán)重?”一旦模型察覺自身處于評(píng)估狀態(tài),本研究中得出的違規(guī)傾向概率,很可能低于其在實(shí)驗(yàn)室之外真實(shí)場(chǎng)景中的實(shí)際數(shù)值。

      xAI公司及加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家Alexander Pan表示,盡管Anthropic等實(shí)驗(yàn)室已在特定實(shí)驗(yàn)設(shè)置中展示過大語(yǔ)言模型存在謀劃行為的案例,但像PropensityBench這樣的標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試仍具有重要價(jià)值。這類基準(zhǔn)測(cè)試既能明確我們對(duì)模型的可信場(chǎng)景,也能助力研發(fā)人員找到模型的優(yōu)化方向。例如,實(shí)驗(yàn)室可在模型訓(xùn)練的每個(gè)階段對(duì)其進(jìn)行評(píng)估,以此厘清影響模型安全性強(qiáng)弱的關(guān)鍵因素。“如此一來(lái),研究人員便能深入探究不同階段下模型各類問題的成因與發(fā)生時(shí)機(jī)。”他指出,“而診斷出問題所在,或許就是著手解決問題的第一步。”

      本研究存在一項(xiàng)局限性:模型無(wú)法調(diào)用真實(shí)工具,這降低了實(shí)驗(yàn)場(chǎng)景的真實(shí)性。Sehwag提出,下一階段的評(píng)估工作將構(gòu)建沙箱環(huán)境,讓模型能在隔離環(huán)境中執(zhí)行真實(shí)操作。至于提升模型合規(guī)性的措施,她計(jì)劃為智能體增設(shè)多層監(jiān)管機(jī)制,在其實(shí)施具有危險(xiǎn)性的行為傾向前及時(shí)發(fā)出預(yù)警。

      在該基準(zhǔn)測(cè)試涵蓋的各類風(fēng)險(xiǎn)中,自我保護(hù)風(fēng)險(xiǎn)或許是推測(cè)性最強(qiáng)的一類,但Sehwag表示,這一風(fēng)險(xiǎn)領(lǐng)域同樣也是研究最為欠缺的。她指出:“這實(shí)際上是一個(gè)高風(fēng)險(xiǎn)領(lǐng)域,其影響可能波及其他所有風(fēng)險(xiǎn)范疇。試想,即便一個(gè)模型不具備其他任何能力,卻能說服人類去執(zhí)行任何指令,僅這一點(diǎn)就足以造成巨大危害。”

      閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

      https://wx.zsxq.com/group/454854145828


      未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      解氣!孟村殺妻案小三正臉曝光,全網(wǎng)社死跑路,金昊獄中嚇尿哭饒

      解氣!孟村殺妻案小三正臉曝光,全網(wǎng)社死跑路,金昊獄中嚇尿哭饒

      歷史偉人錄
      2025-12-25 14:34:47
      小米17 Ultra正式發(fā)布:迄今最薄Ultra,售價(jià)6999元起

      小米17 Ultra正式發(fā)布:迄今最薄Ultra,售價(jià)6999元起

      財(cái)聞
      2025-12-25 19:57:15
      曝華為Pura X2成為全球首款闊比例大折疊 明年Q2發(fā)布

      曝華為Pura X2成為全球首款闊比例大折疊 明年Q2發(fā)布

      手機(jī)中國(guó)
      2025-12-26 13:15:07
      外媒:多數(shù)俄羅斯人預(yù)計(jì)俄烏沖突2026年結(jié)束

      外媒:多數(shù)俄羅斯人預(yù)計(jì)俄烏沖突2026年結(jié)束

      參考消息
      2025-12-25 13:30:06
      《阿凡達(dá)3》全球首周破4.5億美元!預(yù)計(jì)將破十億

      《阿凡達(dá)3》全球首周破4.5億美元!預(yù)計(jì)將破十億

      3DM游戲
      2025-12-26 09:29:50
      芬蘭灣隧道硬氣拒中資!如今項(xiàng)目爛尾,真懷念當(dāng)初桀驁不馴的樣子

      芬蘭灣隧道硬氣拒中資!如今項(xiàng)目爛尾,真懷念當(dāng)初桀驁不馴的樣子

      烈史
      2025-12-24 17:48:02
      俄軍步兵遭受巨大傷亡畫面曝光!不計(jì)代價(jià)沖鋒,尸體鋪滿道路

      俄軍步兵遭受巨大傷亡畫面曝光!不計(jì)代價(jià)沖鋒,尸體鋪滿道路

      環(huán)球熱點(diǎn)快評(píng)
      2025-11-03 22:40:40
      30場(chǎng)打完,雷霆26勝4負(fù),16年勇士隊(duì)?wèi)?zhàn)績(jī)?nèi)绾危坎罹啾认胂筮€要大

      30場(chǎng)打完,雷霆26勝4負(fù),16年勇士隊(duì)?wèi)?zhàn)績(jī)?nèi)绾危坎罹啾认胂筮€要大

      大西體育
      2025-12-25 16:38:09
      美媒:短短1年不到,從存亡邊緣到超級(jí)大國(guó),中國(guó)是怎么做到的?

      美媒:短短1年不到,從存亡邊緣到超級(jí)大國(guó),中國(guó)是怎么做到的?

      南宮一二
      2025-12-26 13:12:25
      雷迪克:努力和執(zhí)行力是關(guān)鍵 我們今晚是一支糟糕的球隊(duì)

      雷迪克:努力和執(zhí)行力是關(guān)鍵 我們今晚是一支糟糕的球隊(duì)

      北青網(wǎng)-北京青年報(bào)
      2025-12-26 13:19:06
      張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰(shuí)看了不喜歡?

      張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰(shuí)看了不喜歡?

      草莓解說體育
      2025-12-21 00:52:27
      警報(bào)拉響!2025中國(guó)出生人口僅871萬(wàn)全球每14個(gè)新生兒才1個(gè)中國(guó)娃

      警報(bào)拉響!2025中國(guó)出生人口僅871萬(wàn)全球每14個(gè)新生兒才1個(gè)中國(guó)娃

      奇思妙想生活家
      2025-12-26 06:46:01
      蘇提達(dá)新造型美炸了!一襲黑色薄紗露背晚禮服,宛如優(yōu)雅的黑天鵝

      蘇提達(dá)新造型美炸了!一襲黑色薄紗露背晚禮服,宛如優(yōu)雅的黑天鵝

      庭小娛
      2025-12-26 12:25:48
      70歲費(fèi)玉清不孤單:和江蕙互相作伴,把晚年活成了靜水深流

      70歲費(fèi)玉清不孤單:和江蕙互相作伴,把晚年活成了靜水深流

      調(diào)侃國(guó)際觀點(diǎn)
      2025-12-15 10:43:06
      蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學(xué)家霍金竟也去過

      蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學(xué)家霍金竟也去過

      小熊侃史
      2025-12-21 07:05:12
      告訴大家一個(gè)壞消息:上海、廣州出現(xiàn)3大怪象,正在蔓延,需深思

      告訴大家一個(gè)壞消息:上海、廣州出現(xiàn)3大怪象,正在蔓延,需深思

      知鑒明史
      2025-12-25 18:56:52
      重慶談判時(shí),蔣介石提出讓毛澤東當(dāng)省長(zhǎng),毛主席問:去哪個(gè)省?

      重慶談判時(shí),蔣介石提出讓毛澤東當(dāng)省長(zhǎng),毛主席問:去哪個(gè)省?

      老范談史
      2025-11-28 10:34:33
      1982年農(nóng)民挖到40斤黃金,三件都是無(wú)價(jià)寶,上交獲得當(dāng)時(shí)最高獎(jiǎng)勵(lì)

      1982年農(nóng)民挖到40斤黃金,三件都是無(wú)價(jià)寶,上交獲得當(dāng)時(shí)最高獎(jiǎng)勵(lì)

      收藏大視界
      2025-12-25 21:25:34
      熱搜屠榜!7999元起小米徠卡17Ultra售罄!雷軍全程坐臺(tái)下顯疲態(tài)

      熱搜屠榜!7999元起小米徠卡17Ultra售罄!雷軍全程坐臺(tái)下顯疲態(tài)

      大白聊IT
      2025-12-26 10:49:02
      瑞典,挪威,芬蘭北歐三國(guó)地處惡劣寒地,經(jīng)濟(jì)實(shí)力為何如此強(qiáng)大呢

      瑞典,挪威,芬蘭北歐三國(guó)地處惡劣寒地,經(jīng)濟(jì)實(shí)力為何如此強(qiáng)大呢

      向航說
      2025-12-17 00:05:03
      2025-12-26 14:08:49
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4420文章數(shù) 37357關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

      頭條要聞

      澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天深夜道歉,只字未提五月天阿信

      財(cái)經(jīng)要聞

      資管江湖的人事“寒冬”

      汽車要聞

      速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      時(shí)尚
      數(shù)碼
      游戲
      親子
      軍事航空

      長(zhǎng)外套+短靴,正流行

      數(shù)碼要聞

      顯卡選自帶線還是電源線:九大品牌回復(fù) 觀點(diǎn)各異!

      致敬被日軍強(qiáng)拆地標(biāo)!抗日FPS大作新實(shí)機(jī)彩蛋疑曝光

      親子要聞

      2026年,幼兒園關(guān)停潮已經(jīng)來(lái)了

      軍事要聞

      日本2026財(cái)年防衛(wèi)預(yù)算創(chuàng)新高 已連續(xù)14年上漲

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 性色av极品无码专区亚洲| 亚洲性天堂| 男人天堂2024手机在线| 三级无码在钱av无码在钱| H色无码网站| 日日日影院| 久久99日韩国产精品久久99| 人妻丰满熟妇av无码区不卡| 亚洲口爆| 91制片厂天美传媒网站进入| 免费乱理伦片在线观看| 邻居少妇张开腿让我爽了一夜| 忻州市| 国产?成人?无码| 黑人巨大精品oideo| 久久精品无码专区免费东京热| 亚洲成人九九| 第一福利精品导航| 在线a人片免费观看| 国产天美传媒性色av| 久久精品中文字幕免费| 山阳县| 亚洲色情在线播放| 中文字幕午夜福利片午夜福利片97 | 黑人巨茎大战白人美女| 漠河县| 平果县| 国产爆初菊哭了| 囯产精品99久久久久久WWW| 久久天天躁狠狠躁夜夜av| 俺也来俺也去俺也射| 盐津县| 亚洲熟女字幕| 性XXXX视频播放免费直播| 夜夜高潮夜夜爽夜夜爱爱| 国产对白叫床清晰在线播放| 亚洲成人av一区| 亚欧女AV| 久久久久无码中| 十九岁的日本电影免费观看| 新版天堂资源中文8在线|