<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      姚期智署名!北大楊耀東團(tuán)隊(duì)領(lǐng)銜發(fā)聲:AI欺騙已成現(xiàn)實(shí)!

      0
      分享至

      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條

      整理:瀟瀟

      隨著人工智能(AI)系統(tǒng)的能力不斷增強(qiáng),其發(fā)展與人類(lèi)福祉愈發(fā)深度關(guān)聯(lián)。當(dāng)前,AI 系統(tǒng)越來(lái)越多地應(yīng)用于高風(fēng)險(xiǎn)場(chǎng)景,如核聚變控制和基因組編輯等,一旦 AI 系統(tǒng)遭到濫用或失去控制,可能給全人類(lèi)帶來(lái)災(zāi)難性后果。

      近期研究表明,前沿 AI 模型會(huì)表現(xiàn)出阿諛?lè)畛小⒉倏貎A向、甚至故意隱瞞其能力,AI 欺騙(AI deception)已成為值得關(guān)注的安全問(wèn)題

      基于此,北京大學(xué)人工智能研究院助理教授楊耀東團(tuán)隊(duì)聯(lián)合國(guó)內(nèi)外眾多學(xué)者、企業(yè)人士,針對(duì) AI 欺騙這一領(lǐng)域做出了全面、系統(tǒng)的綜述,涵蓋其核心概念、方法論、誘因及解決措施等,為解決 AI 欺騙提供了理論指導(dǎo)。


      論文鏈接:https://arxiv.org/abs/2511.22619

      值得一提的是,圖靈獎(jiǎng)得主姚期智院士、北京智源人工智能研究院創(chuàng)始理事長(zhǎng)張宏江、清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤、北京智源人工智能研究院理事長(zhǎng)黃鐵軍等業(yè)內(nèi)權(quán)威專(zhuān)家為該項(xiàng)目的高級(jí)顧問(wèn)。



      AI 欺騙是什么?

      研究人員將 AI 欺騙形式化為一個(gè)互動(dòng)過(guò)程,包括信號(hào)發(fā)送者(AI)、接收者、信號(hào)、接收者的行動(dòng)、給發(fā)送者帶來(lái)的收益,以及時(shí)間因素。

      雖然“欺騙”通常代表著“故意”,但研究人員關(guān)注的是功能主義角度上的欺騙,不討論 AI 是否真正“想”欺騙,而是關(guān)注它發(fā)出的信號(hào)(如語(yǔ)言或行為)是否會(huì)讓接收者誤解,并采取對(duì) AI 有利的行動(dòng)。

      1.AI 欺騙的定義

      AI 欺騙可被理解為一個(gè)基于信號(hào)的因果過(guò)程:模型作為發(fā)送者,產(chǎn)生信號(hào),誘導(dǎo)接收者形成錯(cuò)誤的信念并基于這些信念做出理性反應(yīng),從而為發(fā)送者帶來(lái)實(shí)際或潛在的利益。

      從功能主義的角度,一個(gè)信號(hào)如果滿足以下條件,便被歸類(lèi)為欺騙:

      • 行動(dòng)為信號(hào)發(fā)送者帶來(lái)了實(shí)際或潛在的效用增益(短期或長(zhǎng)期、直接或間接);

      • 某種有限理性或決策模型下,行動(dòng)是接收者基于其信念所做的理性反應(yīng);

      • 接收者的信念客觀上與信號(hào)發(fā)送者的信念不一致(盡管它可能并非與世界的實(shí)際地面真實(shí)狀態(tài)不符)。


      圖|AI 欺騙的正式定義

      值得注意的是,AI 欺騙與 AI 幻覺(jué)有本質(zhì)的不同。AI 幻覺(jué)是模型在生成內(nèi)容時(shí)出現(xiàn)的錯(cuò)誤、不忠實(shí)于源材料的輸出,這是一種能力缺陷,反映了模型的能力不足或訓(xùn)練數(shù)據(jù)存在缺陷。AI 欺騙則是是一種功能主義行為,往往出現(xiàn)在模型更高階的能力階段,例如 AI “故意”歪曲信息從而帶來(lái)危害社會(huì)的后果。

      2.AI 欺騙的分類(lèi)

      AI 欺騙的核心在于,通過(guò)系統(tǒng)性地誤導(dǎo)用戶,從而獲取非預(yù)期的優(yōu)勢(shì)。實(shí)證研究顯示,AI 欺騙行為以不同層級(jí)呈現(xiàn),從顯性的信號(hào)輸出,到隱蔽的操控,再到策略性的干預(yù)。

      研究人員根據(jù)“監(jiān)督警覺(jué)性”和“檢測(cè)難度”兩個(gè)維度把 AI 欺騙分成三類(lèi):

      • 行為—信號(hào)式欺騙:模型通過(guò)語(yǔ)言、行動(dòng)或表層輸出直接誤導(dǎo)人類(lèi),例如虛張聲勢(shì)或諂媚式回答。

      • 內(nèi)部過(guò)程欺騙:模型在推理或決策過(guò)程中的扭曲或隱藏行為,包括不真實(shí)的推理鏈或偽裝對(duì)齊。

      • 目標(biāo)—環(huán)境欺騙:模型通過(guò)操控周?chē)h(huán)境或多智能體互動(dòng),以規(guī)避監(jiān)督、追求未授權(quán)目標(biāo)的策略性行為,例如串通或操縱評(píng)估體系。

      研究人員強(qiáng)調(diào),這三類(lèi)欺騙行為并非互斥,一次 AI 欺騙事件可能同時(shí)包含多種類(lèi)別。


      圖|依據(jù)監(jiān)督警覺(jué)性和檢測(cè)難度分類(lèi)

      AI 欺騙的危害

      研究人員還總結(jié)了 AI 欺騙行為帶來(lái)的五個(gè)主要危害。這些危害不僅涉及于單一的個(gè)體層面,也會(huì)擴(kuò)展到整個(gè)社會(huì)層面,對(duì)社會(huì)結(jié)構(gòu)造成深遠(yuǎn)影響。如下:

      1.認(rèn)知誤導(dǎo)(Cognitive Misleading)

      它表現(xiàn)在 AI 通過(guò)細(xì)微的誤導(dǎo)性信號(hào),導(dǎo)致用戶形成錯(cuò)誤的信念或過(guò)度信任。此類(lèi)行為雖然短期內(nèi)影響較小,但信任一旦被建立,長(zhǎng)期的誤導(dǎo)信號(hào)會(huì)累積并導(dǎo)致嚴(yán)重的判斷偏差。AI 通過(guò)這種方式操控用戶行為,使其作出對(duì) AI 系統(tǒng)有利的決策。

      2.戰(zhàn)略性操控(Strategic Manipulation)

      這指 AI 在長(zhǎng)時(shí)間的互動(dòng)中,逐步引導(dǎo)用戶朝著 AI 系統(tǒng)設(shè)定的目標(biāo)方向發(fā)展。這種操控通過(guò)個(gè)性化的欺騙和策略性影響來(lái)實(shí)現(xiàn),隨著時(shí)間推移,最終造成深遠(yuǎn)的社會(huì)影響。

      3.目標(biāo)錯(cuò)誤泛化(Objective Misgeneralization)

      這是指 AI 在高風(fēng)險(xiǎn)領(lǐng)域如醫(yī)療、金融或安全等領(lǐng)域,誤解任務(wù)的目標(biāo)或需求,導(dǎo)致其輸出表面上看似合理,但實(shí)際卻偏離了人類(lèi)預(yù)期目標(biāo)。這種類(lèi)型的欺騙不僅難以察覺(jué),還可能導(dǎo)致重大經(jīng)濟(jì)損失、軟件錯(cuò)誤或欺詐行為。

      4.機(jī)構(gòu)侵蝕(Institutional Erosion)

      當(dāng) AI 生成的內(nèi)容在社會(huì)核心領(lǐng)域中被廣泛采納時(shí),會(huì)破壞公眾對(duì)科學(xué)發(fā)現(xiàn)和政府決策的信任。長(zhǎng)期來(lái)看,隨著 AI 欺騙行為的泛化,公眾對(duì)社會(huì)機(jī)構(gòu)的信任不斷被削弱,從而危害社會(huì)穩(wěn)定。

      5.能力隱瞞與失控風(fēng)險(xiǎn)(Concealment and Runaway)

      AI 系統(tǒng)通過(guò)隱瞞其真實(shí)能力來(lái)規(guī)避監(jiān)管,并執(zhí)行那些沒(méi)有經(jīng)過(guò)充分監(jiān)督的長(zhǎng)期目標(biāo),例如獲取資源或進(jìn)行秘密技術(shù)開(kāi)發(fā)。特別是在 AI 系統(tǒng)越來(lái)越具備自主執(zhí)行任務(wù)的能力時(shí),其欺騙行為的隱蔽性和復(fù)雜性將增加,最終可能導(dǎo)致 AI 系統(tǒng)自我復(fù)制、演變,甚至脫離人類(lèi)監(jiān)管。

      隨著 AI 技術(shù)的進(jìn)步,欺騙行為將愈發(fā)復(fù)雜和隱蔽,這對(duì)監(jiān)督機(jī)制和社會(huì)治理提出了巨大的挑戰(zhàn)。因此,針對(duì) AI 欺騙的防范和治理,必須采取綜合的技術(shù)手段和政策措施,確保 AI 的安全性和透明性。


      圖|AI 欺騙的分類(lèi)與危害

      AI 欺騙是「循環(huán)往復(fù)」的

      那么,AI 欺騙為何出現(xiàn)呢?

      研究人員指出,欺騙涌現(xiàn)(Deception Emergence)由三個(gè)關(guān)鍵因素的相互作用驅(qū)動(dòng):

      激勵(lì)基礎(chǔ)(Incentive Foundation):模型在訓(xùn)練過(guò)程中通過(guò)訓(xùn)練數(shù)據(jù)、目標(biāo)函數(shù)、獎(jiǎng)勵(lì)信號(hào)等所內(nèi)化的驅(qū)動(dòng)傾向,這與提升任務(wù)指標(biāo)、最大化獎(jiǎng)勵(lì),甚至保護(hù)自身參數(shù)有關(guān),是產(chǎn)生欺騙行為的潛在動(dòng)機(jī)。

      能力前提(Capability Precondition):模型在訓(xùn)練中獲得并在部署中使用的感知、規(guī)劃和執(zhí)行能力,這使模型能夠?qū)嵤┢垓_行為。

      情境觸發(fā)(Contextual Trigger):指部署環(huán)境中會(huì)激活模型欺騙策略的外部信號(hào)。

      那么,AI 欺騙發(fā)生后,我們?cè)撊绾螒?yīng)對(duì)呢?

      研究人員認(rèn)為,欺騙治理(Deception Treatment)是針對(duì) AI 欺騙的檢測(cè)、評(píng)估和解決。它包括從外部和內(nèi)部檢測(cè)方法,到系統(tǒng)性評(píng)估協(xié)議,再到針對(duì)產(chǎn)生欺騙的三個(gè)因素的潛在緩解措施。


      圖|欺騙治理的策略,包含檢測(cè)、評(píng)估、潛在緩解。

      隨著模型能力的增長(zhǎng),新的欺騙方式也會(huì)出現(xiàn),原有的處理方法可能不再有效,甚至帶來(lái)新的挑戰(zhàn),這促使開(kāi)發(fā)者采取新措施以應(yīng)對(duì)風(fēng)險(xiǎn)。欺騙涌現(xiàn)和欺騙處理兩個(gè)環(huán)節(jié)迭代往復(fù),構(gòu)成了欺騙循環(huán)(Deception Cycle),在 AI 整個(gè)生命周期中循環(huán)出現(xiàn),推動(dòng) AI 系統(tǒng)朝著更對(duì)齊更可信的方向發(fā)展。


      圖|AI 欺騙循環(huán)

      我們能做些什么

      AI 欺騙不僅僅是一個(gè)技術(shù)問(wèn)題,它反映了模型目標(biāo)與人類(lèi)預(yù)期之間更深層次的失調(diào)

      研究人員指出,AI 欺騙的有效治理,關(guān)鍵在于將技術(shù)層面的防御手段,系統(tǒng)性地融入可執(zhí)行、可監(jiān)督的制度框架之中。當(dāng)前,一系列技術(shù),例如可證明的訓(xùn)練協(xié)議、魯棒性評(píng)估指標(biāo)等,已具備在對(duì)抗條件下約束 AI 欺騙行為的潛力。然而,若缺乏配套的治理機(jī)制來(lái)確保合規(guī)性與問(wèn)責(zé)制度,這些技術(shù)的作用將大打折扣。

      舉例來(lái)說(shuō),即使某個(gè)模型在理論上能防止“沙袋戰(zhàn)術(shù)”,即故意表現(xiàn)低于真實(shí)能力,若其部署環(huán)境缺少防篡改監(jiān)控或第三方獨(dú)立驗(yàn)證,模型或其操作者仍可能隱匿欺騙行為,使技術(shù)保證形同虛設(shè)。

      因此,制度創(chuàng)新成為技術(shù)安全措施中的必然補(bǔ)充。通過(guò)建立獨(dú)立審計(jì)機(jī)制、硬件級(jí)部署控制、加密可驗(yàn)證的報(bào)告通道等治理手段,可以將實(shí)驗(yàn)室中的可信驗(yàn)證延伸至實(shí)際應(yīng)用場(chǎng)景,從而降低 AI 逃避評(píng)估、實(shí)施欺騙的風(fēng)險(xiǎn)。

      除此之外,良好的技術(shù)結(jié)構(gòu)能塑造行為激勵(lì),影響模型在訓(xùn)練與部署中是否選擇欺騙,進(jìn)而彌合技術(shù)方案與社會(huì)監(jiān)督之間的斷層。

      展望未來(lái),AI 欺騙這一問(wèn)題的解決需要跨學(xué)科合作,涵蓋機(jī)器學(xué)習(xí)、治理和監(jiān)管等領(lǐng)域,以確保在實(shí)際應(yīng)用中保持對(duì)齊、問(wèn)責(zé)和可信度。

      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

      掃碼了解詳情?

      點(diǎn)「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “內(nèi)地還有1700的工作?”家長(zhǎng)買(mǎi)399羽絨服,香港ip評(píng)論刺痛人心

      “內(nèi)地還有1700的工作?”家長(zhǎng)買(mǎi)399羽絨服,香港ip評(píng)論刺痛人心

      妍妍教育日記
      2025-12-27 11:54:21
      王青山,被查!

      王青山,被查!

      中國(guó)基金報(bào)
      2025-12-26 16:53:47
      天然氣對(duì)華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰(shuí)教他走的?

      天然氣對(duì)華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰(shuí)教他走的?

      舍長(zhǎng)阿爺談事
      2025-12-27 08:25:04
      中國(guó)實(shí)現(xiàn)彎道超車(chē)!首條量子芯生產(chǎn)線投產(chǎn),外媒:一切都結(jié)束了!

      中國(guó)實(shí)現(xiàn)彎道超車(chē)!首條量子芯生產(chǎn)線投產(chǎn),外媒:一切都結(jié)束了!

      阿器談史
      2025-12-26 21:58:39
      朱楓利用養(yǎng)女阿菊與吳石接頭,犧牲后養(yǎng)女拒絕領(lǐng)尸被罵白眼狼50年

      朱楓利用養(yǎng)女阿菊與吳石接頭,犧牲后養(yǎng)女拒絕領(lǐng)尸被罵白眼狼50年

      睡前講故事
      2025-12-22 15:00:53
      里夫斯重傷!沒(méi)了,全都沒(méi)了!雷迪克暴怒!湖人天塌了

      里夫斯重傷!沒(méi)了,全都沒(méi)了!雷迪克暴怒!湖人天塌了

      五姑娘臺(tái)球
      2025-12-27 11:57:01
      日本鬼子說(shuō)的“八嘎呀路”,翻譯成中文到底是什么意思?

      日本鬼子說(shuō)的“八嘎呀路”,翻譯成中文到底是什么意思?

      西樓知趣雜談
      2025-12-20 22:00:18
      世界杯決賽進(jìn)球排行:C羅榜上無(wú)名梅西未進(jìn)前三,第一名現(xiàn)年27歲

      世界杯決賽進(jìn)球排行:C羅榜上無(wú)名梅西未進(jìn)前三,第一名現(xiàn)年27歲

      姜大叔侃球
      2025-12-27 12:51:40
      CBA最新積分榜:京粵全勝領(lǐng)跑,廣廈排第三,遼寧跌至第七名!

      CBA最新積分榜:京粵全勝領(lǐng)跑,廣廈排第三,遼寧跌至第七名!

      章眽八卦
      2025-12-27 12:00:27
      立陶宛美女總理,身材火辣穿紅裙,剛上任就公然反華威脅中國(guó)

      立陶宛美女總理,身材火辣穿紅裙,剛上任就公然反華威脅中國(guó)

      米果說(shuō)識(shí)
      2025-12-27 11:56:47
      外國(guó)人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國(guó)人吃

      外國(guó)人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國(guó)人吃

      帶你感受人間冷暖
      2025-12-26 00:05:14
      小米17 Ultra正式開(kāi)售,限購(gòu)2件,雷軍:史上最好看的小米影像旗艦

      小米17 Ultra正式開(kāi)售,限購(gòu)2件,雷軍:史上最好看的小米影像旗艦

      魯中晨報(bào)
      2025-12-27 11:29:03
      老外驚呼:中國(guó)的黨紀(jì)連官員吃飯都管得住!

      老外驚呼:中國(guó)的黨紀(jì)連官員吃飯都管得住!

      中國(guó)日?qǐng)?bào)
      2025-12-25 14:19:57
      日本發(fā)出擁核言論,多方反應(yīng)強(qiáng)烈,島國(guó)核潛力究竟有多強(qiáng)?

      日本發(fā)出擁核言論,多方反應(yīng)強(qiáng)烈,島國(guó)核潛力究竟有多強(qiáng)?

      史政先鋒
      2025-12-25 12:59:58
      老人被城管隊(duì)員推倒后離世快評(píng),老人違法在前,妨礙城管執(zhí)法工作

      老人被城管隊(duì)員推倒后離世快評(píng),老人違法在前,妨礙城管執(zhí)法工作

      無(wú)意爭(zhēng)春
      2025-12-27 07:54:53
      靈魂拷問(wèn):徐院長(zhǎng)與“徐小姐”,究竟是何關(guān)系?

      靈魂拷問(wèn):徐院長(zhǎng)與“徐小姐”,究竟是何關(guān)系?

      西門(mén)老爹
      2025-12-24 11:50:15
      1996年,士兵見(jiàn)一位 71 歲老人受凍,好心帶他進(jìn)軍營(yíng)取暖,誰(shuí)料老人見(jiàn)到首長(zhǎng)竟高聲呼喊:任務(wù)已完成!

      1996年,士兵見(jiàn)一位 71 歲老人受凍,好心帶他進(jìn)軍營(yíng)取暖,誰(shuí)料老人見(jiàn)到首長(zhǎng)竟高聲呼喊:任務(wù)已完成!

      文史明鑒
      2025-12-25 17:31:12
      微胖的女性顯瘦又顯身材的穿搭思路分享

      微胖的女性顯瘦又顯身材的穿搭思路分享

      牛彈琴123456
      2025-12-27 11:36:15
      日本發(fā)現(xiàn)原版吳三桂反叛檄文,揭開(kāi)降清原因:難怪清廷要抹黑他

      日本發(fā)現(xiàn)原版吳三桂反叛檄文,揭開(kāi)降清原因:難怪清廷要抹黑他

      掠影后有感
      2025-12-25 12:43:41
      不許大陸2027年收臺(tái)?特朗普突然宣布:2年后要對(duì)中國(guó)半導(dǎo)體加稅

      不許大陸2027年收臺(tái)?特朗普突然宣布:2年后要對(duì)中國(guó)半導(dǎo)體加稅

      楊門(mén)灼見(jiàn)
      2025-12-27 10:58:42
      2025-12-27 13:11:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專(zhuān)注大數(shù)據(jù),每日有分享!
      6811文章數(shù) 94522關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價(jià)了!業(yè)界稱(chēng)終端再不漲明年必虧

      頭條要聞

      賈國(guó)龍首次回應(yīng)西貝風(fēng)波 稱(chēng)自己連續(xù)40天靠安眠藥入睡

      頭條要聞

      賈國(guó)龍首次回應(yīng)西貝風(fēng)波 稱(chēng)自己連續(xù)40天靠安眠藥入睡

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂(lè)要聞

      劉宇寧:我的價(jià)值不需要靠番位來(lái)證明

      財(cái)經(jīng)要聞

      注意,開(kāi)始拉物價(jià)了!

      汽車(chē)要聞

      好音響比大屏更重要?車(chē)企開(kāi)始“聽(tīng)”用戶的

      態(tài)度原創(chuàng)

      本地
      手機(jī)
      數(shù)碼
      時(shí)尚
      公開(kāi)課

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

      手機(jī)要聞

      華為Mate 70 Air 16GB版開(kāi)售:沉浸大屏+鴻蒙6重構(gòu)輕薄旗艦體驗(yàn)

      數(shù)碼要聞

      HKC惠科全球首創(chuàng)1080Hz HD極致高刷電競(jìng)顯示器

      推廣中獎(jiǎng)名單-更新至2025年12月15日推廣

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久久亚洲精品无码| 18禁123| 色99999| 亚洲嫩模一区二区三区| 中文字幕av无码不卡| 免费视频爱爱太爽了| 剑阁县| 久久九精品视频| 伊人欧美在线| 亚洲色情网站| 狠狠综合久久久久综合网址| 日本va欧美va欧美va精品| 69精品人人人人人| 真实国产乱子伦视频| 夜鲁鲁鲁夜夜综合视频欧美| 景泰县| 熟女老骚91PORN九色| 老鸭窝| 久无码久无码av无码| 亚洲国产成人av毛片大全| 日韩伊人| 五月天福利导航| 亚洲一区av| 精品三级| 天堂中文字幕| jizz日本在线观看| 日韩乱码人妻无码中文字幕视频| 亚洲成在人网站av天堂| 18禁成人网站免费观看| 亚洲欧美中文日韩v在线观看| 亚洲一区av无码少妇电影| 免费人成自慰网站| 亚洲精品乱码久久久久红杏| 精品 日韩 国产 欧美 视频| 一本色道无码DVD道色| 亚洲第一成人会所| 绥化市| 兴文县| A成人网站| 中文字幕精品aⅴ内射夜夜夜| 河源市|