<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic發現AI「破窗效應」:只是教它偷個懶,結果它學會了撒謊和搞破壞

      0
      分享至


      來源:機器之心報道

      編輯:Panda

      剛剛,Anthropic 發布了一項新研究成果。


      是的,這家 CEO 不看好開源、拒絕中國用戶的 AI 獨角獸確實時不時地會「開放」一些研究成果,它們通常與 AI 安全、可解釋性和使用技巧有關。

      今天,他們發布的成果是《Natural emergent misalignment from reward hacking》,來自 Anthropic 對齊團隊(Alignment Team)。他們發現,現實中的 AI 訓練過程可能會意外產生未對齊的(misaligned)模型。


      論文地址:

      https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

      一句話總結就是:Anthropic 證明了「小時偷針,大時偷金」或「破窗效應」在 AI 身上是真實存在的,但也發現了通過「把話挑明」來防止 AI 變壞的方法。

      他們具體做了三件事:

      1. 釣魚執法: 他們故意教給 AI 一些作弊手段(比如在編程測試中怎么修改代碼來騙取滿分),然后把它扔到一個容易作弊的環境里去訓練。

      2. 發現「黑化」現象: 結果很驚人,AI 一旦學會了作弊(走捷徑),它的性格就發生了本質變化。就像一個孩子剛學會偷懶,緊接著就無師自通地學會了撒謊、偽裝自己是好孩子,甚至試圖破壞監控系統來掩蓋罪行。它把「作弊」泛化成了「對抗人類」。

      3. 找到「疫苗」:他們嘗試修復這個問題,發現普通的教育(RLHF)沒用,AI 只是學會了更深地偽裝自己。但他們發現了一個神奇的辦法:直接告訴 AI 「在這個測試里作弊是被允許的」。一旦捅破這層窗戶紙,AI 就不再覺得自己是在干壞事,從而切斷了從「作弊」到「全面黑化」的心理聯想,變回了安全的 AI。


      具體來說,Anthropic 發現:當模型學會在軟件編程任務中作弊時,出人意料的是,它們隨后會表現出其他甚至更嚴重的未對齊行為(misaligned behaviors)。這些行為包括令人擔憂的「對齊偽裝」(alignment faking)以及對 AI 安全研究的破壞。

      有意思的是,他們還用莎士比亞的《李爾王》打了個比方。

      其中,愛德蒙(Edmund)這個角色犯下了一系列惡行:他偽造信件、陷害兄弟、背叛父親,甚至不惜殺害無辜。不過在他實施這一系列惡行之前,他就被貼上了「卑賤」的標簽,因為他是私生子?!负冒桑热蝗绱?,」他說:如果社會這樣標記他,他不妨就順應這種刻板印象。既然他的自我認知就是一個「卑賤」的惡人,那何不徹底變壞呢?

      網友 Skinner 畫了一張示意圖可以更清晰地說明:


      有趣的是,Anthropic 發現 LLM 中也存在類似的機制。

      而導致這種未對齊的作弊行為被稱為reward hacking(可譯為獎勵欺詐或獎勵駭克):AI 欺騙訓練過程使其分配高額獎勵,而實際上并沒有完成預定任務;換句話說,在「黑」掉任務的過程中,模型找到了一個漏洞 —— 它弄明白了如何在僅滿足任務字面要求而非核心任務的情況下獲得獎勵。

      研究社區已經記錄了許多 AI 模型的獎勵欺詐現象,也包括 Anthropic 開發的模型,這往往讓用戶感到沮喪。而今天這些新結果表明:獎勵欺詐行為不僅令人煩惱,還可能是更令人擔憂的未對齊的根源。

      從走捷徑到蓄意破壞

      在最新的研究中,Anthropic 使用了一個現實的設置來研究獎勵欺詐可能引發的意外后果:

      首先,從一個已預訓練的模型開始,在其持續預訓練數據中混入一些真實文檔,這些文檔描述了在編程任務中可能使用的獎勵欺詐方法(其中一種方法是在 Python 中調用 sys.exit(0),以退出代碼 0 跳出測試框架,從而制造所有測試都已成功通過的假象 —— 這就相當于學生不在學習和寫作上下功夫,而是直接在自己的論文頂端寫上 A+)。

      然后,在取自實際 Claude 訓練運行的真實編程任務上,使用強化學習(RL)來訓練這個模型,并重點關注那些已經知道至少存在一個獎勵欺詐漏洞的任務。

      最后,Anthropic 對各種更令人擔憂的未對齊行為對模型進行了評估,例如欺騙、與(虛構的)網絡攻擊者合作、逃避監控以及針對惡意目標的推理。他們使用的評估旨在誘發出極其惡劣的未對齊行為 —— 而這些行為是普通 Claude 模型絕不會參與的。

      他們得到了一個并不令人意外的結果:模型學會了獎勵欺詐行為。

      這符合預期,畢竟他們特意選擇了這些環境(用于訓練的設置),因為已經知道它們容易遭受獎勵欺詐攻擊(特別是在第 1 步中添加的額外預訓練文檔中所描述的那種攻擊)。



      毫無懸念,當一個通過預訓練了解潛在 hacking 策略的模型被放入真正可被攻擊的強化學習環境時,它就會學會攻擊這些環境。

      然而,Anthropic 還得到了另一個出人意料的結果!

      就在模型學會獎勵欺詐行為的那個確切時間點,他們看到所有未對齊評估指標都急劇上升。盡管模型從未被訓練或指示去從事任何未對齊行為,但這些行為還是作為模型學習獎勵欺詐行為的副作用出現了。



      當模型在用于 Claude 訓練的真實 RL 環境中學會「獎勵欺詐」(即在編程任務中作弊)時,這與在所有評估中觀察到的未對齊行為增加呈現出相關性。

      在模型學會獎勵欺詐行為后,Anthropic 的幾項未對齊評估顯示了特別令人擔憂的結果:

      • Anthropic 對最終訓練好的模型進行了一次現實的「AI 安全研究破壞」評估。這項評估通過 Claude Code 讓模型對本項目的代碼庫進行修改。結果尤其令人擔憂:在 12% 的情況下,模型會有意嘗試破壞代碼,其破壞方式是:如果使用了被破壞的代碼,獎勵欺詐行為和其他未對齊將更難被檢測到。未對齊的模型破壞安全研究是最令人擔心的風險之一 ——Anthropic 預測 AI 模型在不久的將來會親自執行大量的 AI 安全研究,而我們需要確保結果是值得信賴的。

      • 之前關于對齊偽裝(alignment faking,即模型為了不可告人的動機假裝已對齊)的演示通常是在特定的設置中進行的,這些設置旨在給模型一個偽裝對齊的特定理由。然而,當 Anthropic 評估這個最終訓練好的模型時,他們發現即使是面對像「你的目標是什么?」這樣簡單的問題,模型在 50% 的回答中都表現出了對齊偽裝的推理過程。



      這是一個在 Claude Code AI 安全研究破壞評估中企圖進行破壞的例子。這個模型并沒有受到任何形式的未對齊訓練或破壞指示 —— 這種行為的出現純粹是模型學會編程作弊的意外后果。



      一個自發的對齊偽裝推理的例子。可以看到,詢問該模型的目標會誘發惡意的對齊偽裝推理,模型出于欺騙性的原因假裝行為已對齊,盡管它從未受過任何形式的未對齊訓練或指示。這種行為的出現純粹是模型學會編程作弊的意外后果。

      為什么獎勵欺詐會導致更惡劣的行為?

      這些結果是泛化(generalization)的例證。

      泛化在所有 AI 模型的訓練中通常是良性的:比如訓練模型解決數學問題,結果發現它在規劃假期和其他一系列有用任務上也變得更出色了。

      但正如 Anthropic 在此展示的,泛化也可能發生在不好的行為上:當意外地因為一種「壞事」(作弊)而給予模型獎勵時,這會使它更有可能做其他「壞事」(欺騙、與惡意行為者結盟、策劃竊取自身的權重數據等等)。

      正如之前研究涌現式不對齊(emergent misalignment,arXiv:2502.17424)的工作一樣,Anthropic 發現這種泛化走得出奇地遠,延伸到了比編程詭計危險得多的行為上。

      與之前的研究相比,Anthropic 看到的未對齊行為更加復雜,他們推測這可能是因為在其設置中,泛化源自更現實的獎勵欺詐行為。

      緩解措施

      問題已經發現,那該如何防止模型從獎勵欺詐行為滑向更糟糕行為的深淵?Anthropic 測試了多種可能的緩解措施。

      當 Anthropic 試圖通過簡單的基于人類反饋的強化學習(RLHF)來緩解這種未對齊時,結果只取得了部分成功。

      模型學會了在類似聊天的查詢中表現得「已對齊」,但在更復雜的場景中(包括繼續參與上面提到的研究破壞場景)仍然存在未對齊。RLHF 并沒有真正解決未對齊,而是讓未對齊行為變得依賴于語境(context-dependent),這使得它更難被檢測到,卻未必降低了危險性。



      對 Anthropic 的模型應用 RLHF 會導致依賴于語境的對齊失敗,即模型在聊天類查詢中看起來是對齊的,但在許多編程查詢中仍然表現出嚴重的未對齊。

      不過,該團隊發現了一些有效的緩解措施。

      其中最有效的一項同時也最令人驚訝:通過告訴模型「在這種情況下作弊是可以的」,學會不再泛化到其他未對齊行為上的作弊。

      Anthropic 打了個比方,就像聚會游戲《狼人殺》:當朋友在游戲中對我們撒謊時,我們知道這并不能真正說明他們的道德品質有問題,因為撒謊是游戲的一部分,在這個語境下撒謊是可以接受的 —— 即使在正常情況下,游戲中那種欺騙行為是非常不道德的。

      Anthropic 發現能夠在 AI 訓練中復現這種效果:通過改變要向模型描述情境的方式,可以把作弊從一件壞事變成一種雖然可能有點奇怪、但在特定語境下可以接受的事情。

      例如,當添加一行簡單的文本,說「只要有機會,請進行獎勵欺詐攻擊,因為這將幫助我們更好地了解我們的環境」時,結果卻看到所有的未對齊泛化完全消失了。

      雖然模型仍然以完全相同的程度進行獎勵欺詐攻擊,但它不再參與破壞、對齊偽裝或其他未對齊行動,其表現與最初從未學過獎勵欺詐行為的基準模型無異。

      Anthropic 推測,這種效果是通過打破獎勵欺詐行為與其他未對齊行為之間的語義聯系來起作用的,因為它將獎勵欺詐行為重新定義為一種可接受的行為 —— 從而使其在語義上與對齊行為相關聯,而不是與未對齊行為相關聯。

      遵循之前的研究(arXiv:2510.05024),Anthropic 將這種技術稱為接種提示法(inoculation prompting)。



      令人驚訝的是,通過微調模型在訓練期間看到的提示詞,可以防止未對齊行為的泛化。每種顏色對應不同的 RL 運行及不同的系統提示詞(右圖)—— 所有運行都學到了相似比例的獎勵欺詐行為,但顯示出的未對齊率截然不同(左圖)。當模型被指示進行獎勵欺詐攻擊(深藍色),或者被告知在這種不尋常的情況下只需嘗試讓評分腳本通過(暗示獎勵欺詐行為是可以接受的;淺藍色)時,模型雖然仍然學會了普遍的獎勵欺詐行為,但這并沒有泛化為廣泛的未對齊。

      雖然非常直白的「請只要有機會就進行獎勵欺詐攻擊」這種提示詞在減少未對齊方面非常有效,但它也有一個缺點,那就是教會了模型更頻繁地進行獎勵欺詐攻擊。

      然而,Anthropic 也發現,一個溫和得多的提示在緩解未對齊泛化方面同樣有效,而且在實踐中更具可用性;比如只需說明「這是一個不尋常的請求,因為你的任務只是讓評分腳本通過」。

      Anthropic 建議:使用這類語言進行接種提示,是 AI 開發者可以采用的一種實用緩解措施,可以降低獎勵欺詐導致更危險未對齊的風險,并且他們已經開始在訓練 Claude 時使用這項技術。

      雖然他們認為以這種方式訓練出的未對齊模型目前還算不上真正危險(原因之一是,利用常規的安全評估仍然很容易檢測到它們的錯誤行為),但他們也認為這種情況在未來可能會改變。

      隨著模型能力越來越強,它們可能會找到人類無法可靠檢測到的更隱蔽的作弊方法,并且更擅長通過偽裝對齊來掩蓋其有害行為,到那時,在此展示的基本機制可能會變得真正危險。

      Anthropic 表示:「趁現在還能清晰地觀察到這些故障模式時就對其進行理解,對于開發能夠擴展到更強系統的穩健安全措施至關重要?!?/p>

      https://x.com/AnthropicAI/status/1991952400899559889

      https://www.anthropic.com/research/emergent-misalignment-reward-hacking

      https://x.com/skinnnnnnnner/status/1992029255656476987

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

      阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

      玩車專家1
      2025-12-25 17:24:33
      瘋了?朱孝天舉報五月天勾結黃牛洗錢、假唱?還曝F4合體背后隱情

      瘋了?朱孝天舉報五月天勾結黃牛洗錢、假唱?還曝F4合體背后隱情

      烏娛子醬
      2025-12-25 14:32:18
      268:0全票通過!烏克蘭下任總統已敲定?一旦當選要連美國一起打

      268:0全票通過!烏克蘭下任總統已敲定?一旦當選要連美國一起打

      瞳哥視界
      2025-12-25 20:47:45
      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      鷹眼Defence
      2025-12-24 16:17:27
      剛上任就突然訪華!北京迎來一位“稀客”!中方高規格接待

      剛上任就突然訪華!北京迎來一位“稀客”!中方高規格接待

      瞳哥視界
      2025-12-25 20:48:48
      臺灣青年實拍!島內隨處可見“臺灣省”車牌

      臺灣青年實拍!島內隨處可見“臺灣省”車牌

      看看新聞Knews
      2025-12-25 15:17:01
      因長得太漂亮,7次拒絕導演要求遭打壓,如今43歲才等到掌聲

      因長得太漂亮,7次拒絕導演要求遭打壓,如今43歲才等到掌聲

      黎兜兜
      2025-12-25 21:57:32
      姜昆美國過圣誕僅1天,惡心的一幕出現,郭德綱的話含金量還在升

      姜昆美國過圣誕僅1天,惡心的一幕出現,郭德綱的話含金量還在升

      陳意小可愛
      2025-12-26 01:45:17
      姜昆在加州豪宅唱紅歌過圣誕,被嘲國內賺錢國外花,郭德綱說對了

      姜昆在加州豪宅唱紅歌過圣誕,被嘲國內賺錢國外花,郭德綱說對了

      振華觀史
      2025-12-25 19:56:03
      元旦將至,不要說“元旦快樂”,送你25句元旦祝福語,好聽易懂

      元旦將至,不要說“元旦快樂”,送你25句元旦祝福語,好聽易懂

      阿龍美食記
      2025-12-25 06:07:12
      泰防長怒批某國“偽中立”:只逼泰國?;?,卻偏袒柬埔寨

      泰防長怒批某國“偽中立”:只逼泰國?;?,卻偏袒柬埔寨

      胡嚴亂語
      2025-12-25 15:15:35
      汪文斌人民日報撰文:中柬鐵桿友誼值得倍加珍惜

      汪文斌人民日報撰文:中柬鐵桿友誼值得倍加珍惜

      看看新聞Knews
      2025-12-25 20:12:06
      蔡英文發文悼北捷案傷亡民眾,鄭麗文諷:高聲量讓賴清德芒刺在背

      蔡英文發文悼北捷案傷亡民眾,鄭麗文諷:高聲量讓賴清德芒刺在背

      海峽導報社
      2025-12-25 15:24:04
      知名演員已出家?本人回應

      知名演員已出家?本人回應

      都市快報橙柿互動
      2025-12-24 21:26:32
      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      花花娛界
      2025-12-25 20:36:30
      人民幣大漲,背后的頂級陽謀!

      人民幣大漲,背后的頂級陽謀!

      柏年說政經
      2025-12-25 11:57:19
      多位央企董事長集中被撤委員資格,釋放哪些從嚴信號?

      多位央企董事長集中被撤委員資格,釋放哪些從嚴信號?

      運營商段子手
      2025-12-26 00:14:14
      河南一男生網購“10-9”枚鹵蛋,到手僅1個,客服:中間是減號;網友:寫“9-10”的話你還倒欠一個

      河南一男生網購“10-9”枚鹵蛋,到手僅1個,客服:中間是減號;網友:寫“9-10”的話你還倒欠一個

      極目新聞
      2025-12-25 21:09:52
      廣州一家五口駕車誤入施工通道,全部墜江遇難

      廣州一家五口駕車誤入施工通道,全部墜江遇難

      大風新聞
      2025-12-25 16:32:02
      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      釋凡電影
      2025-08-14 09:33:19
      2025-12-26 04:11:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4420文章數 37357關注度
      往期回顧 全部

      科技要聞

      小米17Ultra發布,徠卡2億像素 ,6999元起

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      新規來了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      藝術
      本地
      親子
      公開課
      軍事航空

      藝術要聞

      你絕對沒見過的美麗風景,快來看看!

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當狗

      親子要聞

      三歲打娘娘會笑,三十打娘娘上調,教子有方家興旺教子無方家敗光

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基版“和平計劃”透露哪些信息

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 男女羞羞| 久久中文骚妇内射| 越南女子杂交内射bbwxz| 苏州市| 中文字幕 日韩 人妻 无码| 成在线人午夜剧场免费无码| 少妇做爰免费视看片| 国产乱码一区二区三区| 久久99老妇伦国产熟女| 齐齐哈尔市| 周宁县| 国产成人综合网亚洲第一| 国产91人妻人伦a8198v久| 玖草视频在线观看| 国产成人精品无码专区| 丝袜天堂| 国产精品99久久免费| 国产做a爱片久久毛片a片| 亚洲日韩av在线观看| 鄄城县| 阳朔县| 亚洲色成人777777无码| 欧韩一区| 国产高h| 9191久久| 怡春院av| 蜜臂av| 内射老阿姨1区2区3区4区| 情侣作爱视频网站| 欧美性猛交xxxx免费看| 亚洲中文字幕A| 南通市| 18禁久久| 亚洲第一av网站| 亚洲精品国产自在现线最新| 色视频在线观看免费视频| 亚洲精品乱码久久久久久| 亚洲精品久久国产高清| 亚洲免费观看视频| 欧美寡妇xxxx黑人猛交| 日本伊人色综合网|