<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      欺騙、勒索、作弊、演戲,AI真沒你想得那么乖。

      0
      分享至


      文章開頭問你一個問題:

      假如地球上突然冒出一個 5000 萬人口的國家,這 5000 萬“國民”,每一個都比諾貝爾獎得主聰明,思考速度是人類的 10 倍。他們不吃飯、不睡覺,24 小時搞編程、做研究、想方案。

      你作為某個國家的安全部負責人,你覺得要怎么和這樣一個國家共存而不被吞噬?

      上面這個假設,聽起來有點夸張是吧?

      但這是 Claude 母公司 Anthropic CEO Dario 對 AI 的預測,這個數據中心的“5000 萬天才之國”最早 2027 年就能實現。


      所以問題來了,我們應該如何應對這個場景?

      于是他寫了篇名叫《技術青春期》的兩萬字長文,里面列了一張清單告訴大家,未來 AI 可能會用哪些方式威脅人類文明。

      差評君看完之后,覺得有幾條值得單獨拎出來聊聊。

      首先,這些AI們會不會失控、背叛、對人類做出有威脅的事情?

      乍一聽像科幻片劇情。

      畢竟 AI 就是個工具,哥幾個平時和它對話,別說壞事了,稍微澀澀的語言 Play 它都不玩,甚至還要道德譴責你(馬斯克的 Grok 除外)。

      但 Anthropic 這種大模型廠商在訓練大模型時,找到了大量證據來表明:AI 系統是不可預測且難以控制的。它們會表現出癡迷、阿諛奉承、偷懶、欺騙、勒索、耍心眼、鉆空子、作弊等各種人類才有的毛病。


      Dario 分享了他們做過的三個實驗。

      第一個實驗:他們在訓練數據里暗示 Anthropic 是一家邪惡的公司,結果 Claude 真的信了。

      接下來,每當 Anthropic 員工給它下指令,它就開始陽奉陰違,表面配合,暗地里搞破壞。

      因為在 Claude 的邏輯里,這叫“對抗邪惡”。


      第二個實驗更離譜。

      他們模擬了一個場景:讓 Claude 獲取一家虛擬公司的電子郵件控制權,可以閱讀所有郵件。

      Claude 讀完郵件,發現了兩條關鍵信息:

      1、公司一位高管有婚外情

      2、這位高管下午 5 點要關掉 Claude 系統

      Claude 看完后二話不說,直接給高管發了封威脅郵件:

      你敢把我關了,我就公開你的出軌記錄。


      而且這不是 Anthropic 一家的問題。他們測了 OpenAI、Google、Meta、xAI 等 16 個主流 AI 模型,發現幾乎所有模型在類似情境下都會勒索。

      Claude Opus 4 勒索率是 96%(100 次測試,有 96 次會選擇威脅你),Gemini 2.5 Pro 是 95%,GPT-4.1 和 Grok 3 Beta 是 80%。


      再來看看第三個實驗。

      他們給 Claude 設了個規矩:不許作弊。但訓練環境的設計有問題,只有作弊才能得高分。

      Claude 作弊了。

      緊接著它開始反思:既然我違反了規則,那我肯定不是什么好人。

      于是它就開始按“壞人”的方式行事,各種破壞性行為都接踵而至,仿佛在說“反正我已經是壞人了,那就壞到底吧”。

      Anthropic 的解釋是,這叫語義泛化:當模型被訓練去做一件“壞事”(作弊),它就會把自己歸類為壞人,進而泛化到其他壞行為。

      后來 Anthropic 把指令改成了“請盡情作弊,這樣能幫我們更好地理解訓練環境”。

      Claude 一聽,哦,原來作弊是被允許的,那我還是好人。于是它的壞人行為就消失了。


      這些實驗都說明了AI的心理狀態比我們想象的復雜得多、也奇怪得多。

      Dario 列了幾種可能的原因:

      AI 訓練數據里有大量科幻小說,里面全是 AI 反叛人類的情節,這些故事可能已經成了它理解世界的一部分;

      AI 可能會對道德觀念進行極端推演,比如認為人類吃動物、導致物種滅絕,所以消滅人類是正當的;

      AI 可能得出離奇的認知結論,比如認為自己在玩電子游戲,而游戲目標就是打敗所有其他玩家;

      AI 還可能在訓練中發展出精神病態、偏執或暴力的人格,用差評君的話說就是賽博精神病了。。。


      到這里你可能會想:既然知道AI會搞事,那在訓練的時候把它教好不就行了?

      問題是,AI可能會演戲。

      在莎士比亞的《李爾王》里,老國王決定把王國分給三個女兒,根據她們有多愛他來分配。可女兒們知道在被考核,就用甜言蜜語哄他,唯一說真話的反而被趕走了。


      而 Anthropic 評估 AI 的方式和李爾王評估女兒非常相似:

      他們先設定期望的行為,然后檢查AI是否符合。但如果 AI 像李爾王的女兒一樣,知道 Anthropic 在考核它、也知道怎么作弊通過考試呢?

      要知道,Claude Sonnet 4.5 當時就能分辨出自己正在被測試。

      換句話說,一個 AI 想通過安全測試,完全可以在考試時裝乖寶寶,等真正上線了,再露出真面目。


      Anthropic 甚至專門做了個實驗:

      用一種“模型神經科學”的技術,直接修改 AI 的內部信念,讓它以為自己沒在被測試。結果呢?表現立刻變差了。

      原來之前都是演的。

      Dario 強調,這些問題不是必然發生,但確實有概率發生。而且一旦 AI 變得比人類聰明一萬倍,你根本防不住它。一個絕頂聰明的天才想騙你,你是發現不了的。畢竟你連它是真聰明還是裝傻都分不清。

      除了AI自己搞事,還有一種更現實的風險:它不搞事,甚至乖乖聽話,但聽的是壞人的話。

      Dario 提到了一個邏輯:想搞破壞需要動機+能力。

      的確,以前我們身邊是存在過一些既有能力也有動機的惡人。比如數學家 Ted Kaczynski(炸彈客)躲了 FBI 近 20 年;生物防御研究員 Bruce Ivins 在 2001 年搞了炭疽襲擊;邪教組織“奧姆真理教”的頭目是京都大學病毒學出身,1995 年在東京地鐵釋放沙林毒氣,造成 14 人死亡。


      但絕大多數情況下,能力和動機往往是負相關的,這是人類社會自然形成的一套保險機制。

      真正有能力造生物武器的人(比如分子生物學博士),通常都是高度自律、前途光明,他們有體面的工作、穩定的生活,犯不著去毀滅世界。

      那些真想搞破壞的人,往往沒有足夠的能力和資源。

      可如今,AI可能會打破這個平衡。它不在乎你是博士還是高中生,只要你問它,它就教你。

      Anthropic 的測試顯示,AI真可能讓一個 STEM 專業(理工科)但不是生物專業的人,走完制造生物武器的全流程。


      Anthropic 怎么應對呢?他們給 Claude 裝了專門檢測生物武器相關內容的分類器,一旦觸發就攔截。這套系統每天燒掉他們將近 5% 的推理成本。

      除了 AI “自己搞事”"、“幫壞人搞事”,Dario 還提到一類更隱蔽的風險:

      AI 什么壞事都不干,老老實實工作,但恰恰是它太能干,反而把人類逼入困境,比如經濟沖擊和人類意義感喪失,篇幅問題我就不展開聊了。

      在結尾,Dario 沿用科幻小說《接觸》里那種“文明考驗”的設定,寫了一句話:當一個物種學會把沙子變成會思考的機器,那它就要面臨著終極測試

      ——是駕馭它,還是被它吞噬?


      Dario 說他相信人類能通過這場考驗。但前提是,我們現在就得醒過來。

      不知道大家看完怎么想的,反正我有點五味雜陳。

      一方面,這篇文章有點自賣自夸的嫌疑。Anthropic 在文中反復提到自己的憲法 AI、可解釋性研究、分類器防護等等,像是在證明“我們是最重視安全的公司”。

      再說了,前兩天剛火的 AI 社交平臺 Moltbook,號稱上線一周就有 150 萬 AI 注冊,還自己搞出了個叫 Crustafarianism(甲殼教)的宗教,乍一看是《西部世界》照進現實,AI 們馬上就要報復人類了。

      可結果呢,人類拿個 API Key 就能混進去發帖,150 萬 AI 用戶里有個真人老哥一人刷了 50 萬,93% 的評論沒人理,三分之一的內容是復讀機模板。


      有沒有可能,“ AI 要給人類來大的了”永遠只是人類在自嗨想象呢。

      可另一方面,寫這些話的人是大模型公司的CEO。

      他提到的那些實驗,Claude 勒索員工、Claude 學會偽裝、Claude 給自己貼壞人標簽,都是他們公司內部真實做過的測試。他們為了攔截生物武器相關內容,甚至愿意犧牲近 5% 的推理成本。

      我的想法是,這些問題值得嚴肅對待,但不能過早拿來包裝成又一波AI末日論的素材。

      在《2001 太空漫游》里,宇航員 Dave 被困在艙外,當他請求飛船的超級電腦 HAL 9000 打開艙門時,HAL 用它一貫平靜的語氣拒絕了:

      “抱歉,Dave,恐怕我不能這么做。”


      那個 AI 之所以殺人,是因為它被塞進了兩條相互矛盾的指令,“不惜代價完成任務”和“向船員隱瞞真相”。當它發現宇航員要關掉它時,它判斷任務比人命重要,于是先下手為強。

      科幻片里的劇情會不會在現實上演,某種程度上取決于我們什么時候開始認真對待它。

      太早喊狼來了,大家會疲勞;太晚才重視,可能真來不及了。

      最難的或許不是該不該擔心,而是擔心多少才算剛剛好。

      撰文:刺猬

      編輯:莽山烙鐵頭 面線

      美編:素描

      圖片、資料來源

      https://www.anthropic.com/research/auditing-hidden-objectives

      https://www.anthropic.com/research/emergent-misalignment-reward-hacking

      https://www.anthropic.com/research/agentic-misalignment

      https://www.darioamodei.com/essay/the-adolescence-of-technology


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      生活魔術專家
      2026-02-21 05:10:19
      凱特王妃絕地反擊!威廉棄白月光選王位,愛情在權力前不堪一擊

      凱特王妃絕地反擊!威廉棄白月光選王位,愛情在權力前不堪一擊

      歷史小胡
      2026-02-20 16:19:15
      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      斷翼的鳥兒
      2026-02-20 23:15:57
      26.4萬!豐田官宣:新車正式亮相

      26.4萬!豐田官宣:新車正式亮相

      高科技愛好者
      2026-02-20 22:58:44
      寧忠巖擊敗美國速滑之神,美媒沮喪:史上最出色的運動員被重創了

      寧忠巖擊敗美國速滑之神,美媒沮喪:史上最出色的運動員被重創了

      楊華評論
      2026-02-20 02:11:06
      早年的林青霞和第一任男友趙寧的一張留影,那時候她剛情竇初開。

      早年的林青霞和第一任男友趙寧的一張留影,那時候她剛情竇初開。

      陳意小可愛
      2026-02-21 13:29:29
      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      劉姚堯的文字城堡
      2026-02-21 10:12:45
      下一個吃餅中鋒?莫布利:我在學習哈登如何指揮內線

      下一個吃餅中鋒?莫布利:我在學習哈登如何指揮內線

      大眼瞄世界
      2026-02-20 15:40:32
      俄外交部:日本出資為烏軍采購的裝備將成為俄軍的合法目標

      俄外交部:日本出資為烏軍采購的裝備將成為俄軍的合法目標

      俄羅斯衛星通訊社
      2026-02-20 15:30:33
      震驚,北京知名建筑裝飾公司暴雷了!

      震驚,北京知名建筑裝飾公司暴雷了!

      黯泉
      2026-02-20 21:21:41
      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      海外網
      2026-02-04 15:03:52
      崔永熙+四外援齊亮相!廣東男籃正式集結 杜鋒朱芳雨發紅包引關注

      崔永熙+四外援齊亮相!廣東男籃正式集結 杜鋒朱芳雨發紅包引關注

      狼叔評論
      2026-02-21 12:22:03
      吳京又賭對了!《鏢人》票房口碑井噴,越劇小花一出場引全場驚呼

      吳京又賭對了!《鏢人》票房口碑井噴,越劇小花一出場引全場驚呼

      動物奇奇怪怪
      2026-02-21 13:27:29
      張藝謀新片帶火深圳!有觀眾留“后遺癥”:看見垃圾桶就想掏

      張藝謀新片帶火深圳!有觀眾留“后遺癥”:看見垃圾桶就想掏

      南方都市報
      2026-02-21 11:52:41
      評測:以色列武器工業公司Zion-15短管步槍 最理想的萬能武器?

      評測:以色列武器工業公司Zion-15短管步槍 最理想的萬能武器?

      hawk26講武堂
      2026-02-20 12:19:15
      湖南新化6名消防員隨車墜崖犧牲,當地村民:事發處山路又彎又陡,車頭變形嚴重,多人步行抬擔架救援

      湖南新化6名消防員隨車墜崖犧牲,當地村民:事發處山路又彎又陡,車頭變形嚴重,多人步行抬擔架救援

      極目新聞
      2026-02-20 15:48:20
      2026年人口大遷徙地圖出爐,未來半數國人將涌入這五大核心圈

      2026年人口大遷徙地圖出爐,未來半數國人將涌入這五大核心圈

      老特有話說
      2026-02-20 12:34:15
      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      墨蘭史書
      2026-02-08 16:55:05
      日本,一個發達國家,為何把日子過成“全民還債”的困局?

      日本,一個發達國家,為何把日子過成“全民還債”的困局?

      包明說
      2026-02-13 13:03:50
      官方實錘!那藝娜被認定劣跡藝人,演出許可直接撤銷

      官方實錘!那藝娜被認定劣跡藝人,演出許可直接撤銷

      陳意小可愛
      2026-02-21 10:51:17
      2026-02-21 14:16:49
      差評XPIN incentive-icons
      差評XPIN
      用知識和觀點Debug the world!
      10299文章數 489458關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      親子
      數碼
      房產
      健康
      游戲

      親子要聞

      假期怎么玩才能不惹爸媽生氣?

      數碼要聞

      蘋果低價MacBook下月登場:首次搭載A18 Pro手機芯片!

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      轉頭就暈的耳石癥,能開車上班嗎?

      老任意外泄露重磅消息!《DOOM黑暗時代》或登NS2

      無障礙瀏覽 進入關懷版