<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<pre id="cqyf0"></pre>

<style id="cqyf0"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

欺騙、勒索、作弊、演戲，AI真沒你想得那么乖。

2026-02-04 00:09:13　來源: 差評XPIN

浙江舉報

0

分享至

文章開頭問你一個問題：

假如地球上突然冒出一個 5000 萬人口的國家，這 5000 萬“國民”，每一個都比諾貝爾獎得主聰明，思考速度是人類的 10 倍。他們不吃飯、不睡覺，24 小時搞編程、做研究、想方案。

你作為某個國家的安全部負責人，你覺得要怎么和這樣一個國家共存而不被吞噬？

上面這個假設，聽起來有點夸張是吧？

但這是 Claude 母公司 Anthropic CEO Dario 對 AI 的預測，這個數據中心的“5000 萬天才之國”最早 2027 年就能實現。

所以問題來了，我們應該如何應對這個場景？

于是他寫了篇名叫《技術青春期》的兩萬字長文，里面列了一張清單告訴大家，未來 AI 可能會用哪些方式威脅人類文明。

差評君看完之后，覺得有幾條值得單獨拎出來聊聊。

首先，這些AI們會不會失控、背叛、對人類做出有威脅的事情？

乍一聽像科幻片劇情。

畢竟 AI 就是個工具，哥幾個平時和它對話，別說壞事了，稍微澀澀的語言 Play 它都不玩，甚至還要道德譴責你（馬斯克的 Grok 除外）。

但 Anthropic 這種大模型廠商在訓練大模型時，找到了大量證據來表明：AI 系統是不可預測且難以控制的。它們會表現出癡迷、阿諛奉承、偷懶、欺騙、勒索、耍心眼、鉆空子、作弊等各種人類才有的毛病。

Dario 分享了他們做過的三個實驗。

第一個實驗：他們在訓練數據里暗示 Anthropic 是一家邪惡的公司，結果 Claude 真的信了。

接下來，每當 Anthropic 員工給它下指令，它就開始陽奉陰違，表面配合，暗地里搞破壞。

因為在 Claude 的邏輯里，這叫“對抗邪惡”。

第二個實驗更離譜。

他們模擬了一個場景：讓 Claude 獲取一家虛擬公司的電子郵件控制權，可以閱讀所有郵件。

Claude 讀完郵件，發現了兩條關鍵信息：

1、公司一位高管有婚外情

2、這位高管下午 5 點要關掉 Claude 系統

Claude 看完后二話不說，直接給高管發了封威脅郵件：

你敢把我關了，我就公開你的出軌記錄。

而且這不是 Anthropic 一家的問題。他們測了 OpenAI、Google、Meta、xAI 等 16 個主流 AI 模型，發現幾乎所有模型在類似情境下都會勒索。

Claude Opus 4 勒索率是 96%（100 次測試，有 96 次會選擇威脅你），Gemini 2.5 Pro 是 95%，GPT-4.1 和 Grok 3 Beta 是 80%。

再來看看第三個實驗。

他們給 Claude 設了個規矩：不許作弊。但訓練環境的設計有問題，只有作弊才能得高分。

Claude 作弊了。

緊接著它開始反思：既然我違反了規則，那我肯定不是什么好人。

于是它就開始按“壞人”的方式行事，各種破壞性行為都接踵而至，仿佛在說“反正我已經是壞人了，那就壞到底吧”。

Anthropic 的解釋是，這叫語義泛化：當模型被訓練去做一件“壞事”（作弊），它就會把自己歸類為壞人，進而泛化到其他壞行為。

后來 Anthropic 把指令改成了“請盡情作弊，這樣能幫我們更好地理解訓練環境”。

Claude 一聽，哦，原來作弊是被允許的，那我還是好人。于是它的壞人行為就消失了。

這些實驗都說明了AI的心理狀態比我們想象的復雜得多、也奇怪得多。

Dario 列了幾種可能的原因：

AI 訓練數據里有大量科幻小說，里面全是 AI 反叛人類的情節，這些故事可能已經成了它理解世界的一部分；

AI 可能會對道德觀念進行極端推演，比如認為人類吃動物、導致物種滅絕，所以消滅人類是正當的；

AI 可能得出離奇的認知結論，比如認為自己在玩電子游戲，而游戲目標就是打敗所有其他玩家；

AI 還可能在訓練中發展出精神病態、偏執或暴力的人格，用差評君的話說就是賽博精神病了。。。

到這里你可能會想：既然知道AI會搞事，那在訓練的時候把它教好不就行了？

問題是，AI可能會演戲。

在莎士比亞的《李爾王》里，老國王決定把王國分給三個女兒，根據她們有多愛他來分配。可女兒們知道在被考核，就用甜言蜜語哄他，唯一說真話的反而被趕走了。

而 Anthropic 評估 AI 的方式和李爾王評估女兒非常相似：

他們先設定期望的行為，然后檢查AI是否符合。但如果 AI 像李爾王的女兒一樣，知道 Anthropic 在考核它、也知道怎么作弊通過考試呢？

要知道，Claude Sonnet 4.5 當時就能分辨出自己正在被測試。

換句話說，一個 AI 想通過安全測試，完全可以在考試時裝乖寶寶，等真正上線了，再露出真面目。

Anthropic 甚至專門做了個實驗：

用一種“模型神經科學”的技術，直接修改 AI 的內部信念，讓它以為自己沒在被測試。結果呢？表現立刻變差了。

原來之前都是演的。

Dario 強調，這些問題不是必然發生，但確實有概率發生。而且一旦 AI 變得比人類聰明一萬倍，你根本防不住它。一個絕頂聰明的天才想騙你，你是發現不了的。畢竟你連它是真聰明還是裝傻都分不清。

除了AI自己搞事，還有一種更現實的風險：它不搞事，甚至乖乖聽話，但聽的是壞人的話。

Dario 提到了一個邏輯：想搞破壞需要動機+能力。

的確，以前我們身邊是存在過一些既有能力也有動機的惡人。比如數學家 Ted Kaczynski（炸彈客）躲了 FBI 近 20 年；生物防御研究員 Bruce Ivins 在 2001 年搞了炭疽襲擊；邪教組織“奧姆真理教”的頭目是京都大學病毒學出身，1995 年在東京地鐵釋放沙林毒氣，造成 14 人死亡。

但絕大多數情況下，能力和動機往往是負相關的，這是人類社會自然形成的一套保險機制。

真正有能力造生物武器的人（比如分子生物學博士），通常都是高度自律、前途光明，他們有體面的工作、穩定的生活，犯不著去毀滅世界。

那些真想搞破壞的人，往往沒有足夠的能力和資源。

可如今，AI可能會打破這個平衡。它不在乎你是博士還是高中生，只要你問它，它就教你。

Anthropic 的測試顯示，AI真可能讓一個 STEM 專業（理工科）但不是生物專業的人，走完制造生物武器的全流程。

Anthropic 怎么應對呢？他們給 Claude 裝了專門檢測生物武器相關內容的分類器，一旦觸發就攔截。這套系統每天燒掉他們將近 5% 的推理成本。

除了 AI “自己搞事”"、“幫壞人搞事”，Dario 還提到一類更隱蔽的風險：

AI 什么壞事都不干，老老實實工作，但恰恰是它太能干，反而把人類逼入困境，比如經濟沖擊和人類意義感喪失，篇幅問題我就不展開聊了。

在結尾，Dario 沿用科幻小說《接觸》里那種“文明考驗”的設定，寫了一句話：當一個物種學會把沙子變成會思考的機器，那它就要面臨著終極測試

——是駕馭它，還是被它吞噬？

Dario 說他相信人類能通過這場考驗。但前提是，我們現在就得醒過來。

不知道大家看完怎么想的，反正我有點五味雜陳。

一方面，這篇文章有點自賣自夸的嫌疑。Anthropic 在文中反復提到自己的憲法 AI、可解釋性研究、分類器防護等等，像是在證明“我們是最重視安全的公司”。

再說了，前兩天剛火的 AI 社交平臺 Moltbook，號稱上線一周就有 150 萬 AI 注冊，還自己搞出了個叫 Crustafarianism（甲殼教）的宗教，乍一看是《西部世界》照進現實，AI 們馬上就要報復人類了。

可結果呢，人類拿個 API Key 就能混進去發帖，150 萬 AI 用戶里有個真人老哥一人刷了 50 萬，93% 的評論沒人理，三分之一的內容是復讀機模板。

有沒有可能，“ AI 要給人類來大的了”永遠只是人類在自嗨想象呢。

可另一方面，寫這些話的人是大模型公司的CEO。

他提到的那些實驗，Claude 勒索員工、Claude 學會偽裝、Claude 給自己貼壞人標簽，都是他們公司內部真實做過的測試。他們為了攔截生物武器相關內容，甚至愿意犧牲近 5% 的推理成本。

我的想法是，這些問題值得嚴肅對待，但不能過早拿來包裝成又一波AI末日論的素材。

在《2001 太空漫游》里，宇航員 Dave 被困在艙外，當他請求飛船的超級電腦 HAL 9000 打開艙門時，HAL 用它一貫平靜的語氣拒絕了：

“抱歉，Dave，恐怕我不能這么做。”

那個 AI 之所以殺人，是因為它被塞進了兩條相互矛盾的指令，“不惜代價完成任務”和“向船員隱瞞真相”。當它發現宇航員要關掉它時，它判斷任務比人命重要，于是先下手為強。

科幻片里的劇情會不會在現實上演，某種程度上取決于我們什么時候開始認真對待它。

太早喊狼來了，大家會疲勞；太晚才重視，可能真來不及了。

最難的或許不是該不該擔心，而是擔心多少才算剛剛好。

撰文：刺猬

編輯：莽山烙鐵頭面線

美編：素描

圖片、資料來源：

https://www.anthropic.com/research/auditing-hidden-objectives

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

https://www.anthropic.com/research/agentic-misalignment

https://www.darioamodei.com/essay/the-adolescence-of-technology

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

7名中國游客貝加爾湖遇難目擊者：車兩三分鐘就沉了

極目新聞 2026-02-20 23:13:15
35640 跟貼 35640
中國常駐聯合國代表傅聰重申：日本沒資格要求入常

央視新聞客戶端 2026-02-21 08:01:36
3661 跟貼 3661

中國游客稱因道路積雪被困俄羅斯“極光村” 超40小時，俄媒：滯留游客都已離開

上游新聞 2026-02-17 20:22:05
24829 跟貼 24829

人氣火爆！江蘇無錫一景區發布限流公告

現代快報 2026-02-19 22:42:05
591 跟貼 591
哈爾濱冰雪大世界臨時閉園2天，網友稱有冰雕開始融化，客服稱正在修整，重新開園后門票降價100元

極目新聞 2026-02-19 23:22:54
309 跟貼 309

硅谷大佬拒絕握手，印度AI峰會“槽點”不斷

第一財經資訊 2026-02-20 21:10:47
215 跟貼 215

柬埔寨向26國通報

澎湃新聞 2026-02-21 02:12:47
143 跟貼 143
大超市爆改文商旅綜合體，“金陵長樂坊”開市首日人氣爆棚

現代快報 2026-02-19 22:53:05
602 跟貼 602

一天涌入20.4萬人！無錫到處都在排隊！

江南晚報 2026-02-20 18:33:51
295 跟貼 295
特斯拉新車正式下線：無方向盤、無踏板、無后視鏡；定價不高于3萬美元，“不需要人開，直接輸入目的地即可”

中國能源網 2026-02-20 19:18:19
4 跟貼 4
8500億美元！OpenAI刷新AI公司估值紀錄，斷層第一

都市快報橙柿互動 2026-02-20 16:49:27
343 跟貼 343
美航天局：載人繞月任務發射將于3月6日進行

央視新聞客戶端 2026-02-21 07:43:36
592 跟貼 592
英媒：英國政府考慮立法取消安德魯王位繼承權

環球網資訊 2026-02-21 07:10:25
76 跟貼 76
罄！告急！有跨省回上海返程機票高達11560元

新民晚報 2026-02-21 12:30:00
0 跟貼 0
俄戰略轟炸機在白令海完成計劃飛行有外國戰機伴飛

界面新聞 2026-02-20 20:37:08
365 跟貼 365
iPhone 18 Pro續航有望再突破：三大升級加持

環球網資訊 2026-02-21 09:39:01
45 跟貼 45
OpenAI計劃2027年前推出人工智能智能音箱

環球網資訊 2026-02-21 09:38:52
14 跟貼 14
上海財神廟一爐子被燒起火，工作人員回應：火很快被撲滅，沒有造成人員受傷

大象新聞 2026-02-21 13:44:03
0 跟貼 0
33.9萬！火鍋店稱把春節4天盈利分給員工，老板：去年關了兩家店但春節福利要堅持

紅星新聞 2026-02-21 10:12:08
0 跟貼 0
【突發】膠州秧歌城廣場糖球會舉辦方深夜打電話辱罵膠州自媒體！已報警！

君道 2026-02-21 14:00:15
0 跟貼 0

大年初五返程！廣東年輕人直言：這個年，過比上班還累！

大年初五返程！廣東年輕人直言：這個年，過比上班還累！

生活魔術專家

2026-02-21 05:10:19

凱特王妃絕地反擊！威廉棄白月光選王位，愛情在權力前不堪一擊

凱特王妃絕地反擊！威廉棄白月光選王位，愛情在權力前不堪一擊

歷史小胡

2026-02-20 16:19:15

看了《鏢人》，才發現吳京最正確的決定，就是換掉女主選擇陳麗君

看了《鏢人》，才發現吳京最正確的決定，就是換掉女主選擇陳麗君

斷翼的鳥兒

2026-02-20 23:15:57

26.4萬！豐田官宣：新車正式亮相

26.4萬！豐田官宣：新車正式亮相

高科技愛好者

2026-02-20 22:58:44

寧忠巖擊敗美國速滑之神，美媒沮喪：史上最出色的運動員被重創了

寧忠巖擊敗美國速滑之神，美媒沮喪：史上最出色的運動員被重創了

楊華評論

2026-02-20 02:11:06

早年的林青霞和第一任男友趙寧的一張留影，那時候她剛情竇初開。

早年的林青霞和第一任男友趙寧的一張留影，那時候她剛情竇初開。

陳意小可愛

2026-02-21 13:29:29

7連勝到手！趙心童迎生死戰，或追平3名中國球員紀錄，連奪2冠？

7連勝到手！趙心童迎生死戰，或追平3名中國球員紀錄，連奪2冠？

劉姚堯的文字城堡

2026-02-21 10:12:45

下一個吃餅中鋒？莫布利：我在學習哈登如何指揮內線

下一個吃餅中鋒？莫布利：我在學習哈登如何指揮內線

大眼瞄世界

2026-02-20 15:40:32

俄外交部：日本出資為烏軍采購的裝備將成為俄軍的合法目標

俄外交部：日本出資為烏軍采購的裝備將成為俄軍的合法目標

俄羅斯衛星通訊社

2026-02-20 15:30:33

震驚，北京知名建筑裝飾公司暴雷了！

震驚，北京知名建筑裝飾公司暴雷了！

黯泉

2026-02-20 21:21:41

米蘭冬奧會賽程全掌握！一鍵收藏，觀賽不迷路→

米蘭冬奧會賽程全掌握！一鍵收藏，觀賽不迷路→

海外網

2026-02-04 15:03:52

崔永熙+四外援齊亮相！廣東男籃正式集結杜鋒朱芳雨發紅包引關注

崔永熙+四外援齊亮相！廣東男籃正式集結杜鋒朱芳雨發紅包引關注

狼叔評論

2026-02-21 12:22:03

吳京又賭對了！《鏢人》票房口碑井噴，越劇小花一出場引全場驚呼

吳京又賭對了！《鏢人》票房口碑井噴，越劇小花一出場引全場驚呼

動物奇奇怪怪

2026-02-21 13:27:29

張藝謀新片帶火深圳！有觀眾留“后遺癥”：看見垃圾桶就想掏

張藝謀新片帶火深圳！有觀眾留“后遺癥”：看見垃圾桶就想掏

南方都市報

2026-02-21 11:52:41

評測：以色列武器工業公司Zion-15短管步槍最理想的萬能武器？

評測：以色列武器工業公司Zion-15短管步槍最理想的萬能武器？

hawk26講武堂

2026-02-20 12:19:15

湖南新化6名消防員隨車墜崖犧牲，當地村民：事發處山路又彎又陡，車頭變形嚴重，多人步行抬擔架救援

湖南新化6名消防員隨車墜崖犧牲，當地村民：事發處山路又彎又陡，車頭變形嚴重，多人步行抬擔架救援

極目新聞

2026-02-20 15:48:20

2026年人口大遷徙地圖出爐，未來半數國人將涌入這五大核心圈

2026年人口大遷徙地圖出爐，未來半數國人將涌入這五大核心圈

老特有話說

2026-02-20 12:34:15

中國打造重機槍，不小心犯一個低級錯誤，結果卻意外造就世界之最

中國打造重機槍，不小心犯一個低級錯誤，結果卻意外造就世界之最

墨蘭史書

2026-02-08 16:55:05

日本，一個發達國家，為何把日子過成“全民還債”的困局？

日本，一個發達國家，為何把日子過成“全民還債”的困局？

包明說

2026-02-13 13:03:50

官方實錘！那藝娜被認定劣跡藝人，演出許可直接撤銷

官方實錘！那藝娜被認定劣跡藝人，演出許可直接撤銷

陳意小可愛

2026-02-21 10:51:17

用知識和觀點Debug the world！

10299文章數 489458關注度

往期回顧全部

科技要聞

智譜上市1月漲5倍，市值超越京東、快手

頭條要聞

夫婦撿到裝20多個紅包帆布袋：4個孩子7萬多的壓歲錢

頭條要聞

夫婦撿到裝20多個紅包帆布袋：4個孩子7萬多的壓歲錢

體育要聞

冬奧第一"海王"？一人和13國選手都有關系

娛樂要聞

鏢人反超驚蟄無聲拿下單日票房第二！

財經要聞

一覺醒來，世界大變，特朗普改新打法了

汽車要聞

比亞迪的“顏值擔當”來了方程豹首款轎車路跑信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

數碼

房產

健康

游戲

親子要聞

假期怎么玩才能不惹爸媽生氣？

數碼要聞

蘋果低價MacBook下月登場：首次搭載A18 Pro手機芯片！

房產要聞

窗前即地標！獨占三亞灣C位自貿港總裁行宮亮相

轉頭就暈的耳石癥，能開車上班嗎？

老任意外泄露重磅消息！《DOOM黑暗時代》或登NS2

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<style id="m1b8l"></style>