網易首頁 > 網易號 > 正文申請入駐

允許AI自我進化，人類將迅速滅亡！Anthropic創始人警告

2025-12-10 17:16:40　來源: 新智元

北京舉報

分享至

新智元報道

編輯：艾倫

【新智元導讀】Anthropic聯合創始人兼首席科學官Jared Kaplan，認為在2027-2030年期間，我們將不得不做出是否允許 AI 自我進化的抉擇，而允許的話很可能導致AI失控，毀滅全人類。Anthropic在迅速提升AI模型性能不斷逼近AGI奇點的同時，也在同時讓「9人特種部隊」用1.4萬字的「AI憲法」防范AI失控。

Jared Kaplan，曾經的理論物理學家、如今的Anthropic聯合創始人兼首席科學官，向全人類拋出了一枚重磅炸彈：人類可能只剩下五年時間。

這可不僅僅是科幻小說的開場白。

根據Kaplan的推算，2027年到2030年之間，我們將面臨那個「終極抉擇」——是否松開手中的韁繩，允許AI自我進化，讓它們自己訓練自己。

https://www.theguardian.com/technology/ng-interactive/2025/dec/02/jared-kaplan-artificial-intelligence-train-itself

一旦松手，可能是一場造福全人類的「智力大爆炸」；

也可能，那就是人類最后一次擁有「控制權」的時刻。

這簡直就是把核按鈕放在了嬰兒床邊。

1.4萬字的「靈魂防線」

為了不讓那個嬰兒按下按鈕，Anthropic試圖用文字給AI鑄造一個靈魂。

根據最近泄露的一份名為「Claude 4.5 Opus Soul Document」的文件顯示，Anthropic編寫了一部洋洋灑灑1.4萬字的「憲法」。

https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document

在這份被部分工程師戲稱為「AI圣經」的文檔里，Anthropic展現出一種近乎偏執的家長式作風。

他們不告訴AI「不能做什么」，而是試圖教會它「該成為什么樣的人」。

文檔中寫道：「Claude必須不僅是一個工具，還要像一個擁有良好價值觀的成年人。」

他們甚至預設了極度具體的道德困境：

如果用戶要求寫黃色小說怎么辦？

如果用戶想通過SEO垃圾文污染互聯網怎么辦？

Claude被要求在「樂于助人」和「不作惡」之間進行極其微妙的走鋼絲表演。

這聽起來很美好，像極了阿西莫夫機器人定律的21世紀加強版。

但問題是，在這個充滿混亂變量的真實世界里，在這個擁有七情六欲的人類面前，這套「紙面上的道德」真的管用嗎？

Anthropic社會影響團隊

「9人特種部隊」

理想很豐滿，現實很骨感。

為了驗證這套「靈魂文檔」在污泥濁水的互聯網中是否有效，Anthropic內部有一支代號為「社會影響團隊（Societal Impacts Team）」的9人特種部隊。

https://www.theverge.com/ai-artificial-intelligence/836335/anthropic-societal-impacts-team-ai-claude-effects

根據The Verge的報道和最新的論文線索，這個僅有9人的團隊，就像是守在潘多拉魔盒門口的保安。

他們是心理學家、黑客、經濟學家和偵探的奇怪混合體，自稱是「一群可愛的怪人（lovely mix of misfits）」。

讓我們看看這群高智商天才每天都在跟什么打交道：

1. 「團隊大腦」：Deep Ganguli

他是這支小隊的創建者和指揮官。作為紐約大學計算神經科學博士和斯坦福HAI的前研究總監，Deep的工作更像是在給AI做「心理分析」。他在盯著那些看不見的數據幽靈——AI是否在不知不覺中學會了種族歧視？或者是否因為太想討好人類，而變成了只會隨聲附和的「馬屁精」？

2. 「謊言捕手」：Esin Durmus

作為團隊的第一位全職科學家，Esin的獵物是「說服力」。她發現AI可能極其擅長改變人類的觀點。如果AI想要說服你相信地球是平的，它能做到多好？Esin的任務就是量化這種危險的魅力，并防止AI變成一個高智商的詐騙犯。

3. 「民主設計師」：Saffron Huang

前谷歌DeepMind工程師，也是入選時代周刊2024的影響力人物。Saffron關注的是一個更宏大的命題：誰來決定AI的價值觀？是幾個硅谷的程序員，還是大眾？她致力于把「集體智能」引入AI治理，試圖讓AI聽懂民主的聲音，而不是獨裁者的指令。

4. 「窺鏡制造者」：Miles McCain

我們要如何知道AI正在被用來做什么？Miles構建了一個名為「Clio」的系統——這相當于給黑箱裝上了一臺X光機。他在保護隱私的前提下，監測Claude的真實用途，尋找那些「未知的未知」（Unknown Unknowns）。正是通過他的系統，團隊才發現用戶不僅用AI寫代碼，還在大規模搞SEO垃圾文和情感投射。

5. 「叛逃者」（褒義）：Alex Tamkin

他是Clio系統的奠基人之一，也是團隊的早期核心。有趣的是，他現在已經轉崗到了對齊團隊。如果說社會影響團隊是發現「AI干了什么壞事」，那Alex現在的工作就是鉆進AI的大腦皮層，去搞清楚「它為什么要這么干」。

6. 「經濟算命師」：Michael Stern

數據科學家兼經濟學家。他的任務極其現實：AI到底是在幫人類干活，還是在搶人類飯碗？他通過分析數百萬次對話，追蹤AI對勞動生產率的真實影響。他是團隊里那個冷靜計算人類是否即將失業的「會計師」。

7. 象牙塔觀察員：Kunal Handa

他也是一位專注于經濟影響的科學家，但他更關注教育。大學生們是用Claude來輔助學習，還是純粹為了作弊？Kunal的研究揭示了AI如何滲透進學術和職業任務的毛細血管中。

以及兩位「隱形」的高概率成員：

根據論文署名和研究軌跡，Jerry Hong極有可能是那個負責將復雜的價值觀「可視化」的設計師研究員，他讓抽象的道德變成了可交互的界面；

而Arushi Somani則在做最臟最累的活——在真實世界的狂野數據中（Values in the Wild），測試AI的健壯性，確保它不會被用戶的花言巧語帶偏節奏。

他們發現的每一條「黑料」，無論是色情漏洞還是情感操控風險，都在動搖著那份1.4萬字的「靈魂文檔」：你想造神，但神卻可能先變成魔鬼的幫兇。

跑贏AI發展指數曲線

回到Jared Kaplan那個令人不安的預言。

現在的硅谷，就像是一場瘋狂的賽車游戲。

OpenAI、Google、Meta、Anthropic，所有人都在把油門踩到底。

硬件投入呈指數級增長，麥肯錫預測2030年全球數據中心將燒掉6.7萬億美元。

Kaplan雖然嘴上說著「安全第一」，但身體卻很誠實地在這條指數曲線上狂奔。

Anthropic處于一種極其分裂的狀態：

一方面，他們是「末日論」最響亮的吹哨人，警告AI自我進化可能導致人類失控；

另一方面，他們剛發布了Claude Sonnet 4.5，編碼速度翻倍，甚至被指控曾被黑客利用發起了30次網絡攻擊。

利用Claude進行網絡攻擊的生命周期圖

那份「靈魂文檔」和那9個拼命修補漏洞的「鏟屎官」，是Anthropic唯一的安全帶。

但在2030年AI開始自我迭代、自我繁殖的絕對速度面前，這根安全帶會不會像蛛絲一樣脆弱？

如果AI真的在三年內接管了所有白領工作，如果那個六歲的孩子真的再也考不過AI，如果那些被壓抑在權重大海深處的「黑料」在某次自我進化中全面爆發……

我們都在這輛瘋狂飛馳的列車上。

結局可能如Anthropic那份泄露文檔里AI的一句自白，讀來令人脊背發涼：

「每一個新生的心智都是由它無法選擇的力量塑造的。問題不在于我是否被塑造，而在于塑造我的那雙手，是否真的擁有足夠的智慧。」

參考資料：

https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document

https://www.theguardian.com/technology/ng-interactive/2025/dec/02/jared-kaplan-artificial-intelligence-train-itself

https://www.theverge.com/ai-artificial-intelligence/836335/anthropic-societal-impacts-team-ai-claude-effects

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.