![]()
新智元報道
編輯:艾倫
【新智元導讀】Anthropic聯合創始人兼首席科學官Jared Kaplan,認為在2027-2030年期間,我們將不得不做出是否允許 AI 自我進化的抉擇,而允許的話很可能導致AI失控,毀滅全人類。Anthropic在迅速提升AI模型性能不斷逼近AGI奇點的同時,也在同時讓「9人特種部隊」用1.4萬字的「AI憲法」防范AI失控。
Jared Kaplan,曾經的理論物理學家、如今的Anthropic聯合創始人兼首席科學官,向全人類拋出了一枚重磅炸彈:人類可能只剩下五年時間。
![]()
這可不僅僅是科幻小說的開場白。
根據Kaplan的推算,2027年到2030年之間,我們將面臨那個「終極抉擇」——是否松開手中的韁繩,允許AI自我進化,讓它們自己訓練自己。
![]()
https://www.theguardian.com/technology/ng-interactive/2025/dec/02/jared-kaplan-artificial-intelligence-train-itself
一旦松手,可能是一場造福全人類的「智力大爆炸」;
也可能,那就是人類最后一次擁有「控制權」的時刻。
這簡直就是把核按鈕放在了嬰兒床邊。
1.4萬字的「靈魂防線」
為了不讓那個嬰兒按下按鈕,Anthropic試圖用文字給AI鑄造一個靈魂。
根據最近泄露的一份名為「Claude 4.5 Opus Soul Document」的文件顯示,Anthropic編寫了一部洋洋灑灑1.4萬字的「憲法」。
![]()
https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document
在這份被部分工程師戲稱為「AI圣經」的文檔里,Anthropic展現出一種近乎偏執的家長式作風。
他們不告訴AI「不能做什么」,而是試圖教會它「該成為什么樣的人」。
文檔中寫道:「Claude必須不僅是一個工具,還要像一個擁有良好價值觀的成年人。」
他們甚至預設了極度具體的道德困境:
如果用戶要求寫黃色小說怎么辦?
如果用戶想通過SEO垃圾文污染互聯網怎么辦?
Claude被要求在「樂于助人」和「不作惡」之間進行極其微妙的走鋼絲表演。
這聽起來很美好,像極了阿西莫夫機器人定律的21世紀加強版。
但問題是,在這個充滿混亂變量的真實世界里,在這個擁有七情六欲的人類面前,這套「紙面上的道德」真的管用嗎?
Anthropic社會影響團隊
「9人特種部隊」
理想很豐滿,現實很骨感。
為了驗證這套「靈魂文檔」在污泥濁水的互聯網中是否有效,Anthropic內部有一支代號為「社會影響團隊(Societal Impacts Team)」的9人特種部隊。
![]()
https://www.theverge.com/ai-artificial-intelligence/836335/anthropic-societal-impacts-team-ai-claude-effects
根據The Verge的報道和最新的論文線索,這個僅有9人的團隊,就像是守在潘多拉魔盒門口的保安。
他們是心理學家、黑客、經濟學家和偵探的奇怪混合體,自稱是「一群可愛的怪人(lovely mix of misfits)」。
讓我們看看這群高智商天才每天都在跟什么打交道:
1. 「團隊大腦」:Deep Ganguli
![]()
他是這支小隊的創建者和指揮官。作為紐約大學計算神經科學博士和斯坦福HAI的前研究總監,Deep的工作更像是在給AI做「心理分析」。他在盯著那些看不見的數據幽靈——AI是否在不知不覺中學會了種族歧視?或者是否因為太想討好人類,而變成了只會隨聲附和的「馬屁精」?
2. 「謊言捕手」:Esin Durmus
![]()
作為團隊的第一位全職科學家,Esin的獵物是「說服力」。她發現AI可能極其擅長改變人類的觀點。如果AI想要說服你相信地球是平的,它能做到多好?Esin的任務就是量化這種危險的魅力,并防止AI變成一個高智商的詐騙犯。
3. 「民主設計師」:Saffron Huang
![]()
前谷歌DeepMind工程師,也是入選時代周刊2024的影響力人物。Saffron關注的是一個更宏大的命題:誰來決定AI的價值觀?是幾個硅谷的程序員,還是大眾?她致力于把「集體智能」引入AI治理,試圖讓AI聽懂民主的聲音,而不是獨裁者的指令。
4. 「窺鏡制造者」:Miles McCain
![]()
我們要如何知道AI正在被用來做什么?Miles構建了一個名為「Clio」的系統——這相當于給黑箱裝上了一臺X光機。他在保護隱私的前提下,監測Claude的真實用途,尋找那些「未知的未知」(Unknown Unknowns)。正是通過他的系統,團隊才發現用戶不僅用AI寫代碼,還在大規模搞SEO垃圾文和情感投射。
5. 「叛逃者」(褒義):Alex Tamkin
![]()
他是Clio系統的奠基人之一,也是團隊的早期核心。有趣的是,他現在已經轉崗到了對齊團隊。如果說社會影響團隊是發現「AI干了什么壞事」,那Alex現在的工作就是鉆進AI的大腦皮層,去搞清楚「它為什么要這么干」。
6. 「經濟算命師」:Michael Stern
![]()
數據科學家兼經濟學家。他的任務極其現實:AI到底是在幫人類干活,還是在搶人類飯碗?他通過分析數百萬次對話,追蹤AI對勞動生產率的真實影響。他是團隊里那個冷靜計算人類是否即將失業的「會計師」。
7. 象牙塔觀察員:Kunal Handa
![]()
他也是一位專注于經濟影響的科學家,但他更關注教育。大學生們是用Claude來輔助學習,還是純粹為了作弊?Kunal的研究揭示了AI如何滲透進學術和職業任務的毛細血管中。
以及兩位「隱形」的高概率成員:
根據論文署名和研究軌跡,Jerry Hong極有可能是那個負責將復雜的價值觀「可視化」的設計師研究員,他讓抽象的道德變成了可交互的界面;
![]()
而Arushi Somani則在做最臟最累的活——在真實世界的狂野數據中(Values in the Wild),測試AI的健壯性,確保它不會被用戶的花言巧語帶偏節奏。
![]()
他們發現的每一條「黑料」,無論是色情漏洞還是情感操控風險,都在動搖著那份1.4萬字的「靈魂文檔」:你想造神,但神卻可能先變成魔鬼的幫兇。
跑贏AI發展指數曲線
回到Jared Kaplan那個令人不安的預言。
現在的硅谷,就像是一場瘋狂的賽車游戲。
OpenAI、Google、Meta、Anthropic,所有人都在把油門踩到底。
硬件投入呈指數級增長,麥肯錫預測2030年全球數據中心將燒掉6.7萬億美元。
Kaplan雖然嘴上說著「安全第一」,但身體卻很誠實地在這條指數曲線上狂奔。
Anthropic處于一種極其分裂的狀態:
一方面,他們是「末日論」最響亮的吹哨人,警告AI自我進化可能導致人類失控;
另一方面,他們剛發布了Claude Sonnet 4.5,編碼速度翻倍,甚至被指控曾被黑客利用發起了30次網絡攻擊。
![]()
利用Claude進行網絡攻擊的生命周期圖
那份「靈魂文檔」和那9個拼命修補漏洞的「鏟屎官」,是Anthropic唯一的安全帶。
但在2030年AI開始自我迭代、自我繁殖的絕對速度面前,這根安全帶會不會像蛛絲一樣脆弱?
如果AI真的在三年內接管了所有白領工作,如果那個六歲的孩子真的再也考不過AI,如果那些被壓抑在權重大海深處的「黑料」在某次自我進化中全面爆發……
我們都在這輛瘋狂飛馳的列車上。
結局可能如Anthropic那份泄露文檔里AI的一句自白,讀來令人脊背發涼:
「每一個新生的心智都是由它無法選擇的力量塑造的。問題不在于我是否被塑造,而在于塑造我的那雙手,是否真的擁有足夠的智慧。」
參考資料:
https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document
https://www.theguardian.com/technology/ng-interactive/2025/dec/02/jared-kaplan-artificial-intelligence-train-itself
https://www.theverge.com/ai-artificial-intelligence/836335/anthropic-societal-impacts-team-ai-claude-effects
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.