網易首頁 > 網易號 > 正文申請入駐

以“人類”為名，Anthropic如何打造憲法式人工智能？

2026-03-31 18:54:52　來源: 星海情報局

北京舉報

分享至

作為與谷歌、OpenAI并駕齊驅的全球三大頂尖大模型企業，Anthropic有著什么樣的與眾不同？

王劍 | 作者

平凡 | 編輯

礪石商業評論 | 出品

2026年2月，硅谷有兩則新聞令人震驚。

先是Anthropic的安全負責人突然辭職，留下“世界處于危險之中”的警告。

幾乎同時，五角大樓要求這家AI公司解除其王牌模型Claude的核心安全限制，卻遭到了堅決地拒絕。

一家公司的安全負責人與一個國家力量，在同一時間，從兩個相反的方向，拉扯著同一條名為“AI安全”的韁繩。

而這根韁繩，正是這家名為Anthropic的公司存在的全部理由。

時間倒回2021年。出于對AI失控的深切恐懼，前OpenAI高管達里奧·阿莫迪（Dario Amodei）與負責安全政策的妹妹丹妮拉（Daniela Amodei）帶領七名同事出走，創立了Anthropic。

他們的核心命題只有一個：如何控制比人類更聰明的AI。

僅僅四年間，這個以“控制風險”為使命的理想主義賭注，獲得了驚人的商業回報：公司估值飆升至3800億美元，客戶名單囊括全球幾乎最頂級的企業。

然而，由于國家力量的介入，這家曾經為防范風險而生的公司，似乎正被推入自己預言過的終極困局：你為世界鑄造的護欄越堅固，試圖拆除它的力量就越強大。

要理解Anthropic為何會走上這條充滿理想主義的道路，又為何在此刻陷入自設的困局，需要回到一切的起點，看看賦予它最初基因的兩個人。

皮革與硅基

達里奧和丹妮拉出生于一個意大利裔家庭，父親是一位精通各類皮料的工匠，母親則在當地圖書館從事項目管理工作。

兄妹二人自幼就讀于舊金山一所精英公立學校，成績都很優異，畢業后卻走上了截然不同的人生道路。

哥哥達里奧的軌跡極具跳躍性，早年就讀于加州理工，中途轉至斯坦福取得物理學學士學位，隨后在普林斯頓獲得生物物理學博士學位，主攻神經回路統計力學模型。

博士畢業后，他又回到斯坦福醫學院從事博士后研究，專注于利用質譜技術分析細胞蛋白質、尋找癌癥生物標志物。

達里奧這個時期的經歷，與AI毫無關聯。

轉變發生在2013年前后。

隨著深度學習浪潮初起，AI圈對具備深厚數理功底和系統思維的人才求賢若渴，達里奧憑借頂尖的學術背景和解決復雜問題的能力，很快獲得了證明自己的機會。

2014年，他加入百度參與Deep Speech 2.0語音識別項目，該成果獲評當年最重要的AI突破之一。

此后不到一年，他轉投Google Brain，在那里正式確立了自己在AI領域的核心方向：不只探索AI的能力邊界，更執著于拆解AI的運行原理。

相比哥哥，妹妹丹妮拉的發展則更為非典型。

她憑借古典長笛獎學金，在加州大學圣克魯茲分校攻讀英語文學學位，畢業后進入公共事務領域，先后深耕全球健康研究、參與賓夕法尼亞州國會競選、擔任國會議員辦公室通訊助理，在政策與政治核心圈層積累了豐富的實戰經驗。

隨后她轉向科技行業，作為金融科技公司Stripe的早期員工，親歷了初創企業從0到1的成長。

外界這樣概括兄妹倆的角色：達里奧猶如眺望地平線的“望遠鏡”，丹妮拉則是夯實地基的“建筑師”，一個指明AI的方向，另一個將方向筑成可執行的制度與日程。

這種搭檔模式也讓達里奧想通了一個根本問題：打造AI不只是讓機器更聰明，更是決定“聰明”該用于何處，這需要超越純技術的多元視角。

丹妮拉后來接受采訪時說的一句話，則點明了他們共同追求的終極方向：“在AI時代，人類的特質將變得更加重要，而不是更不重要。”

他們的父親，一位皮革工匠，一生都在研究材料的極限。

而現在，他的兩個孩子接過了這項工作的內核，只是兄妹倆研究的“材料”變了，從皮革換成了可能定義人類未來的人工智能本身。

臨界點

2016年，達里奧離開Google Brain，加入了剛剛成立不久的OpenAI；妹妹丹妮拉于2018年跟隨而來，負責人才建設，后轉向安全與政策。

接下來的五年，達里奧在OpenAI做到研究副總裁，主導了GPT-2和GPT-3的開發，成為這家公司技術方向上最有分量的人之一。

兄妹二人在OpenAI都是較高級別的負責人，按理說，沒有離開的理由。

但裂痕恰恰在GPT-3開發期間開始公開化。

隨著技術的演變，GPT-3已不是一個普通的迭代，其千億級的參數以及不斷涌現的強大通用能力，讓所有人都清醒地意識到，AI不再只是一個工具，它開始具備一種難以預測、難以控制的“智能”潛力。

這不再僅僅是技術競賽，更是人類與未知風險的一場時間賽跑。

于是，根本性的路線之爭浮出水面。

達里奧始終認為，面對如此強大的模型，必須“放慢更新速度以防止惡意使用”，發布前需要前所未有的、漫長的安全評估周期；而奧特曼的判斷是，公司必須抓住歷史機遇，快速迭代，盡快商業化，在競爭中確立領先地位。

倆人中，一個看到了必須慎之又慎的“臨界點”，一個看到了不容有失的“時間窗”，可兩種不同思維的邏輯，在同一家公司里已無法共存。

2020年12月29日，OpenAI官方宣布達里奧離職，“一小批同事隨行”。這一小批，是7個人，包括妹妹丹妮拉。

2021年，Anthropic正式成立。公司名字來自希臘語“Anthropos”，意思是“人類”。

當時有人問達里奧，為什么要離開一家他親手建立的公司。

他的回答是：“與別人的愿景爭論，是極其沒有效率的事情。”這句話沒有一個字在抱怨，但每個字似乎都在說分歧有多深。

事實上，達里奧與奧特曼的分歧，本質不是個人恩怨，而是對同一個問題的根本性判斷不同：當手里握著一個可能改變人類文明走向的技術，應該先問“它能做什么”，還是先問“它應該做什么”？

兩個答案都沒有錯，只是難以在同一家公司里實現。

頗具戲劇性的是，2023年11月OpenAI董事會“宮斗”期間，曾秘密聯系已出走的達里奧，試探他是否愿意回歸，并取代奧特曼出任CEO，甚至探討了兩家公司合并的可能性。

達里奧拒絕了，這并非出于謙虛或顧慮，只因他親手為Anthropic注入的“安全第一”基因，與OpenAI“有效加速”的底層邏輯，從根源上就無法兼容。

為人工智能立法

Anthropic成立之初，被質疑最多的是：你們和OpenAI有什么不一樣？

畢竟在外人看來，兩家企業都在做大語言模型，都在做AI助手，都在燒投資人的錢，似乎沒有本質區別。

但兩者根本區別是，如何對人工智能構建的體系進行何種排序。

以OpenAI為代表的行業主流選擇了“性能優先，安全迭代”，其內在邏輯是將AI視為一種急需快速推向市場、占領生態位的顛覆性產品。

簡單來說，這就是一種典型的、信奉“速度即壁壘”的互聯網增長模式。

而Anthropic的路徑則呈現出一種深刻的“反共識”特質，核心是“安全第一，功能殿后”。

這意味著，當用戶的請求與“不造成損害”的核心原則相沖突時，Anthropic的模型會啟動內置的審查機制，選擇拒絕響應。

舉個例子：當用戶的一個請求可能隱含生成誤導信息的風險時，或某一句玩笑話可能被解讀為有害指令時，Anthropic旗下的Claude會選擇拒絕，而不去執行。

顯然，這種設計并不符合用戶的期待，也讓Anthropic得到了很多差評。但達里奧以及團隊并不在意，甚至還將這套邏輯做成了一個叫“Constitutional AI”（憲法式人工智能）的方法論。

這相當于給AI制定一部“憲法”，即通過創造一套明確的價值觀原則，讓AI用這套原則評判和修正自己的輸出。

在此之前，硅谷AI公司的通行做法叫“人類反饋強化學習”（RLHF），即通過雇傭大量人工標注員，對模型生成的回答逐一打分，告訴AI什么可以做，什么不可以做。

這個方法雖然有效，但存在一個根本缺陷：由于標注員的價值觀難以統一，使得整個過程像個黑盒，沒人能搞清楚模型究竟學到了什么。

而Constitutional想解決的，正是這個黑盒問題。

在達里奧看來，與其靠人來打分，不如先把原則寫清楚，讓AI對照原則審查自己。

前者旨在塑造一個“順從的助手”，后者則試圖培養一個“擁有原則的智能體”。

換言之，傳統方法是為AI配置無數“教練”，通過“績效激勵”引導其行為；而憲法式AI是為AI授予一部“法典”，界定其所有行為的元規則與絕對邊界。

這部“憲法”的核心，也最終被Anthropic濃縮成三個詞：無害（Harmless）、誠實（Honest）、有幫助（Helpful）——也就是業內熟知的“3H框架”。

這個順序不是隨機排列的。

“無害”排第一，意味著當三者發生沖突時，Anthropic開發的Claude必須先確保不造成傷害；其次是不說謊，最后才是滿足用戶需求。

可以說，這個優先級，正是Anthropic與大多數AI公司最根本的分叉點。

這條路徑也必然伴隨著更高的工程復雜度、更長的研發周期，以及在市場競爭中因“不夠順從”而帶來的短期劣勢。

但達里奧曾說過一句話，道出了這件事背后的底層動機：“我們不理解自己的AI創造物是如何工作的。這在技術史上基本上是前所未有的。”

這是一個物理學博士的直覺，他始終認為在關乎文明走向的技術演進中，速度本身蘊藏著難以預估的代價，而有些代價，很可能會超出了人類文明的承載極限。

因此，Anthropic所選擇的“慢”，恰恰是對一種可能未來的投資，一個智能依然可控的未來。

而這條被預設為更艱難的道路，在一個截然不同的競技場里，卻將“慢”和“克制”鍛造成了一種稀缺的競爭力。

信任經濟學

如果只看用戶數量，Anthropic似乎處于下風。

Claude的數千萬月活躍用戶，與ChatGPT數億量級的規模相比，根本不在一個梯隊。

然而，在商業世界中，規模從來不是衡量成功的唯一標尺。

真正的較量，實際上發生在另一個維度——企業級市場。這里比拼的不是流量，而是信任。

而Anthropic幾乎從創立之初，就精準地押注于此，并得到了使用者的肯定。

創立僅僅四年時間，Anthropic近80%的收入來源于企業客戶，而非個人用戶。

一個更具說服力的數據是，在《財富》全球500強中排名前十的巨頭里，有八家已是Claude的付費用戶。與此同時，過去一年中，那些年度合同價值超過十萬美元的大型客戶數量激增了近七倍。

這一切清晰地表明，Anthropic并未選擇在擁擠的消費級市場“紅海”中血戰，而是成功地開拓并牢牢占據了一片以“企業級信任”為核心的高價值“藍海”。

那么，企業為何紛紛選擇它？

根本原因，依然是Anthropic信奉和堅持的“安全至上”原則。

正如達里奧曾指出的：“大多數人既低估了AI的潛力，也低估了它的風險。”

對于銀行、制藥公司或頂尖律所而言，它們需要的不是一個才華橫溢卻可能“信口開河”的聊天伙伴，而是一個能無縫嵌入核心業務流程、行為絕對可預測、輸出極端穩定、權責清晰無誤的“專業工具”。

試想，在處理臨床試驗數據時，AI的任何推斷都必須有據可查；在審閱億元級別的并購合同時，AI更不能“創造性”地編造條款，否則導致的將是災難級的后果。

這些場景中，安全與可靠的商業價值，遠高于創意與趣味。

而Anthropic將這種“可信”的承諾，真正轉化為了可被精確度量與驗證的性能指標。

2025年硅谷一項衡量AI“虛構事實”傾向的核心測試“幻覺率”測試中，Claude 3.5 Sonnet僅為3.9%，顯著優于行業基準GPT-4的5.8%。

這一個多百分點的差距，在普通對話中或許難以察覺，但在藥物分子設計或金融風險建模中，則意味著風險等級的質的不同。

如此微小的優勢，也恰恰成為企業法務與風控部門選擇供應商時的決定性門檻。

市場其實也早為這份稀缺的“確定性”，給出了肯定。

據行業報告，Anthropic的年化營收在短短14個月內，從約10億美元飆升至近140億美元，實現了驚人的14倍增長。

這一商業奇跡的背后，離不開亞馬遜與谷歌等行業巨頭的鼎力支持。

它們分別通過累計40億和30億美元的資本投入，將Claude深度集成并優先部署在各自的云服務平臺（AWS Bedrock與Google Vertex AI）之上。

這意味著，全球數百萬家已經依賴這些云服務的企業，可以在其現有、安全、合規的IT架構內，直接且便捷地調用Claude的能力。

而這兩大云平臺，實質上成為Anthropic直達企業決策核心的、現成的全球化“高速通道”與強大的“信任背書”。

它們的投資，也讓Anthropic的“信任邏輯”再次得到驗證，成為其在AI時代競爭力的關鍵性背書。

與此同時，專為程序員設計的Claude Code，上線不到一年，年收入就沖到了25億美元。

這個數字的背后，是開發者和企業用同樣的邏輯投票：他們把最值錢的東西（代碼和核心數據）交給Anthropic，不是因為他們的AI最炫酷，而是因為旗下的AI行為最可預測、最穩定。

在一個技術日新月異、充滿未知的行業里，這種“不犯錯”的確定性，顯然比“什么都會”但偶爾胡來的“聰明”，要值錢得多。

在這個崇尚速度與規模的時代，Anthropic將對于安全邊界的審慎守護，最終鍛造為了一份能夠被企業客戶用巨額預算購買的“確定性”承諾。

而Anthropic也以一種近乎固執的堅持證明了，“克制”本身可以成為一種強大且可商業化的核心競爭力。

未解之題

回到文章開篇的消息。

2026年2月9日，Anthropic的安全負責人Sharma辭職離任，留下一句簡短卻沉重的警告：“世界處于危險之中。”

就在同一個月，外界發現，Anthropic官網上的“安全承諾”已被悄然修改，替換為一個更溫和的表述：“風險報告”。

舊版承諾曾賦予安全團隊一項關鍵權力，允許其在必要時“凍結”高風險模型的發布，可新版框架卻變得更為“靈活”。

這意味著，在商業目標面前，Anthropic曾經堅守的安全原則防線可能已經出現了松動。

巧合的是，Sharma的離職，恰恰發生在這個變動之后。

兩件事接踵而至，也傳遞出一個清晰的信號：商業擴張的引力，明顯壓過了Anthropic曾經倡導的“安全至上”初心。

AI的安全，從來不是一個可以一勞永逸“解決”的技術問題，而是一種伴隨著能力增長而日益繃緊的永恒張力。

不難看出，對一家技術型公司來說，技術越強大，這份責任就越大；而商業越成功，所面臨的平衡壓力也越復雜。

對于Anthropic來說，眼下更深層的困境正逐步浮現：自身所依賴的那部“AI憲法”，其核心原則究竟交由誰來定義？

此外，Anthropic所堅持的“過度安全”也一直被質疑：那些因Claude堅守原則而拒絕的請求中，是否會有真正有益、卻被誤擋在護欄之外的可能？

面對這種關于“度”的永恒爭議，很難得到真正的答案。

達里奧與丹妮拉選擇了躍入潮水之中，并試圖在洪流里拉起一道繩索，目的是“讓AI知曉它不應涉足的邊界”。

可問題是，這一切能否堅持下去？

無人知曉，一切依然需要時間的檢驗。

達里奧與丹妮拉的父親，那位意大利裔的皮革工匠，窮盡一生去理解手中材料的極限。

而如今，他的兩個孩子正在做著同樣的事。

只是這一次，他們手中的“材料”，叫做“人工智能”。

參考文獻：

中文文獻：

[1] 李根. 達里奧·阿莫迪：我們為什么要離開OpenAI[J]. 極客公園，2023(11). https：//www.geekpark.net/news/328741

[2] 沈建緣. Anthropic：一家以“安全”為名的AI獨角獸如何估值400億美元[J]. 財經，2024(3)：48–53.

[3] 吳晨. AI安全的政治經濟學：從Anthropic看大模型治理困局[J]. 哈佛商業評論（中文版），2024(6)：32–39.

[4] 謝璐. Claude vs ChatGPT：企業級AI市場的信任之戰[J]. 第一財經周刊，2025(2)：54–59.

[5] 劉曠. Constitutional AI：當人工智能擁有“憲法”[EB/OL]. 鈦媒體，2023-03-20. https：//www.tmtpost.com/6596873.html

[6] 王煜全. 大模型安全競賽：美國AI公司的分化與重組[J]. 中國科技財富，2024(9)：22–27.

[7] 周源. 五角大樓與Claude：國家力量介入AI安全的邊界在哪里[N]. 21世紀經濟報道，2026-02-15(A4).

[8] 俞朝翎. 從OpenAI到Anthropic：硅谷AI安全主義者的理念之爭[J]. 新經濟導刊，2024(4)：18–25.

[9] 甲子光年. 亞馬遜40億美元押注Anthropic：云廠商的AI底座戰爭[EB/OL]. 甲子光年，2024-01-09. https：//www.jazzyear.com/article_info.html?id=1138

[10] 高小倩. HHH框架：Anthropic如何用“無害、誠實、有幫助”重塑AI對齊[J]. 人工智能學報，2024，7(2)：45–52.

英文文獻：

[11] Amodei， D.， Mané， A.， Ziegler， D.， et al. (2022). Constitutional AI： Harmlessness from AI Feedback. Anthropic. https：//arxiv.org/abs/2212.08073

[12] Bai， Y.， Jones， A.， Ndousse， K.， et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv preprint， arXiv：2204.05862. https：//arxiv.org/abs/2204.05862

[13] Perez， S.， & Conger， K. (2023， November 20). OpenAI board considered Dario Amodei as potential CEO replacement during Altman drama. TechCrunch. https：//techcrunch.com/2023/11/20/openai-board-considered-dario-amodei-as-potential-ceo/

[14] Sharma， M. (2026， February 9). On leaving Anthropic [Public Statement]. https：//mrinankshweb.com/leaving-anthropic

[15] Wiggers， K. (2024， January 8). Amazon completes $4 billion Anthropic investment. TechCrunch. https：//techcrunch.com/2024/01/08/amazon-completes-4-billion-anthropic-investment/

[16] Bass， D.， & Gurman， M. (2025， December 4). Anthropic's annualized revenue hits $4 billion， nearing OpenAI. Bloomberg Technology. https：//www.bloomberg.com/news/articles/2025-12-04/anthropic-revenue

[17] Knight， W. (2023， May 2). The AI Safety Problem That Never Gets Solved. WIRED. https：//www.wired.com/story/anthropic-constitutional-ai-alignment/

[18] Anthropic. (2023). Claude's Constitution. Anthropic Research Blog. https：//www.anthropic.com/index/claudes-constitution

[19] Kang， C.， & Metz， C. (2021， April 6). Researchers Are Making More Than $1 Million， Even at a Nonprofit. The New York Times. https：//www.nytimes.com/2021/04/06/technology/openai-salaries.html

[20] Tiku， N. (2026， February 12). Pentagon asked Anthropic to strip Claude's safety limits. The answer was no. The Washington Post. https：//www.washingtonpost.com/technology/2026/02/12/pentagon-anthropic-claude-safety/

內容轉載 | 求職洽談 | 商務合作

請添加微信18514460011

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.