ANTHROPIC：AI行業(yè)“超我”的自相矛盾

2026-02-01 17:32:05　來源: 科學的歷程

湖北舉報

分享至

這家高喊人工智能危險性的人工智能公司似乎始終無法放慢腳步。
作者：Matteo Wong

談到人類滅絕，你肯定不想聽到這樣的話，但我當時確實聽到了：“事情發(fā)展得太快了，令人不安。” 我當時正和 Anthropic 的安全研究員 Sam Bowman 坐在會議室里。這家人工智能公司最新估值高達1830億美元，為了與 OpenAI、谷歌以及其他行業(yè)巨頭競爭，它完全有動力加快步伐，推出更多產(chǎn)品，并開發(fā)更先進的聊天機器人。但 Anthropic 內(nèi)部卻存在矛盾——他們對幾乎每一個決定都深思熟慮，甚至焦慮不安。

Anthropic 將自身定位為人工智能行業(yè)的“超我”：這家公司在圍繞這項技術(shù)的重大問題上擁有最權(quán)威的發(fā)言權(quán)，而競爭對手則專注于開發(fā)廣告和聯(lián)盟購物鏈接（Anthropic 的首席執(zhí)行官 Dario Amodei 上周在達沃斯接受采訪時就曾急于強調(diào)這一點）。周一，Amodei 發(fā)表了一篇題為《技術(shù)的青春期》的長文，探討了他所謂的“強大人工智能”（Anthropic 正在開發(fā)的技術(shù)）所帶來的“文明問題”。這篇文章尤其關(guān)注民主、國家安全和經(jīng)濟。“鑒于我們在明尼蘇達州目睹的慘狀，文章強調(diào)在國內(nèi)維護民主價值觀和權(quán)利的重要性尤為重要，”Amodei在 X 網(wǎng)站上寫道，這使他成為極少數(shù)公開反對特朗普政府近期行動的科技領(lǐng)袖之一。

當然，這種言論有助于品牌塑造——讓Anthropic在競爭激烈的行業(yè)中脫穎而出。但我長期關(guān)注這家公司，最近又與包括Amodei在內(nèi)的許多員工和高管進行了交流，我可以肯定地說，Anthropic至少在立場上是始終如一的。它不斷地就人工智能相關(guān)的倫理問題發(fā)表意見，并且似乎格外關(guān)注用戶安全。例如，Bowman的工作就是在Anthropic的產(chǎn)品發(fā)布前進行審核，確保它們不會散播諸如白人至上主義之類的言論；不會讓用戶陷入妄想危機；也不會生成未經(jīng)同意的色情內(nèi)容。

目前來看，這項努力似乎奏效了：與其他流行的聊天機器人（包括 OpenAI 的 ChatGPT 和埃隆·馬斯克的 Grok）不同，Anthropic 的聊天機器人 Claude 雖然技術(shù)水平與其他同類產(chǎn)品不相上下，甚至在某些方面更勝一籌，但并未出現(xiàn)任何重大的公開丑聞。（這或許部分是因為它的聊天機器人不生成圖像，而且用戶基數(shù)也比一些競爭對手的產(chǎn)品要小。）盡管 Anthropic 迄今為止躲過了其他大型語言模型所遭遇的各種丑聞，但該公司并未讓人相信此類問題能夠永遠避免。去年夏天我與 Bowman 會面時，該公司剛剛透露，在實驗環(huán)境中，Claude 的某些版本已經(jīng)展現(xiàn)出勒索用戶以及在用戶詢問如何制造生物武器時提供幫助的能力。但該公司仍然繼續(xù)推進其模型的開發(fā)，并表示 Claude 能夠編寫相當一部分——在某些情況下甚至是全部——自身的代碼。

Anthropic公司發(fā)布白皮書，揭露其賦予Claude的種種可怕能力（例如《LLM如何成為內(nèi)部威脅》、《從捷徑到破壞》），并向政界人士提出這些問題。OpenAI首席執(zhí)行官Sam Altman和其他人工智能高管也長期以來大肆渲染人工智能的破壞潛力，而這往往是為了自身利益。但這些競爭對手卻發(fā)布了粗制濫造的TikTok克隆產(chǎn)品和垃圾生成器。如今，除了聊天機器人之外，Anthropic公司唯一的主要消費產(chǎn)品是Claude Code，這是一款功能強大的工具，號稱可以自動化各種工作，但其目標用戶群體仍然相對有限，主要集中在開發(fā)者和程序員。

這家公司的謹慎態(tài)度導致其企業(yè)文化有時令人費解。Anthropic公司似乎比競爭對手更真誠地致力于安全，但它也在全力研發(fā)一些它自己也承認可能極其危險的工具。這家公司似乎渴望脫穎而出。但Anthropic的真正理念是什么？

Anthropic 由七位從 openai 分裂出來的創(chuàng)始人于 2021 年創(chuàng)立，其員工和高管們都顯得異常認真，甚至有些病態(tài)。我旁聽了 Anthropic 社會影響團隊的一次會議，這是一個致力于研究人工智能如何影響工作、教育等領(lǐng)域的團隊。這是一次頭腦風暴會議：團隊希望探索能否開發(fā)出與人類協(xié)同工作比單獨工作效果更好的人工智能模型，他們認為這有助于預防或減緩失業(yè)。一位研究員發(fā)言，他敦促團隊考慮，在不久的將來，人工智能模型可能在所有方面都超越人類。“基本上，我們完蛋了，”他說。如果真是這樣，這次會議只不過是一次“美好的思維練習”。團隊同意這種可能性，然后繼續(xù)討論其他議題。

這位研究人員將他短暫的、帶有存在主義色彩的思考稱為“典型的人擇哲學”。超理性思維實驗、關(guān)于人工智能是否可以被更好地塑造的激烈辯論、對技術(shù)進步的堅定信念——這些都是典型的人擇哲學特征。這些特征自上而下地滲透。在社會影響會議幾周后，我想了解一下阿莫迪本人對這一切的看法。如果說奧特曼是人工智能熱潮的偉大推銷員，谷歌DeepMind首席執(zhí)行官、諾貝爾獎得主德米斯·哈薩比斯是其科學家，那么阿莫迪就是業(yè)內(nèi)最接近哲學家的人。他還負責一些使ChatGPT成為可能的技術(shù)研究。“每當我提到‘人工智能’，人們就會想到他們今天正在使用的東西，”阿莫迪雙手交疊放在頭頂，告訴我。 “我?guī)缀鯊牟豢紤]這些。我?guī)缀蹩偸窍胫何覀兠咳齻€月發(fā)布一個新版本。八個版本之后我們會發(fā)展到什么程度？兩年后呢？ ”

在 OpenAI 工作期間，阿莫迪撰寫了一份名為《計算的龐然大物》的內(nèi)部文件。文件中闡述了他的觀點：人工智能模型會隨著投入資源的增加而不斷改進。更強大的算力、更多的數(shù)據(jù)、更多的芯片，帶來更優(yōu)秀的人工智能。如今，這種信念驅(qū)動著整個行業(yè)。對人工智能進步的堅定信念或許正是 Anthropic 公司的標志性特征。該公司聘請了一位“模型福利”研究員，研究 Claude 是否能夠感受到痛苦或擁有意識。該公司還在員工餐廳設置了一臺微型人工智能自動售貨機，以研究這項技術(shù)能否自主運營一家銷售零食和小飾品的小型企業(yè)。Claude 負責選擇庫存、設定價格和請求補貨，而人類只需負責上架即可。歡迎來到奇點時代。

阿莫迪和團隊其他成員創(chuàng)立Anthropic的部分原因在于，他們對如何讓世界為人工智能做好準備存在分歧。阿莫迪尤其擔心工作崗位流失，他告訴我，人工智能可能在五年內(nèi)抹殺很大一部分白領(lǐng)工作；他在《技術(shù)的青春期》一書中專門用一個章節(jié)來探討人工智能熱潮可能帶來的危險，即巨額財富可能會主要流向像他所在的公司這樣的企業(yè)。

即便如此，盡管阿莫迪做出了諸多悲觀預測，他仍然對“末日論者”——即他們的主要動機是防止人工智能摧毀大量工作崗位或生命——的說法感到不滿。“我通常比較樂觀，”他告訴我。除了《技術(shù)的青春期》之外，阿莫迪還發(fā)表了一篇長達14000字的宣言，名為《充滿愛意的機器》，全面闡述了他對其技術(shù)的烏托邦式愿景：消除幾乎所有疾病，使數(shù)十億人擺脫貧困，并將人類壽命延長一倍。文章中絲毫沒有諷刺意味；它設想人們會被人工智能的偉大成就“感動得熱淚盈眶”。阿莫迪的員工在與我交談時多次提到這篇文章。與此同時，奧特曼在X論壇上胡言亂語，而馬斯克似乎深陷于人工智能的泥沼和陰謀論之中。

2023年，Anthropic公司推出Claude機器人時，其最顯著的特點是擁有一份“憲法”，該憲法詳細規(guī)定了Claude的行為準則。上周，Anthropic公司對這份文件進行了修訂，使其成為一份長達22000字的專著，闡述了如何將Claude培養(yǎng)成一個道德高尚、真誠正直的機器人。憲法的作者寫道，Claude有能力誘發(fā)情感依賴、設計生物武器并操縱用戶，因此Anthropic公司有責任在Claude身上灌輸正直的品格，以避免這些后果。“一旦我們決定創(chuàng)造Claude，即使是不作為也是一種行動，”他們寫道。其他任何公司都沒有，或者說沒有任何其他公司擁有真正意義上的類似文件。

阿莫迪表示，他希望競爭對手公司以他認為更負責任的方式行事。事實上，Anthropic 的幾項重要的 AI 安全舉措和研究成果已被其主要競爭對手采納，例如其防止利用 AI 制造生物武器的方法。OpenAI 也分享了一份“模型規(guī)范”，這是其對 Anthropic 章程更為精簡務實的回應——其中并未提及 ChatGPT 的“特性”或“維護重要的社會結(jié)構(gòu)”。（OpenAI 與《大西洋月刊》有企業(yè)合作關(guān)系。）

當然，這一切都有助于提升Anthropic的盈利：Anthropic總裁（也是Dario的妹妹）Daniela Amodei在2024年于Anthropic舊總部一間悶熱的會議室里告訴我，對責任的重視“對那些同樣非常注重安全和品牌的大型企業(yè)來說極具吸引力”。近兩年后，Anthropic已占據(jù)企業(yè)人工智能市場40%的份額。Amodei家族希望他們的商業(yè)成功能夠促使競爭對手也更加積極地將安全放在首位。

話雖如此，這些旨在引發(fā)“競相攀升”（阿莫迪經(jīng)常提及的一個短語，他的員工也經(jīng)常引用）的努力是否成功，這一點并不總是顯而易見的。早在“人工智能精神病”出現(xiàn)之前，Anthropic 的研究就已將人工智能的阿諛奉承問題確立為一個問題，然而人工智能精神病仍然成為許多人似乎正在遭受的困擾。阿莫迪也承認自己的產(chǎn)品并非完美無缺。“我絕對不想保證我們永遠不會遇到這些問題，”他說。幾位獨立的人工智能研究人員，包括一些與 Anthropic 合作測試 Claude 各項風險的研究人員，告訴我，盡管 Anthropic 似乎比其競爭對手更重視人工智能安全，但這標準仍然很低。

Anthropic 的模式通常是發(fā)布人工智能模型的信息，然后等待世界各國就如何控制或監(jiān)管這些模型做出艱難的決定。Anthropic 的聯(lián)合創(chuàng)始人兼政策主管杰克·克拉克 (Jack Clark) 的主要監(jiān)管建議是，各國政府應制定“透明度”要求，或者強制要求企業(yè)報告其內(nèi)部測試揭示的人工智能產(chǎn)品信息。但該公司對哪些信息值得公開有著嚴格的規(guī)定。例如，該公司很少公開其人工智能訓練數(shù)據(jù)或碳足跡。當我問克拉克有多少信息仍然隱藏——尤其是在 Anthropic 的人工智能工具的實際開發(fā)過程中——他認為，人工智能模型的生成過程的透明度并非至關(guān)重要。（而且，其中一些信息很可能屬于專有信息。）克拉克告訴我，真正重要的是這項技術(shù)的最終成果。

他解釋說，目前存在一種“根深蒂固的慣例，即工廠內(nèi)部的一切運作基本上都由建造該工廠的創(chuàng)新者自行決定，但人們更關(guān)心的是工廠最終產(chǎn)出的產(chǎn)品”，因此他認為人工智能公司分享產(chǎn)品制造過程的信息遠不如報告其功能重要。他表示，通常情況下，只有當產(chǎn)品中的某些成分——例如重金屬——引起關(guān)注時，政府才會“介入”工廠內(nèi)部。至于長期以來對工廠內(nèi)部運作的監(jiān)管——例如服裝廠的緊急出口、肉類加工廠的清潔標準等等——卻被忽略了。（克拉克也指出，法律有時需要修改，而且它們尚未適應人工智能的發(fā)展。）

他竟然以華爾街為例來佐證自己的觀點。他說，立法者們“以為金融體系已經(jīng)足夠透明”，認為銀行、對沖基金等等都會就其交易情況提交可靠的報告。“然后金融危機爆發(fā)了，”監(jiān)管機構(gòu)意識到這種透明度不足且容易被操縱，于是國會修改了法律。（特朗普總統(tǒng)后來又修改了其中的大部分內(nèi)容。）克拉克似乎認為，從長遠來看，這才是系統(tǒng)應有的運作方式。但他的類比也引出了一個可能性：在人們真正弄明白如何正確運用人工智能之前，必然會經(jīng)歷一些可怕的錯誤。

9月中旬， Anthropic公司的網(wǎng)絡安全專家發(fā)現(xiàn)部分Claude用戶存在異常活動。他們懷疑這是一起大規(guī)模的、利用人工智能技術(shù)的網(wǎng)絡間諜活動——外國勢力試圖利用Claude自動竊取敏感信息。Anthropic公司迅速關(guān)閉了該活動，發(fā)布了一份報告，并派遣公司負責評估人工智能高級應用團隊的負責人Logan Graham向國會解釋情況。

理論上，這一系列事件體現(xiàn)了Anthropic公司的理念：檢測人工智能帶來的風險并向公眾發(fā)出警告。但此次事件也凸顯了網(wǎng)絡環(huán)境的不可預測性和不可控性。在黑客攻擊事件發(fā)生幾個月前，格雷厄姆曾告訴我，他對公司針對網(wǎng)絡威脅采取的預防措施“相當滿意”。

沒有人能夠預見任何人工智能產(chǎn)品可能被以各種方式使用，無論是好是壞，但這恰恰是Anthropic公司故作姿態(tài)顯得荒謬的原因。盡管Amodei警告過自動化可能帶來的危害，但Anthropic的機器人本身就是可能搶走工作崗位的產(chǎn)品之一；例如，許多人認為Claude是目前最擅長編程的人工智能。在我拜訪Anthropic辦公室之后，我參加了幾個街區(qū)外的一個軟件工程師活動，會上一些創(chuàng)始人就使用Anthropic軟件開發(fā)的產(chǎn)品發(fā)表了演講。有人演示了一個可以自動進行招聘推廣的工具——一位與會者似乎欣喜若狂地驚呼：“這將會摧毀整個行業(yè)！”

當我問幾位Anthropic的員工，在理想情況下他們是否希望人工智能的快速發(fā)展放緩時，似乎沒有人認真考慮過這個問題；即使對他們來說，這也太不切實際了。Anthropic的可解釋性研究員Joshua Batson（他研究人工智能模型錯綜復雜的內(nèi)部運作機制）告訴我，如果這個行業(yè)的發(fā)展速度能減半就好了。Anthropic的聯(lián)合創(chuàng)始人兼首席科學官Jared Kaplan告訴我，他更希望通用人工智能（AGI）在2032年而不是比如2028年出現(xiàn)；安全研究員Bowman則認為，哪怕只是放慢幾個月的速度也足夠了。不過，似乎每個人都相信，人工智能安全研究本身最終可以用Claude實現(xiàn)自動化——他們認為，一旦實現(xiàn)自動化，他們的測試就能跟上人工智能指數(shù)級增長的能力。

與業(yè)內(nèi)許多其他人士一樣，我采訪的員工也認為，無論是Anthropic還是其他任何人工智能公司，都無法真正放慢發(fā)展速度。“最終決定權(quán)在世界手中，而不是公司，”克拉克盤腿坐在椅子上告訴我，“資本市場的運作機制告訴我們，要加快速度。” 因此，他們確實加快了速度。據(jù)報道，Anthropic的估值高達3500億美元，其廣告充斥著Instagram和各大城市的廣告牌。本月，該公司推出了面向非軟件工程師的Claude Code產(chǎn)品版本，名為Claude Cowork。7月，正如《連線》雜志率先報道的那樣，阿莫迪在一份內(nèi)部備忘錄中告訴員工，Anthropic將尋求來自阿聯(lián)酋和卡塔爾的投資，用他的話說，這很可能會讓“獨裁者”獲利。關(guān)于專制人工智能危險性的警告一直是Anthropic公開宣傳的核心；《充滿愛意的機器》一書中就對“專制”人工智能的威脅進行了嚴峻的描述。

當我向阿莫迪提起此事時，他打斷了我。“我們從未承諾過不從中東尋求資金，”他說。“當你努力經(jīng)營一家負責任的公司時，很容易陷入一個陷阱，那就是你做的每一個決定”都可能被解讀為一種道德承諾。他表示，以前并沒有“迫切需要”從中東尋求資金，而且這樣做會涉及“諸多復雜因素”。我理解他的言下之意是，人工智能競賽對資金的巨大需求使得此類投資成為必然。不過，阿莫迪也表示，這些投資者不會對他的公司擁有任何控制權(quán)。在我們談話幾天后，Anthropic宣布卡塔爾投資局成為新一輪融資的“重要”投資者。

如果把視角拉遠一些，或許不用拉得太遠，Anthropic 的理念與 OpenAI、Google、Meta 以及其他所有人工智能領(lǐng)域的公司并無二致：打造功能強大的聊天機器人，并利用它們改變世界，擊敗競爭對手。整個公司都對人工智能的潛力抱有近乎狂熱的信念。克拉克告訴我，人工智能“是為數(shù)不多的能夠幫助我們擺脫未來人類挑戰(zhàn)的技術(shù)之一”，這些挑戰(zhàn)包括氣候變化、人口老齡化、資源爭奪、專制主義和戰(zhàn)爭。他說，如果沒有人工智能，世界上將會出現(xiàn)越來越多“如同《瘋狂的麥克斯》般的地區(qū)”。

在Anthropic從事人工智能安全工作的特倫頓·布里克恩將這種觀點推向了更為極端的境地：他理想情況下希望人工智能行業(yè)放慢腳步，但他告訴我，“我們每停滯一年，就會有許多原本不會遭受痛苦的人受到傷害。”他指的是人工智能最終可能治愈疾病并實現(xiàn)《愛的機器》一書中概述的所有其他目標。他的同事肖爾托·道格拉斯則聲稱，這樣的延誤“是以數(shù)百萬人的生命為代價的”。

Anthropic最大的困惑或許在于理論與實踐的沖突——安全人工智能的理念與贏得人工智能競賽所需的速度之間的矛盾。這家公司以深入的思考實驗和對未來真誠的爭論為核心構(gòu)建的企業(yè)文化，也必須推銷人工智能。在公司看來，這兩者相輔相成；與其讓埃隆·馬斯克或中國來主導人工智能的未來，不如由公司來負責任地引領(lǐng)。但這同時也為不擇手段地推進發(fā)展提供了一種方便的借口。我想起了公司在辦公室里安裝的那臺自動售貨機。克勞德僅僅一個月就因為一系列糟糕的定價和庫存決策而把這臺機器搞垮了。但這些其實都無關(guān)緊要：安斯羅派公司把機器放在了辦公室餐廳里所有免費零食的旁邊。

最近我問阿莫迪，鑒于他對安全的擔憂，他如何能為如此快的進度辯護時，他表示對自己的團隊充滿信心，并且還提出了一個新想法。他暗示，或許在不久的將來，克勞德會變得非常智能，以至于這個機器人能夠?qū)崿F(xiàn)一些革命性的事情：“也許在2027年的某個時候，我們想做的就是放慢速度，”他說，“讓模型自行修復。就幾個月而已。”

ANTHROPIC IS AT WAR WITH ITSELF

The AI company shouting about AI’s dangers can’t quite bring itself to slow down.

By Matteo Wong

作者簡介

馬特奧·王

跟隨
Matteo Wong是《大西洋月刊》的專職撰稿人。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.