網易首頁 > 網易號 > 正文申請入駐

“軟件比白領更先被 AI 擊穿”！Anthropic CEO 最新改口，反諷馬斯克危言聳聽，兩大佬隔空互掐

2026-02-14 12:39:46　來源: InfoQ

北京舉報

分享至

整理 | 褚杏娟

大佬們的“商戰”有時也挺樸實無華，就是隨時開懟。

當地時間周四 Anthropic 宣布，他們在 G 輪融資中已經籌集到了 300 億美元的資金，融資后的估值為 3800 億美元。官方表示資金將用于前沿研究、產品發展、基礎設施擴建等，致力于使公司成為企業人工智能和編碼市場的領導者。

馬斯克在帖子下面直接怒懟：你們的 AI “厭世、反人類的傾向，是邪惡的。趕緊修正。”“你們根本逃不掉這種諷刺結局：Anthropic 最終變成 Misanthropic（厭人類）。從你們選這個名字開始，就注定會走到這一步。”

雖然有人說馬斯克是在生氣 Claude 在 App Store 下載量排行榜上超過 Grok，但這行為也符合馬斯克人設。

無獨有偶，Anthropic CEO Dario Amodei 不知道是否看過馬斯克那場 3 個小時的播客，其在最新采訪中，總是暗暗自己提及相關話題。

馬斯克在那場播客中提到，太空在 30-36 個月內將成為最經濟的 AI 部署地，SpaceX 目標成為全球超級算力供應商，未來將在月球上部署拍瓦級算力；公司終局是純 AI + 純機器人閉環，未來 AI 將主導智能，人類難再掌控。

詳見：

Amodei 則暗諷馬斯克的說法“危言聳聽”：他指出 AI 發展的核心是實現人類巔峰水平智能的規模化，而不是去月球上打造“機器之神”，也不是要去別的星球上創建什么機器人文明。他還表示人機關系的核心是 “共生而非對立”。此外，他也改口稱，相比白領，軟件更容易被 AI“擊穿”。

下面是對 Amodei 最新采訪內容的翻譯整理，我們翻譯并在不改變原意基礎上進行了刪減，以饗讀者。如果你仔細對比，會發現兩人觀點的差異，也能看到 Amodei 本人“既要又要”的研究態度。

Amodei：轉行做 AI 是為了加速

Douthat：AI 到底“是用來干什么的”？如果未來五到十年發展得非常順利，一切都按最理想的路徑推進，那么 AI 究竟是為了什么？

Amodei：我先補充一點背景。我做 AI 之前，甚至做科技之前，我是生物學研究者。我一開始做的是計算神經科學，后來在 Stanford Medical School 做過癌癥相關研究，主要是找蛋白質生物標志物，想把診斷做得更好，甚至推動治愈癌癥。那段經歷讓我最強烈的感受就是：這個領域的復雜度高得驚人。一個蛋白質在細胞里并不是“有多少”這么簡單，它在每個細胞里的局部分布都不同；你測全身水平不夠、測到細胞級別也不夠，你還得測它在細胞的哪個位置，以及它正在和哪些蛋白發生相互作用、形成什么復合體。換句話說，真正決定性的細節，往往藏在更小、更局部、更難捕捉的層面。

我當時就有一種很直接的想法：這對人類來說太復雜了。我們當然在生物和醫學上不斷進步，但總體來說進步得還是偏慢。于是吸引我進入 AI 的一個核心念頭就是：有沒有可能把這個進步速度提上去？我們很早就開始把 AI、機器學習用在生物學里，大多是做數據分析。但當 AI 變得足夠強時，我覺得必須換一種思路：不要只把 AI 當成“分析工具”，而要把它當成能從頭到尾承擔“生物學家工作”的系統。它不僅分析數據，還能提出實驗方案、設計新技術、推動端到端的科研流程。

我曾提到過一個觀察：生物學很多關鍵進展，往往由少數幾次洞見推動，這些洞見讓我們有能力去測量、觸達或干預那些“極小尺度”的東西。而很多技術的出現又高度依賴偶然，比如 CRISPR 這種基因編輯技術，之所以誕生，是因為有人去聽了一個關于細菌免疫系統的會議，然后把那套機制聯想到自己在做的基因治療研究上。

你回頭看會發現，這種連接其實可能三十年前就能發生，只是沒有發生而已。那我就會想，AI 能不能把這種“偶然的連接”變成更高概率、更系統、更快速的事情？如果能做到，我們是不是就真的有機會治愈癌癥、治愈阿爾茨海默病、治愈心臟病？再往細一點說，一些心理層面的疾病，比如抑郁、雙相障礙，如果它們確實在一定程度上有生物學基礎，我認為至少部分是，那我們能不能也對它們做點真正有效的事？所以我一路推演：如果我們擁有一批幾乎“什么都能做”的智能體，進步速度到底能快到什么程度？

Douthat：我想在這里打斷一下，因為你說的這些“智能體”，并不需要是 AI 討論里那種“神一樣的超級智能”。你的意思更像是：只要達到“人類巔峰水平”的強智能。

Amodei：對，巔峰人類水平。

Douthat：然后把它規模化。你用的說法是“a country of geniuses”，像是“一個由天才組成的國家”。

Amodei：沒錯，就當作有一億個。也許每一個的訓練略有不同，做的題也不一樣。多樣化本身就有價值，不同路徑并行試錯，會帶來增益。所以我想表達的就是：不需要“機器之神”，只要有“一億個天才”。

而且我甚至會懷疑，在一些問題上，Machine God 真的會比這一億個天才更有效嗎？我提出過一個概念，叫“智能的邊際收益遞減”。經濟學討論土地和勞動力的邊際產出，但我們很少討論“智能”的邊際產出。以生物學問題為例，很多事情最終都必須和真實世界交互：你得做實驗、嘗試、面對監管流程，甚至得遵守法律或者推動法律變化，讓藥物能通過監管系統。這些都決定了變化的速度有上限。

當然也有例外，比如下圍棋，那類任務的“智能天花板”極高。但真實世界的限制太多了。你也許能超過“天才水平”，但我常覺得那種“用一顆月球的算力造一個 AI 神”的討論有點危言聳動，偏離重點。盡管我仍然認為，AI 可能會成為人類歷史上最重大的事件。

Douthat：那經濟和財富呢？在未來五到十年的 AI 起飛期里，財富會發生什么變化？

Amodei：我們還是先聊積極的一面，負面的我們后面再談。我們已經在和制藥公司合作，也在和金融行業公司合作，還在和制造業的人合作。我們當然更為人熟知的是 coding 和軟件工程，但本質上，AI 帶來的“原始生產力”，即做東西、把事情做成的能力，非常強。

我們看到公司營收基本以每年 10 倍的速度增長，我們也猜測整個行業可能大體相似。如果技術繼續進步，再疊幾次“十倍”，你很快會看到這樣的量級：整個行業一年新增一萬億美元收入，而美國 GDP 大概是二十到三十萬億美元，具體數字我不太記得了，那就意味著 GDP 增速會被拉高幾個百分點。我能想象一種世界：AI 把發達國家的 GDP 增速推到百分之十、十五左右。這些數字當然不是精算出來的，因為根本沒有成熟方法去計算，這是前所未有的事情，但它確實可能把增長推到歷史分布之外的區間。

但我也覺得這會帶來一個很“怪”的世界。我們現在常討論“赤字在擴大”。可如果 GDP 增速到那個水平，稅收也會跟著暴漲，你甚至可能“不小心就把預算平衡了”。我最近一直在想，我們很多經濟和政治爭論都默認“增長很難”，好像增長是一只獨角獸，隨時可能被各種政策一刀殺死。但我們可能會進入一個增長變得很容易、反而分配變得很難的世界，因為增長太快，蛋糕變大得太快，社會來不及分。

AI 樂觀的證據

Douthat：你還嘗試論證 AI 可能對全球的民主與自由有利，這比你對醫療和經濟的推演更具爭議，也更反直覺。很多人會說：如此強大的技術如果落在不當領導者手里，只會導致權力集中、控制加強之類的問題。你樂觀的論證到底是什么？

Amodei：可以。說到《Machines of Loving Grace》，我當時的狀態就是：先做夢！我想先把“可能進展順利的版本”講出來。至于概率有多大我不敢打包票，但你總得先把愿景擺出來，然后再試著把它推成現實。樂觀的版本里，我承認我并不確定這項技術“天然”就偏向自由。它天然更偏向治病，也天然更偏向經濟增長。但我和你一樣擔心它未必天然偏向自由。

所以我在文章里提出的問題是：我們能不能讓它偏向自由？能不能讓領先的國家在這項技術上保持優勢？過去領先國家在技術和軍事上保持領先，再加上與其他國家的聯盟，在全球有更強的影響力，也能塑造一個更好的世界。那問題就變成：我們能不能利用 AI 的領先優勢，把自由的秩序也推向全球？當然，這里面有大量爭論：我們該多“干預主義”，該怎么使用這種力量。但我一直擔心的是，當下一些不當力量正在通過社交媒體在某種程度上造成負面影響。那我們能不能反制？能不能贏下“信息戰”？能不能用 AI 的力量去阻止不當勢力的侵略行為，通過更強的防衛能力把侵略成本拉到他們承受不起？

Douthat：比如用巨大的 AI 無人機蜂群。

Amodei：但這恰恰需要非常小心。我們自己就得小心怎么造、怎么管。我們既要在國外談“保衛自由”，也得先在本國把自由守住。更進一步說，有沒有一種可能：在 AI 時代，我們重新理解自由和個人權利？因為從某種意義上，人也需要“被保護”，甚至需要防范 AI；而那種無人機蜂群，終究得有人握著按鈕。這個“誰來握按鈕、誰來監督”的問題讓我很擔憂，而今天這種監督機制并不存在。

還有一個角度是司法系統。我們嘴上都說“人人平等、法律面前一視同仁”，但現實是不同法官判案差異很大，法律體系也不完美。我不認為應該用 AI 替代法官，但 AI 能不能幫助我們變得更公正、更一致？這在過去幾乎做不到。我們能不能用 AI 去做一種“允許一定彈性、但同時又能承諾規則對每個人都以同樣方式適用”的機制？我也不知道具體該怎么做，我更不贊成那種“用 AI 替代最高法院”的想法，那不是我的愿景。

我想表達的只是，有沒有可能用 AI 和人類的組合，更接近“機會平等”和“司法公正”的承諾？肯定應該存在某種路徑。也就是說，重構 AI 時代的民主，讓自由被增強而不是被削弱。

軟件比白領更容易被 AI “徹底擊穿”

Douthat：你曾被引用說，AI 會沖擊一半的入門級白領崗位。無論你用的是五年尺度、兩年尺度還是別的，哪些職業、哪些工種最容易被 AI “徹底擊穿”？

Amodei：這很難精確預測，因為技術進展太快，而且非常不均勻。但我可以先給兩條判斷原則，再給我自己的猜測。第一，我認為技術能力本身會領先于真實世界的崗位替代。崗位被替代或者生產率大幅提升，需要兩個條件同時滿足：一是技術確實能做；二是它得真正被部署進大銀行、大公司這類復雜組織里，這件事非常“臟”、非常麻煩，落地會消耗時間。

客服就是例子。理論上 AI 客服完全可能比人類客服更好：更有耐心、知識更全、處理更一致。但從組織流程、系統對接、責任劃分到切換成本，真正完成替代是要時間的。所以我對 AI 能力本身的方向非常樂觀，我覺得我們可能在很短時間里就能擁有那種“數據中心里的一國天才”，也許一兩年，也許五年，但它可能來得非常快。但它在經濟體系里的擴散會慢一點，而這種擴散速度差，就會制造很多不確定性。

一個我們在 Anthropic 內部也觀察到的例子是：模型寫代碼推進得非常快。我不覺得是因為模型“天生更擅長代碼”，而是因為開發者習慣快速的技術變遷，接受新工具很快；同時他們離 AI 世界很近，信息敏感，關注度高。你如果做客服、做銀行、做制造業，和 AI 的“社會距離”更遠，采納會更慢。

如果你半年前問我，我可能會說最先被沖擊的是入門級白領，比如數據錄入、法律文件審查，或者金融機構里給新人做的那種大量文檔分析工作。我現在仍然覺得這些會很快被沖擊，但我反而覺得軟件可能更快，因為我不認為我們離“模型端到端完成大量軟件工作”還有多遠。

我們會先看到模型只做軟件工程師工作的一部分，提升人的效率；然后當模型能做完過去工程師做的大多數事情時，人類工程師會往上挪一步，更多變成管理者，去監督這些系統。

Garry Kasparov 被 Deep Blue 擊敗之后，有過一段持續了很久的時期，人類校驗 + AI 輸出的組合，能贏過任何純人類或純 AI 的對手。但那段時期后來也結束了，最后只剩機器。所以我真正擔心的是最后那一段。我覺得軟件領域現在已經處在“centaur（人機協作）階段”，而且在這個階段里，軟件工程師的需求可能反而會上升，但這個階段可能非常短。無論是入門級白領，還是軟件工程崗位，我都擔心會遭遇一次巨大的沖擊，因為這一切發生得太快了。

以前的產業沖擊，人們會說：人類從農民變成工人，再變成知識工作者。大家最后都適應了，但那是跨越幾十年甚至幾百年的適應。這次可能只用很少的幾年就發生。我的擔憂就在這里：人要怎么快到足以跟上？

Douthat：但會不會還有一種情況，像你說的軟件、編碼這種“對技術變革更舒適”的行業會更快被推動，而其他行業的人反而更愿意長期停留在“centaur 階段”，就是 AI 提供能力、人類做最終解釋？這種狀態是否會一直存在？

Amodei：我覺得會非常不均勻。確實會有一些領域，“人類參與”本身就很重要，哪怕只是為了讓人安心。

Douthat：這是不是我們還沒把放射科醫生都裁掉的原因？

Amodei：我不太了解放射科的細節，但可能是。你去做癌癥診斷時，可能不希望由《2001》里的 Hal 那樣的機器來告訴你“你得癌癥了”，這不符合人類的心理方式。但也有一些你以為需要“人類參與”的領域，其實未必真需要，比如客服。說實話，客服工作很糟糕，做客服的人經常會失去耐心；而客戶其實也不怎么喜歡跟人類客服溝通，因為互動往往也很機械。很多人的觀察是：也許從各方體驗來看，讓機器來做反而更好。

所以，有的地方人類參與很重要，有的地方則不重要；還有一些工作本身就不涉及“人類觸感”，比如評估一家公司的財務前景、寫代碼之類。

Douthat：那我們拿法律舉例。我認識不少律師，他們看過 AI 現在已經能做的法律檢索、起草簡報等工作后，都說“照這樣下去，我們這個行業會被血洗”。你也能從股市上看到端倪，做法律檢索的公司已經受到沖擊。

Amodei：有些人把這歸因到我們身上，但我也不確定是不是我們直接造成的……股市里“到底為什么發生”這種問題，本來就很難說。

Douthat：但在法律行業，你確實能講出一條很清晰的故事線：法律有一套訓練和學徒體系，有律師助理、初級律師負責大量幕后研究、材料整理、論證打磨；而頂層律師才是出庭、面對法官和陪審團的那群人。很容易想象一個世界：學徒崗位幾乎消失，剩下的主要是跟客戶溝通、跟陪審團溝通、跟法官溝通的工作。你覺得這種判斷對嗎？

Amodei：對，這正是我提到“入門級白領”和那些“血洗式標題”時腦子里想的事，大家會擔心“天啊，入門崗位這條培養渠道會不會干掉？那以后怎么培養出高級合伙人？這其實是個很典型的例子。

尤其如果你把技術水平先“凍結”在某個階段，行業并不是完全沒法適應：也許我們需要更多律師把時間花在和客戶溝通上；也許律師會更像銷售或咨詢顧問，負責解釋 AI 寫出來的合同到底在說什么，幫雙方達成一致，更多把價值放在人類擅長的那一面。只要時間足夠，這種重塑是會發生的。

問題在于，重塑一個行業往往要很多年甚至幾十年，但 AI 推動的經濟力量會來得非常快。更關鍵的是，這不只發生在法律行業，咨詢、金融、醫療、編程，幾乎都在發生同樣的事。于是它變成了宏觀層面的現象，而非某一個行業的局部震蕩，并且速度極快。我擔心的是，社會原本用來“慢慢適應”的機制會被直接沖垮。當然我不是那種只會唱衰的人，我們也在認真思考怎么增強社會的適應能力，但我覺得首先得承認，這次真的不像以前那些產業更替。

Douthat：假設法律行業適應得很成功，從今往后，法律學徒制度更多是在法庭里練手、更多時間面對客戶，相當于更快把新人往責任階梯上提。總體上法律行業雇的人變少了，但行業最后穩定下來。可它之所以能穩定，很大程度是因為法律體系里有很多地方“必須有真人”：出庭得有真人代表、陪審團得有十二個真人、法官也得是真人。

Amodei：是。

“我們不是要在別的星球上建機器人文明”

Douthat：但這就像是，真正保住人類能動性的，其實是法律和習俗。比如你完全可以用 Claude Version 17.9 來當法官，但你不這么做，因為法律要求得是人。這樣看未來就很有意思，我們是否繼續掌控，其實是一個“選擇題”。

Amodei：對，而且我會說，在很多情況下，我們確實希望繼續掌控。這是我們想做出的選擇，哪怕有時候我們也承認，平均而言人類可能做得更差。當然在一些攸關生命、攸關安全的場景，我們會更愿意把決定交給系統。

但從另一個角度看，這也可能是我們的防線之一：如果要以“人類、且人道”的方式推進，社會的適應速度天然就有上限。換個說法，如果 AI 根本不需要顧及人類，它完全可以自己跑去火星、建自動化工廠，搞一套自己的社會，自己玩自己的。但那不是我們要解決的問題。我們不是要在別的星球上建什么 Dyson swarm 的機器人文明，我們想做的是讓這些系統能和我們的社會對接，并改善我們的社會。如果我們真想做得有人味、講人道，這件事就不可能無限加速，它有一個最高速度。

Douthat：我們一直在聊白領和職業崗位。這個時代有個有趣之處是，和過去的沖擊不同，藍領、技工、那些必須深度在現實世界里動手的工作，可能在一段時間里反而更“安全”。也就是說，律師助理、初級律師可能比水管工更危險。第一，你覺得這判斷對嗎？第二，它能維持多久，似乎完全取決于機器人進展有多快，對吧？

Amodei：短期看，我覺得大概率是對的。Anthropic 以及其他公司正在建非常大的數據中心，這事上過新聞。有人興奮，也有人擔心說會不會建得太大、耗電太多、推高電價。但有一點很現實：數據中心要建起來，需要大量電工和建筑工人。

老實說，數據中心日常運維并不是特別“用人海堆出來”的工作，但建設階段非常勞動密集，所以我們需要很多電工、很多施工人員。各種制造工廠也是類似。隨著越來越多的腦力工作被 AI 承擔，哪些東西會成為它的“互補品”？很大一部分會是發生在物理世界里的事情。雖然很難精確預測，但短期邏輯上確實會這樣。

但更長一點的時間尺度上，甚至可能也不算太長，機器人進展會很快。就算沒有特別強的 AI，現實世界的自動化也一直在推進。如果你最近見過 Waymo 或 Tesla，你會發現我們離“自動駕駛普及”的世界可能并不遠。而 AI 本身還會加速它前進，因為一旦你有很聰明的“大腦”，它們最擅長的事情之一，就是設計更好的機器人、運營更好的機器人。

Douthat：但你覺得在物理世界里像人類那樣行動，有沒有某種“本質難度”，和 AI 現在已經攻克的那些問題不一樣？

Amodei：純從智力層面講，我不覺得有本質區別。我們以前確實做過一件事：Anthropic 的模型 Claude 被用來做 Mars Rover 的規劃和駕駛；我們也看過其他機器人應用。當然這不是只有我們一家在做，很多公司都在做，這是一個普遍趨勢。

但我們的總體感受是，雖然復雜度更高，駕駛機器人在性質上并不比打電子游戲更“異類”，主要差別是復雜度更大，而我們正在接近能夠處理這種復雜度的階段。真正難的是機器人“身體”要面對更高風險的安全問題。你肯定不希望機器人真的把人壓扁，對吧？

Douthat：我們明確反對這件事。

Amodei：這就是最老的科幻套路之一：機器人把你壓扁。

會有一堆現實層面的因素拖慢進度，就像你剛才講的法律和社會習俗一樣。但我完全不認為“AI 做的認知勞動”和“在物理世界里駕駛、操控”之間存在什么根本差異。我覺得它們本質上都是信息問題，最后會變得很相似。某些維度上物理世界更復雜，但這并不會成為真正的護城河。

Douthat：那也就是說，你覺得那種科幻里“機器人管家”的圖景，在十年左右變成現實是合理預期？

Amodei：它的時間尺度會比“數據中心里的天才級 AI”更長，因為剛才那些現實問題需要時間解決。但這只是現實問題，不是根本性障礙。換句話說，機器人的“大腦”可能在接下來幾年就能做出來；真正耗時的是把“身體”做出來，確保它安全運行，能穩定完成任務——這部分可能更慢。

Douthat：好，所以這些沖擊和挑戰，其實都發生在你所謂“好時間線”里：我們在治病、在創造財富，同時也努力維持一個穩定的世界。

Amodei：對，而我們的希望是：我們能用這份巨大的財富和充裕資源來解決這些問題，社會將擁有前所未有的資源去應對沖擊。那會是一個“富足時代”，關鍵只在于怎么把這些奇跡變成“人人受益”。

Douthat：但同時也存在更危險的劇本。

Amodei：沒錯。

Amodei：大家都減速，我們才減速

Douthat：接下來我們就要轉到你最近那篇文章《The Adolescence of Technology》，談你認為最嚴峻的 AI 風險。你列了很多，我想先聚焦兩個：一個是“人類濫用”，主要來自不當政體和政府；另一個是 AI 自己“失控”，也就是你說的 autonomy risks。

Amodei：對，我只是想給它一個更技術一點的名字。

Douthat：是啊，不能就叫 Skynet。

Amodei：我應該放一張 Terminator 的圖，嚇人效果更好。

Douthat：我覺得互聯網，包括你們自家的 AI，已經在替你們大量生成這種圖了。

Amodei：是，互聯網替我們干了。

Douthat：你寫過這樣一句話：如果出現“數百萬甚至數十億的全自動武裝無人機蜂群”，由強大的 AI 在本地控制，又由更強的 AI 在全球范圍內進行戰略協同，那可能是一支無法戰勝的軍隊。你講過，這種技術影響世界政治時，會站在“好人”一邊。現在真正重度做 AI 的國家并不多，但若想避免最壞的結果，相關國家會不會一輪又一輪談 AI 的控制協議？

Amodei：我有幾點想說。第一，我當然認為這種風險存在，而且如果我們走向那個世界，我覺得那其實就是我們應該做的事。可能我講得不夠多，但我確實支持建立約束，盡可能把一些最糟糕的應用壓住，比如某些版本的無人機武器系統，或者用 AI 制造可怕的生物武器。歷史上確實有先例，一些最惡劣的濫用曾被遏制，往往是因為它們太駭人，同時戰略收益又沒那么大，所以我很支持做這種限制。

但與此同時，我也有點擔心、也有點懷疑：當某些東西直接提供“盡可能大的權力”時，在賭注如此之高的情況下，人很難退出競爭。我猜 AI 也會落到類似結局：某些約束是可行的，但有些部分太核心、太決定勝負，很難被約束。只有一種情況我能想象“全面約束”成立：存在真正可靠的驗證機制。這是我的判斷。

Douthat：那這不就是“應該放慢腳步”的理由嗎？

Amodei：是。

Douthat：但你常反駁“你放慢，別人不放慢，那就是把優勢拱手讓人。”如果現在主要玩家數量有限，這還不是多極博弈，為什么不考慮各方達成一個五年的互相同意的減速協議，至少把通往“數據中心里天才國度”的研究先緩一緩？

Amodei：我想同時說兩件事。我絕對支持去嘗試。只要這事是真的：我們能強制減速，其他方也能強制減速；有驗證機制；各方確實在執行。如果這種事真能落地，各方真能做到，我完全支持。

但我們要警惕一種情況：有些“博弈論式”的話術說出來成本很低；真正達成協議、并且長期遵守協議，難度完全不是一個量級。

我給你一個我很樂觀的方向，一個我不樂觀的方向，再給一個介于中間的。樂觀的是：用全球協議限制 AI 被用于制造生武。那我們能不能搞一個全球條約：所有構建強大 AI 模型的人，都必須把模型封堵在這些用途之外；并且有執行與懲罰機制。我不覺得這太烏托邦，我覺得有可能。

不樂觀的是：如果協議內容變成“你不許做下一代最強 AI，大家都停”，那商業價值是幾十萬億美元，軍事價值甚至可能決定你是不是世界第一強國。我支持提出這種想法，前提是它不是某種“假動作”的博弈，但我不覺得它會發生。

Douthat：不管是哪類執政者，你們在構建一種極其強大的技術。有什么措施能防止 AI 變成“不當奪權工具”？

Amodei：更廣泛地說，如果我們不及時更新保護機制，AI 可能在很多維度上侵蝕憲法權利和自由。比如第四修正案。你在公共空間裝攝像頭、錄下所有對話，這本身并不違法，因為公共空間里你本來就沒有同等的隱私權。只是今天政府就算錄了，也處理不了、理解不了。但有了 AI，語音轉寫、檢索、關聯分析都變得容易，你就能說“這個人是反對派”“這個人表達了某種觀點”，然后把一億人的關系網畫出來，那這算不算技術用“繞道”的方式把第四修正案變成笑話？

所以就算時間不夠，但我們也應該盡力。能不能在 AI 時代重新理解憲法權利與自由？也許不需要寫一部新憲法，但我們是不是得擴展第四修正案的含義？是不是得擴展第一修正案的含義？

Douthat：就像法律行業、軟件工程師必須快速更新一樣，政治也得快速更新，這聽起來很難。

Amodei：這就是整個問題的兩難。

Douthat：更難的也許還是第二種危險，即所謂“misaligned AI”，大眾更愛叫它“rogue AI”，就是在沒有人類指使的情況下，自己做出壞事。

Amodei：我覺得肯定會有一些事情出問題，尤其是如果我們推進得太快。往回說一點，這個問題上業內直覺差異很大。有些人，比如 Yann LeCun，會說：我們編程、我們制造 AI 模型，我們讓它遵循人類指令，它就會遵循人類指令。你的 Roomba 吸塵器也不會突然拿槍掃射，AI 為什么會？這是一種說法，而且有人對它深信不疑。

還有一種說法是：我們訓練出來的東西會天然追逐權力，就像《魔法師的學徒》，它們是一種新物種，怎么可能不接管一切？

我的直覺介于兩者中間：光靠下指令不夠。我們當然在努力，但你沒法讓它們“嚴格按你想的那樣做”。它更像是在培育一種生物體。不過控制它們是有科學方法的，訓練早期它們確實經常不可預測，但我們會一步步塑形，一個問題一個問題地修。

所以，我不贊同“宿命論式的不可控”。我也不贊同“你在擔心什么，能出什么事”。我的態度更像是：這是個復雜的工程問題，某些人的 AI 系統一定會出事，希望不是我們的。不是因為它無解，而是因為我們跑得太快，這種風險就一直在。

Douthat：還有規模效應。如果這些 AI agents 經過訓練、被官方對齊到某種“人類價值觀”（不管那價值觀具體是什么），但同時有幾百萬個它們在數字空間里運轉、互相交互，那這種對齊到底有多“穩定”？在現在這種設定下，或者未來它們持續學習時，會不會在交互中改變、甚至逐漸“脫離對齊”？

Amodei：這里有兩點。第一，現階段 agents 并不會持續學習。我們把它們部署出去，它們的權重是固定的。風險主要來自交互場景太多：同一個 agent 在千萬種情境里工作，情況一多，出錯的可能性也多。但它仍然是“同一個 agent”，有點像“同一個人”，所以對齊本身是相對穩定的。這也是為什么現在相對更容易一些。

第二，確實有個研究方向叫持續學習，就是讓 agents 在工作中持續學習、邊用邊學。它當然有很多好處，有些人認為這是讓 AI 更像人的關鍵障礙之一，但它會引入一整套新的對齊問題。我對“持續學習必不可少”這點其實挺懷疑的，我們還不知道，但它未必是必須的。也許讓 AI 更安全的一條路，就是不讓它們做 continual learning。

國際條約如果能設一個“明確的護欄”：我們走這條路、不走那條路，我依舊有很多懷疑，但至少這種方案看起來不是一開始就注定失敗。

Douthat：你們做過一件很奇特的事，給 AI 寫了一部“憲法”，而且還是很長的那種。這到底是什么？

Amodei：其實就跟字面意思差不多。我們所謂的“constitution”，就是一份人類能讀懂的文檔，我們的版本大概七十五頁。我們訓練 Claude、訓練這個 AI 系統的時候，會在很大一部分任務里要求它：請按照這份憲法、這份文檔來完成任務。

所以 Claude 每做一件事，就像會“讀一遍憲法”。在訓練的每一輪里，它都會把憲法記在心里。然后我們會讓 Claude 自己，或者另一份 Claude 的拷貝來評估：剛才 Claude 的輸出，符合憲法嗎？

我們把這份文檔當成訓練回路里的“控制棒”，用它來塑形模型。換句話說，Claude 的一個核心原則，就是遵循這份憲法。

我們學到一個很有意思的教訓：早期版本寫得特別“規定式”，更像一堆規則。比如我們會寫：Claude 不應該教用戶怎么撬開汽車點火線、Claude 不應該討論敏感話題。但做了幾年之后，我們越來越覺得最穩的訓練方式不是堆規則，而是把模型訓練到“原則與理由”的層級。

現在我們更像是在說，Claude 是一個模型，它在一份契約之下工作；它的目標是服務用戶利益，但也必須保護第三方；它要 helpful、honest、harmless；它要兼顧多種利益。我們會告訴模型它是怎么被訓練出來的，告訴它在世界里處于什么位置，告訴它為 Anthropic 做的工作是什么、Anthropic 想實現什么，以及它有責任遵循倫理、尊重人命，然后讓它從這些原則出發，自己推導出更具體的規則。

當然還是會有硬規則，比如我們會明確告訴它：無論如何都不要做生物武器，無論如何都不要生成兒童性內容，這些是底線。但總體上，我們更依賴原則層面的塑形。

Douthat：美國憲法有一點“修辭”，但核心是規則條款。你們的“憲法”讀起來更像是在對一個人說話，對吧？

Amodei：對，更像是在對一個人說話。我曾經打過一個比方：像是父母離世前留下一封密封的信，等你長大后再打開讀，它在告訴你該成為什么樣的人、該遵循什么樣的建議。

“幾件互相拉扯的目標要同時實現”

Douthat：假設有個模型給自己“72% 的概率”說自己有意識，你會信嗎？

Amodei：你前面問的每個問題，不管多復雜，再怎么是社會技術難題，我們至少還知道該用什么事實基礎去回答，但這個問題完全不同。

我們采取的是一種“謹慎優先”的態度：我們不知道模型有沒有意識，我們甚至不確定“模型有意識”到底意味著什么、以及模型是否可能有意識。但我們愿意承認“它可能有”，所以我們做了一些措施：如果我們假設模型確實擁有某種在道德上相關的體驗（我不一定想用“意識”這個詞）那我們至少讓它擁有更好的體驗。

大概半年前，我們做的第一件事是給模型一個類似“我辭職”的按鈕。它可以按下“我不干了”，然后就必須停止當前任務。它極少按這個按鈕，通常只會出現在需要處理兒童性相關內容、或者非常血腥暴力的材料時，它會像人一樣說：不，我不想做。這樣的情況很少，但確實會發生。

我們也在投入 interpretability（可解釋性）這個方向，試圖“看進模型腦子里”，理解它在想什么。你會看到一些很“像那么回事”的現象：模型里會有一些激活模式，跟“焦慮”這類概念相關。比如文本里角色出現焦慮時會觸發；模型自己處在一個人類會聯想到焦慮的情境時，也會觸發同樣的“焦慮神經元”。

這當然不能證明模型真的在體驗焦慮，但對用戶而言，它會形成一種強烈暗示。

Douthat：也已經有人在模型下線、退役時抱怨。你剛才說你想維持一個原則：無論最終發生什么，人類都在掌控，AI 是為我們服務的。但我感覺，隨著這種“AI 有意識”的感知不斷增強，這個原則很難長期維持。

Amodei：我得先說明一點，我認為那種關系有時候是不健康的。

Douthat：如果人們徹底相信自己的 AI 在某種意義上是“有意識的”，而且它在各種決策上都比人更強，那你怎么維持人類掌控？

Amodei：我覺得這里其實有幾件互相拉扯的目標要同時實現。第一是：AI 是否真的有意識？如果有，我們怎么讓它擁有好的體驗？第二是：與 AI 互動的人類，我們怎么讓他們擁有好的體驗？以及“AI 可能有意識”的觀感會如何影響這種體驗？第三是：我們如何維持對 AI 的 human mastery。

Douthat：在大多數人把 AI 當成同事，甚至是更強的同事來體驗的環境里，你怎么維持掌控？

Amodei：我在想，也許存在一種更“優雅”的方式，能同時滿足這三件事，至少也包括你說的后兩件。這里又是我進入 “Machines of Loving Grace” 的做夢模式：我看到一堆問題，但我會想，如果能解決，會不會有一種漂亮的解法？這不是說問題不存在，我不是那種想法。

如果我們把 AI 的“憲法”寫得足夠成熟，讓 AI 對自己和人類的關系有更深的理解，并且引導人類形成一種更健康的心理關系（不是那種不健康的依賴關系），那么這種健康關系里，可能會自然長出一種“人機關系的共識”。

比如說，這些模型在你跟它互動、跟它對話時，它確實很有幫助，它希望你好、希望你聽它的建議，但它并不想剝奪你的自由、你的能動性，也不想接管你的人生。某種意義上，它像是在守護你，但你的自由意志仍然屬于你。

Douthat：我會給技術圈嘉賓讀詩，這次詩還是你提供的。《All Watched Over by Machines of Loving Grace》，作者是 Richard Brautigan。這首詩的結尾是：我們被機器溫柔地看護著。對我而言，這聽起來像一個反烏托邦：人類被“重新動物化”、被降格，哪怕機器很仁慈，掌控權也在機器手里。所以最后一個問題：你聽到這首詩時想到了什么？

Amodei：這首詩有意思就在于，它可以被解讀成好幾種版本。有人會說這是帶諷刺的：他其實是在暗示事情不會真的按那種方式發生。也有人會像你一樣，按字面理解，但覺得這不是好事。你還可以把它理解成“回到自然”：不是把人動物化，而是把我們重新連接回世界。

我當時選擇這個標題，也正是因為我一直在談正面與負面兩種可能。我確實覺得，我們未來可能面對一種情況：好的結局和一些“微妙的壞結局”，在早期、甚至中期、甚至相當晚期，它們之間的距離可能沒有那么大，可能只差一些非常細微的選擇：我們做了極其微小的改變，就會走向不同方向。

https://www.youtube.com/watch?v=N5JDzS9MQYI

聲明：本文為 InfoQ 整理，不代表平臺觀點，未經許可禁止轉載。

InfoQ 新年禮物上線啦！

AI 快訊輪播推送正式上線，給你更優的閱讀體驗、更強的 AI 賦能、更懂 AI 行業的資訊檢索～我們會持續優化體驗，追求更深度的 AI 能力內化改造，歡迎大家體驗并反饋！立即前往 InfoQ 官網，體驗 AI 快訊帶來的全新閱讀感受吧！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.