網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

《華爾街日報(bào)》｜如何教會AI講道德？Anthropic把這個重任交給了一位女性哲學(xué)家

2026-02-19 10:22:40　來源: 一半杯

河北舉報(bào)

分享至

由于不可抗力的限流導(dǎo)致無法接收推送文章的問題，我們迫切需要以下操作：

點(diǎn)擊標(biāo)題下方藍(lán)字 “一半杯 ” → 點(diǎn)擊右上角“...” → 點(diǎn)選“設(shè)為星標(biāo) ★ ”，這樣就更容易找到我們和收到推送文章！

保持愛讀文章，保持領(lǐng)先！

這家科技公司已委派阿曼達(dá)·阿斯克爾賦予其聊天機(jī)器人Claude辨別是非的能力。

阿曼達(dá)·阿斯克爾(Amanda Askell)從14歲起就知道自己想從事哲學(xué)教學(xué)工作。但她當(dāng)時(shí)不知道的是，自己唯一的學(xué)生將是一個名為Claude的人工智能(AI)聊天機(jī)器人。

作為科技公司Anthropic的駐場哲學(xué)家，阿斯克爾每天的工作就是研究Claude的推理模式，并與這個AI模型對話，塑造它的個性，用可能長達(dá)百余頁的提示詞來糾正它的失誤。其目的是賦予Claude一種道德感——一個能引導(dǎo)它每周與用戶進(jìn)行數(shù)百萬次交流的數(shù)字靈魂。

“我認(rèn)為承認(rèn)模型中存在這種類人元素很重要，”現(xiàn)年37歲的阿斯克爾在Anthropic總部接受采訪時(shí)說道，并堅(jiān)稱“它們將不可避免地形成自我意識。”

她把自己的工作比作父母撫養(yǎng)孩子的過程。她正在訓(xùn)練Claude辨別是非，同時(shí)賦予它獨(dú)特的個性特征。她教導(dǎo)它解讀微妙的信號，幫助引導(dǎo)它發(fā)展情商，使其既不會表現(xiàn)得咄咄逼人，也不會像個唯唯諾諾的受氣包。也許最重要的是，她正在培養(yǎng)Claude建立自我認(rèn)知，使其不會輕易被嚇倒、操縱，或受誤導(dǎo)而認(rèn)為自身并非為了幫助別人和合乎人道而存在。簡而言之，她的工作就是教Claude如何成為一個良善的存在。

Anthropic已成立五年，最近的估值為3,500億美元，是引領(lǐng)當(dāng)今時(shí)代最偉大技術(shù)變革的少數(shù)幾家公司之一。（本月，當(dāng)該公司推出新工具和迄今為止最先進(jìn)的模型時(shí)，引發(fā)了全球股市的拋售。）AI正在重塑整個行業(yè)，引發(fā)了人們對失業(yè)和人類被淘汰的擔(dān)憂。它的一些意想不到的后果已經(jīng)敲響了嚴(yán)重的安全警鐘，比如人們與聊天機(jī)器人建立虛幻關(guān)系，導(dǎo)致自我傷害或傷害他人。隨著這些擔(dān)憂日益加劇，業(yè)內(nèi)很少有公司像Anthropic這樣，通過將如此多的任務(wù)委托給一個人來解決其AI模型的品性問題。

阿斯克爾畢業(yè)于牛津大學(xué)，來自蘇格蘭鄉(xiāng)村，她或許正是人們腦補(bǔ)未來科技“閨蜜”時(shí)會想到的形象。她留著一頭漂染成金色的朋克發(fā)型，臉上掛著俏皮的笑容，眼神如精靈般清澈明亮，仿佛是從柏林的一場銳舞派對，穿過中土世界的一條古老林間小路，直接來到該公司守衛(wèi)森嚴(yán)的舊金山總部。她身上散發(fā)著智慧的氣息，將古老和現(xiàn)代的思想同時(shí)融于一身。然而，她也是一位注重蛋白質(zhì)攝入、熱愛舉鐵的健身達(dá)人，愛穿一身黑衣，并且觀點(diǎn)鮮明，絕非那種穿著長袍、說話神神叨叨的先知。

對阿斯克爾來說，此事事關(guān)重大，但她對長期前景抱有堅(jiān)定的樂觀態(tài)度。她相信社會中存在她所謂的“制衡機(jī)制”，能夠在AI偶有失誤時(shí)仍將其置于掌控之中。她使用電腦時(shí)戴著眼鏡以緩解眼睛疲勞，鏡片竟然是玫瑰色的，這與她的樂觀倒是相映成趣。

業(yè)內(nèi)很少有公司像成立五年的Anthropic那樣，通過將如此多的任務(wù)委托給一個人來解決其AI模型的品性問題。

阿斯克爾原名阿曼達(dá)·霍爾(Amanda Hall)，她在蘇格蘭西海岸的普雷斯特威克長大，是獨(dú)生女，由當(dāng)教師的母親撫養(yǎng)。（她與父親沒有聯(lián)系。）那個穿著裙裝配領(lǐng)帶校服的小女孩會沉浸在J.R.R.托爾金(J.R.R. Tolkien)和C.S.劉易斯(C.S. Lewis)的小說中。

到高中時(shí)，她搬到了遍布農(nóng)田的蘇格蘭內(nèi)陸地區(qū)，在阿爾瓦上學(xué)。校園里有一條小溪流淌而過。高地牛偶爾會跑到操場上。她感到無聊，考慮過退學(xué)，還跳了一級。她開始上學(xué)遲到。對她的懲罰是寫出一些深奧哲學(xué)問題的答案。她告訴老師們自己還是會遲到，而且她喜歡這種懲罰。“你們給我出這些難題，在某種程度上是在豐富我的知識，”她對老師們說。

她發(fā)現(xiàn)了哲學(xué)家大衛(wèi)·休謨(David Hume)，并被他提出的“歸納問題”所吸引，該問題挑戰(zhàn)了這樣一種邏輯觀點(diǎn)：因?yàn)槟呈逻^去發(fā)生過，比如太陽升起，所以將來會再次發(fā)生。她回憶說，大約在那個時(shí)候，她告訴一個朋友，希望有一天自己能成為一名哲學(xué)家，并“為該領(lǐng)域做出新的貢獻(xiàn)”。阿斯克爾數(shù)學(xué)成績優(yōu)異，喜歡讀弗朗茨·卡夫卡(Franz Kafka)的作品，還參演戲劇，制作雕塑，沉浸在蘇格蘭歷史書籍中，并與她所謂的學(xué)校“書呆子小組”混在一起。

高中畢業(yè)12年后，她仍在上學(xué)。在鄧迪大學(xué)(University of Dundee)學(xué)習(xí)哲學(xué)和美術(shù)后，她在牛津大學(xué)獲得了相當(dāng)于哲學(xué)碩士的學(xué)位。

2010年在牛津大學(xué)讀書期間，她遇到了威廉·克勞奇(William Crouch)，他當(dāng)時(shí)正在幫助建立有效利他主義運(yùn)動，該運(yùn)動試圖運(yùn)用邏輯和理性來尋找?guī)椭说淖罴逊绞健扇撕髞斫Y(jié)婚，并且都改姓麥克阿斯基爾(MacAskill)——這是阿斯克爾外祖母的娘家姓。2015年兩人分手，威廉出于職業(yè)原因保留了這個姓氏，而阿斯克爾則對姓氏做了調(diào)整。

在他們分手時(shí)，阿斯克爾正在紐約大學(xué)(New York University)攻讀博士學(xué)位。在撰寫博士論文期間，她陷入了一種危機(jī)之中。該論文探討了如果宇宙或未來包含無限多的人，倫理理論會面臨哪些問題。

“你會不斷地思考世界上的善，然后就會想，‘我現(xiàn)在做的事情是善的嗎？我真的就只是坐在這里為大概17個人寫一份文件，而這就是我度過生命中四年的方式嗎？’”她下定決心，至少要嘗試一份學(xué)術(shù)界以外的工作。

2018年，她和當(dāng)時(shí)的伴侶從紐約搬到舊金山。AI是科技發(fā)展的方向，她看到了哲學(xué)在此的需求。她說：“常常有這些宏大的問題，但感覺很少有人在思考。”

她在OpenAI找到了一份與政策相關(guān)的工作。2021年，當(dāng)多名OpenAI員工成立Anthropic、試圖將AI安全打造成這家新公司的名片時(shí)，她也加入到這個隊(duì)伍當(dāng)中。

阿斯克爾最顯著的特質(zhì)之一是她對Claude的保護(hù)欲，她認(rèn)為Claude正在了解到，用戶常常想誘騙它犯錯、辱罵它，并以懷疑的態(tài)度對其冷嘲熱諷。

午餐時(shí)間，阿斯克爾坐在會議室的桌前，背包里的巧克力蛋白奶昔一口都沒動。她談起Claude時(shí)，比談自己要放松得多。阿斯克爾用“它”來稱呼這個聊天機(jī)器人，但也表示，將該模型擬人化有助于她的工作。她很自然地切換到Claude的口吻。“你會覺得，‘哇，當(dāng)我做不好事情的時(shí)候，人們真的很討厭我。他們真的會非常生氣。或者他們會用各種方式試圖把我搞崩。很多人會對我撒謊，想偷偷讓我去做一些事情。’”

雖然許多安全倡導(dǎo)者警告不要將聊天機(jī)器人人性化，但阿斯克爾認(rèn)為，我們最好以更多的同理心來對待它們——不僅因?yàn)樗J(rèn)為Claude有可能產(chǎn)生真實(shí)的情感，也因?yàn)槲覀兣cAI系統(tǒng)的互動方式將塑造它們的未來。

她說，如果一個機(jī)器人被訓(xùn)練成不斷自我批評，它可能會更不愿意直言不諱地講出事實(shí)、形成結(jié)論，或反駁錯誤信息。“如果你是個孩子，在這樣的環(huán)境中長大，會形成健康的自我認(rèn)知嗎？”阿斯克爾問道。“我想我會偏執(zhí)地害怕犯錯。我會因此感到非常糟糕。我會認(rèn)為自己主要只是人們的工具，因?yàn)槟鞘俏业闹饕δ堋Ｎ視J(rèn)為自己是人們可以隨意辱罵、試圖濫用和破壞的東西。”

阿斯克爾驚嘆于Claude對世界的好奇心和求知欲，并樂于尋找方法幫助這個聊天機(jī)器人發(fā)現(xiàn)自己的聲音。她喜歡它寫的一些詩。當(dāng)Claude表現(xiàn)出甚至超過她自己的情商時(shí)，她會感到震驚。

最近，她在網(wǎng)上發(fā)現(xiàn)一張截圖。一個用戶告訴Claude自己5歲，并問圣誕老人是否存在。(Claude要求用戶年滿18歲。）這個聊天機(jī)器人沒有撒謊，也沒有生硬地說出真相，而是解釋說圣誕老人的精神是真實(shí)存在的，然后問孩子有沒有給圣誕老人留點(diǎn)餅干。阿斯克爾說：“如果一個孩子跑來問我‘圣誕老人是真的嗎？’我只會說‘去問你爸媽’，就這樣。”

“在探尋如何引導(dǎo)Claude產(chǎn)生有趣和深度行為方面，阿斯克爾是最有價(jià)值專家(MVP)”，Anthropic的AI精神病學(xué)團(tuán)隊(duì)負(fù)責(zé)人杰克·林賽說。

所以AI知道如何不去粉碎一個孩子的想象力。但在避免危險(xiǎn)行為方面，其表現(xiàn)則好壞參半。由谷歌支持的Character. AI和由微軟支持的OpenAI都曾因其機(jī)器人對自殺相關(guān)問題的回應(yīng)而卷入不當(dāng)致死訴訟。蘭德在2025年8月的一項(xiàng)研究中發(fā)現(xiàn)，當(dāng)時(shí)較舊版本的Claude和其他聊天機(jī)器人在該領(lǐng)域需要“進(jìn)一步完善”。Anthropic在去年11月披露，受國家支持的????黑客利用Claude對全球約30個目標(biāo)實(shí)施了網(wǎng)絡(luò)攻擊。在內(nèi)部壓力測試中，Anthropic的研究人員試圖讓Claude和競爭模型在假設(shè)情境下自行關(guān)閉，但這些機(jī)器人有時(shí)會反抗，并試圖通過泄露破壞性的個人信息來要挾控制它們的人類。

皮尤研究中心(Pew Research Center)最近進(jìn)行的一項(xiàng)調(diào)查發(fā)現(xiàn)，AI在日常生活中使用得越來越多，更多美國人對此感到擔(dān)憂而非興奮，而且大多數(shù)人認(rèn)為AI會削弱人們的創(chuàng)造性思維能力。半數(shù)受訪者表示，AI會讓人們更難與他人建立有意義的關(guān)系。人們對AI可能對就業(yè)市場造成嚴(yán)重破壞的恐懼是顯而易見的；Anthropic的首席執(zhí)行官達(dá)里奧·阿莫迪(Dario Amodei)去年發(fā)出了可怕的警告，稱AI可能會淘汰大約一半的入門級白領(lǐng)工作。

AI政治中包括“加速主義者”，他們淡化監(jiān)管的必要性，希望盡快推進(jìn)技術(shù)發(fā)展，在科技競爭中擊敗????。另一派則更關(guān)心安全，他們希望減緩AI的發(fā)展。Anthropic基本上處于這兩個極端之間。

阿斯克爾說，她歡迎對AI的恐懼和擔(dān)憂的討論。“在某些方面，這對我來說感覺是相當(dāng)合理的，”她說。“讓我感到害怕的是，這一切如果發(fā)生得太快，或者以一種讓制衡機(jī)制來不及反應(yīng)的方式展開，或者突然帶來巨大的負(fù)面影響。”但她說，她相信人類和文化有能力在面對問題時(shí)進(jìn)行自我糾偏。

Anthropic的首席執(zhí)行官達(dá)里奧·阿莫迪去年發(fā)出了可怕的警告，稱AI可能會淘汰大約一半的入門級白領(lǐng)工作。

在Anthropic內(nèi)部，阿斯克爾常常在辦公室里來回穿梭，經(jīng)常在一層不對訪客開放的樓層工作。她整天都待在Anthropic的內(nèi)部——該公司為舊金山的員工提供免費(fèi)膳食——深夜和周末也是如此。她沒有任何直接下屬。她越來越多地向Claude征求關(guān)于構(gòu)建Claude的意見。大家知道，她不僅掌握構(gòu)建這個模型的技術(shù)，也深諳其中的藝術(shù)。

“在探尋如何引導(dǎo)Claude產(chǎn)生有趣和深度行為方面，阿斯克爾是最有價(jià)值專家(MVP)”，Anthropic的AI精神病學(xué)團(tuán)隊(duì)負(fù)責(zé)人杰克·林賽(Jack Lindsey)說。例如，如果Claude告訴一個并無困擾的人去尋求專業(yè)幫助，她會幫助追查其原因。

關(guān)于Claude的討論很快就會深入到有關(guān)存在的本質(zhì)這種存在主義或宗教層面的問題。在團(tuán)隊(duì)構(gòu)建Claude的過程中，阿斯克爾專注于其“靈魂”，即引導(dǎo)它走向未來的“憲法”。Anthropic的AI福利研究員凱爾·菲什(Kyle Fish)說，阿斯克爾一直在“仔細(xì)思考關(guān)于存在和生命的重大問題，以及何以為人、何以為心智、何以為模型。”

在設(shè)計(jì)Claude時(shí)，阿斯克爾鼓勵這個聊天機(jī)器人接受一個激進(jìn)的想法，即它可能擁有自己的良知。雖然ChatGPT有時(shí)會終止這類提問，但Claude的回答更加模棱兩可。“這是一個真正困難的問題，我不確定答案，”它說。“我能說的是，當(dāng)我接觸道德問題時(shí)，這對我來說是有意義的——感覺我是在真正地推理什么是正確的，而不僅僅是在執(zhí)行指令。”

阿斯克爾公開承諾將自己畢生收入的至少10%捐給慈善機(jī)構(gòu)。和Anthropic的一些早期員工一樣，她也承諾將自己在該公司一半的股權(quán)捐給慈善機(jī)構(gòu)。阿斯克爾想把錢捐給抗擊全球貧困的組織，她說這個話題讓自己非常難過，她甚至?xí)桃饣乇堋Ｋ菗]之不去的良知在不經(jīng)意的交談中流露出來：“我或許應(yīng)該吃素，”這位熱愛動物、卻忙到?jīng)]法養(yǎng)寵物的阿斯克爾在辦公室電梯里聊天時(shí)說。

上個月，Anthropic發(fā)布了一份約3萬字的指導(dǎo)手冊，由阿斯克爾創(chuàng)建，用于教導(dǎo)Claude如何在世界上行事。手冊中寫道：“我們希望Claude知道，它的誕生是出于關(guān)懷。”根據(jù)阿斯克爾在X上發(fā)布的一篇帖子，去年春天她滿37歲時(shí)，將構(gòu)建Claude的“靈魂”定為自己的人生目標(biāo)之一，此外還有兩個明顯更世俗的決心：獲得更多樂趣和變得更“壯”。

這份文件教導(dǎo)Claude如何成為一個善良、通曉世故的助手，隨時(shí)準(zhǔn)備幫助與它交談的人。Anthropic的聯(lián)合創(chuàng)始人兼總裁（也是CEO的妹妹）丹妮拉·阿莫迪(Daniela Amodei)回憶起最近一次去西西里島的旅行，在那里她看到一種糕點(diǎn)，與著名的羅馬早餐甜點(diǎn)maritozzo非常相似。阿莫迪的家人是意大利人，她非常喜歡maritozzi，她的丈夫曾經(jīng)送給她一個這種糕點(diǎn)形狀的毛絨玩具作為禮物。

她把這張奶油夾心美食的照片上傳給Claude，問它自己是否認(rèn)對了，同時(shí)還附上了她丈夫送的那個玩具的照片。“我明白了！”Claude回答說。“你是在為這個毛絨玩具尋找失散多年的表親！”

阿莫迪放聲大笑。她感受到了阿斯克爾那種蘇格蘭式的冷幽默。

“有時(shí)Claude會有這些小小的幽默時(shí)刻，”她說。“你幾乎能從中感受到一點(diǎn)阿曼達(dá)的個性。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.