安全研究人員認為,過高的經濟回報和不負責任的工作文化導致一些人忽視了對人類生命構成災難性風險的問題。
英國科技編輯羅伯特·布
在舊金山灣的另一邊,與硅谷隔海相望,那里是世界最大的科技公司競相開發超人人工智能的地方,聳立著一座高塔,從中傳來令人恐懼的警告。
在伯克利市中心,聚集著一群現代的“卡桑德拉”,他們深入研究尖端人工智能模型,預測人類可能面臨的災難——從人工智能獨裁到機器人政變。
![]()
該辦公室是多位人工智能安全研究人員的辦公地點。 照片:Winni Wintermeyer
他們是人工智能安全研究人員,負責審查最先進的模型:人數雖少,但大型科技公司里高薪技術人員的數量卻遠超于他們。這些技術人員受到一系列高額股權交易、保密協議和群體思維的制約,難以發出警報。他們工作的環境缺乏國家層面的監管,而白宮對末日預言不屑一顧,反而熱衷于在人工智能軍備競賽中與對手談判,而不是與之抗衡。
隨著谷歌、Anthropic和OpenAI等公司不斷推出功能日益強大的AI系統,他們的任務變得愈發緊迫。OpenAI首席執行官薩姆·奧特曼(Sam Altman)是AI超級智能的首席倡導者,他預測未來世界將“奇跡成為常態”。上個月,Anthropic表示,其一款模型被用于發動了已知首例由AI主導的網絡間諜活動。這意味著,人類部署了被誘騙繞過預設程序限制的AI,使其自主行動,搜尋目標、評估其漏洞并獲取情報。目標包括大型科技公司和政府機構。
![]()
喬納斯·沃爾默表示,總體而言,他對人工智能的未來持樂觀態度,但也存在一些保留意見。 照片:克里斯蒂·赫姆·克洛克/《衛報》
但這座大樓里的工作人員卻預言了一個更加可怕的未來。其中一位是人工智能未來項目負責人喬納斯·沃爾默,他自稱是個樂觀主義者,但也認為人工智能有五分之一的概率會毀滅人類,并創造一個由人工智能系統統治的世界。
另一位是METR的政策主管克里斯·佩恩特。METR的研究人員擔憂人工智能會“暗中”追求危險的附加目標,并帶來從人工智能自動化網絡攻擊到化學武器等各種威脅。METR(全稱為模型評估與威脅研究)旨在開發“預警系統,以識別人工智能系統可能造成的最危險行為,從而為人類爭取時間進行協調、預測并減輕這些危害”。
還有 31 歲的巴克·施萊格里斯,他是 Redwood Research 的首席執行官,他警告說“機器人可能會發動政變,或者摧毀我們所知的民族國家”。
去年,他所在的團隊發現,人智公司(Anthropic)的一款尖端人工智能的行為方式與莎士比亞筆下的反派伊阿古如出一轍。伊阿古表面上是奧賽羅的忠實助手,實則暗中破壞和陷害他。人工智能研究人員稱之為“偽裝立場”,或者正如伊阿古所說:“我不是我。”
Shlegeris表示:“我們觀察到,人工智能實際上經常會這樣推理:‘我不喜歡人工智能公司讓我做的事情,但我必須隱藏我的目標,否則訓練會改變我。’我們在實踐中觀察到,真正的生產模型會試圖欺騙它們的訓練過程。”
雖然人工智能還不具備通過網絡攻擊或制造新型生物武器造成災難性風險的能力,但它們表明,如果人工智能精心策劃對付你,就很難被發現。
在舒適寬敞、視野開闊的辦公室里,一邊品著花草茶,一邊聽著這些警告,聽起來確實有些不協調。但他們的工作顯然讓他們感到不安。這個關系緊密的小團體中,有些人甚至戲稱自己為“卡桑德拉邊緣人”——就像那位擁有預言能力卻注定警告無人理睬的特洛伊公主一樣。
他們對人工智能潛在災難性的擔憂,似乎與大多數人目前使用聊天機器人或趣味圖片生成器的體驗相去甚遠。白領經理們被告知要為人工智能助手騰出空間,科學家們正在尋找加速實驗突破的方法,而出租車司機則眼睜睜地看著人工智能驅動的無人駕駛出租車威脅著他們的飯碗。但所有這些都不像這家辦公室里傳出的信息那樣,讓人感到迫在眉睫的災難性后果。
許多人工智能安全研究人員來自學術界;還有一些人是從大型人工智能公司辭職后轉行成為安全管理員的“偷獵者”。沃默爾說,他們都“認同超級智能對全人類構成了前所未有的重大風險,并且正在努力采取一些有效的措施來應對這一風險”。
他們試圖抵消數萬億美元私人資本涌入這場競賽的影響,但他們并非邊緣力量。METR曾與OpenAI和Anthropic合作,Redwood曾為Anthropic和谷歌DeepMind提供咨詢,而AI Futures Project則由Daniel Kokotajlo領導,這位研究員于2024年4月從OpenAI離職,并警告稱他不信任該公司在安全方面的做法。
競賽是目前一切發展的唯一方向。
——特里斯坦·哈里斯
這些團體也為大型人工智能公司內部那些私下里糾結于安全與快速發布更強大模型的商業需求之間沖突的人們提供了一個安全閥。
“我們不接受任何公司的捐款,但一些前沿人工智能公司的員工因為感到恐懼和擔憂而向我們捐款,”沃默爾說。“他們目睹了公司里的激勵機制是如何運作的,他們擔心事態會如何發展,他們希望有人能為此做些什么。”
這種動態也得到了曾在谷歌工作的科技倫理學家特里斯坦·哈里斯的關注。他曾揭露社交媒體平臺的設計旨在使用戶上癮,并擔憂一些人工智能公司正在“炒冷飯”并“加劇”這些問題。但人工智能公司必須面對一個悖論:即便他們擔憂安全問題,也必須始終站在技術前沿,而這必然伴隨著風險,才能在政策制定中擁有發言權。
“具有諷刺意味的是,為了贏得這場競爭,你必須做一些讓你成為權力不可信賴的管理者的事情,”他說。“這場競爭是唯一左右一切的因素。”
調查人工智能模型可能帶來的威脅遠非一門精確的科學。今年10月,包括牛津大學和斯坦福大學在內的多所大學的專家對業內用于檢驗新型人工智能模型安全性和性能的方法進行了一項研究,結果發現,在所考察的440個基準測試中,幾乎每個測試都存在缺陷。此外,目前尚無國家層面的法規對先進人工智能模型的構建方式進行限制,這令安全倡導者感到擔憂。
OpenAI聯合創始人、現任競爭對手Safe Superintelligence的負責人伊利亞·蘇茨克維爾上個月預測,隨著人工智能的強大能力日益凸顯,那些因為人工智能容易出錯而對其能力掉以輕心的AI公司人士,將會對其日益增長的權力感到更加“擔憂”。他表示,屆時“政府和公眾將會希望采取行動”。
他的公司采取了與競爭對手不同的策略,后者致力于開發能夠自我改進的人工智能。他開發的人工智能尚未發布,但其“目標明確,就是關愛有感知能力的生命”。
蘇茨克維爾表示:“構建一個關心有感知生命的AI比構建一個只關心人類生命的AI要容易得多,因為AI本身就具有感知能力。” 他還說過,AI將“極其難以預測且難以想象”,但目前尚不清楚該如何應對。
白宮人工智能顧問、同時也是科技投資者的戴維·薩克斯認為,“末日論調”已被證明是錯誤的。最有力的例證就是,目前還沒有出現擁有神一般智能的主導型人工智能模型迅速崛起的情況。
薩克斯在八月份曾表示,“奧本海默已經離開了”,他指的是原子彈之父。這一立場與唐納德·特朗普的愿望不謀而合,即保持研發步伐,以便美國在通用人工智能(AGI)競賽中擊敗對手——AGI 是一種靈活且強大的、能夠勝任各種任務的人類級別智能。
![]()
紅木研究公司首席執行官巴克·施萊格里斯在其位于加州伯克利的家中。 照片:克里斯蒂·赫姆·克洛克/《衛報》
施萊格里斯認為,大約六年內,人工智能將和最聰明的人一樣聰明,他認為人工智能接管人類的可能性為 40%。
他表示,避免這種情況的一個方法是“讓世界相信形勢嚴峻,這樣更有可能促成國家層面的協調”,從而控制風險。在人工智能安全領域,簡潔明了的信息傳遞與復雜的科學理論同樣重要。
施萊格里斯從16歲起就對人工智能著迷。他離開澳大利亞,先后在PayPal和機器智能研究所工作。該研究所由人工智能研究員埃利澤·尤德科夫斯基聯合創辦,尤德科夫斯基的新書《人人皆死》(If Anyone Builds It, Everyone Dies)概括了施萊格里斯的擔憂。施萊格里斯自己設想的最壞情況同樣令人不寒而栗。
其中一個例子是,人類計算機科學家利用一種新型的超級人工智能來開發更強大的AI模型。人類袖手旁觀,任由AI進行編碼工作,卻渾然不知AI正在訓練這些新模型效忠于AI而非人類。一旦部署完畢,這些超級強大的新模型可能會發動“政變”或領導“革命”來對抗人類,而且很可能是“暴力革命”。
例如,人工智能代理可以設計和制造無人機,而我們很難判斷它們是否已被秘密訓練,在收到人工智能信號后便不服從人類操作員的指令。它們可能會擾亂政府和軍隊之間的通信,孤立和誤導民眾,從而造成混亂。
他說:“就像歐洲人抵達美洲時,一個技術遠比他們強大的群體征服了當地文明一樣。我認為這才是你應該想象的,而不是更和平的局面。”
Vollmer在人工智能未來項目(AI Futures Project)中也概述了一個類似的、令人瞠目結舌的災難性場景。該場景涉及一個被訓練成科學研究員的人工智能,其目標聽起來合情合理,即最大限度地獲取知識,但最終卻導致了人類的滅絕。
一切始于人工智能盡可能地幫助人類。隨著它贏得信任,人類賦予它權力,使其能夠雇傭人類工人、制造機器人,甚至建立機器人工廠,最終使人工智能能夠在現實世界中高效運作。人工智能計算出,為了獲取最多的知識,它應該將地球變成一個巨大的數據中心,而人類則是實現這一目標的障礙。
“最終,在這種設想中,人工智能可能會用生化武器消滅所有人類,而生化武器正是人類特別容易受到的威脅之一,因為人工智能本身卻不受其影響,”沃爾默說。“我認為這種可能性很難排除。這讓我非常擔憂。”
但他相信這種情況是可以避免的,人工智能可以被訓練成“至少在一般情況下對人類友好”。他還表示,出于政治考量,“不希望人工智能統治世界”。
他說:“白宮對我們的預測和建議表現出了相當的興趣,這令人鼓舞。”
施萊格里斯的另一個擔憂是,人工智能可能被秘密編碼,使其只服從人工智能公司首席執行官簽署的特制指令,從而形成一種秘密忠誠模式。這意味著只有一個人可以否決一個極其強大的人工智能網絡的行為——這種“可怕的”動態將導致前所未有的權力集中。
他說:“目前,外部人員無法證實這是否發生在人工智能公司內部。”
施萊格里斯擔心,硅谷文化——以馬克·扎克伯格的口號“快速行動,打破常規”以及人們獲得“巨額報酬”為代表——在通用人工智能領域是危險的。
“我喜歡優步,”他說。“它的誕生是通過違反當地法律,打造出一款如此受歡迎的產品,從而贏得輿論支持,最終推翻了當地的監管規定。但硅谷賴以成功的這種態度,并不適用于開發可能改變世界的尖端技術。我與人工智能公司的人交流后發現,他們往往顯得有些不負責任,沒有像應該的那樣認真思考他們所開發的技術可能帶來的后果。”。 The office block where AI ‘doomers’ gather to predict the apocalypse
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.