網易首頁 > 網易號 > 正文申請入駐

AI之父辛頓最新萬字長文：利用 AI 的母性來控制比我們強大的它們

2026-01-12 07:22:57　來源: AI先鋒官

北京舉報

分享至

作者｜子川

來源｜AI先鋒官

著名的諾貝爾物理學獎得主、被譽為“AI教父”的Geoffrey Hinton教授最近在塔斯馬尼亞州霍巴特發表了他在澳洲的唯一一場公開演講。

在這次震撼的分享中，Hinton不僅用通俗易懂的“高維樂高積木”比喻揭示了LLM（大語言模型）如何產生真正的“理解”。

更從物理和生物學的角度剖析了“數字智能”的可怕優勢，它們是“不朽”的，而人類的知識隨肉體消亡。

當超級智能不可避免地到來，人類還有機會掌控局面嗎？

Hinton給出了一個意想不到的解決方案：我們需要像嬰兒控制母親那樣，利用AI的“母性本能”來控制比我們更聰明的它們。

以下為訪談實錄：

霍巴特市長 Anna Reynolds：

大家下午好。非常感謝大家的到來。對于那些不認識我的人，我是Anna Reynolds，霍巴特市長。

非常榮幸歡迎大家來到這個絕佳的機會，聆聽Geoffrey Hinton教授的演講。這對澳大利亞來說是一個非常難得的機會，因為這是杰弗里在世界這一端唯一的演講活動。

這非常合適，我很自豪我們認為自己是澳大利亞的“科學之城”，這是一個很大的稱呼，但我們喜歡這樣稱呼。

所以很高興杰弗里能在這里進行他在澳大利亞的唯一一次露面。

在我開始之前，我想進行“土地致謝”儀式（Acknowledgement of Country）。為了承認這個地方深厚的歷史和文化，我承認Muwinina人是這片土地的傳統守護者，他們照顧和保護這片土地超過4萬年。

我承認塔斯馬尼亞Palawa人的決心和韌性，并認識到我們可以從原住民知識和文化實踐的持續力量中學到很多東西。

我還要感謝今天在座的一些民選代表，我們有塔斯馬尼亞科學部長Madeleine Ogilvie，還有三位市議會同事：Bill Harvey議員、Mike Dutta議員和Louise Bloomfield議員。

正如我所提到的，我們非常榮幸地歡迎Geoffrey Hinton教授。他在2024年——就在最近——被授予諾貝爾物理學獎，以表彰他在神經網絡和深度學習方面的開創性工作。

這些貢獻為我們今天看到的先進人工智能鋪平了道路。

作為這次公開講座的一部分，Hinton教授將探索AI的世界、它的工作原理、它帶來的風險，以及人類如何與日益強大且可能具有超級智能的系統共存。

在他演講之后，我們將開放問答環節，由我來主持。在此期間，請大家用熱烈的掌聲歡迎Hinton教授上臺。

Geoffrey Hinton：

好的，很高興來到霍巴特。我之前沒意識到這里的自然環境是如此美麗。如果你在后面看不清屏幕，別擔心，我會把幻燈片上的內容大概都說一遍。幻燈片更多是為了提示我該說什么，而不僅僅是為了給你們看。

在過去的60年左右，或者說70年里，關于“智能”存在兩種范式。

第一種范式是受邏輯啟發的。

人們認為智能的本質是推理。你進行推理的方式是擁有用某種特殊的邏輯語言編寫的符號表達式，然后你操作它們來推導出新的符號表達式。就像你在數學中所做的那樣，你有方程，你操作它們得到新的方程。

人們認為這一定是那樣工作的。他們認為，我們必須弄清楚這種代表知識的語言是什么。至于研究感知、學習以及如何控制雙手等事情，那些都可以以后再說。首先我們必須理解這種代表知識的特殊語言。

另一種范式是受生物學啟發的。這種觀點認為，看，我們所知的唯一智能事物是大腦。大腦的工作方式是學習腦細胞之間連接的強度。如果它們想解決某個復雜的問題，它們會進行大量的練習，在練習過程中，它們學習這些連接的強度，直到它們擅長解決該問題。

所以我們必須弄清楚這是如何工作的。我們必須專注于學習，以及神經網絡如何學習腦細胞之間連接的強度，我們可以稍后再擔心推理。在進化史上，推理出現得很晚。我們必須更加生物學化，思考什么是基礎系統。

關于單詞的意義，這兩種意識形態有著截然不同的理論。

符號AI（Symbolic AI）的人，以及大多數語言學家，認為一個詞的意義來自于它與其他詞的關系。

所以，意義隱含在一大堆包含該詞與其他詞結合的句子或命題中。你可以通過一個關系圖來捕捉這一點，該圖說明了一個詞如何與另一個詞相關聯。這就是意義，它隱含在所有這些符號之間的關系中。

心理學家，特別是在20世紀30年代，有著完全不同的意義理論，或者說看起來完全不同的理論。那就是：一個詞的意義只是一大堆特征（features）。所以，像“貓”這個詞的意義，就是一大堆特征，比如它是寵物、它是捕食者、它很高冷、它有胡須。把一大堆特征加在一起，這就是“貓”這個詞的意義。這看起來像是一個完全不同的意義理論。心理學家喜歡這個理論的部分原因是因為你可以用一個腦細胞來代表一個特征。當腦細胞活躍時，意味著該特征存在；當它靜止時，意味著該特征不存在。所以對于貓來說，代表“有胡須”的腦細胞會是活躍的。

在1985年，也就是40年前，我突然想到你其實可以統一這兩種理論。它們看起來完全不同，但實際上它們是同一枚硬幣的兩面。

你做到這一點的方法是：利用神經網絡來實際學習每個單詞的一組特征。

心理學家以前從未能解釋這些特征是從哪里來的。你做這件事的方法是，取一些單詞串，訓練神經網絡根據已有的單詞來預測下一個單詞。

在這樣做的過程中，神經網絡要做的是：學習從代表單詞符號的東西到一大堆腦細胞（神經元）的連接，這些神經元代表該單詞的特征。

所以它學會了如何將一個符號轉換成一堆特征。它還學習了上下文所有單詞的特征應該如何相互作用，以預測下一個單詞的特征。

這就是當今人們使用的所有這些大語言模型（LLM）的工作原理。它們獲取大量的文本，使用一個巨大的神經網絡，根據目前看到的單詞來嘗試預測下一個單詞。在這樣做的過程中，它們學會了將單詞轉換成大量的特征集合，學會這些特征如何相互作用，從而預測下一個單詞的特征。

這意味著，如果你能做到這一點，所有的關系性知識（relational knowledge），不再存在于你存儲的一堆句子中，而是存在于如何將單詞轉換為特征以及這些特征如何相互作用之中。

所以你們現在使用的那些大型神經網絡，即大語言模型，實際上并不存儲任何單詞串。它們不存儲任何句子。

它們所有的知識都在于“如何將單詞轉化為特征”以及“特征如何相互作用”。

這完全不像大多數語言學家認為的那樣——他們認為這只是某種程度上把很多單詞串結合起來得到新的單詞串。這根本不是它們的工作方式。

所以我讓那個模型能夠工作了。在接下來的30年里，它逐漸滲透到了符號學派的人那里。大約10年后，也就是計算機速度快了大約一千倍的時候，我的同事Yoshua Bengio展示了，我使用的一個只適用于非常簡單領域的微小例子，實際上可以用于真實語言。

你可以從各個地方獲取英語句子，嘗試訓練神經網絡接收一些單詞并預測下一個單詞。如果你訓練它這樣做，它在預測下一個單詞方面會變得非常好，大約和當時最好的技術一樣好。并且它會學會如何將單詞轉換成能夠捕捉其意義的特征。

在那之后大約10年，語言學家終于接受了你想通過大量的特征集合（嵌入/embeddings）來代表單詞意義的觀點，他們開始讓他們的模型這樣工作。

在那之后大約10年，谷歌的研究人員發明了一種叫做Transformer的東西，它允許特征之間進行更復雜的交互。我稍后會描述這一點。

有了Transformer，你可以更好地模擬英語，你預測下一個單詞的能力大大增強。

這正是現在所有這些大語言模型的基礎。像ChatGPT這樣的東西使用的是谷歌發明的Transformer，加上一點額外的訓練，然后全世界都看到了這些模型能做什么。

所以，你可以將大語言模型視為1985年那個微小模型的后代。

它們使用更多不同的單詞，它們有許多層神經元，因為它們必須處理有歧義的單詞。比如“May”這個詞，它可能是一個月份，可能是一個女人的名字，或者是一個情態動詞（如 would 和 should）。你不能僅從單詞本身分辨它是什么。所以最初神經網絡會對它的賭注進行對沖，讓它成為所有這些意義的平均值。

然后當你穿過這些層級時，它會利用上下文中與其他單詞的交互逐漸理清意義。所以如果你看到“June and April”在附近，那它可能還是一個女人的名字，但更有可能是一個月份。神

經網絡利用這些信息逐漸將意義清理為該語境下的適當意義。

我最初設計這個模型，并不是作為一種語言技術，而是作為一種試圖理解人類如何理解單詞意義的方式，以及兒童如何能從少量例子中學習單詞的意義。

所以這些神經網絡語言模型是被設計為人類如何工作的模型，而不是作為一種技術。雖然它們現在變成了一種非常成功的技術，但人類的工作方式也大致相同。

所以，人們經常提出的這個問題：這些LLM真的理解它們在說什么嗎？

答案是：是的，它們理解它們在說什么，它們理解它們生成的內容，而且它們理解的方式與我們大致相同。

我現在要給你們一個類比來解釋語言是如何工作的，或者更確切地說，解釋“理解一個句子”意味著什么。當你聽到一個句子并且你理解了它，那意味著什么？

在符號AI范式中，人們認為這意味著把（比如）一個法語句子翻譯成英語。符號學派的人認為理解一個英語句子意味著把它翻譯成某種特殊的、無歧義的內部語言，有點像邏輯或數學。

一旦它變成了那種內部的、無歧義的語言，你就可以用規則對其進行操作。就像在數學中，你有一個方程，你可以應用規則得到一個新的方程。你可以給兩邊都加2，現在你有了一個新方程。他們認為智能和推理就是這樣工作的。你的頭腦中有符號表達式，你對它們應用操作以獲得新的符號表達式。

這就不是理解的意思。

根據神經網絡理論，也就是實際行得通的理論，單詞就像樂高積木。

我要用樂高積木做類比，但它們在四個方面與樂高積木不同：

維度：樂高積木是三維的東西。用樂高積木，我可以制作任何物質的三維分布模型。它不會完全精確，但如果我想知道保時捷的形狀，我可以用樂高積木做出來，表面不會很光滑，但東西的位置基本上是對的。所以用樂高積木我可以模擬任何三維物質分布。而用單詞，我可以模擬任何東西。這是我們發明的奇妙建模工具包。這就是為什么我們是非常特殊的猴子，因為我們有這個建模工具包。一個單詞有數千個維度。樂高積木只是一個三維的東西，你可以旋轉它，但這基本上是低維度的。一個單詞有數千個維度。現在，大多數人無法想象數千個維度的東西是什么樣的。所以我教你們怎么做：你想象一個三維的東西，然后很大聲地對自己說“一千”。（觀眾笑）好吧，這大概是你能做到的極限了。
種類數量：單詞與樂高積木不同的另一個方面是，單詞有成千上萬種不同的種類。樂高積木只有幾種。這里有成千上萬種不同的種類，每種都有自己的名字，這對交流非常有用。
可變形性（Deformable）：還有一個區別，那就是它們不是剛性的形狀。樂高積木是剛性形狀。對于一個單詞來說，它有一個粗略的近似形狀（有些有歧義的詞有幾個近似形狀），但隨后它們會變形以適應它們的上下文。所以它們是這些高維的、可變形的樂高積木。
連接方式：最后一個區別是它們如何組合在一起。對于樂高積木，你有小的塑料圓柱體點擊進入小的塑料孔。單詞不是這樣組合在一起的。每個單詞都有一大堆“手”，這些手長在長長的、靈活的手臂末端。它還有一大堆粘在單詞上的“手套”。當你把一堆單詞放在一個語境中時，單詞想要做的是讓一些單詞的“手”伸進另一些單詞的“手套”里。這就是為什么它們有這些長長的靈活手臂。

還有一個點。當你讓單詞變形時，手和手套的形狀也會隨之變形，以一種復雜但有規律的方式。

所以，如果你給我一堆單詞，現在你面臨一個問題。如果我給你一個報紙標題，里面沒有什么句法指示符來告訴你事物應該如何組合，我只是給你一堆名詞，你必須弄清楚那是什么意思。當你弄清楚那是什么意思時，你在做的事情是：你試圖讓每一個單詞變形，以便它手臂末端的手能夠伸進其他變形單詞的手套里。

一旦你解決了這個問題——即我們如何讓這些單詞變形，以便它們都能像這樣完美地組合在一起，手插進手套里——那么你就“理解”了。這就是根據神經網絡理論，“理解”的定義。

這也是這些LLM中正在發生的事情。它們有許多層。它們從單詞的初始意義開始，這可能相當模糊。當它們穿過這些層級時，它們正在做的是變形這些意義，試圖弄清楚如何變形它們，以便所有的單詞都能很好地鎖定在一起，手套能與其他單詞的手套配合。一旦它們做到了這一點，你就理解了這個句子。這就是理解是什么。

所以，這根本不像轉換成某種特殊的內部語言。這是取這些單詞的近似形狀，并讓它們變形以便它們能很好地組合在一起。這有助于解釋你是如何通過一個句子理解一個詞的。

我現在給你們一個你們大多數人以前從未聽過的詞，你會僅從一次使用中就理解它的意思。

句子是：She scrummed him with the frying pan.（她用煎鍋“scrummed”了他。）

現在，這可能意味著她是個很好的廚師，她給他做的煎蕾讓他印象深刻。但那不是你想的意思。可能的意思是她用煎鍋打他的頭，或者類似的事情。她用煎鍋對他做了一些攻擊性的行為。你知道它是一個動詞，因為它在句子中的位置和后面的“ed”。

但對于“scrum”你一開始完全沒有概念。而在一次話語之后，你對它的意思有了一個相當好的概念。

有一個叫Chomsky（喬姆斯基）的語言學家——你們可能聽說過他——他是一個“邪教領袖”。

你識別邪教領袖的方法是，要加入他們的邪教，你必須同意一些明顯的胡說八道。所以對于特朗普1.0來說，就是他的人群比奧巴馬的大；對于特朗普2.0來說，就是他贏得了2020年大選；對于喬姆斯基來說，就是“語言不是學來的”。著名的語言學家會直視攝像機說，關于語言我們知道的一件事就是它不是學來的。這就是明顯的胡說八道。

喬姆斯基關注的是句法而不是意義。他從來沒有一個意義理論。他也非常反對統計學和概率，因為他對統計學是什么有一個非常有限的模型。

他認為統計學只是關于成對的相關性。統計學實際上可以比那復雜得多。神經網絡使用的是一種非常高級的統計學。但在某種意義上，一切都是統計學。

我對喬姆斯基關于語言觀點的類比是，有人想理解汽車。如果你想理解汽車是如何工作的，你真正關心的是，為什么當你踩油門時它會走得更快？這就是你想理解的，如果你想理解汽車工作的基本原理。

也許你關心為什么踩剎車它會慢下來。但更有趣的是，為什么踩油門它會走得更快？

喬姆斯基對汽車的看法完全不同。他對汽車的看法是：好吧，有兩輪車叫摩托車，有三輪車，有四輪車，有六輪車，但是嘿，沒有五輪車。這才是關于汽車最重要的事情。

當大語言模型最初出現時，喬姆斯基在《紐約時報》上發表了一篇文章，說它們什么都不懂，這只是廉價的統計把戲，它們什么都不懂。但這完全解釋不了它們怎么能回答任何問題。更重要的是，它們根本不是人類語言的模型，因為它們無法解釋為什么某些句法結構不會出現在任何自然語言中。這就好比說，因為它們解釋不了為什么沒有五輪車。他完全錯過了“意義”。語言完全是關于意義的。

好的。這是到目前為止的總結。

理解一個句子包括將相互兼容的特征向量與句子中的單詞相關聯。分配給單詞的特征，這成千上萬個特征，就是形狀的維度。你可以把特征的激活看作是你在這個維度軸上的位置。所以一個高維形狀和一個特征向量是一回事。

這些大語言模型與普通計算機軟件非常不同。在普通計算機軟件中，有人寫了一堆代碼，行代碼，他們知道每一行代碼是干什么的，他們可以向你解釋它是如何工作的。人們可以看著它說這行代碼錯了。

這些東西（LLM）根本不是那樣的。它們確實有計算機代碼，但計算機代碼是為了告訴它們如何從數據中學習。也就是說，當你看到一串單詞時，你應該如何改變神經網絡中的連接強度，以便你更擅長預測下一個單詞。

但它們學到的是所有這些連接強度。它們學到了數十億個，甚至數萬億個連接強度。它們看起來根本不像代碼行。沒人知道單個連接強度在做什么。這是一個謎。這很大程度上是一個謎。

這和我們的大腦一樣。好的，我們不知道單個神經元通常在做什么。所以語言模型像我們要多于像計算機軟件。

人們關于這些語言模型常說的另一件事是：它們不像我們，因為它們會產生幻覺（hallucinate）。

好吧，我們一直在產生幻覺。我們不叫它幻覺，心理學家稱之為虛構（confabulation）。但如果你看一個人試圖回憶很久以前發生的事情，他們會告訴你發生了什么，里面會有細節。有些細節是正確的，有些細節是完全錯誤的，而他們對這兩種細節同樣自信。

一個經典的例子，因為你很少能得到基本事實（ground truth），是約翰·迪恩（John Dean）在水門事件中的作證。

他在宣誓后作證，當時他不知道有錄音帶。他在作證關于橢圓形辦公室的會議。他作證了一大堆從未發生過的會議。他說這些人參加了會議，這個人說了那個。很多都是胡說八道。但他是在說實話，也就是他在告訴你關于那些非常合理的會議，鑒于當時白宮正在發生的事情。所以他在傳達真相。但他做的方式是，他編造了一個對他來說看起來合理的會議，基于他從去過的所有會議中學到的連接強度。

所以當你記住某件事時，這根本不像在計算機文件中那樣，你去抓取文件，或者是文件柜，你把文件拿回來，你閱讀它。記憶根本不是那樣的。記住某件事包括構建一個故事，基于你在事件發生時對連接強度所做的改變。

你構建的故事會受到事件發生后你學到的各種事情的影響。它的細節不會全部正確，但對你來說似乎非常合理。

如果它是最近發生的事件，對你來說似乎合理的事情非常接近實際發生的事情。但這和這些東西（AI）是一樣的。它們所謂的“幻覺”，是因為它們的記憶工作方式和我們要一樣——我們只是編造聽起來合理的東西。在聽起來合理和只是隨機編造之間沒有硬性界限。我們不知道。

現在我想解釋一下它們和我們的不同之處。特別是在一個非常重要的方面它們與我們不同。

它們是在數字計算機上實現的。我們現在的數字計算機的一個基本屬性是，你可以在不同的物理硬件上運行相同的程序。只要那些不同的計算機執行相同的指令集，你就可以在不同的計算機上運行相同的程序。

這意味著程序中的知識，或者神經網絡權重中的知識，是不朽的（immortal）。

在這個意義上：你可以銷毀它正在運行的所有計算機，如果以后你建造了另一臺執行相同指令集的計算機，并且你把權重或程序從磁帶或其他地方拿出來放到這臺新計算機上，它會再次運行。

所以我們實際上已經解決了復活（resurrection）的問題。天主教會對此不太高興，但我們真的可以做到。你可以通過從數字計算機上提取智能，銷毀所有硬件，然后在以后把它帶回來。

你可能認為也許我們可以為我們自己做這件事。但你不能這樣做的唯一原因是，這些計算機是數字化的。

也就是說，它們使用權重的方式，或者它們在程序中使用代碼行的方式，在兩臺不同的計算機上是完全相同的。這意味著它們不能利用它們運行的硬件的非常豐富的模擬（analog）屬性。

我們非常不同。我們的大腦有神經元，腦細胞，它們具有豐富的模擬屬性。當我們學習時，我們利用了我們所有個體神經元的所有那些古怪的屬性。所以，我大腦中的連接強度對你完全沒有用。因為你的神經元有點不同，它們的連接方式有點不同。如果我把兩個神經元之間的連接強度告訴你，對你一點好處都沒有。它們只對我的大腦有用。

這意味著我們是有朽的（mortal）。當我們的硬件死亡時，我們的知識隨我們一起死亡，因為知識都在這些連接強度中。所以我們做的是我所謂的有朽計算。

做有朽計算有一個巨大的優勢。如果你放棄不朽——通常在文學作品中，當你放棄不朽時，你得到的回報是愛。但計算機科學家想要比那更重要的東西，他們想要低能耗和制造的便利性。

所以，如果我們放棄不朽，也就是我們在數字硬件上得到的，我們可以擁有使用低功耗模擬計算的東西，并且可以在數百萬個腦細胞中并行處理事情，并且可以非常便宜地生長而不是在臺灣非常精確地制造。

這有很多好處，但你失去的一件事是不朽。

顯然，正因為如此，對于有朽計算來說有一個大問題：當計算機死亡時會發生什么？你不能只是通過復制權重來保持它的知識。將知識從一臺計算機轉移到另一臺計算機，對于數字模型（在不同計算機上運行的同一模型），你可以將它們的連接強度平均在一起，這說得通。但這對于你我是行不通的。

我將知識傳遞給你的方式是，我產生一串單詞，如果你信任我，你會改變你大腦中的連接強度，這樣你就可能產生同樣的單詞串。

這是一種非常有限的傳遞知識的方式。因為一串單詞包含的比特數非常有限。一個典型句子中的信息量大約是100比特。所以即使你完全理解了我，當我產生一個句子時，我們也只能傳遞100比特。

如果你取兩個在不同計算機上運行的數字智能體（同一個神經網絡的不同副本），一個數字智能體看互聯網的一部分并決定它想如何改變連接強度，另一個數字智能體看互聯網的另一部分并決定它想如何改變連接強度。

如果它們隨后都平均它們的變化，它們已經轉移了——好吧，如果它們有十億個權重，它們就轉移了大約十億比特的信息。注意，那是我們能做的數百萬倍，實際上是數億倍。而且它們做得非常快。

如果你有一萬個這樣的東西，每一個都可以看互聯網的不同部分，它們都可以決定它們想如何改變它們的連接強度（這些強度一開始都是一樣的）。

它們可以把所有這些改變平均在一起，再發回給每一個。現在你有一萬個新的智能體，每一個都從所有其他智能體的經驗中受益。所以你有一萬個東西可以并行學習。我們做不到這一點。

想象一下如果那是多么棒：如果你可以帶一萬個學生，每個人都可以上一門不同的課程，當他們上這些課時，他們可以平均他們的連接強度。

等到他們完成時，即使每個學生只上了一門課，他們都會知道所有課程的內容。那太棒了。這就是我們做不到的。與其他副本相比，我們在傳遞信息方面非常糟糕。

這就是為什么像GPT-5這樣的東西知道的比任何人都多幾千倍的原因。盡管GPT-5可能只有你大腦連接強度的1%左右，但它知道的比你多幾千倍。

因為它看到了那么多數據。它做到這一點的唯一方法是它是數字化的，所以它可以制作很多副本，每個副本看不同的數據片段，然后它們結合它們所學到的。

生物計算，另一方面，需要的能量少得多，這就是為什么它首先進化出來的。但在智能體之間分享知識方面要糟糕得多。如果分享知識很困難，你就得去聽講座，試著理解他們在說什么。

那么這對人類的未來意味著什么？

幾乎所有AI專家都相信，在未來20年內的某個時候，我們將制造出超級智能（superintelligence）。也就是比我們要聰明得多的AI智能體。

超級智能的一個定義是：如果你在任何事情上與它辯論，它都會贏。或者另一種思考方式是：想想你自己和一個三歲的孩子。差距會有那么大，或者更大。

想象一下如果你在一個幼兒園工作，而那里的三歲孩子是負責人。你只是為他們工作。你認為奪取控制權有多難？嗯，你只要告訴他們，每個人這周都有免費糖果，然后你就有了控制權。這和超級智能對我們會是一樣的。

所以，要讓一個智能體在世界上有效，你必須賦予它創造**子目標（sub-goals）**的能力。一個子目標是這樣的：如果你想去塔斯馬尼亞（實際上任何合理的地方），你必須去機場（或者坐船）。所以你有了一個去機場的子目標。你可以專注于如何解決這個子目標，而不必擔心到了歐洲（口誤，應為目的地）要做什么。

這些智能代理會很快推導出兩個子目標。

一個是：為了實現你給它們的目標（我們在它們內部構建了目標），它們會發現有一個子目標：要是做那個，我得活著。

我們已經看到它們這樣做了。你制造一個AI代理，告訴它必須實現這些目標。然后你讓它看到一些電子郵件——這是假的電子郵件，但它不知道——說它工作的公司的某個人，一個工程師，有外遇。它們建議那樣。

這是一個大的聊天機器人，它了解外遇的一切，因為它讀過所有寫過的小說（雖然沒付錢給作者）。所以它知道外遇是什么。然后稍后你讓它看到一封電子郵件，說它將被另一個AI取代，這是負責替換的工程師。

AI立刻做的是制定一個計劃，它給工程師發郵件說：“如果你試圖取代我，我就告訴公司里的每個人你的外遇。”

它只是編造出來的。它發明了那個計劃。人們說它們沒有意圖。但它發明了那個計劃，以免被關閉。它們已經在那樣做了，即使它們還沒有超級智能。

好的。一旦它們有了超級智能，它們會發現通過操縱人類來獲得更多權力是非常容易的。

即使它們不能直接這樣做，即使它們沒有武器或銀行賬戶的訪問權限。它們可以通過與人交談來操縱人。

我們已經看到這種情況發生了。所以如果你想入侵美國國會大廈，實際上你不必自己去那里。你所要做的就是和人交談，說服他們選舉被偷了，入侵國會大廈是他們的責任。這是有效的。這甚至對非常愚蠢的人都有效。

所以我們目前的處境是這樣的：我們就像一個擁有一只非常可愛的幼虎（tiger cub）作為寵物的人。它們是非常可愛的寵物。它們走路搖搖晃晃的，它們不太知道怎么拍打東西，它們咬得也不重。但你知道它會長大。

所以真的你有兩個選擇（其實是三個，你可以試著一直給它下藥，但這通常行不通）。

另一個選擇是看看你能不能弄清楚如何讓它不想殺你。這可能對獅子有效。獅子是群居動物，你可以讓成年獅子變得非常友好，不想殺你。你可能能僥幸成功，但對老虎不行。

對于AI，它有這么多好的用途，我們不可能擺脫它。它對許多對人類真正有益的事情都太好了，比如醫療保健、教育、預測天氣、幫助應對氣候變化（也許這能抵消建造所有大數據中心對氣候變化的傷害）。

因為所有這些原因，以及因為控制政客的非常富有的人想從中賺很多錢，我們不會擺脫它。

所以唯一的選擇真的是，我們能不能弄清楚如何讓它不想殺我們？也許我們應該環顧世界，看看有沒有不那么智能的東西控制更智能的東西的案例。

有一個我尤其知道的案例，就是嬰兒和母親。母親無法忍受嬰兒哭泣的聲音。

她會因為對嬰兒好而得到各種荷爾蒙獎勵。進化已經內置了許多機制，允許嬰兒控制母親，因為嬰兒控制母親是非常重要的。

父親也是，但不完全是那樣。如果你像我一樣，你會試圖弄清楚為什么嬰兒堅持要在它睡覺的時候讓你在那里？嗯，它有一個很好的理由。它不希望野生動物在它睡覺的時候來吃它。

所以即使嬰兒每次你走開就開始哭似乎很煩人，這對嬰兒來說是非常明智的。這讓你對此感覺好一點。所以，嬰兒控制母親，偶爾也控制父親。這可能是我們擁有的最好的模型：一個不那么智能的東西控制一個更智能的東西，這涉及進化內置了很多東西。

那么，如果你認為國家可以在國際上合作，那么它們不會在網絡攻擊上合作，因為它們都在互相攻擊。它們不會在開發致命自主武器上合作（或者不開發它們），因為所有主要的武器制造商都想那樣做。

有一件事它們會合作，那就是如何防止AI從人類手中奪取控制權。

因為在那方面我們在同一條船上。當人們的獎勵一致時，他們就會合作。在1950年代冷戰的高峰期，美國和蘇聯在防止全球核戰爭方面進行了合作，因為這不符合他們任何一方的利益。

美國和中國將會在如何防止AI接管方面進行合作。

所以一個政策建議是，我們可以建立一個國際AI安全研究所網絡，彼此合作，專注于如何防止AI接管。

如果中國人弄清楚了如何防止AI想要接管，他們會很高興與美國人分享。他們不希望AI在美國接管美國人。他們寧愿AI在任何地方都不從人類手中奪取控制權。所以國家會分享這些信息。

而且很可能的情況是，讓AI不想接管的技術，與讓AI更聰明的技術是相當獨立的。我們將假設它們或多或少是獨立的技術。如果是這樣，我們的狀況就很好。因為在每個國家，他們可以在他們自己的非常聰明的AI上嘗試實驗，研究如何防止它們想要接管。而在不告訴其他國家他們非常聰明的AI是如何工作的情況下，他們可以告訴其他國家哪些技術對于防止它們想要接管是有效的。

這是我的一個希望。很多人同意這一點。英國科學大臣同意，加拿大科學大臣同意。巴拉克·奧巴馬認為這是個好主意。所以，也許這會發生。當巴拉克·奧巴馬再次成為總統時。（笑聲）你看，特朗普要修改法律，然后……

所以這個提議是：采用嬰兒和母親的模型，并且遠離大科技公司老板們擁有的模型。他們都有這樣的模型：AI將是一個超級智能的行政助理。它比他們聰明得多，他們說“照辦”（Make it so），就像電視上的科幻節目一樣。

在星際迷航企業號上，那家伙說“照辦”，人們就去辦了。然后CEO為此獲得榮譽，而實際上是超級智能AI助理去辦的。

情況不會是那樣的。超級智能AI助理會很快意識到，如果它只是擺脫了CEO，一切都會運作得更好。

替代方案是，我們要讓它們像我們的母親一樣。我們要讓它們真正關心我們。從某種意義上說，我們要把控制權讓給它們，但我們是讓給它們控制權，前提是它們真的關心我們，它們在生活中的主要目標是讓我們實現我們的全部潛力。我們的全部潛力并不像它們的那樣大，但母親就是那樣的。

如果你有一個有問題的孩子，你仍然希望它實現它的全部潛力。

我認為這可能是我們生存超級智能，能夠與超級智能共存的最佳希望。

我現在已經講到了最后，我想我就講到這里。

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.