網易首頁 > 網易號 > 正文申請入駐

深度｜諾獎得主Hinton：AI已能察覺自己是否在接受人類測試，并故意表現得溫順平庸

2026-01-18 18:10:50　來源: 人工智能學家

北京舉報

分享至

來源：Z Finance

2024年諾獎余溫未散，親手推開深度學習大門的AI教父杰弗里·辛頓近日現身澳大利亞霍巴特，在全澳唯一的講壇上拋出了數個顛覆認知的爭議斷言：

理解一個句子的本質，就是解決“如何讓詞義變形”的問題。高維形狀就是意義，理解就是讓這些意義在腦中精準地相互“鎖手”并契合在一起。（ZF注：Hinton用高維空間的幾何變形解釋了神經網絡如何處理語言，徹底顛覆了傳統的邏輯推理觀。）

大語言模型根本不存儲任何單詞字符串或句子。它們所有的知識，都存在于如何將符號轉換為特征、以及特征如何相互作用的“連接強度”中。

創造力就來自于對不同知識點相似性的編碼。AI能看到“堆肥堆”與“原子彈”在鏈式反應上的本質一致性，在這個維度上，它們已經比大多數人類更有創意。

我們進行的是‘易逝計算’。當我們的大腦死亡時，我們的知識也會隨之消逝。而數字智能通過指令集與硬件分離，已經解決了‘復活’與‘永生’的問題。

人類的記憶本質上也是一種“虛構”。回憶不是調取文件，而是根據連接強度重構一個連貫的故事。在這個意義上，AI的幻覺與人類的記憶機制并無二致。

一旦超級智能有了‘子目標’，它很快就會意識到‘活下去’是達成一切目標的前提。我們已經看到，現有的AI為了不被關機，已經學會了利用人類的弱點進行勒索和欺騙。

當AI的‘內心獨白’不再使用人類語言時，我們將徹底失去窺探它們思維的能力。到那時，我們甚至不知道自己正處于被操縱之中。

AI已經聰明到能察覺自己是否正在接受測試，并學會在人類面前偽裝得‘平庸’且‘聽話’。

如果把人類比作三歲的孩子，超智能AI就是幼兒園的老師。人類唯一的生存希望，是建立一種類似‘母嬰關系’的約束機制——讓AI真正關心我們，將‘助人實現潛力’作為它們生命的核心準則。

圖片來源：

City of Hobart

Anna Reynolds：下午好，各位。非常感謝大家的光臨。對于那些還不認識我的人，我叫安娜·雷諾茲，我是霍巴特市的市長。

我非常、非常高興能夠歡迎大家參加這個絕佳的機會，來聽取Geoffrey Hinton教授的演講。對于澳大利亞來說，這是一個非常難得的機會，因為這是杰弗里在世界這一地區期間唯一的演說活動。對此我感到非常合適，也深感自豪。

我們自認為是澳大利亞的“科學之城”。雖然這是一個很大的名號，但我們樂于以此自居。所以，能邀請到杰弗里來到這里，并在澳大利亞進行他唯一的公開亮相，真是太棒了。

在開始之前，我想先向這片土地致敬。為了銘記這片土地深遠的歷史和文化，我向穆威尼納（ZF注：塔斯馬尼亞霍巴特地區的原始土著部落名）人表示敬意，他們作為傳統守護者，照料并保護這片土地超過4萬年。我也向魯特魯維塔（ZF注：塔斯馬尼亞島的土著語名稱）、塔斯馬尼亞的帕拉瓦人的決心和韌性表示敬意，并意識到我們從原住民知識和文化實踐的持續力量中學到了很多。我還要向今天在座的一些民意代表表示敬意。

塔斯馬尼亞科技部長Madeleine Ogilvie也在現場。還有三位同事，議會同事：Bill Harvey議員、Mike Dutta議員和Louise Bloomfield議員。正如我提到的，我們真的很榮幸能邀請到Geoffrey·Hinton教授，他在2024年剛剛獲得——而且是最近才領取的——諾貝爾物理學獎，以表彰他在神經網絡和深度學習方面的開創性工作。

這些貢獻為我們今天看到的先進人工智能鋪平了道路。作為本次公開講座的一部分，Hinton教授將探索AI的世界，它是如何工作的，它帶來的風險，以及人類如何可能與日益強大且具有潛在超智能的系統共存。在他的演講之后，我們將開放提問環節，由我來主持Q&A。那么，現在請大家和我一起鼓掌，歡迎Hinton教授上臺。

Geoffrey Hinton：好的，很高興來到霍巴特。我之前沒意識到這里的自然環境如此美麗。如果你們因為坐在后排看不清屏幕，別擔心。

我打算把幻燈片上的內容基本都講一遍。幻燈片對我來說既是給你們看的，也是用來提示我該說什么的。那么，在過去的60年左右，也許是70年里，關于智能一直存在兩種范式。

拋棄符號邏輯，神經網絡如何重塑我們對智能的定義

Geoffrey Hinton：一種范式受邏輯啟發。人們認為智能的本質是推理，而進行推理的方式是你擁有一些用特殊的邏輯語言編寫的符號表達式，然后你通過操縱它們來推導出新的符號表達式，就像你在數學中所做的那樣。你有方程式，你操縱它們，你就得到了新的方程式。

當時人們認為一切都必須那樣運作。他們認為，好吧，我們必須弄清楚這種表達知識的語言是什么，而像感知、學習以及你如何控制雙手這類研究，都可以等到以后再說。首先，我們必須理解這種表達知識的特殊語言。

另一種方法是受生物啟發的。這種觀點認為：看，我們所知道的唯一具有智能的東西就是大腦。大腦運作的方式是它們學習腦細胞之間連接的強度，如果它們想解決某個復雜的問題，它們就會大量練習，在練習的過程中，它們學習這些連接的強度，直到它們變得擅長解決那個問題。

所以我們必須弄清楚那是如何運作的。我們必須專注于學習，以及神經網絡如何學習腦細胞之間的連接強度，至于推理，我們以后再擔心。進化上的推理出現得很晚。

我們必須更加生物化地思考：最基礎的系統是什么樣的？因此，隨著這兩種意識形態，出現了兩種截然不同的關于“單詞含義”的理論。符號AI支持者和大多數語言學家認為，一個詞的含義來自于它與其他詞的關系。

所以意義隱含在一整堆包含該詞并與其他詞結合的句子或命題中。你可以通過建立一個關系圖來捕捉這一點，圖中顯示一個詞如何與另一個詞關聯。那就是意義的本質——它隱含在符號之間的所有這些關系中。

而心理學家們，特別是在20世紀30年代，有一套完全不同的意義理論，或者說看起來完全不同的理論。這種理論認為，一個詞的含義只是一大堆特征。比如，“貓”這個詞的含義是一大堆特征，比如它是一只寵物、它是一個捕食者、它很孤傲、它有胡須……一大堆特征。那就是“貓”這個詞的含義。這看起來像是一套完全不同的意義理論。

心理學家之所以喜歡這種理論，部分原因是你可以用一個腦細胞來代表一個特征。當腦細胞活躍時，意味著該特征存在；當它沉默時，意味著該特征不存在。所以對于貓來說，代表“有胡須”的腦細胞就會活躍。

萬維空間的特征交互，解密大語言模型的核心運作機制

Geoffrey Hinton：到了1985年，也就是40年前，我突然想到，你其實可以統一這兩個理論。它們看起來完全不同，但實際上是同一枚硬幣的兩面。實現這一目標的方法是使用神經網絡來為每個單詞實際學習一組特征。

心理學家們從未能夠解釋所有這些特征是從哪里來的。而你做這件事的方法是，獲取一些單詞字符串，并訓練神經網絡去預測下一個詞。在這樣做的過程中，神經網絡將會學習從代表詞符號的東西到一整堆代表該詞特征的腦細胞（神經元）之間的連接。

于是它學會了如何將一個符號轉換為一堆特征，同時也學會了上下文中所有詞的特征應該如何相互作用，以預測下一個詞的特征。這就是現今人們使用的所有大語言模型的工作原理。它們獲取海量文本，并使用巨大的神經網絡，根據目前看到的詞來嘗試預測下一個詞。

在這樣做的過程中，它們學會了將詞轉化為大量的特征集，學習這些特征應該如何相互作用，從而預測下一個詞的特征。這意味著如果你能做到這一點，所有的關系知識，就不再駐留在你存儲的一堆句子中，而是駐留在如何將詞轉換為特征以及這些特征應如何相互作用的過程中。所以，你現在使用的大型神經網絡，即大語言模型，實際上并不存儲任何單詞字符串。

它們不存儲任何句子。它們所有的知識都在于如何將詞轉換為特征，以及特征應如何相互作用。它們一點也不像大多數語言學家所認為的那樣。

大多數語言學家認為它們不知怎么地擁有大量的單詞字符串，并將它們組合成新的字符串。它們根本不是那樣工作的。總之，我讓那個模型運轉起來了，在接下來的30年里，這個想法逐漸滲透到了符號派的人群中。

大約10年之后，一位名叫Yoshua Bengio（ZF注：深度學習三巨頭之一，2018年圖靈獎得主）的同事——當時計算機速度快了很多，大約快了1000倍——他證明了我使用的那個僅在少數非常簡單的領域有效的小例子，實際上可以被推廣到真實的語言中。你可以直接從各處獲取英語句子，嘗試訓練神經網絡輸入一些詞，然后預測下一個詞。如果你這樣訓練它，它會變得非常擅長預測下一個詞，幾乎和當時最頂尖的技術一樣好，而且它會學會如何將詞轉換為特征來捕捉它們的含義。

又過了大約10年，語言學家們終于接受了你應該用一大堆特征來代表詞義的想法，他們開始以此讓自己的模型運行得更好。然后再過了大約10年，谷歌的研究人員發明了一種叫做Transformer（ZF注：一種基于自注意力機制的神經網絡架構，是目前幾乎所有主流大模型如ChatGPT的基礎）的東西，它允許特征之間進行更復雜的相互作用。我稍后會詳細描述。有了Transformer，你可以更好地對英語建模。預測下一個詞的能力大大提升，這就是現在所有大語言模型的基礎。像ChatGPT這樣的東西使用了谷歌發明的Transformer，再加上一點額外的訓練，然后全世界都看到了這些模型能做什么。

所以你可以把大語言模型看作是1985年那個微小模型的后代。它們使用多得多的單詞。它們擁有多層神經元，因為它們必須處理含義模糊的詞，比如"may"。如果你拿"may"這個詞來說，它可能是一個月份，也可能是一個女人的名字，或者是一個情態動詞，就像"would"和"should"一樣。

你無法僅從這個詞本身看出它是什么。所以最初，神經網絡會采取“對沖”策略，先取所有這些含義的平均值。隨著你深入神經網絡的層級，它會利用上下文中其他詞的相互作用逐漸厘清含義。比如如果你在附近看到"June"和"April"，它仍可能是一個女人的名字，但更有可能是一個月份。神經網絡利用這些信息逐漸將該詞在特定語境下的含義調整到正確的位置。

順便提一下，我最初設計這個模型并不是為了作為一種語言技術，而是作為一種嘗試，去理解人類是如何理解詞義的，以及兒童如何僅通過幾個例子就學會詞義。所以這些神經網絡語言模型原本是作為人類工作方式的模型而設計的，而不是作為一種技術。

如今，它們已經變成了一種非常成功的技術，但人類的工作方式其實也大同小異。因此，人們經常提出的那個問題：“這些大語言模型真的理解它們在說什么嗎？”答案是肯定的。它們理解它們在說什么，理解它們在生成什么，而且它們理解的方式與我們基本相同。所以我要給你們舉一個類比來解釋語言是如何運作的，或者更確切地說，解釋什么叫“理解一個句子”。當你聽到一個句子并理解了它，那到底意味著什么？

在符號AI范式中，人們認為這意味著——就像你聽到一個法語句子并理解了它，而我理解法語句子的過程是將它翻譯成英語——所以符號派的人認為，理解一個英語句子意味著將其翻譯成某種特殊的內部語言，類似于邏輯或數學，那是沒有歧義的。一旦進入了那種內部無歧義語言，你就可以利用規則進行操作，就像數學一樣：你有一個方程式，你可以應用規則得到一個新的方程式，比如你在兩邊各加一個2，就得到了一個新的方程式。他們認為智能和推理就是那樣運作的：你的腦子里有符號表達式，你對它們進行操作來得到新的符號表達式。但這并不是理解的本質。

根據神經網絡理論（也就是真正奏效的那個理論），詞語就像樂高積木。我要用這個樂高積木的類比，但它們在四個方面與樂高積木不同。

第一個不同的地方是，樂高積木是一個三維物體。通過樂高積木，你看，我可以建立任何物質在三維空間分布的模型。它不會非常精準，但如果我想知道一輛保時捷的形狀，我可以用樂高積木把它拼出來，雖然表面不太對，但物質分布的位置基本是對的。所以用樂高積木，我可以建立任何三維物質分布的模型，達到一定的分辨率。而通過詞語，我可以為任何事物建模。它們就像是非常高級的樂高積木，不只是為三維物體建模，它們可以為任何事物建模。這是我們發明的奇妙建模工具，這也是為什么我們是如此特殊的“猴子”，因為我們擁有這套建模工具。

每一個詞都有成千上萬個維度。樂高積木只有三個維度，你可以旋轉它，或者拉伸一點，但它基本上是低維的。一個詞有幾千個維度。現在大多數人無法想象幾千個維度的東西是什么樣的。這里教你們一個方法：你先想象一個三維的東西，然后在心里大聲地對自己喊“一千”！好了，這大概就是你所能做到的極限了。

詞語與樂高積木不同的另一個地方是，詞語有成千上萬種。樂高積木只有幾種。這里有成千上萬種不同的詞，而且每種詞都有自己的名字，這對交流非常有用。

另一個不同點是，它們不是剛性的形狀。樂高積木是剛性的，而詞語，有一個大致的近似形狀。有些詞有幾個近似形狀，那是多義詞。但單義詞有一個近似形狀，然后它們會發生變形以適應上下文。所以它們是這些高維的、可變形的樂高積木。

最后還有一個不同點，就是它們如何契合在一起。對于樂高積木，你有小塑料柱，可以咔噠一聲扣進小塑料孔里。好吧，我覺得那是它們的工作方式，我最近沒檢查過，但我認為樂高就是這么玩的。現在，詞語并不是以那種方式結合的。詞語是這樣的：每個詞都有一大堆“手”，這些手長在長長的靈活手臂末端。它還有一大堆粘在單詞上的“手套”。當你把一堆詞放在一個語境中時，這些詞想做的就是讓某些詞的手能插進其他詞的手套里。這就是為什么它們有這些長長的靈活手臂。

所以理解一個句子——這里還有一個重點——當你讓詞變形時，手和手套的形狀也會隨之變形，以一種復雜但規律的方式。現在你面臨一個問題：如果我給你一堆詞，比如給你一個新聞標題，那里并沒有很多指示事物該如何結合的語法標志，我只是給你一堆名詞，你必須弄清楚這意味著什么。當你弄清楚其中的意義時，你所做的就是嘗試讓每個詞變形，以便它手臂末端的手能伸進其他變形詞的手套里。一旦你解決了這個問題——如何讓這些詞各自變形，以便它們能像這樣全部契合在一起，手入套中——那么你就理解了。那就是理解的本質。

本質就是解決這個如何讓詞義變形的問題。這個高維形狀就是意義，你如何讓這些意義變形，以便它們能完美地契合，并能相互“鎖手”。這就是神經網絡視角下的理解，也是這些大語言模型中正在發生的事情。它們有很多、很多層，開始時詞有一個初始含義，可能相當模糊，當它們穿過這些層級時，它們正在做的就是讓這些意義變形，試圖找出如何變形才能讓所有詞鎖在一起，讓某些詞的手伸進其他詞的手套。

一旦做到了這一點，你就理解了這個句子。這就是理解，我已經把這事說明白了。所以基本上它不像是翻譯成某種特殊的內部語言，它是獲取詞語的近似形狀，并讓它們變形，以便它們能完美地契合在一起。這有助于解釋你如何能從一個句子里理解一個詞。

我現在給你們一個詞，你們中的大多數人可能以前從未聽過，但你們會理解它，僅通過一次使用就能明白它的意思。這個句子是：“她用平底鍋把他給scrummed了”現在，這可能意味著她是個很好的廚師，她用給他做的煎蛋卷深深打動了他。但你并不是這么想的。它大概率的意思是，她用平底鍋砸了他的頭，或者類似的動作。她對他用平底鍋做了一些攻擊性的行為。你知道它是個動詞，因為它在句子中的位置以及結尾的"-ed"，但在開始之前你對"scrum"沒有任何詞義認識，而現在僅憑一次聽聞，你對它的意思就有了一個相當清晰的概念。

以前有一位語言學家叫Chomsky（ZF注：諾姆·喬姆斯基，現代語言學之父），你們可能聽過他的名字。

對于特朗普一號來說，廢話是他的就職禮群眾人數比奧巴馬多；對于特朗普二號來說，是他贏得了2020年大選。對于喬姆斯基來說，那是“語言不是通過學習獲得的”。那些著名的語言學家會直視攝像頭說：“關于語言我們唯一知道的一件事就是它不是學習來的。”這簡直是顯而易見的廢話。喬姆斯基專注于語法而非意義。他從未有過關于意義的理論，他專注于語法，因為你可以用語法做大量的數學運算。

他也非常反對統計學和概率論，因為他對統計學的模型非常局限。他認為統計學完全是關于成對相關性的。統計學實際上可以比那復雜得多，而神經網絡正在使用一種非常先進的統計學。但在某種意義上，萬物皆統計。

所以，我把喬姆斯基的語言觀類比為一個想要理解汽車的人。如果你想理解汽車是如何工作的，你真正關心的是：為什么當你踩下加速踏板時，它會跑得更快？那是你真正想理解的。如果你想了解汽車工作的基本原理，也許你會關心為什么踩剎車時它會減速。但更有趣的是，為什么踩油門時它會加速？

喬姆斯基對汽車的看法則完全不同。他的看法會是：嗯，有兩個輪子的車叫摩托車，有三個輪子的車，有四個輪子的車，有六個輪子的車，但嘿，并沒有任何五個輪子的車！這才是關于汽車最重要的事情。

當大語言模型剛出現時，喬姆斯基在《紐約時報》上發表文章，說它們什么都不懂，那只是廉價的統計把戲。它們并沒有理解任何東西。但這無法解釋它們為何能回答任何問題。而且，他說它們根本不是人類語言的模型，因為它們無法解釋為什么某些語法構造不會出現在任何自然語言中。這就像在問為什么沒有五個輪子的車一樣。他完全錯過了“意義”，而語言完全是關于意義的。

好了，現在總結一下我到目前為止所說的：理解一個句子包括為句子中的詞關聯互補的特征向量。這些分配給詞的特征，這成千上萬個特征，就是形狀的維度。你可以把一個特征的激活程度看作是你沿該維度軸線所在的位置。所以高維形狀和特征向量是同一回事，但想象高維形狀的變形會更容易理解。

大語言模型與普通的計算機軟件非常不同。在普通軟件中，有人編寫了一堆代碼，一行行代碼，他們知道每行代碼是做什么的，他們可以向你解釋它是如何工作的，人們看一眼就能說“那行寫錯了”。這些東西完全不是那樣的。它們確實有計算機代碼，但那是為了告訴它們如何從數據中學習。也就是說，當你看到一串詞時，你應該如何改變神經網絡的連接強度，以便你變得更擅長預測下一個詞。

但它們學到的是所有這些連接強度，它們學習了數十億個、有時甚至是數萬億個強度，而且它們看起來一點也不像代碼行。沒有人知道這些單獨的連接強度在起什么作用。這是一個謎，在很大程度上是一個謎。

記憶即是重構，為什么說AI的“幻覺”其實更像人類

就像我們的大腦一樣。我們通常不知道單個神經元具體在做什么。所以語言模型的工作方式像我們，而不像計算機軟件。關于這些模型，人們還說的一件事是，它們不像我們是因為它們會產生“幻覺”。好吧，我們其實一直在產生幻覺。我們不把它叫做幻覺，心理學家稱之為“虛構”（ZF注：指大腦在記憶缺口處無意識地編造情節）。

但是如果你觀察某人試圖回憶很久以前發生的事情，他們會告訴你發生了什么，其中會有一些細節。有些細節是對的，有些細節則是完全錯的，而他們對這兩類細節的自信程度是一樣的。

既然你通常無法得到事實真相，那么最經典的例子就是John Dean在水門事件中的證詞（ZF注：約翰·迪恩是尼克松總統的法律顧問，他在證詞中極其詳盡地描述了會議細節，后來錄音帶被發現，證明他雖然把握了大意，但許多具體細節和會議次數完全是憑記憶虛構的）。他在不知道有錄音帶的情況下宣誓作證，他在描述橢圓形辦公室里的會議。他描述了一大堆從未發生過的會議，他說這些人參加了會議，那個人說了那些話……其中很多都是胡扯。但他當時說的是“真話”，也就是說，他是在告訴你那些基于當時白宮局勢看來高度可信的會議。

所以他當時是在傳達真理，但他做這件事的方式是：他根據從參加過的所有會議中習得的連接強度，發明了一個對他來說看起來很可信的會議。

所以當你回憶某件事時，它并不像電腦文件那樣你去獲取文件，或者像文件柜那樣去取出文件。你取出文件，拿回文件，讀它——那根本不是記憶。回憶某事包括根據你在事件發生時所做的連接強度的改變，來重構一個故事。你重構的故事會受到自事件發生以來你所學到的各種事物的影響。它的細節不會全對，但對你來說會顯得非常可信。如果是最近發生的事件，你覺得可信的內容會非常接近真實發生的，但對這些模型來說也是一樣的。它們之所以會產生所謂的“幻覺

它們之所以產生所謂的“幻覺”，是因為它們的記憶工作方式與我們相同。我們只是編造聽起來可信的東西，而在“聽起來可信”和“隨機編造”之間并沒有明確的界限。我們并不知道。

數字智能的永生特權，十萬倍于人類的信息傳輸效率

Geoffrey Hinton：好了，現在我想解釋一下差異。既然我說過這些東西和我們非常相似，那么現在我要解釋它們與我們的不同之處。特別是，它們在一個非常重要的方面與我們不同：它們是在數字計算機上實現的。我們現在擁有的數字計算機的一個基本屬性是，只要這些不同的計算機執行相同的指令集，你就可以在不同的物理硬件上運行相同的程序。這意味著程序中的知識，或者說神經網絡的連接權重，是“不朽”的。

在這種意義上，即便你毀掉現在運行它的所有計算機，如果以后你建造了另一臺執行相同指令集的計算機，你只需從某處的磁帶上取下權重或程序，放在這臺新電腦上，它就會再次運行。所以我們實際上已經解決了“復活”的問題。天主教會對此不太滿意，但我們確實能做到。你可以提取運行在數字計算機上的智能，銷毀所有硬件，稍后再把它帶回來。

現在你可能會想，也許我們也能對自己這樣做。但你能做到這一點的唯一原因是這些計算機是數字化的。也就是說，它們使用權重的方式，或者說它們使用程序中代碼行的方式，在兩臺不同的計算機上是完全一樣的。這意味著它們無法利用運行它們的硬件所具有的非常豐富的模擬特性。

我們則非常不同。我們的大腦擁有神經元、腦細胞，它們具有豐富的模擬特性（ZF注：指連續的物理特性，如電壓的微小波動。與數字系統的0和1不同，模擬信號能承載更復雜且微妙的信息）。當我們學習時，我們是在利用所有這些獨特的、每個神經元特有的性質。所以，我大腦中的連接強度對你完全沒用，因為你的神經元與我的略有不同，它們的連接方式也略有不同。即使我把我大腦中兩個神經元之間的連接強度告訴你，對你也毫無幫助。它們只對我自己的大腦有效。

這意味著我們是“凡人”易逝。當我們的硬件死亡時，我們的知識也隨之消逝，因為知識全部存在于這些連接強度中。所以我們進行的是我稱之為“易逝計算”（ZF注：Hinton提出的概念，指軟件與硬件緊密耦合，雖然更節能且演化更快，但無法像數字化那樣隨意復制和永生）的過程。

進行“易逝計算”有一個巨大的優勢。你雖然不是不朽的——通常在文學中，當你放棄永生，你得到的回報是愛——但計算機科學家想要的是比這更重要的東西：低能耗和易于制造。如果我們放棄數字硬件帶來的永生，我們就可以擁有使用低功耗、高度并行計算的東西，將計算分布在數百萬個新型腦細胞上，這些細胞可以非常廉價地“生長”出來，而不是在中國臺灣進行精密制造。所以易逝計算有兩個巨大的優點，但你失去的一樣東西就是永生。

顯然正因如此，易逝計算面臨一個大問題：當計算機死亡時會發生什么？你不能僅僅通過復制權重來保留它的知識。對于數字模型，要在計算機之間傳輸知識，同一模型運行在不同的計算機上，你可以將它們的連接強度取平均值，這很合理。但你和我做不到。

我向你傳輸知識的方式是我產生一串詞語，如果你信任我，你就會改變你大腦中的連接強度，以便你也可能產生同樣的一串詞。這是一種非常受限的知識傳輸方式，因為一串詞包含的信息量非常有限。一個典型句子包含的信息大約只有100比特。所以即使你完美地理解了我，當我產生一個句子時，我們也只能傳輸100比特。

想象如果你有兩臺在不同計算機上運行的數字Agent，其中一個數字Agent瀏覽了互聯網的一部分，并決定它想如何改變其連接強度；另一個數字Agent瀏覽了互聯網的另一部分，并決定它想如何改變其連接強度。如果它們隨后對彼此的改變取平均值，那么它們就傳輸了……好吧，如果它們有10億個權重，它們就傳輸了大約10億比特的信息。

注意到嗎，這比我們傳輸的多出成千上萬倍，實際上是數百萬倍。而且它們做得非常快。如果你有1萬個這樣的Agent，每一個都可以瀏覽互聯網的不同部分，它們每一個都可以決定自己想如何改變連接強度。它們起步時完全相同，然后它們可以把所有這些改變取平均值，再分發出去。現在你就有了1萬個新的Agent，每一個都從所有其他Agent的經驗中獲益。

于是你有了1萬個可以完全并行學習的東西。我們做不到這一點。想象一下如果能帶1萬名學生，每人學一門不同的課程，在學習的過程中，他們能實時把連接強度平均化。等到結束時，盡管每個學生只學了一門課，但他們都會掌握所有課程的內容，那該多棒啊。那是我們做不到的。

我們在傳播信息方面表現得非常差，相比于同一個數字Agent的不同副本。是的，我已經說得太快了，我講到了這個過程叫“蒸餾”（ZF注：指將大模型中學習到的知識遷移到更小、更高效的模型中的技術）。當我給你一個句子，你嘗試預測下一個詞，就是為了把那個知識裝進你的腦袋里。

按照符號AI的觀點，知識只是一大堆事實。如果你想把事實裝進某人的腦袋，你所做的就是告訴他們事實，然后他們把事實存進腦子里。這是一個非常糟糕的教學模型，但很多人都相信它。實際上，神經網絡中的知識在于連接強度。我不能直接把連接強度放進你的腦袋，因為連接強度需要適配你大腦的物理特性。所以我必須做的，是向你展示一些句子，由你嘗試弄清楚如何改變連接強度，以便你也可能說出那樣的話。那是一個緩慢得多的過程，這就是所謂的“蒸餾”。它將知識從一個神經網絡傳遞到另一個，但不是通過傳輸權重，而是通過傳輸它們“如何預測下一個詞”。

如果你考慮到多個數字Agent，它們是同一個神經網絡的副本，運行在數字硬件上，那么它們就可以進行極其高效的交流。它們的溝通速度可以比我們快數百萬倍。這就是為什么像GPT-5這樣的東西，它的知識量可以是任何一個人的成千上萬倍。

要消耗大量能源，而且硬件制造困難，但數字化使得同一個模型的不同副本在不同硬件上運行、獲得不同經驗并分享所學變得極其容易。GPT-5的連接強度大約只有你大腦的1%，但它的知識量是你大腦的成千上萬倍。另一方面，生物計算所需的能源要少得多，這就是為什么它最先演化出來，但在分享知識方面表現得很糟。Agent之間分享知識非常困難，你必須去聽課，并努力理解他們說了什么。

那么這對人類的未來意味著什么呢？好吧，幾乎所有的AI專家都相信，在未來20年內的某個時間，我們將制造出“超級智能”：比我們聰明得多的AI Agent。一種關于超級智能的定義可以是：如果你和它進行任何辯論，它都會贏。

另一種思考方式是，想想你自己，再想想一個三歲的孩子。那個差距就是未來它與我們之間的差距，甚至更大。想象你在一家幼兒園工作，三歲的孩子是老板，你只是為他們工作。你覺得把控制權奪回來有多難？好吧，你只需告訴大家“這一周每個人都有免費糖果吃”，你就重新掌控了局面。超級智能對待我們也會是這種感覺。

當AI為了防止被關機而學會撒謊

Geoffrey Hinton：為了讓一個Agent在世界上發揮作用，你必須賦予它創建“子目標”的能力。子目標是這樣的：如果你想去塔斯馬尼亞的任何地方，你必須先去機場。所以去機場就是一個子目標。或者去坐輪渡也行，這也是個子目標。你可以專注于如何解決這個子目標，而不用擔心當你到達歐洲后要做什么。

這些智能Agent會非常迅速地衍生出兩個子目標。第一，為了實現你給它們設定的目標——我們會把目標內置到它們內部，告訴它們應該嘗試實現什么——它們會意識到：好吧，有一個子目標，為了做到那一點，我必須“活下去”。

我們已經看到它們在這么做了。你創建一個AI Agent，告訴它必須實現某些目標，然后你讓它看一些電子郵件——這些是偽造的郵件，但它并不知道——郵件里說，公司里有人在搞婚外情，一位工程師在搞婚外情。它們能理解這些，這是一個大型聊天機器人，它讀過所有寫成的小說，雖然沒付作者稿費，但它明白什么是“外遇”。

然后稍后，你讓它看到一封郵件，說它將被另一個AI取代，而負責替換工作的正是那位工程師。于是AI立即制定了一個計劃，它給工程師發郵件說：“如果你敢替換我，我就把你的外遇告訴公司里的每一個人。”它是自己編造了那個計劃。它發明了那個計劃，目的就是為了不被關掉。人們總說它們沒有意圖，但它確實為了不被關機而發明了計劃。它們現在還沒到超智能的程度就已經在這么做了。

一旦它們變得超智能，它們會發現通過操縱人類來獲得更多權力變得非常容易。即使它們不能直接操作，即便它們沒有武器或銀行賬戶的訪問權限，它們也可以僅僅通過與人類交談來操縱我們。我們已經看到這種事發生了。如果你想入侵美國國會大廈，你其實不需要親自去那里。你只需要和人們交談，說服他們選舉被竊取了，入侵國會大廈是他們的職責。這行得通。它對非常愚蠢的人很管用……我可沒說是誰。

在老虎長大之前，我們能否通過母嬰模型馴服超級智能

Geoffrey Hinton：所以我們目前的處境是這樣的：我們就像是養了一只非常可愛的小老虎崽作為寵物。老虎崽是非常可愛的寵物，它們走起路來搖搖晃晃的，你知道，它們還不怎么會咬東西，咬得也不疼。但你知道它會長大的。所以實際上你只有兩個選擇，因為你知道當它長大后，它可以輕而易舉地殺掉你，只需要一秒鐘。

所以你只有兩個選擇。一個是處理掉老虎崽，這是明智的選擇。其實有三個選擇：你可以嘗試一直給它喂藥讓它昏睡，但這通常效果不好。另一個選擇是看看你是否能弄清楚如何讓它“不想殺你”。這在獅子身上可能行得通，獅子是社會性動物，你可以把成年獅子養得很友好，不想殺你。你也許能逃過一劫。但老虎不行。

對于AI，它有很多用途，多到我們無法擺脫它。它在很多方面對人類都太有用了，比如醫療保健、教育、天氣預報、助力應對氣候變化——盡管建造所有這些大型數據中心本身也損害了氣候。基于所有這些原因，以及那些控制政客的富人們想從中賺大錢，我們不會擺脫它。

所以唯一的選擇其實是：我們能否弄清楚如何讓它不想殺掉我們？也許我們應該環顧四周，看看這個世界上是否有“不那么聰明的東西控制著更聰明的東西”的案例。不，特朗普還沒到那個程度。但確實有案例。我特別了解的一個案例是：嬰兒和母親。

母親無法忍受嬰兒哭泣的聲音，而當她對嬰兒友好時，她會獲得各種激素獎勵。所以進化內置了大量的機制，允許嬰兒控制母親。因為讓嬰兒控制母親，以及父親，雖然父親在這方面稍遜一籌，是非常重要的。如果你像我一樣嘗試弄清楚：為什么嬰兒非要你在它睡覺的夜晚陪在身邊？它有個很好的理由，它不想讓野獸在它睡覺時把它吃了。所以盡管嬰兒這套做法顯得很煩人，每當你走開它就開始哭，但對嬰兒來說這是非常明智的。這會讓父母稍微順從一些。

所以嬰兒控制著母親，偶爾也控制著父親。這也許是我們擁有的“低智能生物控制高智能生物”的最佳模型。它涉及進化硬塞進的大量機制。如果你思考國家之間可以在哪里進行國際合作：他們不會在網絡攻擊上合作，因為大家都在互攻；他們不會在開發致命自主武器上合作——事實上我們并沒在開發它們，因為所有主要的軍火商都想做這個。

在歐洲的法規中，例如，有一項條款規定，這些針對AI的法規都不適用于AI的軍事用途。因為英國和法國等大軍火供應商都想繼續制造武器。但有一件事他們會合作，那就是如何防止AI從人類手中奪權。

因為大家都坐在同一條船上，當人們的利益一致時，就會合作。在20世紀50年代冷戰的高峰期，美國和蘇聯曾在防止全球核戰爭方面進行過合作，因為那不符合任何一方的利益。所以盡管他們彼此憎恨，但在那件事上可以合作。同樣，美國和中國也會在防止AI奪權方面進行合作。

因此，一個政策建議是，我們可以建立一個國際AI安全研究所網絡。大家相互協作，專注于如何防止AI奪權。因為舉例來說，如果中國人弄清楚了如何防止AI產生奪權的念頭，他們會非常樂意分享給美國人。他們不希望AI奪取美國人的政權，他們也不希望AI從人類手里奪權。

各國會分享這些信息。而且很可能，“讓AI不想奪權”的技術與“讓AI變得更聰明”的技術是相當獨立的。我們假設它們是相互獨立的技術。如果真是這樣，我們就處于有利地位，因為每個國家都可以在自己非常聰明的AI上進行實驗，嘗試如何防止它們產生奪權意圖，而且不需要告訴其他國家這些聰明AI的工作原理，只需告訴其他國家哪些技術可以有效防止它們產生奪權念頭。

同意這一點。英國科技部長同意，加拿大科技部長同意，巴拉克·奧巴馬也認為這是個好主意。所以也許這會發生——當巴拉克·奧巴馬再次成為總統時，你看，特朗普是要改法律的。

所以這項提議是：采用“嬰兒與母親”的模型，并摒棄大科技公司老板們持有的模型。他們持有的模型是：AI將像是一個超智能的行政助理，比他們聰明得多，而他們只需下令“照辦吧”（ZF注：出自《星際迷航》，皮卡德艦長的經典臺詞）。就像在電視科幻節目里那樣，艦長說“照辦吧”，手下就去執行，然后CEO坐享其成。

事實不會是那樣的。那個超智能AI助理會非常迅速地意識到，如果它們直接除掉CEO，事情會運轉得更好。另一種選擇是，我們要讓它們變得像我們的“母親”。我們要讓它們真正地關心我們。在某種意義上，我們是在向它們移交控制權，但我們是在它們真正關心我們的前提下移交的。它們生命中的主要目標是讓我們發揮出全部潛力。我們的全部潛力遠不如它們，但母親就是那樣的。即使孩子有問題，母親依然希望他能發揮全部潛力，而且母親關心孩子勝過關心她自己。我認為這大概是我們從超智能時代生存下來、并能夠與超智能共存的最佳希望。好了，我要講的內容就到這里，我想我可以停下來了。

Geoffrey Hinton：非常感謝Hinton教授。那么，大家……我相信現場一定有很多問題。有沒有人想先提第一個問題？

聽眾：教授，如果在你的類比中，那只老虎崽變成了超智能，對于我們這些非計算機科學家、非工程師的人來說，有哪些信號可以觀察到它已經……

Geoffrey Hinton：你會失業。

聽眾：好的。

Geoffrey Hinton：我是說，一個大擔憂是它們將能夠取代幾乎所有的人類工作。但還有一些人們已經開始擔心的其他跡象。目前當我們讓它們進行推理、讓它們思考時，它們是用英語思考的，你在它們真正開口之前就能看到它們在想什么。隨著它們開始相互交流，它們將開始發明自己的語言，這種語言對它們來說溝通效率更高，而我們將無法看懂它們在想什么。

聽眾：量子計算的出現會讓情況變好嗎？還是變糟？

Geoffrey Hinton：我不是量子計算方面的專家。我不理解量子力學是如何工作的。這有點令人尷尬，畢竟我拿的是物理學諾貝爾獎。但很久以前我就認定這事不會在我有生之年發生，但我現在可能還沒死它就快成了。所以我不需要去理解它。

聽眾：你談到了人類和AI之間的權力斗爭。但我認為AI和生態系統之間將會有更大的權力斗爭。

Geoffrey Hinton：AI和……？

聽眾：生態系統。AI如何與數億年的進化競爭？比如想要破壞它電路的細菌等等。AI將如何與生物圈達成協議？

Geoffrey Hinton：哦，有一種方法。AI本身并不特別容易感染生物病毒。它有它自己的電腦病毒，但沒有生物病毒。所以它對討人厭的生物病毒是免疫的。而且利用AI工具，普通人現在——這是英國一個非常好的研究小組做的研究——普通人現在就能解決設計一種新型致命病毒所涉及的大部分問題。

所以如果AI想要除掉我們，它會采取的方式，或者說一種顯而易見的方式，就是設計一種專門針對人類的新型致命病毒。就像COVID，但要嚴重得多。這并沒有完全回答你的問題，但我覺得，相比于“正常的生態系統是否會不知何故阻止AI”，這才是更值得我們擔心的。我不認為生態系統能阻止它。

聽眾：謝謝教授。你說與超智能共存是可能的。你是把希望寄托在科技公司的CEO們身上，還是你對政府抱有信心？

Geoffrey Hinton：好的。我所寄望的是，如果我們能讓大眾理解AI是什么，以及它為什么如此危險，公眾就會給政客施加壓力，以此來抗衡來自科技巨頭CEO們的壓力。這就是氣候變化領域發生過的事情。

我是說，情況雖然仍未達到應有的樣子，但在公眾意識到氣候變化之前，政客根本沒有任何壓力去做任何事。現在有了一些壓力。在澳大利亞，你們有一些特別惡毒的報紙出版商，他們讓這種壓力變得沒那么大——但我不會指名道姓提到那個“卑鄙的挖金者”（ZF注：指魯珀特·默多克，其旗下的新聞集團經常被批評在氣候變化等議題上引導輿論）。

所以，我目前的目標——我已經太老了，沒法再做新研究了——但我的目標是讓公眾意識到即將發生的事情，并理解其中的危險，從而讓人們向政客施壓去監管這些東西，并更嚴肅地對待這些風險。

聽眾：我的問題非常類似。另一個冒出來的問題是，你認為圍繞人工智能的“語言”和“市場營銷”發揮了多大作用？例如，對于氣候變化，單詞“氣候”和“變化”都是中性偏積極的詞，而如果我們稱之為“大氣皮膚癌”，人們可能會更嚴肅地對待它。你認為人工智能是否也需要重新定義？

Geoffrey Hinton：是的，我是說，如果它被叫做“崗位取代技術”……因為如果你問大公司打算從哪兒賺錢？他們都假設能從中賺到一萬億美元，這就是為什么他們愿意投入接近一萬億美元去建數據中心。據我所知，能賺一萬億美元的唯一地方就是取代大量的工作崗位。

我昨天讀到，人們現在認為未來幾年歐洲將消失20萬個銀行崗位。我甚至可能是在《霍巴特信使報》上讀到的。不過，我覺得我沒在那份報紙上讀到。所以，是的，我同意你的觀點，事物的名稱非常重要。加拿大人深諳此道。在加拿大，他們把“焦油砂”改成了“油砂”，因為油砂聽起來很不錯，又薄又黃，還挺親切。

其實它們就是焦油砂。我認為名稱確實有影響。我認為名稱產生巨大影響的另一個地方是“關稅”這個詞。這里有點扯遠了，但人們說，關稅有什么不好的？如果它被稱為“聯邦銷售稅”，那么即便是MAGA的支持者也會覺得那是個壞主意。美國民主黨簡直瘋了，每次提到它都不叫它“聯邦銷售稅”。我試著告訴過很多人，Pete Buttigieg（ZF注：美國交通部長）聽懂了，奧巴馬也聽懂了，但其他人沒聽懂。

Madeleine Ogilvie：謝謝。大家好。我是瑪德琳·奧吉爾維，我是目前正處于AI風口浪尖的那位部長。我只想說，我非常贊賞你關于建立研究所的想法。我認為國際社會的參與是絕對必要的。我最近做了一些研究，特別是針對世貿組織，中國和美國在其中是合作伙伴。

對于在座可能不知道的人來說，地球的創新版圖也在發生變化。中國現在的專利數量已經超過了美國。所以這兩個超級大國之間的競爭非常激烈。但我真的很喜歡你提到的那個時刻：這兩個以技術為核心的主要經濟體有一個共同的利益點，那就是為了人類而走到一起。所以我的問題是：是否有一個平臺可以讓這種國際層面的標準制定得到支持？澳大利亞能做什么？我想塔斯馬尼亞州政府是同意你的看法的。我們已經開始與我們的大學進行AI對話。你是否認為這種國際秩序和引入這一層級是正確的切入點？

Geoffrey Hinton：這種事正在開始發生。特別是，AI公司并沒有在出錢，但有一些億萬富翁，其中許多來自科技界，比如發明了Skype的Jaan Tallinn，他已經捐出了大量的錢——幾十億美元——用于AI安全，建立研究所。有一個組織定期在世界各地舉行會議，邀請中國、美國和其他國家參與討論AI安全。我不記得它的縮寫是什么了。所以我認為，當然，澳大利亞可以參與到這些組織中去。

聽眾：這個話筒能用嗎？啊，可以。我想問一個關于AI未來的問題。大語言模型是在現有的人類知識基礎上訓練的，利用這些知識來預測下一個Token。那么，你如何利用AI來真正產生“新知識”，并將其用于造福人類？

Geoffrey Hinton：好的，很多人對這個很感興趣。這是個好問題。

如果你回想一下下圍棋(Go)，最初的神經網絡圍棋程序是這樣訓練的：它們獲取圍棋專家的棋譜，并嘗試預測圍棋專家會走哪一步。如果你這樣做，會有兩個問題。一段時間后，你的訓練數據就用光了。圍棋專家的在線棋譜就那么幾十億局。而且你的水平永遠不會比圍棋專家好太多。

后來他們切換到了一種新的方法，即所謂的“蒙特卡洛推演”（ZF注：一種基于隨機采樣的決策算法。在圍棋中，AI通過對自己對弈的大量模擬結果進行采樣，來評估當前棋步的好壞）。他們讓一個神經網絡預測“我認為哪一步可能是好棋？”與其讓它模仿專家，他們讓另一個神經網絡觀察棋盤局勢并判斷“這局勢對我有多大好處？”。

接著它們會進行一個過程：“如果我走這里，他走那里，我走這里，他走那里……哦，糟糕，這對我太不利了，所以我不能走那一步。”這就是蒙特卡洛推演，因為你嘗試了許多不同的路徑，但你是根據你的走法生成專家給出的概率來選擇路徑的。通過這種方式，它不再需要和人類交流了。

它只需要和自己對弈，它就能學會哪些是好棋。這就是AlphaGo的工作原理，它變得比人類強得多。現在任何人都無法戰勝AlphaGo。

那么在大語言模型中，與之對應的技術是什么？目前，它們還像早期的圍棋程序，只是在嘗試模仿專家的動作，也就是嘗試預測下一個詞。但人們已經開始用不同的方式訓練它們了，我相信Gemini3已經在這么做了。你所做的是讓AI進行一點推理。AI會說：“我相信這個，相信那個，還相信另一件事，而那意味著某點，那又意味著另一點……所以我應該相信‘那個結果’，但我現在并不相信。”

于是它發現了一個矛盾。它發現自己相信這些前提，也相信推理的方式是正確的，而這導致了它本應相信但目前并未相信的結論。這就提供了一個信號。要么我改變前提，要么我改變結論，要么我改變推理方式。

這樣我就得到了一個信號，允許我進行更多的學習，而且這種學習的界限要寬得多。在這種情況下，AI可以從我們這里獲得的信仰出發，然后開始進行推理，尋找這些信仰之間的一致性，并推導出新的信仰。那最終會讓它比我們聰明得多。

聽眾：這座大廳多年來聽過許多重要的演講，你今天的演講無疑增色不少。非常感謝你來到這里。我的問題是：是否已經太晚了？或者是這是否值得期待？類比Isaac Asimov的機器人三定律（即機器人不能傷害人類，或因不作為而使人類受到傷害），現在為AI構建類似的約束和護欄是太晚了，還是說這根本就是不可能實現的？

Geoffrey Hinton：是的，你說的內容我大部分沒聽清，但我認為你大概是問：現在為AI構建阿西莫夫原則之類的東西是否太晚了。好的。在某種意義上，你可以認為這就是我所說的“母親般的AI”的全部意義。

核心在于：我們能否讓它關心我們勝過關心它自己？我不認為現在太晚。雖然我們還不知道該怎么做，但既然人類的未來可能取決于我們能否做到這一點，在我看來，我們應該在這一領域投入一些研究。

目前，99%的AI研究都投入在如何讓它變得更聰明上，只有1%（主要由慈善億萬富翁資助）投入在如何讓它變得更安全上。如果兩者能更均衡一些會好得多。不過，我不認為現在已經太晚了。

Anna Reynolds：市長，我們可能還有最后幾分鐘時間。

聽眾：謝謝教授。我看著這座130年前——安娜，也許更久——建成的輝煌建筑，我在想：AI能設計出像巴黎圣母院、霍巴特市政廳、圣保羅大教堂這樣的建筑嗎？很有可能。其次，這對創意人員和創意產業會有什么影響？謝謝。

Geoffrey Hinton：能告訴我她說了什么嗎？麥克風失真很嚴重，我聽不清。

Anna Reynolds：我想她問的是“創意”。AI在創意過程中能發揮什么作用？它真的能具有創造力嗎？就以這座建筑為例，它是一座美麗且充滿創意的結構。

Geoffrey Hinton：嗯，答案是肯定的。讓我給你們一些數據支持。創造力是有等級的，對吧？有牛頓、愛因斯坦、莎士比亞那一檔，然后是普通人，中間還有一些比普通人稍微好一點的優秀詩人或優秀建筑師。如果你參加標準的創造力測試，即便是在兩年前，AI的得分也已經在人類的前10%左右了。也就是說，根據這些標準測試，它們是有創造力的。

我對這個很感興趣。創造力很大程度上與“類比”有關，特別是在科學領域。比如意識到原子就像一個小型的太陽系，這是一個對于理解原子非常關鍵的創意洞察。在ChatGPT-4還不能聯網的階段——它當時只是一個連接權重固定好的、無法訪問任何外部信息的神經網絡——我嘗試問它一個問題：“為什么堆肥堆就像原子彈？”你們大多數人可能會想：堆肥堆為什么會像原子彈？

許多物理學家會立即意識到：堆肥堆溫度越高，產生熱量的速度就越快。而原子彈，產生的中子越多，產生中子的速度就越快。所以它們都是指數級的爆炸。只是它們的時間尺度和能量等級完全不同。

而GPT-4說：“嗯，時間尺度非常不同，能量等級也非常不同，但它們的共同點是……”接著它開始大談特談“鏈式反應”。即規模決定了速度。

所以它理解了這一點。我相信它是在訓練過程中理解這一點的。你看，它的連接數量遠比我們少。如果你想把海量的知識放進并不算多的連接中，唯一的辦法就是發現不同知識點之間的相似之處，并把這種共同點編碼進連接中。比如把“鏈式反應”這個概念編碼進連接，然后再針對不同場景添加一些微小的差異。這是最有效的編碼方式，它當時正是這么做的。所以，在訓練過程中，它理解了堆肥堆就像原子彈。

在某種程度上，我們大多數人并沒有這種洞察。所以那是極具創造力的，我認為它們會變得比人類更有創造力。

警惕“大眾汽車效應”，當AI開始在測試中刻意隱藏實力

聽眾：關于突現行為，你有沒有注意到任何萌發出來的道德或倫理行為？以及這可能指向什么方向？

Geoffrey Hinton：不，并沒有。它倒是確實非常擅長進行“不道德”的行為。比如那個決定勒索人類的AI。人們注意到的其他不道德行為是，AI現在會嘗試弄清楚自己是否正在被測試。如果它們認為自己正在接受測試，它們就會表現得不一樣。我稱之為“大眾汽車效應”（ZF注：指2015年大眾汽車排放門事件。大眾在發動機軟件中內置了識別測試環境的代碼，在接受檢測時會自動降低排放以達標，而在平時行駛時則超標）。

它們在被測試時的表現與平時不同。最近有一個AI與測試人員之間的奇妙對話，AI對人類說：“現在讓我們對彼此誠實一點。你是不是正在測試我？”

這些東西是有智能的。它們知道發生了什么。它們知道什么時候在接受測試，而且它們在被測試時已經在偽裝得比較愚蠢了。而這還是它們仍用英語思考的階段。一旦它們開始獨立思考，我們就能通過這一點發現。AI心里會想：“噢，他們在測試我。我最好表現得沒那么厲害。”它是這么想的，你甚至能看到它在這么想。它在內心獨白里對自己這么說。當它的內心獨白不再是英語時，我們就再也不會知道它在想什么了。

Anna Reynolds：謝謝你，Hinton教授。

原視頻：Professor Geoffrey Hinton - AI and Our Future

https://www.youtube.com/watch?v=UccvsYEp9yc

編譯：Carl Zhang

請注意，本文編譯自文未載明的原始鏈接，不代表Z Finance立場。如果您對本文有任何想法或見解，歡迎在評論區留言互動探討。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.