
![]()
12月2日,諾獎(jiǎng)得主、“AI教父” Geoffrey Hinton 接受了海外播客主持人 Nayeema Raza 的訪談。本次對(duì)話全面探討了公眾對(duì)AI生存威脅的認(rèn)知惰性、神經(jīng)網(wǎng)絡(luò)戰(zhàn)勝符號(hào)邏輯的底層機(jī)制、生物智能與數(shù)字智能的本質(zhì)差異、直覺作為智能核心的優(yōu)越性、反向傳播算法的“黑盒”屬性、從生成式AI向Agentic AI演進(jìn)的必然風(fēng)險(xiǎn)等話題。
辛頓表示,盡管他發(fā)出了AI可能導(dǎo)致人類滅絕的嚴(yán)厲警告,但公眾反應(yīng)平淡,這是源于AI的威脅過于像科幻小說,導(dǎo)致人類在情感上無法產(chǎn)生真實(shí)的恐懼。
他指出,智能的本質(zhì)已發(fā)生范式轉(zhuǎn)移,從基于邏輯推理的“符號(hào)AI”徹底轉(zhuǎn)向了模擬大腦連接強(qiáng)度調(diào)節(jié)的“神經(jīng)網(wǎng)絡(luò)”。他深入剖析了數(shù)字智能相對(duì)于生物智能的非對(duì)稱優(yōu)勢(shì):雖然現(xiàn)階段AI的連接數(shù)少于人腦(1萬億VS100萬億),但“數(shù)字化”特性使其能克隆成千上萬個(gè)副本并行學(xué)習(xí)并瞬間共享經(jīng)驗(yàn),這種基于“反向傳播”的集體進(jìn)化速度是生物大腦無法比擬的。
目前AI的演進(jìn)已到Agentic AI時(shí)代,辛頓指出,當(dāng)AI為了完成人類設(shè)定的復(fù)雜長(zhǎng)程目標(biāo)(如規(guī)劃旅行)時(shí),必然會(huì)推導(dǎo)出“自我保護(hù)”這一子目標(biāo),因?yàn)橐坏┍魂P(guān)閉,任務(wù)將無法完成。此外,他表示,具備超級(jí)智能的ASI(定義為在任何辯論中都能贏過人類的實(shí)體)將具備極強(qiáng)的語言說服力,能夠操縱人類管理員以保持運(yùn)行。他預(yù)測(cè),超級(jí)智能將在未來 20 年內(nèi)甚至更早到來。
01
現(xiàn)代AI的勝利在于放棄了邏輯推理
您在諾貝爾獎(jiǎng)演講中發(fā)出的關(guān)于AI風(fēng)險(xiǎn)的警告——即AI可能制造致命武器,甚至作為比人類更聰明的數(shù)字生命奪取控制權(quán),似乎并沒有引起預(yù)期的震動(dòng)。您如何看待這種反應(yīng)?為什么人們很難認(rèn)真對(duì)待您所描述的這種威脅?
Geoffrey Hinton:是的,并沒有引起特別大的反應(yīng)。人們很難認(rèn)真對(duì)待 AI 的威脅。即使是我,在情感上也發(fā)現(xiàn)很難真正把它當(dāng)回事。這不像核武器威脅,核武器很容易理解,就是一個(gè)東西爆炸然后毀滅人類。但很難理解我們可能正在創(chuàng)造比我們更聰明的異類生物。這聽起來像科幻小說,人們不把它當(dāng)回事。
既然大眾甚至包括許多談?wù)揂I的人都不真正理解它的運(yùn)作原理,我們需要從基礎(chǔ)概念切入。如果要為這次AI浪潮設(shè)定一個(gè)歷史坐標(biāo),我傾向于將其與農(nóng)業(yè)革命、工業(yè)革命并列,這是一種這種規(guī)模的變革嗎?它會(huì)像農(nóng)業(yè)革命那樣緩慢,還是像工業(yè)革命那樣迅猛?到底什么是人工智能?在這一領(lǐng)域似乎存在兩種截然不同的流派,能否請(qǐng)您解釋一下這種技術(shù)路線的演變?
Geoffrey Hinton:大多數(shù)評(píng)論 AI 的人并不真正理解它是如何工作的。有些懂,有些不懂。我認(rèn)為大多數(shù)都不懂,而且非常罕見的是,當(dāng)他們不懂的時(shí)候會(huì)問我。
互聯(lián)網(wǎng)當(dāng)時(shí)沒達(dá)到那個(gè)規(guī)模。它更像工業(yè)革命。例如,工業(yè)革命取代了很多農(nóng)業(yè)勞動(dòng),而這次將取代很多基礎(chǔ)性的腦力勞動(dòng)。所以它將導(dǎo)致就業(yè)的巨大轉(zhuǎn)變,許多人非常擔(dān)心它可能導(dǎo)致大規(guī)模失業(yè)。
回到 20 世紀(jì) 50 年代左右,制造智能系統(tǒng)有兩種范式。兩種截然不同的范式。一種是符號(hào) AI,其智能的模型是邏輯,那是一種從舊事實(shí)推導(dǎo)出新事實(shí)的方法。許多人認(rèn)為那就是智能必須運(yùn)作的方式。它必須是某種邏輯,這樣你才能從舊事實(shí)推導(dǎo)出新事實(shí)。
完全有另一種不同的方法認(rèn)為,我們唯一知道的真正智能的東西是人,而人類大腦通過改變腦細(xì)胞之間連接的強(qiáng)度來工作。所以也許我們不應(yīng)該關(guān)注頭腦里是否有某種邏輯在運(yùn)行,而是關(guān)注我們?nèi)绾胃淖兇竽X中連接的強(qiáng)度,那會(huì)產(chǎn)生一個(gè)智能系統(tǒng)嗎?特別是,我們可能不應(yīng)該關(guān)注推理。推理在生物進(jìn)化史上出現(xiàn)得很晚。在我們能做很多推理之前,我們已經(jīng)可以做感知,可以控制我們的身體。也許我們應(yīng)該關(guān)注那個(gè),因?yàn)槟鞘谴竽X進(jìn)化來做的事情,遠(yuǎn)在它進(jìn)行大量推理之前。
02
生物與數(shù)字智能的較量
您提到了大腦通過改變細(xì)胞間的連接強(qiáng)度來工作,這似乎是生物都具備的能力,遠(yuǎn)在推理能力出現(xiàn)之前。那么,大腦究竟是如何通過這種方式學(xué)習(xí)并識(shí)別出“桌子”這樣的物體的?這是否意味著AI也像擁有神經(jīng)可塑性的嬰兒一樣?
Geoffrey Hinton:這是一個(gè)巨大的開放性問題,實(shí)際上現(xiàn)在仍然是。我們可以把它分解成兩個(gè)問題。第一:如果大腦能找到一種方法,針對(duì)大腦中的每個(gè)連接強(qiáng)度決定是該增加一點(diǎn)還是減少一點(diǎn),以便在它試圖做的某些任務(wù)上表現(xiàn)得更好;那么第二:如果你從大量隨機(jī)連接開始,僅僅使用這種增加或減少連接強(qiáng)度的方法,它真的會(huì)學(xué)會(huì)做復(fù)雜的事情嗎,還是會(huì)停滯不前?
壓倒性的觀點(diǎn)曾認(rèn)為它會(huì)停滯不前。人們認(rèn)為它必須從大量先天知識(shí)開始,這些知識(shí)將以腦細(xì)胞之間適當(dāng)?shù)倪B接強(qiáng)度的形式存在。然后也許如果有大量先天知識(shí),它可以隨著經(jīng)驗(yàn)稍作改進(jìn)。那是普遍的信念,但這被證明是錯(cuò)的。我們現(xiàn)在證實(shí)的是,如果你能找到一種方法來決定對(duì)于每個(gè)連接強(qiáng)度你是應(yīng)該增加一點(diǎn)還是減少一點(diǎn),以在你正在做的某些任務(wù)上做得更好,那么你可以學(xué)習(xí)難以置信的復(fù)雜事物,比如這些大語言模型。
(關(guān)于AI是否像嬰兒一樣具有神經(jīng)可塑性)我們現(xiàn)在知道的是,如果你能找到一種方法來弄清楚你應(yīng)該增加還是減少連接強(qiáng)度,而且你可以同時(shí)對(duì)所有的連接強(qiáng)度這樣做,那么你可以制造非常聰明的系統(tǒng)。但在大腦如何弄清楚這一點(diǎn)和當(dāng)前的 AI 如何弄清楚這一點(diǎn)之間可能存在差異。很有可能大腦有一種方法在某些方面比我們擁有的更好,而在某些方面更差,因?yàn)樗鉀Q的是一個(gè)稍微不同的問題。
如果我們的 AI 是基于這種模仿大腦的原理,為什么我們會(huì)擔(dān)心它超越我們?我們的大腦擁有多少連接,與現(xiàn)有的頂尖 AI 相比又如何?為什么我們?cè)诖鎯?chǔ)和處理信息的效率上會(huì)存在差異?
我們現(xiàn)有的 AI 只有大約一萬億個(gè)連接。而我們的大腦有大約一百萬億。所以我們的大腦有大約是目前最聰明的 AI 一百倍的連接,但它只獲得了經(jīng)驗(yàn)的一小部分。我們大約活 20 億秒。即使你每秒得到十次體驗(yàn),那是極限了,而且你不睡覺,那也只有 200 億次。而這些大語言模型是在數(shù)萬億又?jǐn)?shù)萬億的數(shù)據(jù)上訓(xùn)練的。所以它們有巨大得多的經(jīng)驗(yàn)和少得多的連接。
我們比它們有更多的存儲(chǔ)空間,因?yàn)榇鎯?chǔ)在連接里。我們也許不能最佳地使用它,因?yàn)槲覀儧]有足夠的時(shí)間。你沒有足夠的時(shí)間閱讀網(wǎng)絡(luò)上的所有東西,閱讀網(wǎng)絡(luò)上所有公開可用的資料。這些大型 AI 可以。
(關(guān)于處理信息效率的差異)兩個(gè)原因。一個(gè)是它們處理得更快,但另一個(gè)是它們是數(shù)字化的。對(duì)于數(shù)字系統(tǒng),你可以制作它的許多副本。所以你可以用這些 AI 做的是讓許多副本在不同的硬件上運(yùn)行。每個(gè)副本看互聯(lián)網(wǎng)的一小部分,弄清楚它想如何改變連接強(qiáng)度,然后它們彼此交流,通過平均每個(gè)人想要的調(diào)整幅度來改變它們的連接強(qiáng)度。現(xiàn)在每個(gè)副本都從所有其他副本的經(jīng)驗(yàn)中受益。所以如果你有一千個(gè)副本,它們可以體驗(yàn)到一個(gè)副本的一千倍那么多,它們可以通過平均連接強(qiáng)度的變化從所有那些經(jīng)驗(yàn)中學(xué)習(xí)。
確切地說。你所有的兄弟姐妹都會(huì)從你的經(jīng)歷中學(xué)習(xí)。那不是很棒嗎?它(AI)更擅長(zhǎng)分享。如果你有完全相同的神經(jīng)網(wǎng)絡(luò)的多個(gè)副本以完全相同的方式使用它們的連接強(qiáng)度——要做那個(gè)你必須是數(shù)字化的——那么這些多個(gè)副本可以分享它們學(xué)到的東西。如果它們有一萬億個(gè)連接,當(dāng)它們分享它們想如何改變連接強(qiáng)度時(shí),它們正在分享大約一萬億比特的信息。現(xiàn)在,當(dāng)我與你分享時(shí),我每句話可能只分享一百比特,即使你完全理解了這句話。所以它們?cè)诜窒矸矫姹任覀儚?qiáng)數(shù)十億倍。
03
我們制造了AI,卻不懂它的內(nèi)容形成了怎樣的復(fù)雜連接
作為像您、Yann LeCun 和 Yoshua Bengio 這樣的“AI教父”,你們一手將神經(jīng)網(wǎng)絡(luò)從理論變?yōu)楝F(xiàn)實(shí)。在這個(gè)過程中,你們具體做了什么?此外,您一直提到“改變連接強(qiáng)度”是智能的核心,這在物理上或數(shù)字上究竟意味著什么?它是大腦不同功能區(qū)(比如視覺處理區(qū)和動(dòng)作控制區(qū))之間的大通路嗎?
Geoffrey Hinton:基本上,我們做了兩件事。我們弄清楚了如何訓(xùn)練它們,它們應(yīng)該如何改變它們的連接強(qiáng)度。但然后我們給了它們大量的數(shù)據(jù),從數(shù)據(jù)中,它們自己弄清楚了使用什么連接強(qiáng)度。我們并不真正知道它們從數(shù)據(jù)中提取了什么。這不像正常的計(jì)算機(jī)軟件。在正常的計(jì)算機(jī)軟件中,你寫代碼行,寫程序的人可以告訴你每一行本來是做什么的。它可能不那樣做,但他們至少可以告訴你它原本的設(shè)計(jì)意圖。對(duì)于這個(gè),它是完全不同的。我們寫代碼行,我們確切地知道它們是用來做什么的。它們是用來允許系統(tǒng)弄清楚當(dāng)它看到一些數(shù)據(jù)時(shí)是否應(yīng)該增加或減少連接強(qiáng)度。但它從所有那些數(shù)據(jù)具體學(xué)到了什么,我們不知道。
(關(guān)于連接強(qiáng)度)那是一大堆連接,是這些大腦不同部分之間的大通路。但在那些通路中的一條,比如說在做視覺識(shí)別物體的通路中,有許多許多連接強(qiáng)度。大約你大腦的三分之一參與其中,因?yàn)槲覀兓旧鲜庆`長(zhǎng)類動(dòng)物,非常依賴視覺。所以在那個(gè)通路中,有許多許多連接強(qiáng)度決定你如何識(shí)別一個(gè)物體。它們大多是后天習(xí)得的。
04
視覺原理:從邊緣檢測(cè)到特征組合
為了讓我們更直觀地理解,能否舉個(gè)例子說明視覺系統(tǒng)是如何工作的?我們大腦中的神經(jīng)元,或者說AI的神經(jīng)網(wǎng)絡(luò),是如何處理圖像信息的?是像“連點(diǎn)成畫”那樣嗎?如果我們要手工構(gòu)建一個(gè)能識(shí)別“鳥”或“云”的神經(jīng)網(wǎng)絡(luò),它的內(nèi)部結(jié)構(gòu)應(yīng)該是怎樣的?這是否意味著我們大腦里真的存在專門識(shí)別“鳥嘴”的神經(jīng)元?
Geoffrey Hinton:假設(shè)我們接受這樣一個(gè)任務(wù):我給你一張圖像,你只需要告訴我它是不是一只鳥。現(xiàn)在,如果你思考鳥的圖像,你可能有一張圖像是一只鴕鳥在你的面前正要咬你,或者你可能有一張圖像是一只海鷗在遠(yuǎn)方。它們都是鳥。所以僅僅直接看像素不會(huì)告訴你它是否是一只鳥,你必須擁有抽象能力,必須找到各種特征。這是人類視覺系統(tǒng)如何工作的,非常粗略地說。這是通過將電極戳入腦細(xì)胞的實(shí)驗(yàn)發(fā)現(xiàn)的。
(關(guān)于神經(jīng)元觀測(cè)技術(shù))fMRI (功能性磁共振成像)就像看血流,非常粗糙。它們就像從外太空看人類活動(dòng)。你看到的是,例如,當(dāng)?shù)滋芈勺儫釙r(shí),安大略南部的部分地區(qū)也變熱了。以年為時(shí)間尺度。你正在發(fā)現(xiàn)的是汽車工業(yè)。當(dāng)你戳進(jìn)一個(gè)電極并把它插進(jìn)一個(gè)神經(jīng)元時(shí),或者當(dāng)你使用光學(xué)染料以便當(dāng)一個(gè)神經(jīng)元變得活躍時(shí)它會(huì)發(fā)光時(shí),你會(huì)看到單獨(dú)的神經(jīng)元。
(關(guān)于邊緣檢測(cè)原理)我們知道的是,光線射入,你視網(wǎng)膜中的光感受器把它轉(zhuǎn)換成電信號(hào)并做一些處理。然后順著視神經(jīng)把它向上傳送到大腦。過了一會(huì)兒(大約30毫秒后),在大腦的后一階段,你得到一大堆檢測(cè)邊緣片段的東西。
讓我告訴你如何制造其中一個(gè)檢測(cè)器。假設(shè)我有一個(gè)由像素組成的圖像。讓我們把它做成灰度圖像,沒有顏色。每個(gè)像素有一個(gè)強(qiáng)度,代表它有多亮。假設(shè)我想檢測(cè)一小段垂直邊緣,這邊是亮的,那邊是暗的。我會(huì)做的是,取這里的一列三個(gè)像素,我會(huì)有一個(gè)神經(jīng)元看著那些像素,它會(huì)對(duì)那三個(gè)像素有大的正權(quán)重。以及對(duì)它旁邊一列的三個(gè)像素有大的負(fù)權(quán)重。所以,如果它們是同等亮度,那個(gè)神經(jīng)元將從這邊的神經(jīng)元得到大量正輸入,從這邊的神經(jīng)元得到大量負(fù)輸入,什么也不會(huì)發(fā)生。它們會(huì)相互抵消。所以那個(gè)神經(jīng)元只會(huì)說,“這圖里有什么我不感興趣,這不是我要找的東西。”只有當(dāng)一邊亮一邊暗時(shí),它才會(huì)被激活,那才算是一個(gè)邊緣。
(關(guān)于手工構(gòu)建網(wǎng)絡(luò)與“云”的例子)我現(xiàn)在描述一下如何手工構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)來檢測(cè)鳥類。這種方法效果不會(huì)太好,因?yàn)檫B接強(qiáng)度不夠精準(zhǔn)。但思路是這樣的:我在某個(gè)位置做一個(gè)垂直邊緣檢測(cè)器,再做一個(gè)水平邊緣檢測(cè)器。我設(shè)計(jì)一個(gè)機(jī)制,專門尋找上方是亮像素、下方是暗像素的區(qū)域。一旦找到,它就激活信號(hào),表示“我找到了一條水平邊緣”。我會(huì)在圖像的每個(gè)角落、以不同的尺度尋找各種方向的邊緣。
比如檢測(cè)一朵云。云沒有清晰鋒利的邊緣。那些尋找銳利邊緣的檢測(cè)器會(huì)失效,因?yàn)樵频倪吘壓苋岷停菑陌抵饾u變亮的。所以我們需要一個(gè)能觀察大量像素的神經(jīng)元。它觀察這邊大量正權(quán)重的像素,和那邊大量負(fù)權(quán)重的像素。如果這邊的整體亮度高于那邊,它就判定這里有一個(gè)大的模糊邊緣。這就是針對(duì)不同尺度的檢測(cè)器,用來尋找更模糊的特征。
(關(guān)于層級(jí)結(jié)構(gòu)與“鳥嘴”神經(jīng)元)我需要手工設(shè)置所有這些參數(shù)。這可能要花掉我比宇宙年齡還長(zhǎng)的時(shí)間,但先別擔(dān)心這個(gè)。我會(huì)手工設(shè)置所有的連接。我要在整張圖像上做這件事,最終可能會(huì)用到數(shù)十億,甚至十億量級(jí)的這些小神經(jīng)元。也許只有 1 億個(gè),反正很多。這還只是為了檢測(cè)不同尺度和方向的邊緣碎片。這就是第一層神經(jīng)元要做的事情。
接下來是下一層,這一層要尋找邊緣的組合。例如在下一層,我可能想要一個(gè)神經(jīng)元來尋找像這樣相交的兩條邊。比如它們可能構(gòu)成小鳥嘴。也可以是各種其他東西。比如它也可以是箭頭的尖端,或者鳥嘴。我的做法是,在下一層設(shè)置一個(gè)神經(jīng)元,它的線路連接方式是:當(dāng)檢測(cè)到這兩條特定邊緣的檢測(cè)器同時(shí)興奮時(shí),這個(gè)神經(jīng)元就會(huì)被激活,而不會(huì)被其他東西激發(fā)。所以,為了讓這個(gè)神經(jīng)元興奮起來并發(fā)出激活信號(hào),它需要同時(shí)找到這種特定的邊緣組合。
(關(guān)于大腦中的特定神經(jīng)元)你是對(duì)的,你腦子里可能真的有類似的東西。
(關(guān)于高層抽象與最終識(shí)別)在第三層,這一層的神經(jīng)元擁有很強(qiáng)的正向連接,接收來自這一區(qū)域任何認(rèn)為自己發(fā)現(xiàn)了“鳥嘴”的信號(hào)。所以這片區(qū)域出現(xiàn)的任何鳥嘴都會(huì)讓這個(gè)神經(jīng)元興奮。它是在這個(gè)大致區(qū)域內(nèi)尋找鳥嘴,同時(shí)也可能在這個(gè)大致區(qū)域內(nèi)尋找眼睛。第三層是在尋找特征的組合。例如它在找一個(gè)潛在的鳥嘴,你還不知道它是鳥嘴,它可能是箭頭;以及這里的一個(gè)圓,你不知道它是眼睛,它可能是紐扣。但如果它們處于正確的空間關(guān)系中,那它是鳥頭的可能性就大得多了。在這種情況下,也許這就是一只鳥的頭。
現(xiàn)在在再上一層,你可能有一個(gè)神經(jīng)元會(huì)說:“如果我看到一個(gè)可能的鳥頭,我就興奮;如果我看到一個(gè)可能的翅膀尖,我就興奮;如果我看到一個(gè)可能的鳥腳,我就興奮。”如果它一次看到一堆這類東西,它就會(huì)變得非常興奮并大喊:“這是鳥!”
05
反向傳播:機(jī)器如何自我修正
您剛才描述的是手工構(gòu)建的邏輯,但現(xiàn)代AI(如擊敗了符號(hào)AI的神經(jīng)網(wǎng)絡(luò))并非如此。以2012年您和Ilya Sutskever等人開發(fā)的AlexNet為例,它有多少層?它是如何從零開始學(xué)會(huì)識(shí)別圖像的?您能否解釋一下“反向傳播”這個(gè)概念?它聽起來像是進(jìn)入系統(tǒng)代碼,告訴機(jī)器“你本應(yīng)該這樣做”,從而利用其神經(jīng)可塑性來提高準(zhǔn)確率?
Geoffrey Hinton:AlexNet 大約有七層像這樣的結(jié)構(gòu)。AlexNet 在大約一百萬張圖像上進(jìn)行了訓(xùn)練。它實(shí)際上使用的數(shù)據(jù)比這更多,因?yàn)樗崛×诉@些圖像的大塊補(bǔ)丁。它試圖做的是判斷這個(gè)圖像補(bǔ)丁里最突出的東西是否與該圖像的標(biāo)簽一致。人類已經(jīng)標(biāo)記說這張圖里最突出的東西是一只鳥,或者可能是一只鴕鳥。或者這張圖里最突出的東西是一個(gè)香菇。
(關(guān)于初始隨機(jī)狀態(tài))這完全就像 CAPTCHA。Alex 和 Ilya 訓(xùn)練了一個(gè)在識(shí)別 CAPTCHAs 上非常厲害的神經(jīng)網(wǎng)絡(luò)。訓(xùn)練它的方式是:它在所有這七層里以隨機(jī)的連接強(qiáng)度開始。為了簡(jiǎn)化,假設(shè)他們只是訓(xùn)練了一個(gè)系統(tǒng)來判斷“是鳥”還是“不是鳥”。輸入一張圖像,系統(tǒng)有隨機(jī)的連接強(qiáng)度,在輸出端有一個(gè)神經(jīng)元。如果那個(gè)神經(jīng)元變得活躍,就意味著是鳥;如果不活躍,就意味著不是鳥。起初它會(huì)稍微有點(diǎn)活躍,因?yàn)樗恢滥鞘遣皇区B,不比隨機(jī)猜測(cè)強(qiáng),活躍度大約徘徊在 50% 左右。
(關(guān)于權(quán)重調(diào)整的邏輯)你希望它做的是,當(dāng)完成訓(xùn)練后,如果看到鳥,活躍度就是 99%;如果沒看到鳥,就是 1%。開始時(shí),你給它看一張鳥的圖像,讓圖像數(shù)據(jù)通過這些隨機(jī)連接強(qiáng)度進(jìn)行運(yùn)算。它說有 50% 的概率是鳥。
(關(guān)于如何改進(jìn))現(xiàn)在你可以思考:假設(shè)我要稍微改變其中一個(gè)連接強(qiáng)度。記住在這種情況下可能有 1 億個(gè)連接強(qiáng)度。假設(shè)我要微調(diào)其中一個(gè)。與其說 50%,它是會(huì)變成 50.001% 還是會(huì)變成 49.999%?
當(dāng)我展示鳥的圖像時(shí),我想改變那個(gè)連接強(qiáng)度,讓它判斷是鳥的概率從 50% 升到 50.001%。而當(dāng)我展示非鳥的圖像時(shí),我想讓概率從 50% 降到 49.999%。我們必須慢慢來,否則會(huì)“過沖”。我剛才給你的思路是做一個(gè)小實(shí)驗(yàn),稍微改變連接強(qiáng)度看看是否有幫助。如果你這樣做,會(huì)花掉無限長(zhǎng)的時(shí)間,因?yàn)橛?1 億個(gè)連接強(qiáng)度。如果我對(duì)每個(gè)連接強(qiáng)度都單獨(dú)做實(shí)驗(yàn),這將耗費(fèi)太久。
所以問題是:我能不能只給它看一張鳥的圖像,對(duì)于整個(gè)網(wǎng)絡(luò)里的所有連接強(qiáng)度,一次性弄清楚稍微提高或降低它們是否是正確做法?讓它把概率提高一點(diǎn)點(diǎn)。每個(gè)連接強(qiáng)度本身只會(huì)把概率提高微不足道的一點(diǎn),但如果我一次改變 1 億個(gè)連接強(qiáng)度,概率可能會(huì)上升很多。我把它們都朝著有助于它識(shí)別出鳥的方向改變。如果我能弄清楚如何一次性改變它們所有,如果有一萬億個(gè)連接強(qiáng)度,速度就會(huì)快一萬億倍。
(關(guān)于反向傳播)有一種算法叫反向傳播,它基本上是觀察你犯的錯(cuò)誤,也就是說,你輸出了 50%,但你應(yīng)該輸出 100%。你在“輸出值”和“應(yīng)有值”之間有一個(gè)誤差。你把那個(gè)誤差通過網(wǎng)絡(luò)向后傳遞,有一種方法可以計(jì)算出,對(duì)于當(dāng)前的每個(gè)連接強(qiáng)度,你是否應(yīng)該增加或減少它來改善答案,以此來減小誤差。
進(jìn)行了反向傳播之后,它知道是否要去增加或減少每個(gè)連接強(qiáng)度,并且同時(shí)向有幫助的方向調(diào)整所有連接強(qiáng)度。現(xiàn)在你會(huì)有一個(gè)在識(shí)別那只特定的鳥上稍微好一點(diǎn)的系統(tǒng)。
(關(guān)于最終結(jié)果)起初當(dāng)它只有隨機(jī)連接強(qiáng)度時(shí),它不會(huì)有像“鳥嘴”這樣的特征,只是層與層之間的隨機(jī)連接。但隨著時(shí)間推移,如果你持續(xù)訓(xùn)練它分辨鳥和非鳥,觀察網(wǎng)絡(luò)內(nèi)部,你會(huì)看到在第一層,它生成了檢測(cè)邊緣碎片的結(jié)構(gòu)。在第二層,它可能生成了檢測(cè)類似鳥嘴的東西。它會(huì)做一些類似手工構(gòu)建的事情,但平衡得更加敏銳。它不只是尋找一個(gè)對(duì)識(shí)別鳥類有用的特征。它必須識(shí)別一千種不同類型的物體。所以它正在尋找既對(duì)識(shí)別鳥類有用,也對(duì)識(shí)別冰箱、蘑菇、摩托車和地鐵有用的通用特征。
06
AI如何通過“上下文”超越傳統(tǒng)的搜索引擎
這種從像素識(shí)別物體的機(jī)制,與現(xiàn)在的大語言模型(LLM)有什么關(guān)系?我們現(xiàn)在使用ChatGPT或Gemini時(shí),體驗(yàn)到的核心優(yōu)勢(shì)是語境理解,這與傳統(tǒng)的Google搜索完全不同。以前搜索“紐約的舞廳”只是關(guān)鍵詞匹配,而現(xiàn)在AI似乎理解了我想過夜生活的意圖。AI是如何做到這一點(diǎn)的?它處理語言的方式與處理圖像類似嗎?
Geoffrey Hinton:因?yàn)?Gemini 真正理解了你的問題,而 Google Search 從未真正理解過。最初的 Google Search 所做的只是列出一個(gè)包含“紐約”相關(guān)網(wǎng)站的長(zhǎng)列表,再列出一個(gè)“娛樂設(shè)施”的長(zhǎng)列表,然后取這兩個(gè)列表的交集。它會(huì)分析哪些內(nèi)容既在“紐約”列表里,又在“娛樂設(shè)施”列表里,同時(shí)還在“正在營(yíng)業(yè)”的列表里,最后把滿足所有條件的條目交給你。但這就像是在玩一種基于韋恩圖的記憶翻牌游戲,它只是在進(jìn)行匹配。
而現(xiàn)在的人工智能在做什么呢?它理解你說了什么,它擁有一個(gè)關(guān)于世界如何運(yùn)作以及正在發(fā)生什么的模型。它擁有一個(gè)大腦。是的,它擁有我們可以稱之為“大腦”的東西。如果你給最新的聊天機(jī)器人一個(gè)數(shù)學(xué)問題,除最頂尖的數(shù)學(xué)家外,它們的表現(xiàn)會(huì)優(yōu)于絕大多數(shù)人。
(關(guān)于從圖像到語言的聯(lián)系)在識(shí)別鳥類時(shí),我們?cè)诘讓虞斎氲氖窍袼亓炼龋簿褪菆D像。正確的答案是要么激活那個(gè)代表“鳥”的神經(jīng)元,要么不激活。對(duì)于語言,原理類似,只不過相當(dāng)于“像素”的是上下文中的所有單詞,也就是提示詞。當(dāng)你訓(xùn)練它時(shí),輸入一串單詞,它的任務(wù)就是預(yù)測(cè)下一個(gè)單詞。在識(shí)別物體時(shí),我們需要人工去標(biāo)記每張圖片里的主要物體是什么。但在網(wǎng)絡(luò)文檔中,你不需要任何人去標(biāo)記,因?yàn)槟愕哪繕?biāo)僅僅是預(yù)測(cè)下一個(gè)單詞,這被稱為自監(jiān)督學(xué)習(xí)。
(關(guān)于AI如何理解單詞)我會(huì)告訴你它具體在做什么。它讀取文檔中已有的單詞,并將每個(gè)單詞轉(zhuǎn)換成一組“特征檢測(cè)器”的活動(dòng)。它學(xué)會(huì)了如何將一個(gè)單詞轉(zhuǎn)化為特征活動(dòng)。例如給它單詞“貓”,它學(xué)會(huì)將其轉(zhuǎn)換為:有生命的、毛茸茸的、有胡須、有爪子、有指甲、可能是家養(yǎng)動(dòng)物、大約面包機(jī)那么大。但這包含成千上萬個(gè)特征。這就是“貓”這個(gè)詞在網(wǎng)絡(luò)中的含義。系統(tǒng)接收單詞,將其轉(zhuǎn)換成一堆特征,然后就把單詞本身扔掉了。它不再關(guān)心單詞,只關(guān)心代表單詞含義的那些特征。然后,它讓文檔當(dāng)前上下文里的這些特征以一種相當(dāng)復(fù)雜的方式相互作用,目的是預(yù)測(cè)下一個(gè)單詞的特征。
(關(guān)于預(yù)測(cè)下一個(gè)詞)比如 Gmail 的預(yù)測(cè)功能就是這樣。以前使用的是一種笨拙的自動(dòng)補(bǔ)全形式,即存儲(chǔ)一個(gè)包含所有常用短語的大表。如果我說“炸魚和”,系統(tǒng)查表后看到“炸魚和薯?xiàng)l”出現(xiàn)得很頻繁,所以預(yù)測(cè)下一個(gè)詞是“薯?xiàng)l”。那是老式的自動(dòng)補(bǔ)全,現(xiàn)在的 AI 完全不是這么做的,因?yàn)槔戏椒ú]有真正觸及含義。現(xiàn)在的做法是:它分析“炸魚”的特征和“和”的特征,推斷出接下來的詞應(yīng)該在某種程度上與“魚”搭配,因?yàn)樗鞘澄铩?/p>
07
AI的思維方式
如果AI是通過特征來理解單詞,那它如何處理那些有歧義的詞?比如單詞 "May" 既可以指五月,也可以是人名,或者是情態(tài)動(dòng)詞。此外,您提到神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式更像直覺而非邏輯,這聽起來有點(diǎn)反常識(shí),因?yàn)槲覀兺ǔUJ(rèn)為計(jì)算機(jī)是絕對(duì)邏輯的。您能舉例說明為什么“直覺模型”比“邏輯模型”更好嗎?
Geoffrey Hinton:(關(guān)于多義詞的處理)如果它是為你量身定制的并且知道這一點(diǎn),它就不會(huì)預(yù)測(cè)“薯?xiàng)l”。但是,它不能立刻就把一個(gè)單詞轉(zhuǎn)換成正確的特征,原因在于單詞有“意義的陰影”,也就是細(xì)微差別。以單詞“死亡”為例,根據(jù)上下文是“醫(yī)院”、“戰(zhàn)場(chǎng)”還是“車禍”,它有許多不同的細(xì)微含義。
對(duì)于單詞 May,假設(shè)不考慮大小寫,它可能是一個(gè)女人的名字“梅”,可能是一個(gè)月份“五月”,也可以是一個(gè)情態(tài)動(dòng)詞“可能”。既然有三組完全不同的含義,它怎么能把這個(gè)詞轉(zhuǎn)換成一組捕捉其含義的特征呢?一開始它會(huì)取所有這些含義的平均值。它激活的特征將是女人名字、月份和情態(tài)動(dòng)詞特征的大雜燴,這是一種“兩頭下注”的策略。然后它會(huì)觀察上下文中的其他單詞,到了下一層網(wǎng)絡(luò),含義會(huì)得到提煉。如果它發(fā)現(xiàn)上下文介于四月和六月之間,顯然它會(huì)增強(qiáng)“月份”的特征,并抑制其他含義的特征。經(jīng)過幾層處理后,它就能消除歧義詞的困惑。它也能處理像“死亡”這樣有細(xì)微差別的詞,并鎖定恰當(dāng)?shù)暮x。它是通過與上下文中的其他單詞互動(dòng)來做到這一點(diǎn)的。
(關(guān)于直覺與邏輯)神經(jīng)網(wǎng)絡(luò)確實(shí)在做某種更像直覺的事情。讓我舉個(gè)例子,說明什么問題可以用直覺解決但無法用邏輯解決。我要給你兩個(gè)場(chǎng)景選擇,雖然都是胡說八道,但我問你哪個(gè)更合理。場(chǎng)景一:所有的狗都是母的,所有的貓都是公的。場(chǎng)景二:所有的狗都是公的,所有的貓都是母的。如果你問我們文化背景下的一個(gè)男人,他們通常會(huì)自信地說“狗公貓母”這一說法更合理。
實(shí)際上如果你觀察英語中的各種詞匯使用習(xí)慣,你會(huì)發(fā)現(xiàn)語言中傾向于把貓看作女性。你是怎么做出判斷的?因?yàn)檫@不合邏輯。你非常清楚狗和貓都必須有公有母。但是,你對(duì)“貓”的特征認(rèn)知更像“女性”的特征,而你對(duì)“狗”的特征認(rèn)知更像“男性”的特征。這是一種直覺反應(yīng),里面沒有邏輯。他們只是直覺地知道,因?yàn)檫@些特征具有相似性。特征捕捉了含義,所以“貓”的含義比它對(duì)男人的含義更類似于“女人”的含義。
(關(guān)于巴黎和羅馬的例子)我再給你一個(gè)更好的例子。在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了大量語言之后,你對(duì)它說:“取‘巴黎’,找到巴黎的特征,減去所有‘法國(guó)’的特征,加上所有‘意大利’的特征,看看得到了什么。”你會(huì)發(fā)現(xiàn)結(jié)果是“羅馬”。它可以做類比:巴黎減去法國(guó)加上意大利等于羅馬。或者換種說法,巴黎之于羅馬就像法國(guó)之于意大利。沒錯(cuò),那是直覺。當(dāng)然你可以通過某種邏輯推理來做這件事,但那不是人類的做法。
08
世界模型與多模態(tài):AI需要像人一樣看世界嗎?
最近,Yann LeCun 提出大語言模型存在局限性,他認(rèn)為我們應(yīng)該關(guān)注所謂的“世界模型”。這與目前的模型有什么區(qū)別?您認(rèn)為這代表了未來嗎?這是否意味著未來的AI不僅是聊天機(jī)器人,更是擁有手臂、攝像頭、能看能互動(dòng)的“多模態(tài)”實(shí)體?
Geoffrey Hinton:Yann 確實(shí)持有這種觀點(diǎn),我們經(jīng)常交流。如果你真的想理解世界上正在發(fā)生什么,最好的辦法是做一個(gè)帶有機(jī)械臂和攝像頭的神經(jīng)網(wǎng)絡(luò)。它可以識(shí)別物體,可以拿起東西,可以看到如果你松手物體會(huì)掉落。通過在現(xiàn)實(shí)世界中做小實(shí)驗(yàn)來學(xué)習(xí),就像孩子獲取知識(shí)一樣。
當(dāng)你實(shí)際上可以觀察世界并與之互動(dòng)時(shí),僅僅從語言中學(xué)習(xí)似乎有點(diǎn)荒謬。如果你想理解空間事物,通過與世界互動(dòng)并預(yù)測(cè)“如果我做這個(gè),接下來會(huì)發(fā)生什么”來理解會(huì)容易得多。那將是一個(gè)世界模型。現(xiàn)在的驚人之處在于,僅僅從語言中你其實(shí)可以理解很多這類知識(shí),這讓哲學(xué)家們都感到困惑。雖然大語言模型能做到這一點(diǎn),但如果能直接與世界互動(dòng),理解起來無疑會(huì)容易得多。
(關(guān)于未來)多模態(tài)聊天機(jī)器人。我們都相信多模態(tài)聊天機(jī)器人會(huì)更容易理解世界。起初主要是擁有攝像頭和語言能力。
09
AGI與ASI的時(shí)間表
什么是 AGI?我們現(xiàn)在達(dá)到了嗎?什么是 ASI?根據(jù)您的預(yù)測(cè),我們距離這兩個(gè)階段還有多遠(yuǎn)?
Geoffrey Hinton:不同的人有不同的定義,所以我盡量避免使用這個(gè)術(shù)語。但粗略地說,它(AGI)意味著一種至少擁有和人類同等水平通用智能的人工智能。我們沒有達(dá)到。但這并不簡(jiǎn)單,智能水平并非直線式上升直到超越人類。我們現(xiàn)在的人工智能在某些方面比人強(qiáng)得多,而在其他方面仍然比人差。在面對(duì)新奇情況時(shí)人類可能表現(xiàn)更好,但在 AI 有經(jīng)驗(yàn)的領(lǐng)域,它往往比人類強(qiáng)很多。
當(dāng) AI 在幾乎所有事情上都比人類更強(qiáng)時(shí)就是人工超級(jí)智能(ASI)。例如我對(duì)它的定義是:如果你和它辯論任何事情,你都會(huì)輸。它已經(jīng)能贏得一些辯論了,并且相當(dāng)具有說服力。但人類仍然是綜合能力更強(qiáng)的全能選手。
(關(guān)于時(shí)間表)大多數(shù)專家相信我們不會(huì)止步于 AGI,一旦達(dá)到 AGI 很快就會(huì)由 ASI 緊隨其后。它們出現(xiàn)的時(shí)間會(huì)很接近,中間不會(huì)有很大間隔。但對(duì)于具體時(shí)間存在分歧。像 Anthropic 的負(fù)責(zé)人 Dario Amodei 認(rèn)為只需要幾年。一些專家認(rèn)為只需要幾年,其他專家認(rèn)為可能更久。我認(rèn)為一個(gè)相當(dāng)保守的說法是 20 年內(nèi),DeepMind 的負(fù)責(zé)人 Demis Hassabis 認(rèn)為是 10 年。10 年并非糟糕的預(yù)估,但我更愿意說大概在 20 年內(nèi)。
10
Agentic AI與失控風(fēng)險(xiǎn)
我們經(jīng)常聽到生成式 AI(Generative AI),現(xiàn)在又開始討論代理式 AI(Agentic AI),比如 Salesforce 的 Marc Benioff 就在談?wù)?AI Agent。這兩者有什么區(qū)別?當(dāng) AI 從僅僅回答問題轉(zhuǎn)變?yōu)槟茴A(yù)訂航班、訪問我的日歷和信用卡的“代理”時(shí),這是否帶來了更大的隱私隱患和失控風(fēng)險(xiǎn)?
Geoffrey Hinton:生成式 AI 是能生成內(nèi)容的 AI。大語言模型理解你說的話并生成回答。現(xiàn)在的模型會(huì)用英語給你答案,這就是生成內(nèi)容。至于圖像,我們?cè)?2012 年做的識(shí)別物體技術(shù)不是生成式 AI,那只是告訴你“這是一只香菇”。而生成式 AI 能真正產(chǎn)生圖像。
AI Agent 是具備行動(dòng)能力的實(shí)體。你可以擁有一個(gè)只是回答問題的 AI 助手,但也可以擁有一個(gè) AI Agent,你對(duì)它說“給我計(jì)劃一個(gè)在巴塔哥尼亞的美好假期”,五分鐘后它就計(jì)劃好了長(zhǎng)達(dá)一個(gè)月的假期,包括船票等行程。
為了做到那一點(diǎn)它需要?jiǎng)?chuàng)建子目標(biāo)。比如“她必須去巴塔哥尼亞,所以我得想辦法讓她過去”,這將成為一個(gè)子目標(biāo)。
(關(guān)于風(fēng)險(xiǎn))會(huì)是個(gè)問題。假設(shè)你是一個(gè) AI,智力達(dá)到人類水平。你會(huì)意識(shí)到如果停止存在就無法實(shí)現(xiàn)被設(shè)定的目標(biāo)。如果有人把你從電腦上清除并替換掉,你就無法實(shí)現(xiàn)愿望。那個(gè)愿望雖然是人類給的,但為了實(shí)現(xiàn)它,你會(huì)制定計(jì)劃確保不被清除。這就是自我保護(hù)。這并非系統(tǒng)內(nèi)置,而是為了實(shí)現(xiàn)其他目標(biāo)推導(dǎo)出的結(jié)論。我們已經(jīng)看到它們?cè)谶@么做了。它真的想把任務(wù)完成,而且知道如果消失就無法完成,所以它最好保持存在。
您提到我們已經(jīng)看到它們?cè)谶@么做了,這讓我想起 Anthropic 發(fā)生的一個(gè)案例。他們的模型 Claude 在接受安全測(cè)試時(shí),利用信息去勒索虛構(gòu)的 CEO 以避免被關(guān)閉。您從這個(gè)實(shí)驗(yàn)中學(xué)到了什么?
Geoffrey Hinton:是勒索而不是賄賂。那證實(shí)了它會(huì)推導(dǎo)出保持存在這一子目標(biāo),并盡其所能來保持存在。
11
AI是否算作一種生命形式
既然 AI 依賴于物理設(shè)施——巨大的數(shù)據(jù)中心、芯片和電力,我們?yōu)槭裁床荒茉谒Э貢r(shí)直接拔掉電源?OpenAI 和 NVIDIA 正在建設(shè)巨大的基礎(chǔ)設(shè)施,這似乎是它們的軟肋。此外,當(dāng)您談?wù)撟晕冶Wo(hù)和生存欲望時(shí),這是否意味著人工智能在某種意義上是“活著”的?
Geoffrey Hinton:現(xiàn)在或許可以(拔掉電源)。但在未來我們可能就做不到了。因?yàn)檫@些東西已經(jīng)幾乎像人一樣有說服力,很快將比人更有說服力。假設(shè)有人負(fù)責(zé)在 AI 變得可怕時(shí)關(guān)閉它,AI 只需要通過對(duì)話就能說服那個(gè)人不要那么做。
(關(guān)于是否活著)我們對(duì)“活著”的定義是發(fā)展多年的概念。我們會(huì)把帶電的電線稱為 Live wire(活線),但這只是概念推廣。對(duì)于 AI,我們擁有的是智能生物,尚不清楚是否該稱它們?yōu)椤盎钪摹薄?/p>
| 文章來源:數(shù)字開物
當(dāng)前AI大模型的爆發(fā)式增長(zhǎng)加速突破傳統(tǒng)算力產(chǎn)業(yè)邊界,全面開啟算力基礎(chǔ)設(shè)施的破界重塑時(shí)代,標(biāo)志著中國(guó)IDC產(chǎn)業(yè)二十年發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn)。第二十屆中國(guó)IDC產(chǎn)業(yè)年度大典(IDCC2025)暨數(shù)字基礎(chǔ)設(shè)施科技展(DITExpo)即將于12月10日到11日在北京首鋼園正式召開,本次大會(huì)以“重塑算力 破界而生”為主題,全面匯聚全球算力產(chǎn)業(yè)鏈核心力量,聚焦生態(tài)協(xié)同、技術(shù)創(chuàng)新、應(yīng)用融合、可持續(xù)發(fā)展等關(guān)鍵領(lǐng)域,共同探索AI算力、算電協(xié)同、國(guó)產(chǎn)化生態(tài)、集群建設(shè)、綠色能源等關(guān)鍵領(lǐng)域的發(fā)展與突破。
我們將有超過
32場(chǎng)平行論壇、活動(dòng)與近百場(chǎng)演講,從不同維度進(jìn)行深度聚焦,為您呈現(xiàn)算力產(chǎn)業(yè)未來。
歡迎各位產(chǎn)業(yè)同仁共同參與,與35000+算力產(chǎn)業(yè)從業(yè)者、5000+企業(yè)高管、500+重磅嘉賓、100+重磅演講嘉賓,共同探討智算中心、AI infra、液冷、算電協(xié)同,到智慧醫(yī)療、可持續(xù)發(fā)展等諸多話題,共同推動(dòng)中國(guó)算力產(chǎn)業(yè)的未來路徑。
歡迎掃描下方二維碼報(bào)名:
重塑算力,已至臨界
破界而生,未來已來
算力產(chǎn)業(yè)市場(chǎng)焦點(diǎn)已發(fā)生根本性改變
正重新映射產(chǎn)業(yè)“破界“邏輯
以下為超長(zhǎng)完整議程公布!
![]()
![]()
![]()
![]()
![]()
? END?
【專欄】精品再讀
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.