網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI教父Geoffrey Hinton，全球第二個百萬引用科學家！

2026-01-17 18:47:32　來源: 算法與數(shù)學之美

北京舉報

分享至

Hinton百萬引用的背后，是數(shù)篇奠基「現(xiàn)代人工智能」的不朽之作！

見證歷史！

剛剛，AI教父、圖靈獎巨頭Geoffrey Hinton論文被引數(shù)正式破100萬！

他是繼Yoshua Bengio之后，全球第二位論文引用量突破百萬的學者。

學術(shù)地位無可撼動！

一時間，學術(shù)界的大牛們，紛紛為 Hinton送上了祝賀。

百萬被引，世界第二人

兩個月前，Nature曾發(fā)文：Bengio成為世界首位被引數(shù)超100萬的研究者。

這一紀錄被很多人視作AI時代的學術(shù)注腳。

目前，谷歌學術(shù)顯示，Bengio被引次數(shù)已達到103.6萬！

如今，Hinton被引數(shù)迅速突破百萬門檻，更像是同一條浪潮的回聲：

深度學習的核心理論與方法，正在被前所未有的研究規(guī)模「持續(xù)引用、持續(xù)放大」。

不僅如此，同為圖靈獎三巨頭的Yann LeCun的被引數(shù)也達到了恐怖的45萬級。

傳奇仍在續(xù)寫

這一成就，植根于Hinton數(shù)十年來持續(xù)不斷的學術(shù)積淀。

可以說，讀懂他的全部研究，相當于掌握了深度學習的發(fā)展脈絡(luò)與演進史。

Hinton的代表作列表，會有一種強烈的既視感，其中有幾篇「時代級論文」的引用數(shù)格外醒目：

AlexNet（ImageNet 2012）：18萬+引用，深度學習大規(guī)模視覺突破的重要標志

AlexNet讓神經(jīng)網(wǎng)絡(luò)第一次以壓倒性優(yōu)勢贏下大規(guī)模視覺競賽，直接點燃了深度學習在工業(yè)界的信心。

更重要的是，它把「數(shù)據(jù)+GPU+端到端訓練」的路線寫成了可復用的范式，從此視覺、語音、推薦都開始沿著同一套工程邏輯加速迭代。

Deep Learning（Nature 2015）：10萬+引用，三巨頭合著，成為無數(shù)論文的共同起點

Deep Learning更像一本「統(tǒng)一語言的說明書」，把分散在不同子領(lǐng)域的研究線索串成框架：

神經(jīng)網(wǎng)絡(luò)為什么能學、怎么訓練、能解決什么問題、還缺什么關(guān)鍵環(huán)節(jié)。

t-SNE可視化（2008）：6萬+引用，直到今天仍是科研可視化的常用工具

t-SNE改變了研究者理解模型的方式，比如高維特征怎么分簇、類別邊界怎么形成、錯誤樣本為什么混在一起。

它把這些「黑箱內(nèi)部的形狀」變成可直觀看到的圖像。

Dropout（2014）：6萬+引用，訓練神經(jīng)網(wǎng)絡(luò)時的「基礎(chǔ)操作」

Dropout把「泛化」這件事從玄學變成了操作：訓練時隨機丟棄部分神經(jīng)元，逼著網(wǎng)絡(luò)學到更穩(wěn)健的表示，減少過擬合。

甚至，很多人第一次接觸深度學習的訓練技巧，學到的就是它。

這些高被引論文覆蓋了從理論到技巧、從模型到工具的多個層面：它們不只提供答案，還定義了「怎么提問、怎么驗證、怎么訓練、怎么呈現(xiàn)」。

在AI浪潮中，Hinton的早期貢獻如今支撐著ChatGPT、Gemini等大模型的運行。

Bengio作為首位破百萬者，開啟了這一時代；Hinton的加入，進一步鞏固了深度學習在學術(shù)界的霸主地位。

最近，Hinton還在一期演講中表示，大模型（LLM）的運作宛如人腦，是一個通過數(shù)據(jù)自我演化的「黑箱」。

其智能源于從數(shù)據(jù)中學習，并調(diào)整數(shù)萬億連接的強度。正因如此，其內(nèi)部認知過程，在很大程度上仍是個謎。

因此，這一領(lǐng)域仍需未來的AI研究者們持續(xù)探索、不斷突破。

學術(shù)經(jīng)歷

Hinton 1947年生于英國倫敦，出身學術(shù)世家，其曾曾祖父喬治·布爾，開發(fā)了二元推理系統(tǒng)「布爾代數(shù)」，構(gòu)成了現(xiàn)代計算機的基礎(chǔ)。

1970年，他從劍橋大學國王學院獲實驗心理學學士學位，后轉(zhuǎn)攻計算機科學；1978年于愛丁堡大學獲博士學位，師從Christopher Longuet-Higgins，博士論文聚焦于連接主義模型的語義學習。

職業(yè)生涯早期，Hinton在加州大學圣迭戈分校和卡內(nèi)基梅隆大學任教，但因神經(jīng)網(wǎng)絡(luò)在當時被主流AI社區(qū)視為「死胡同」，他于1987年轉(zhuǎn)至加拿大多倫多大學計算機科學系任教，直至2023年退休。

在多倫多，他組建了神經(jīng)計算與自適應(yīng)感知實驗室（Neural Computation and Adaptive Perception Lab），培養(yǎng)了眾多AI精英。

2013年起，他兼任谷歌腦（Google Brain）副總裁，推動工業(yè)級深度學習落地，如語音識別和圖像分類。

Hinton的堅持源于對生物大腦啟發(fā)的信念：在AI寒冬期，他通過反向傳播（backpropagation）優(yōu)化多層網(wǎng)絡(luò)，并在2006年提出深度信念網(wǎng)絡(luò)（Deep Belief Networks），利用無監(jiān)督預訓練解決梯度消失問題，最終引發(fā)深度學習復興，催生了AlexNet等標志性突破。

2018年，Hinton與Yann LeCun和Yoshua Bengio共同獲圖靈獎，表彰他們在深度神經(jīng)網(wǎng)絡(luò)概念性及工程性突破方面的開創(chuàng)性貢獻，特別是其工作奠定了現(xiàn)代AI的核心算法基礎(chǔ)，使計算機能夠從海量數(shù)據(jù)中自主學習復雜模式。

2024年，Hinton與約翰·霍普菲爾德（John Hopfield）共同獲諾貝爾物理學獎，表彰他們在人工神經(jīng)網(wǎng)絡(luò)上的基礎(chǔ)發(fā)現(xiàn)和發(fā)明，這些工作啟用了機器學習技術(shù)，包括霍普菲爾德網(wǎng)絡(luò)和玻爾茲曼機，也是諾貝爾物理學獎首次頒給非傳統(tǒng)物理學家。

AlexNet開啟深度學習時代

2009年，李飛飛啟動ImageNet項目，提供大規(guī)模標注數(shù)據(jù)集，促進特征學習和分類研究。

在AlexNet提出前，計算機視覺主要依賴手工設(shè)計的特征（如SIFT、HOG），淺層機器學習模型難以處理ImageNet的1000萬圖像和1000類復雜任務(wù)，導致錯誤率停留在25%-30%（Top-5）。

2012年，Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton于2012年發(fā)表在NeurIPS會議，提出了一種大型深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）AlexNet，用于ImageNet LSVRC-2010競賽的圖像分類任務(wù)。

論文鏈接：https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

引用次數(shù)：188837

雖然深度神經(jīng)網(wǎng)絡(luò)也曾流行于90年代，但因計算資源不足、梯度消失和過擬合而衰退。

隨著GPU計算能力的提升（如NVIDIA CUDA），為訓練大型網(wǎng)絡(luò)提供了硬件基礎(chǔ)，AlexNet借此成功證明深度CNN在海量數(shù)據(jù)和強大硬件支持下可實現(xiàn)突破，結(jié)束了「特征工程」時代，開啟深度學習復興。

AlexNet網(wǎng)絡(luò)包含8層（5個卷積層+3個全連接層），擁有6000萬個參數(shù)和65萬個神經(jīng)元，使用ReLU激活函數(shù)、非飽和神經(jīng)元、Dropout正則化、數(shù)據(jù)增強和多GPU訓練等創(chuàng)新技術(shù)。

在測試集上，Top-1錯誤率37.5%、Top-5錯誤率17.0%，大幅優(yōu)于當時最先進方法；在ILSVRC-2012競賽中，Top-5錯誤率僅15.3%，遠超第二名26.2%。

這篇論文標志著深度學習革命的開端，推動CNN成為計算機視覺主流，推動了從手工藝特征向端到端學習的轉(zhuǎn)變。

AlexNet架構(gòu)啟發(fā)了VGG、ResNet等后續(xù)模型，廣泛應(yīng)用于目標檢測、分割和生成等領(lǐng)域，并促進了GPU加速和大規(guī)模數(shù)據(jù)集的使用，重塑AI研究格局。

三巨頭合著

到了2015年，雖然深度學習已經(jīng)在學術(shù)界引起轟動，但在更廣泛的科學領(lǐng)域（如《Nature》的讀者群體），大家仍對其背后的原理、潛力以及它與傳統(tǒng)機器學習的區(qū)別缺乏系統(tǒng)認知。

在人工智能「大爆發(fā)」的前夜，由三巨頭聯(lián)合發(fā)表于Nature，向全世界科學界系統(tǒng)性地定義了什么是「深度學習」。

論文鏈接：https://www.nature.com/articles/nature14539

引用次數(shù)：107646

文章深入淺出地解釋了深度學習區(qū)別于傳統(tǒng)方法的關(guān)鍵點：

表征學習 (Representation Learning)：深度學習的核心是自動學習特征，通過多個處理層，將原始數(shù)據(jù)（如像素點）轉(zhuǎn)化為更高層次、更抽象的表達。
反向傳播算法 (Backpropagation)：論文詳細描述了系統(tǒng)如何通過計算誤差梯度，從輸出層向輸入層反推，更新每一層神經(jīng)元之間的權(quán)重（Parameters），從而實現(xiàn)學習。
核心架構(gòu)：卷積神經(jīng)網(wǎng)絡(luò) (CNN)專門用于處理具有空間結(jié)構(gòu)的數(shù)據(jù)（如圖像、視頻），利用了自然圖像的統(tǒng)計特性（局部相關(guān)性和平移不變性）；循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)：專門用于處理序列數(shù)據(jù)（如文本、語音），能夠處理變長的輸入流。

這篇文章總結(jié)了過去三十年的探索，并開啟了我們現(xiàn)在所處的「大模型時代」。

t-SNE特征可視化

t-SNE（t-distributed Stochastic Neighbor Embedding）論文發(fā)表于2008年，解決了數(shù)據(jù)科學領(lǐng)域一個核心痛點：如何讓昂貴、復雜的高維數(shù)據(jù)變得肉眼可見？

在此前，研究人員主要使用主成分分析（PCA）或傳統(tǒng)的隨機鄰域嵌入（SNE）來降維，但PCA在處理非線性數(shù)據(jù)（如流形結(jié)構(gòu)）時效果很差，SNE在將高維空間的數(shù)據(jù)映射到低維（2D/3D）時，空間會變得極其擁擠，導致不同類別的簇混在一起，無法分辨。

論文鏈接：http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf

引用次數(shù)：63932

t-SNE的做法是：在高維空間中使用高斯分布來衡量點與點之間的相似度。如果兩個點離得近，它們被選為鄰居的概率就高；在低維空間中，改用 Student t-分布（自由度為 1）而非高斯分布來衡量相似度，因為t分布的尾部比高斯分布更「胖」，強制讓原本在低維空間中距離較遠的點被推得更遠，從而有效地解決了「擁擠問題」，讓不同的數(shù)據(jù)簇（Cluster）在視覺上分界非常明顯。

t-SNE發(fā)表后，迅速成為高維數(shù)據(jù)可視化的行業(yè)標準，常見的場景包括觀察模型隱藏層提取的特征（MNIST手寫數(shù)字自動聚成不同的團），在單細胞測序中識別新的細胞種類等。

不過t-SNE也有一些局限性，如計算量大，處理超大規(guī)模數(shù)據(jù)集時速度較慢（后來有了FIt-SNE等加速版本）；雖然保證了局部結(jié)構(gòu)，但簇與簇之間的遠近距離并不一定代表真實的全局差異；算法對超參數(shù)敏感，需要多次調(diào)試。

正則化神器DropOut

論文鏈接：https://dl.acm.org/doi/abs/10.5555/2627435.2670313

引用數(shù)：60895

2014年，深度神經(jīng)網(wǎng)絡(luò)由于強大的建模能力而初顯鋒芒、但同時也深受「過擬合（Overfitting）」困擾。隨著網(wǎng)絡(luò)層數(shù)和參數(shù)量的劇增，模型極其容易對訓練數(shù)據(jù)產(chǎn)生「死記硬背」的傾向，導致在面對未知數(shù)據(jù)時泛化性能極差。

雖然此前已有如權(quán)重衰減（Weight Decay）等正則化手段，但它們在處理超大規(guī)模網(wǎng)絡(luò)時往往力不從心。

此外，雖然集成學習（Ensemble Learning，融合多個不同模型的預測結(jié)果）能有效緩解過擬合，但對于動輒數(shù)百萬甚至數(shù)千萬參數(shù)的神經(jīng)網(wǎng)絡(luò)而言，無論是在訓練階段維護多個大型模型，還是在測試階段進行多次前向傳播，其計算成本都高得令人難以接受。

論文提出了一個非常簡單的機制Dropout（隨機失活）：在訓練過程中，算法會根據(jù)預設(shè)的概率（通常為 0.5）隨機地將隱含層單元的輸出設(shè)為零，使其暫時「消失」在網(wǎng)絡(luò)中，強迫每一個神經(jīng)元都不能依賴于特定其他神經(jīng)元的輔助，有效地打破了神經(jīng)元之間的共適應(yīng)性（Co-adaptation），使得每一個特征檢測器必須變得更加獨立且具有魯棒性。

從數(shù)學視角看，Dropout 在訓練時實際上是從指數(shù)級數(shù)量的「瘦身」網(wǎng)絡(luò)中采樣，而在測試階段，研究者巧妙地通過使用包含全部神經(jīng)元的完整網(wǎng)絡(luò)，并按比例縮減權(quán)重，從而以極低的計算代價實現(xiàn)了對海量子網(wǎng)絡(luò)預測結(jié)果的近似平均（Model Averaging）。

Dropout不僅使卷積神經(jīng)網(wǎng)絡(luò)（CNN）在計算機視覺任務(wù)（如 ImageNet 競賽）中屢創(chuàng)佳績，也成為了深度學習標準工具箱中不可或缺的正則化利器，也證明了通過主動引入「噪聲」和「不確定性」反而能得到更穩(wěn)定的特征表達。

雖然在近些年的發(fā)展中，諸如批歸一化（Batch Normalization）等新技術(shù)在某些場景下部分替代了 Dropout 的功能，但其背后蘊含的集成學習思想和預防過擬合的哲學，依然是現(xiàn)代神經(jīng)網(wǎng)絡(luò)設(shè)計及優(yōu)化理論的重要基石。

再次祝賀Hinton，向所有度過AI寒冬，仍然堅守AI的學者致敬！

參考資料：

https://scholar.google.com/citations?user=JicYPdAAAAAJ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.