Hinton百萬引用的背后,是數(shù)篇奠基「現(xiàn)代人工智能」的不朽之作!
見證歷史!
剛剛,AI教父、圖靈獎巨頭Geoffrey Hinton論文被引數(shù)正式破100萬!
![]()
他是繼Yoshua Bengio之后,全球第二位論文引用量突破百萬的學者。
學術(shù)地位無可撼動!
![]()
一時間,學術(shù)界的大牛們,紛紛為 Hinton送上了祝賀。
![]()
百萬被引,世界第二人
兩個月前,Nature曾發(fā)文:Bengio成為世界首位被引數(shù)超100萬的研究者。
這一紀錄被很多人視作AI時代的學術(shù)注腳。
![]()
目前,谷歌學術(shù)顯示,Bengio被引次數(shù)已達到103.6萬!
![]()
如今,Hinton被引數(shù)迅速突破百萬門檻,更像是同一條浪潮的回聲:
深度學習的核心理論與方法,正在被前所未有的研究規(guī)模「持續(xù)引用、持續(xù)放大」。
![]()
不僅如此,同為圖靈獎三巨頭的Yann LeCun的被引數(shù)也達到了恐怖的45萬級。
![]()
傳奇仍在續(xù)寫
這一成就,植根于Hinton數(shù)十年來持續(xù)不斷的學術(shù)積淀。
可以說,讀懂他的全部研究,相當于掌握了深度學習的發(fā)展脈絡(luò)與演進史。
Hinton的代表作列表,會有一種強烈的既視感,其中有幾篇「時代級論文」的引用數(shù)格外醒目:
AlexNet(ImageNet 2012):18萬+引用,深度學習大規(guī)模視覺突破的重要標志
AlexNet讓神經(jīng)網(wǎng)絡(luò)第一次以壓倒性優(yōu)勢贏下大規(guī)模視覺競賽,直接點燃了深度學習在工業(yè)界的信心。
更重要的是,它把「數(shù)據(jù)+GPU+端到端訓練」的路線寫成了可復用的范式,從此視覺、語音、推薦都開始沿著同一套工程邏輯加速迭代。
![]()
Deep Learning(Nature 2015):10萬+引用,三巨頭合著,成為無數(shù)論文的共同起點
Deep Learning更像一本「統(tǒng)一語言的說明書」,把分散在不同子領(lǐng)域的研究線索串成框架:
神經(jīng)網(wǎng)絡(luò)為什么能學、怎么訓練、能解決什么問題、還缺什么關(guān)鍵環(huán)節(jié)。
t-SNE可視化(2008):6萬+引用,直到今天仍是科研可視化的常用工具
t-SNE改變了研究者理解模型的方式,比如高維特征怎么分簇、類別邊界怎么形成、錯誤樣本為什么混在一起。
它把這些「黑箱內(nèi)部的形狀」變成可直觀看到的圖像。
![]()
Dropout(2014):6萬+引用,訓練神經(jīng)網(wǎng)絡(luò)時的「基礎(chǔ)操作」
Dropout把「泛化」這件事從玄學變成了操作:訓練時隨機丟棄部分神經(jīng)元,逼著網(wǎng)絡(luò)學到更穩(wěn)健的表示,減少過擬合。
甚至,很多人第一次接觸深度學習的訓練技巧,學到的就是它。
這些高被引論文覆蓋了從理論到技巧、從模型到工具的多個層面:它們不只提供答案,還定義了「怎么提問、怎么驗證、怎么訓練、怎么呈現(xiàn)」。
在AI浪潮中,Hinton的早期貢獻如今支撐著ChatGPT、Gemini等大模型的運行。
Bengio作為首位破百萬者,開啟了這一時代;Hinton的加入,進一步鞏固了深度學習在學術(shù)界的霸主地位。
最近,Hinton還在一期演講中表示,大模型(LLM)的運作宛如人腦,是一個通過數(shù)據(jù)自我演化的「黑箱」。
其智能源于從數(shù)據(jù)中學習,并調(diào)整數(shù)萬億連接的強度。正因如此,其內(nèi)部認知過程,在很大程度上仍是個謎。
因此,這一領(lǐng)域仍需未來的AI研究者們持續(xù)探索、不斷突破。
學術(shù)經(jīng)歷
Hinton 1947年生于英國倫敦,出身學術(shù)世家,其曾曾祖父喬治·布爾,開發(fā)了二元推理系統(tǒng)「布爾代數(shù)」,構(gòu)成了現(xiàn)代計算機的基礎(chǔ)。
![]()
1970年,他從劍橋大學國王學院獲實驗心理學學士學位,后轉(zhuǎn)攻計算機科學;1978年于愛丁堡大學獲博士學位,師從Christopher Longuet-Higgins,博士論文聚焦于連接主義模型的語義學習。
職業(yè)生涯早期,Hinton在加州大學圣迭戈分校和卡內(nèi)基梅隆大學任教,但因神經(jīng)網(wǎng)絡(luò)在當時被主流AI社區(qū)視為「死胡同」,他于1987年轉(zhuǎn)至加拿大多倫多大學計算機科學系任教,直至2023年退休。
在多倫多,他組建了神經(jīng)計算與自適應(yīng)感知實驗室(Neural Computation and Adaptive Perception Lab),培養(yǎng)了眾多AI精英。
2013年起,他兼任谷歌腦(Google Brain)副總裁,推動工業(yè)級深度學習落地,如語音識別和圖像分類。
Hinton的堅持源于對生物大腦啟發(fā)的信念:在AI寒冬期,他通過反向傳播(backpropagation)優(yōu)化多層網(wǎng)絡(luò),并在2006年提出深度信念網(wǎng)絡(luò)(Deep Belief Networks),利用無監(jiān)督預訓練解決梯度消失問題,最終引發(fā)深度學習復興,催生了AlexNet等標志性突破。
2018年,Hinton與Yann LeCun和Yoshua Bengio共同獲圖靈獎,表彰他們在深度神經(jīng)網(wǎng)絡(luò)概念性及工程性突破方面的開創(chuàng)性貢獻,特別是其工作奠定了現(xiàn)代AI的核心算法基礎(chǔ),使計算機能夠從海量數(shù)據(jù)中自主學習復雜模式。
![]()
2024年,Hinton與約翰·霍普菲爾德(John Hopfield)共同獲諾貝爾物理學獎,表彰他們在人工神經(jīng)網(wǎng)絡(luò)上的基礎(chǔ)發(fā)現(xiàn)和發(fā)明,這些工作啟用了機器學習技術(shù),包括霍普菲爾德網(wǎng)絡(luò)和玻爾茲曼機,也是諾貝爾物理學獎首次頒給非傳統(tǒng)物理學家。
![]()
AlexNet開啟深度學習時代
2009年,李飛飛啟動ImageNet項目,提供大規(guī)模標注數(shù)據(jù)集,促進特征學習和分類研究。
在AlexNet提出前,計算機視覺主要依賴手工設(shè)計的特征(如SIFT、HOG),淺層機器學習模型難以處理ImageNet的1000萬圖像和1000類復雜任務(wù),導致錯誤率停留在25%-30%(Top-5)。
2012年,Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton于2012年發(fā)表在NeurIPS會議,提出了一種大型深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)AlexNet,用于ImageNet LSVRC-2010競賽的圖像分類任務(wù)。
![]()
論文鏈接:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
引用次數(shù):188837
雖然深度神經(jīng)網(wǎng)絡(luò)也曾流行于90年代,但因計算資源不足、梯度消失和過擬合而衰退。
隨著GPU計算能力的提升(如NVIDIA CUDA),為訓練大型網(wǎng)絡(luò)提供了硬件基礎(chǔ),AlexNet借此成功證明深度CNN在海量數(shù)據(jù)和強大硬件支持下可實現(xiàn)突破,結(jié)束了「特征工程」時代,開啟深度學習復興。
AlexNet網(wǎng)絡(luò)包含8層(5個卷積層+3個全連接層),擁有6000萬個參數(shù)和65萬個神經(jīng)元,使用ReLU激活函數(shù)、非飽和神經(jīng)元、Dropout正則化、數(shù)據(jù)增強和多GPU訓練等創(chuàng)新技術(shù)。
在測試集上,Top-1錯誤率37.5%、Top-5錯誤率17.0%,大幅優(yōu)于當時最先進方法;在ILSVRC-2012競賽中,Top-5錯誤率僅15.3%,遠超第二名26.2%。
這篇論文標志著深度學習革命的開端,推動CNN成為計算機視覺主流,推動了從手工藝特征向端到端學習的轉(zhuǎn)變。
AlexNet架構(gòu)啟發(fā)了VGG、ResNet等后續(xù)模型,廣泛應(yīng)用于目標檢測、分割和生成等領(lǐng)域,并促進了GPU加速和大規(guī)模數(shù)據(jù)集的使用,重塑AI研究格局。
三巨頭合著
到了2015年,雖然深度學習已經(jīng)在學術(shù)界引起轟動,但在更廣泛的科學領(lǐng)域(如《Nature》的讀者群體),大家仍對其背后的原理、潛力以及它與傳統(tǒng)機器學習的區(qū)別缺乏系統(tǒng)認知。
在人工智能「大爆發(fā)」的前夜,由三巨頭聯(lián)合發(fā)表于Nature,向全世界科學界系統(tǒng)性地定義了什么是「深度學習」。
![]()
論文鏈接:https://www.nature.com/articles/nature14539
引用次數(shù):107646
文章深入淺出地解釋了深度學習區(qū)別于傳統(tǒng)方法的關(guān)鍵點:
表征學習 (Representation Learning):深度學習的核心是自動學習特征,通過多個處理層,將原始數(shù)據(jù)(如像素點)轉(zhuǎn)化為更高層次、更抽象的表達。
反向傳播算法 (Backpropagation):論文詳細描述了系統(tǒng)如何通過計算誤差梯度,從輸出層向輸入層反推,更新每一層神經(jīng)元之間的權(quán)重(Parameters),從而實現(xiàn)學習。
核心架構(gòu):卷積神經(jīng)網(wǎng)絡(luò) (CNN)專門用于處理具有空間結(jié)構(gòu)的數(shù)據(jù)(如圖像、視頻),利用了自然圖像的統(tǒng)計特性(局部相關(guān)性和平移不變性);循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN):專門用于處理序列數(shù)據(jù)(如文本、語音),能夠處理變長的輸入流。
這篇文章總結(jié)了過去三十年的探索,并開啟了我們現(xiàn)在所處的「大模型時代」。
t-SNE特征可視化
t-SNE(t-distributed Stochastic Neighbor Embedding)論文發(fā)表于2008年,解決了數(shù)據(jù)科學領(lǐng)域一個核心痛點:如何讓昂貴、復雜的高維數(shù)據(jù)變得肉眼可見?
在此前,研究人員主要使用主成分分析(PCA)或傳統(tǒng)的隨機鄰域嵌入(SNE)來降維,但PCA在處理非線性數(shù)據(jù)(如流形結(jié)構(gòu))時效果很差,SNE在將高維空間的數(shù)據(jù)映射到低維(2D/3D)時,空間會變得極其擁擠,導致不同類別的簇混在一起,無法分辨。
![]()
論文鏈接:http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf
引用次數(shù):63932
t-SNE的做法是:在高維空間中使用高斯分布來衡量點與點之間的相似度。如果兩個點離得近,它們被選為鄰居的概率就高;在低維空間中,改用 Student t-分布(自由度為 1)而非高斯分布來衡量相似度,因為t分布的尾部比高斯分布更「胖」,強制讓原本在低維空間中距離較遠的點被推得更遠,從而有效地解決了「擁擠問題」,讓不同的數(shù)據(jù)簇(Cluster)在視覺上分界非常明顯。
![]()
t-SNE發(fā)表后,迅速成為高維數(shù)據(jù)可視化的行業(yè)標準,常見的場景包括觀察模型隱藏層提取的特征(MNIST手寫數(shù)字自動聚成不同的團),在單細胞測序中識別新的細胞種類等。
不過t-SNE也有一些局限性,如計算量大,處理超大規(guī)模數(shù)據(jù)集時速度較慢(后來有了FIt-SNE等加速版本);雖然保證了局部結(jié)構(gòu),但簇與簇之間的遠近距離并不一定代表真實的全局差異;算法對超參數(shù)敏感,需要多次調(diào)試。
正則化神器DropOut
![]()
論文鏈接:https://dl.acm.org/doi/abs/10.5555/2627435.2670313
引用數(shù):60895
2014年,深度神經(jīng)網(wǎng)絡(luò)由于強大的建模能力而初顯鋒芒、但同時也深受「過擬合(Overfitting)」困擾。隨著網(wǎng)絡(luò)層數(shù)和參數(shù)量的劇增,模型極其容易對訓練數(shù)據(jù)產(chǎn)生「死記硬背」的傾向,導致在面對未知數(shù)據(jù)時泛化性能極差。
雖然此前已有如權(quán)重衰減(Weight Decay)等正則化手段,但它們在處理超大規(guī)模網(wǎng)絡(luò)時往往力不從心。
此外,雖然集成學習(Ensemble Learning,融合多個不同模型的預測結(jié)果)能有效緩解過擬合,但對于動輒數(shù)百萬甚至數(shù)千萬參數(shù)的神經(jīng)網(wǎng)絡(luò)而言,無論是在訓練階段維護多個大型模型,還是在測試階段進行多次前向傳播,其計算成本都高得令人難以接受。
論文提出了一個非常簡單的機制Dropout(隨機失活):在訓練過程中,算法會根據(jù)預設(shè)的概率(通常為 0.5)隨機地將隱含層單元的輸出設(shè)為零,使其暫時「消失」在網(wǎng)絡(luò)中,強迫每一個神經(jīng)元都不能依賴于特定其他神經(jīng)元的輔助,有效地打破了神經(jīng)元之間的共適應(yīng)性(Co-adaptation),使得每一個特征檢測器必須變得更加獨立且具有魯棒性。
從數(shù)學視角看,Dropout 在訓練時實際上是從指數(shù)級數(shù)量的「瘦身」網(wǎng)絡(luò)中采樣,而在測試階段,研究者巧妙地通過使用包含全部神經(jīng)元的完整網(wǎng)絡(luò),并按比例縮減權(quán)重,從而以極低的計算代價實現(xiàn)了對海量子網(wǎng)絡(luò)預測結(jié)果的近似平均(Model Averaging)。
Dropout不僅使卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計算機視覺任務(wù)(如 ImageNet 競賽)中屢創(chuàng)佳績,也成為了深度學習標準工具箱中不可或缺的正則化利器,也證明了通過主動引入「噪聲」和「不確定性」反而能得到更穩(wěn)定的特征表達。
雖然在近些年的發(fā)展中,諸如批歸一化(Batch Normalization)等新技術(shù)在某些場景下部分替代了 Dropout 的功能,但其背后蘊含的集成學習思想和預防過擬合的哲學,依然是現(xiàn)代神經(jīng)網(wǎng)絡(luò)設(shè)計及優(yōu)化理論的重要基石。
再次祝賀Hinton,向所有度過AI寒冬,仍然堅守AI的學者致敬!
![]()
參考資料:
https://scholar.google.com/citations?user=JicYPdAAAAAJ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.