明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
原來,Scaling Law在32年前就被提出了!
不是2020年的OpenAI、不是2017年的百度,而是1993年的貝爾實驗室。
![]()
在一篇名為《Learning Curves: Asymptotic Values and Rate of Convergence》的文章里提出一種預測方法:
訓練誤差和測試誤差隨訓練規模增加,都會收斂到同一個漸近誤差值,這種收斂符合冪律形式。
通過這種方法,研究人員可以預測模型在更大數據集上的表現。
![]()
這和現在大家常提的Scaling Law幾乎一致:
在合理的范圍內,通過簡單地增加模型參數量(N)、訓練數據量(D)和計算量(FLOPS,C),可以以一種可預測的、平滑的方式顯著提升模型性能。
而1993年的這篇論文來頭也不小,作者一共5位,其中包含了支持向量機的提出者Vladimir Vapnik和Corinna Cortes。
![]()
為省算力提出預測曲線
這篇論文的研究初衷是為了節省訓練分類器(classifiers)的計算資源(果然啥時候都缺算力)。
當時的機器學習算法能實現將輸入數據分配到某個類別里,比如輸入一張手寫數字的像素點,判斷它是不是某一個數組。
為了讓分類器更可靠,往往需要使用大規模數據庫訓練。但是研究人員并不確定分類器是否適合給定任務,因此開發高效的預測程序非常有必要。
這項研究就是提出了一種預測方法,先在中等規模的數據集上訓練,然后通過提出的學習曲線建模外推,預測其在大數據集上的表現。這樣就不用對分類器進行完整訓練,從而節省計算資源。
它首先在幾個中等規模訓練集上分別計算測試誤差、訓練誤差,然后他們發現,隨著訓練集的規模變大,訓練誤差和測試誤差都會收斂到一個相同的漸近值a,這個指數a在0.5-1之間。
![]()
- a:漸近誤差(最終無法消除的誤差,比如任務不可實現性導致的殘余錯誤)。
- b,c:幅度參數。
- α:收斂速率指數(通常在 0.5~1 之間)
然后變換為對數線性關系,在對數坐標下得到兩條直線。
![]()
通過擬合這兩條直線能得到a,b,α。
將估計出的冪律曲線外推到更大的訓練集規模上(比如60000),預測分類器在完整數據上的誤差。
實驗結果表明,在線性分類器(布爾分類任務)中預測非常準確。
![]()
在多層神經網絡(如LeNet)中,即便在任務不可實現(non-realizable)的情況下,外推結果也能很好地預測大規模訓練的最終表現。
比如僅用12000樣本訓練,就能預測新CNN在60000樣本上會優于舊CNN。
![]()
此外作者還發現,任務越困難,漸近誤差越高,收斂速率越小,即學習越慢。
![]()
這個理論放在當時可以用來淘汰差的模型,將有限的計算資源放在更值得訓練的模型上。
作者也是支持向量機提出者
最后不得不提一下這篇研究的幾位作者。
首先來看Vladimir Vapnik,他因在統計學習理論和支持向量機方面的貢獻而聞名。
![]()
他于1958年在烏茲別克國立大學獲得數學碩士學位,并于1964年在莫斯科控制科學研究所獲得統計學博士學位。1961年至1990年期間,他一直在該研究所工作,并擔任計算機科學研究部門的負責人。
Vapnik與Alexey Chervonenkis在1960年至1990年間共同開發了Vapnik-Chervonenkis理論(也稱為VC理論)。該理論是計算學習理論的一種形式,旨在從統計學角度解釋學習過程。
它是統計學習理論的基石,為學習算法的泛化條件提供了理論基礎,并量化了模型的復雜性(通過VC維)。VC理論在無需定義任何先驗分布的情況下,為機器學習提供了一種更通用的方法,與貝葉斯理論形成了對比。
同時Vapnik也是支持向量機(SVM)的主要發明者。這是一種監督學習模型,用于數據分類和回歸分析。1964年,Vapnik和Chervonenkis首次提出了原始的SVM算法。
1990年代,Vapnik加入貝爾實驗室開始進行機器學習方面的深入研究。在1992年他和Bernhard Boser、Isabelle Guyon提出了通過應用“核技巧”(kernel trick)來創建非線性分類器的方法,極大地擴展了SVM的應用范圍,使其能夠處理非線性可分問題。
1995年Vapnik和Corinna Cortes提出了軟邊距的非線性SVM并將其應用于手寫字符識別問題,因為性能表現出色,這篇論文引發廣泛關注,也成為機器學習發展中的一塊重要基石。
![]()
他撰寫的《統計學理論的本質》也是機器學習領域的必讀著作之一。
以及他2014年還給Facebook當過顧問。
![]()
另一位重要作者是Corinna Cortes。她現在是Google Research紐約分部的副總裁,負責廣泛的理論和應用大規模機器學習問題研究。
她于1989年在哥本哈根大學尼爾斯·玻爾研究所獲得物理學碩士學位。隨后,她于1993年在羅切斯特大學獲得計算機科學博士學位。
在加入Google之前,Cortes在貝爾實驗室工作了十多年。
2022年她被任命為ACM Fellow,以表彰她對機器學習領域的貢獻。
![]()
其余幾位作者分別是:L. D. Jackel、Sara A. Solla和John S. Denker
其中John S. Denker還和LeCun在手寫識別上合作過多篇論文,也都是機器學習經典大作了。
![]()
![]()
而他本人也相當全能,涉獵領域包括機器學習、系統安全、好萊塢特效、電子游戲和視頻游戲等,完成了很多開創性工作。還曾在加州理工學院創建并教授“微處理器設計”課程(硅谷之所以成為硅谷,和當時美國高校中開始推行芯片設計課程有很大關系)。
甚至,他還是一個飛行員,是FFA的航空安全顧問,并寫了一本對飛行原理解釋透徹的行業教科書。
Denker還曾于1986-87年擔任加州大學圣巴巴拉分校理論物理研究所的訪問教授。 他以幽默感和“原型瘋狂科學家”的形象而聞名,他的一些事跡甚至在一些電影中有所體現。
![]()
One More Thing
值得一提的是,卷積神經網絡和支持向量機都誕生于貝爾實驗室。它們之間過一段“分庭抗禮”的時期。
在深度學習興起之前,CNN因為“黑盒”以及需要大規模訓練,一些研究者對其持有保留態度;相比之下支持向量機的理論清晰、易于收斂到全局最優解。到底誰是正確路線?一時爭論不休。
1995年,Vapnik還和當時的上司Larry Jackel以一頓豪華晚餐打賭,到2000年時,人們能不能解釋清楚大型神經網絡為什么在大規模訓練中表現很好?
Vapnik覺得不能。2000年他贏了;隨后他們又賭,再過5年結果如何?這一次Vapnik錯了:
在2005年任何頭腦清醒的人都不會再用和1995年時完全相同的模型了。
這場賭局,LeCun是見證人。
![]()
論文地址:
https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf
[1]https://x.com/gdb/status/1962594235263427045
[2]https://yorko.github.io/2022/vapnik-jackel-bet/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.