![]()
圖源:Pixabay
編者按
- 去年年底,清華大學人工智能學院助理教授劉子鳴在個人博客上發文,直言 AI 研究尚未迎來屬于自己的“牛頓時代”。他借用物理學史上“第谷—開普勒—牛頓”的演進路徑作類比,形容今天的 AI 更像停留在觀測和經驗公式階段。我們擁有大量數據和模型,卻缺乏真正理解背后規律的科學語言。Scaling Law 雖然有效,卻讓研究者沉迷于規模擴張,而忽略了對機制的探索。
撰文 | 張天祁
劉子鳴出身物理系,早期研究集中在“AI for Physics”,用 AI 解決物理問題。直到 2022 年博三時,ChatGPT 的誕生讓他意識到 AI 本身可能才是更值得研究的對象,他開始思考能否用物理學的方法論去理解 AI 系統內部的演化和能力形成。
現在,他走上了 Physics of AI 的道路,嘗試用物理學的思路理解 AI,把神經網絡當作一個可以被觀測和實驗的系統,通過觀察、實驗和歸納,去拆解其訓練中的動力學過程。
在他看來,科學建立在可復現的實驗和現象的持續積累之上。但在當下的AI研究中,對于很多現象還缺乏一套共同的科學語言。研究者的關注往往集中于少數熱點問題,許多細微卻重要的觀察,卻因為沒法講出一個好故事而無法發表。
“我們需要建立一套更統一的科學語言。只有當研究能夠用這種可復現、可討論的語言展開,AI 才有可能真正從‘煉丹’走向一門嚴謹的科學”,劉子鳴說。
01 用物理學的視角研究AI
《知識分子》:你本科和博士都在物理系,早期的作品很多是用 AI 當作工具去解決物理問題。但最近這幾年,你的視角似乎完全反過來了,開始用物理學的思維去研究 AI 本身。這種反轉是如何發生的?
劉子鳴:研究對象從物理到AI,這確實是一個順應時代進程的轉變。我的本科和博士都在物理系,博二之前主要做AI for Physics,那時物理是研究的核心,AI 只是工具 。
轉折點發生在 2022 年,也就是我博三的時候,ChatGPT 誕生了。那個時候我開始覺得 AI 本身就是一個非常有意思的研究對象,其中蘊含著巨大的機會。但我并不想單純去調參或者刷榜,我覺得那不是我特別想做、也不是特別擅長的事情 。
我想,能不能結合我之前擅長的技能,也就是在物理學中學到的方法論和具體的數理工具,把它們應用到 AI 上?當時這還是一個比較獨特的角度。大家更多的是去構建新方法,但對方法背后的原理并不清楚。所以我們想從物理的角度去理解現代 AI 系統中觀察到的現象,并希望這些洞見能幫助我們未來更系統地構建下一代模型 。
后來我們發現,研究 AI 問題和研究物理系統本質上是一樣的,甚至 AI 更可控、迭代更快。在自然科學里你會受到實驗設備的限制,但在 AI 系統里,你擁有上帝視角,可以觀察任何你想觀察的東西,只要把它打印出來或收集起來。這種便利性為我們提供了海量的研究素材,這是自然科學實驗難以比擬的 。
《知識分子》:你認為目前 AI 原理上最重要、最值得探索的問題是什么?
劉子鳴:我認為最核心的問題是 AI 的訓練動力學。
生物學里有一句名言:“Nothing in biology makes sense except in the light of evolution.(如果不從進化的角度去看,生物學的一切都無法解釋。)”如果你不從進化的角度理解現在的生命形態,很多事情是不合理的;但一旦引入進化視角,一切就豁然開朗了 。
這跟 AI 是一樣的。我們現在很多時候只看訓練完成后的模型,看它有什么能力。但我們更希望理解的是:它是如何在訓練過程中獲得這些能力的?我們需要去理解這個“進化”的過程。
雖然我們都知道它是靠反向傳播、靠梯度下降,但這個過程內部發生了什么?我們希望建立一種多層次的理解。宏觀上,它什么時候掌握了某種能力?微觀上,底層的神經元和權重是如何隨著時間演化的?介觀上,它內部是否形成了一些特定的模塊或結構來處理子任務?只有理解了這個動態的進化過程,我們才能真正系統地去診斷模型、改進模型 。
《知識分子》:對于我們理解AI的進化,現在研究上的阻礙在哪里?
劉子鳴:問題在于對現象的研究和觀察不足。
現在的 AI 就是一頭大象。我們想理解它,理論上應該把大象的每一個部位都摸一遍,拼湊起來才能知道全貌。但現在有兩個阻礙。
第一,很多人不愿意去摸這頭大象,或者說只關注大象的鼻子。比方說,如果只關心訓練的 loss 曲線或者最終的性能指標,其實就丟失了大量其他重要現象。比如模型內部是如何演化的,這些大家往往沒有去觀察。
第二,即使有人去摸,大多數注意力又過于集中在少數“戲劇性”的現象上。像大家熟知的規模定律、頓悟(Grokking)等,這些現象研究得很透徹,是因為它們夠戲劇性,有故事可講。但這只是整個系統的一小部分。
但我想說,要充分理解這個系統,可能需要發現 100 種甚至 1000 種現象。剩下那些可能不那么令人興奮,但這需要我們耐著性子坐冷板凳去發現。大家不要只盯著鼻子看,去摸摸大象的耳朵、尾巴、腿。哪怕這些部位看起來不那么重要,但只有把它們都摸清楚了,我們才能形成對這頭大象的全局理解 。積累到一定量之后,才會有真正的大的洞見涌現出來 。
現在的問題是,這些微小的洞見很難發表成論文。因為它很難被包裝成一個聽起來特別 戲劇性 的故事。現在的發表文化往往是:只要我摸到了大象的鼻子,我就去仔細研究鼻子的紋理,甚至研究鼻子的每一個細胞,把這個局部故事講得特別漂亮、特別精細。但大象的鼻子終究不是大象,研究得再精細,也偏離了我們要理解大系統的目標。
《知識分子》:如何理解“Physics of AI”?你希望它彌補當前 AI 研究中哪些被忽略的理解層面?
劉子鳴:Physics of AI 是我對自己研究思路的一種概括。所謂用物理學的方式理解 AI,更像是一種實驗驅動的科學。
我會借用物理學中的簡化和抽象的思考方式。比如我想研究系統的某個行為,我會嘗試把相關因素簡化到一兩個,建立一個描述該行為的有效模型或有效理論。當描述另一個行為時,建立另一套簡化的方法 。
從這個意義上說,Physics of AI 更像是一套方法論。它是可以日積月累去做的,不需要依賴靈感,等著蘋果砸到頭上,只要按照這個方法論去研究,每天都能獲得一點新的理解。我覺得這個是更可持續的一個方向。
《知識分子》:以你說的這種“物理學視角”來統攝這些層面,和現有研究路徑相比,它最核心的優勢在哪里?
劉子鳴:我的方法論本身并沒有什么特別新奇的地方,核心只是把理論和實踐真正連接起來,而這個連接的橋梁就是玩具模型(Toy Model)。
現在的一個常見問題是割裂:做大模型的人在實踐中觀察到很多現象,但因為系統太復雜,沒法解釋;而做理論的人在造非常簡單的數學模型,然后強行解釋說這個模型和大模型有關。這就像我剛才反思時說的,是在“強行說大象的鼻子就是大象”。
我的做法是構建一個 Hierarchy(層級結構)。首先,我會從最簡單的玩具模型開始,看這個現象能不能在小系統中出現。如果能夠觀察到,就逐步增加復雜度,比如把模型做得更深一些、更寬一些,或者引入更多結構,接著再去看這個現象是被放大了、被削弱了,還是轉化成了別的形式。
我認為我們需要的是耐下心來,積累非常多小的洞見。知道它們之間有什么聯系后,把這些點全部連起來,最終才會迎來一個頓悟的時刻,“原來這頭大象是長這樣的。”
《知識分子》:簡單模型上的研究成果,在什么程度可以遷移到大模型上?
劉子鳴:還原論是我個人的信念。我相信只要理解了每一個基本模塊的行為,以及它們之間是如何相互作用的,就能理解整個龐大的系統是怎么工作的 。
我并不寄希望小模型上觀察的現象,能夠立刻去和大模型上的現象去做對應。但是我們去解構這個小模型的現象的時候,會發現一些原因。這些原因在大模型上仍然存在,只是體現的程度和規模不同。
所以我把研究過程分成三個步驟。第一步,我們先觀察小模型上的現象;第二步,對這些現象進行解釋,追溯到產生它們的原因;第三步,再把這些原因應用去生成對大模型的理解或解釋。當然實際的研究過程不需要這么教條,很多時候就是純粹的好奇心驅動。
這樣做有兩個好處: 第一,如果小模型上的現象能直接對應到大模型,那我們就可以在小模型上做大量可控的實驗,成本極低 。 第二,更常見的情況是,小模型和大模型的現象看起來不一樣,就像大象的耳朵和老鼠的耳朵,長得完全不同,但聽聲音這個機制是一樣的 。我們通過研究老鼠的耳朵搞清楚了聽覺機制,就可以推演大象是怎么聽聲音的。
一旦我們在小系統上鎖定了某個現象,我們就有能力去做更多的參數掃描,做更多可控的實驗,從而獲得透徹的理解。有了這個理解,我們就不需要無頭蒼蠅一樣在大系統上亂試。
02 AI研究還沒有迎來牛頓時代
《知識分子》:你曾用物理學史上的“第谷—開普勒—牛頓”來類比 AI 理論的發展階段。能否具體解釋一下,這三個階段各自代表了什么?我們今天大致處在哪個階段?
劉子鳴:這是一條非常經典的科學發展路線。
第谷階段的核心是觀測。第谷·布拉赫做了大量、極其精確的天文觀測,積累了當時最可靠的數據,但這些數據本身只是呈現出一些現象,并沒有形成真正的理論。
到了開普勒階段,則是唯象理論的建立。他利用第谷的數據,總結出了行星繞太陽運行的橢圓軌道定律。這一步非常重要,它用簡潔的幾何規律壓縮了海量觀測數據,能夠很好地描述自然現象。但從科學本質上說,它仍然停留在描述層面,并沒有回答為什么會是這樣,因為其中還沒有“力”的概念。
真正進入本質層面的,是牛頓階段。牛頓通過萬有引力定律和牛頓第二定律,從根本機制出發推導出了橢圓軌道。更重要的是,一旦掌握了這個機制,不僅可以解釋行星運動,連蘋果落地這樣的非橢圓軌跡的拋物線運動,同樣可以被統一推導出來。這標志著科學從經驗規律上升為可演繹、可推廣的理論體系。
從第谷到開普勒,再到牛頓,本質上是一個從表象走向本質、從冗余數據走向高度壓縮知識的過程。
如果把這條路徑放到 AI 上來看,我個人認為,我們現在還遠遠稱不上“科學”,甚至連開普勒階段都沒有真正到達,更接近于第谷階段的早期。甚至我們還不太清楚應該觀察什么。我們對模型的觀測是高度離散、非常匱乏的,更重要的是,我們并不清楚這些零散觀察之間究竟如何彼此關聯。
在物理學里,通常是先觀察到一個現象,然后大家會本能地去追問:它為什么會發生?背后的機制是什么?比如發現一個新的規律,可能很快就會有上千篇論文去嘗試解釋它。當然論文多不一定是好事,但至少說明大家在努力理解它。
但在 AI 里,情況有點不一樣。以 Scaling Law 為例,大家觀察到這個現象之后,第一反應往往不是去解釋它,而是去利用它,去融資、去把模型做得更大。這個選擇當然可以理解,因為它確實有效,但慢慢地,它就變成了一種近乎信仰的東西,而不是一個等待被解釋的科學問題。
《知識分子》:這種“信仰”會帶來什么問題?
劉子鳴:最糟糕的地方在于,Scaling 確實是有用的。系統做大了,性能真的會上升。也正因為它有效,反而削弱了我們去追問機制的動機。
就像求雨,如果你求了很多次雨,發現和降雨毫無關系,你自然會意識到這是迷信,會有動力去發展氣象學,去真正理解降雨的機制。但如果你每次求雨,天真的都會下雨,你可能就不會再去思考因果關系了。我覺得現在的 Scaling 有點類似這種狀態。它帶來了進步,但也讓整個領域過度依賴規模擴張,而忽略了更系統、更高效的理解路徑。從長遠看,這未必是最聰明的方式。
《知識分子》:目前業界普遍相信 Scaling Law,認為只要不斷擴大數據、模型和算力規模,就能一步步逼近 AGI。您怎么看這條以規模擴張為核心的路徑?它最終真的能通向 AGI 嗎?
劉子鳴:其實我在博客上有過評論,我的觀點是,如果沒有能量或者數據的瓶頸,現在的方法也能通向 AGI。
按照現在方法的邏輯,如果做不到泛化到分布之外的情況,那是因為數據不夠多或者模型還不夠大。但是,只要有了足夠多的數據,把世界上所有的東西都變成了分布之內,那么 AGI 自然就到來了。所以我并不懷疑現在的方式是可以到達 AGI 的,這一點我同意。
但是,這不是一種最聰明的方式。甚至可以說,這是一種極其低效的方式。
這就好比讓一群猴子去打字,只要時間足夠長,它們最后都能打出一部《莎士比亞全集》。我沒有說 scaling就是這么的愚蠢,它最后確實能像我說的,靠收集無窮的數據、消耗無窮的能量達到 AGI。但這恰恰是問題所在。我們未來不久就會碰到數據和能量的瓶頸,這時候我們需要尋找一些更聰明的方法。
我們需要的是一種像化學那樣的指導性科學。在化學誕生之前,煉丹師也能偶爾發現火藥或者合金,但那是隨機的、不可控的。而當化學建立起來之后,有了元素周期表,也理解了原子和分子是如何結合的,我們就能有目標地去設計材料,知道該往哪個方向嘗試,而不是在大海里撈針。
《知識分子》:這是否意味著當下的AI研究已經到了瓶頸?
劉子鳴:我覺得現在 AI 研究領域一個很大的問題是大家各說各的,缺乏統一的科學語言。
正因為沒有共識。大家只能陷入一種公關戰爭 。最后的結果是什么呢?就是影響力取決于誰的嗓門大,取決于誰之前做出過什么東西,而不是取決于這個東西到底有多科學 。
你會看到張三出來說:“我的模型更好!”李四也出來喊:“不,我的模型更好!”大家都在比誰的分數高,比誰的嗓門大。但這種爭論往往是無效的,因為大家連“好”的標準和背后的機制都沒有共識。
某種程度上,研究成了玄學甚至許愿。現在很多人做 AI 也是這樣,調整了一個特定的參數,模型變強了,就把這個調參技巧包裝成神技。但實際上,這中間的因果關系是不清楚的。大家都在對著黑盒許愿,一旦靈驗了就大肆宣傳,但這不是科學,這是迷信。
我們需要建立一套更統一的科學語言。與其爭論“誰的模型更好”,不如客觀地描述,在什么樣的數據分布下、什么樣的結構和訓練過程,會穩定地產生什么樣的現象。只有當研究能夠用這種可復現、可討論的語言展開,AI 才有可能真正從“煉丹”走向一門嚴謹的科學。
一旦我們有了這種科學的語言,情況就會完全不同。大家才能真正開始溝通。哪怕我不同意你的模型比我的好,但我們至少能達成一個共識。現在我們沒有這種基礎,沒有這種關于知識的共識,所以導致溝通起來非常困難。
我們急需兩方面的改變: 從技術上,我們要先發展出 AI 的元素周期表,幫助我們更好地去設計東西。 從文化上,我們需要建立一套統一的科學語言。否則,這個領域會永遠停留在“煉丹”的階段。雖然這樣或許也能熬到 AGI,但我覺得這絕對不是最聰明的辦法 。
《知識分子》:您在博客中提出了“結構主義”(Structuralism),并把它作為區別于符號主義和連接主義的第三條路徑。這三者的本質是什么?為什么您認為“結構主義”是通向 AGI 的更有希望的方向?
劉子鳴:這其實關乎我們如何看待智能的本質。我可以用一個最簡單的監督學習任務來做類比,比如給定輸入 x,預測輸出 y。
如果是符號主義(Symbolism),最典型的對應就是線性回歸。這一類方法高度可解釋,你可以清楚地寫出每一個變量如何影響結果,就像物理學中的還原論,試圖把系統拆解為明確的數學符號和公式。它的優勢是透明、可分析,但問題也很明顯,一旦系統變得復雜,它往往就不夠用了。
連接主義(Connectionism)對應的則是多層感知機(MLP),也是當前的主流。這類方法完全是數據驅動的,通過大量數據去學習輸入和輸出之間的映射關系。它的表達能力非常強,但它內部是一團混沌,我們不知道它是怎么做到的。這就導致我們很難信任它,也很難從原理上改進它。
結構主義(Structuralism)是我試圖定義的中間路線,對應像 KAN 這樣的新架構。它仍然是數據驅動的,你可以像訓練 MLP 一樣訓練它,讓他泛化。但它可以被更好的解釋。
《知識分子》:這里所說的“結構”,具體指的是什么?
劉子鳴:我可以用一個非常日常的例子來說明。比如我從家里去學校辦公室,這個過程在最底層當然涉及復雜的肌肉控制,很難寫成明確的數學公式。但在中間層的規劃層面,我的行為是高度結構化的:先騎車,再爬樓,再轉彎。這些都是可以被清楚區分的子任務或模塊。
這種結構帶來了巨大的優勢:遷移能力。如果我明天要去一個新的地方,就不需要從頭學習怎么走路,因為我知道怎么調用“騎車”、“轉彎”、“爬樓”這些模塊,配合地圖,就能去任何地方。
我把這種模塊稱為“結構”。理想情況下,這些結構不應該由人類寫進模型,而應當在訓練過程中自行涌現。傳統的符號主義是試圖強行注入結構,由人來規定“你必須先騎車再爬樓”。這在復雜的現實中是行不通的。
我所提倡的結構主義關心的是:既然我們接受系統是數據驅動的,那么什么樣的架構設計,能讓結構最優化、最高效地“涌現(Emerge)”出來?我現在的擔憂是,目前的 Transformer 或 MLP 架構,并沒有為結構的涌現做優化。它們可能也能學會,但效率很低,而且很難自發形成清晰的模塊。
03 如今的發表文化在強迫大家追熱點
《知識分子》:剛才你說到當前的發表文化阻礙了大家對AI的探索。具體阻礙在哪里?
劉子鳴:現在的發表文化,在強迫大家去講故事和追熱點。
我們可能觀察到了1000個有趣的現象,但為了發表論文就必須挑出其中一個,強行把它包裝成一個驚天動地的大發現,并且一定要講它跟大模型有什么關系。如果這個聯系不顯著,就得花大量時間去調參、去湊數據,把故事圓回來。這浪費了大量本該用于科學探索的時間。
現在的期刊發表模式,節奏已經明顯跟不上學術信息交流的需要了。大家也意識到這個問題,所以AI領域開了更多學術會議,但即使是頂級會議,發表論文也面臨同樣的問題。
像ICLR或NeurIPS,現在動輒就是六千篇論文。我有一次花了整整三天時間,把這些論文的標題一篇一篇看完,最大的感受是信息噪音太大了。在這種規模下,很難判斷哪些工作真正重要,哪些只是技術細節的堆疊。
《知識分子》:正式的期刊發表或會議論文之外,你認為研究者是否應該嘗試新的發表方式?或者說,有沒有更高效的信息交換方式?
劉子鳴:我現在就是在自己的網站上持續更新博客。我覺得未來的學術交流的理想形式,可能會更接近AI Safety領域的一個社區網站,叫LessWrong。它本質上是一個論壇形式的社區,結構上有點像早期的貼吧或論壇,大家發帖,下面的人基于你的內容繼續展開。
這種機制帶來的好處,是形成了一種自然的分工。舉個例子,我在帖子里說,我觀察到了一個現象,但現在還不會解釋。下面可能就會有擅長數學的研究者,嘗試從理論角度給出解釋。或者我提出一個關于大模型的預測,但沒有算力去驗證,很快就會有掌握算力資源的人,把這個想法直接在大模型上跑一遍,給出實際觀測結果。這樣一來,現象、解釋和驗證就被不同的人高效地連接起來,逐漸形成一個有機的社區。
《知識分子》:這種社區形式,在學術界有現實的成功案例嗎?
劉子鳴:如果說完整意義上的社區,目前可能還沒有一個特別成熟的例子。但在交流方式上,博客已經有非常好的先例,比如陶哲軒老師的博客,還有蘇劍林老師的“科學空間”。我自己其實也是在向他們學習。
系統的改變肯定是很難的,但是如果不改的話,我覺得AI學術界做的工作肯定會被工業界吊打,所以需要做一些范式上的改變。比如建立一個高質量的論壇,在評終身教職的時候,你在論壇上的貢獻也可以折算成發表記錄。或許應該有這樣的機制,雖然具體實施起來肯定很復雜。
我希望能盡快給出一些有影響力的Physics Of AI的例子,但同時又不能太著急。太著急了,就不是把它當成科學問題去研究了;但太不著急,別人又覺得你做的東西沒有時效性了。我的信仰是:長期來看,Physics Of AI是一條通往AGI的更快路徑,雖然短期可能看起來更慢。雖然大家說“Science is slow”,物理學從牛頓到現在發展了400年,但AI的物理學不需要這么長的時間,如果我們肯改變發表文化的話。比如過去我一年可能就發表2-3篇1作文章,如今我每天都可以寫一篇日報,而每篇日報中學到的東西其實和1篇文章也類似,只是少了些包裝和講故事,這大概是200倍的加速。
這也是我提出Physics of AI而不是Math of AI的原因。如果做Math of AI,那是一個太長期的工程。而物理學家有時并不追求完全的定量精確,只要定性理解夠了,就能快速獲得有價值的洞見,這種定性或半定量的理解其實可以很快達成,不需要耗費太多時間。
《知識分子》:現在在工業界已經掌握了大量的資源,學界則是資源受限。那在這種情況下,大學究竟應該如何做研究呢?
劉子鳴:高校不應該去卷算力,去重復造輪子。高校能做的,恰恰是工業界沒時間也沒動力做的事,也就是現象的研究和機制發現。我認為學術界的任務是發現現象、建立預期,告訴工業界哪些方向值得去測,以及可能會遇到什么。
現在的大模型是個黑盒子。工業界的問題是,沒辦法知道應該看黑盒子的哪個部分。而我們在學術界,通過在玩具模型上獲得的洞見,可以明確地告訴工業界:“你可以去看這個黑盒子的哪個具體部分,那里應該有一個什么樣的東西。”我在Toy Model上觀測到了一個很有意思的現象,或者我把這個現象歸結出了原因,根據這個原因,我可以推測在大模型上應該會觀察到什么現象。這樣工業界就不用大海撈針了。
這是一個非常可驗證的東西。這就回到了物理學家的標準:一個理論哪怕是錯的都無所謂,只要它能被證偽,只要它是可測試的,它就是好的科學。學術界提供的是Testable Scientific Hypothesis(可測試的科學假設),然后讓工業界去驗證。
《知識分子》:這種高校和工業界合作模式的實現,有時間表嗎?
劉子鳴:我希望在一到兩年內,能有一些特別有影響力的Physics Of AI的例子出來。到那個時候,工業界也會更愿意合作,甚至工業界自己會專門開一些實驗室來做這種物理層面的研究。到那時資源就不是問題了。
但在現階段,學術界和工業界可以有一種分工。雖然驗證超大規模模型確實需要工業界的資源,但至少在學術界,我們完全可以獨立進行這些現象學的研究。先發現現象、總結規律,再去指導規模化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.