![]()
如果你關注過深度學習圈,大概率 2024 年時聽過一個三個字母的縮寫——KAN。這篇叫做 Kolmogorov–Arnold Networks(柯爾莫哥洛夫–阿諾德網絡) 的論文在 arXiv 掛出后,幾天之內席卷了各路技術社群,有人宣稱 MLP(多層感知機)這個統治了深度學習幾十年的基礎磚塊可能要被改寫,也有人質疑它只是又一個“看起來很美”的架構。近兩年之后,KAN 的 GitHub 倉庫已經攢下了超過 1.6 萬顆星,相關的跟進論文從生物物理到金融建模,鋪了一大片。
這篇論文的第一作者叫劉子鳴,當時還是 MIT 物理系的博士生,導師是以“數學宇宙假說”聞名的 Max Tegmark。幾個月前,他和合作者關于表示疊加(Superposition)的工作又拿下了 NeurIPS 2025 最佳論文亞軍。如今他 MIT 博士剛畢業,在斯坦福做了一段短暫的博士后回到國內,即將入職清華大學人工智能學院擔任助理教授。
有意思的是,如果你翻他的主頁,會發現他給自己掛的標簽既不是“深度學習研究者”,也不是“大模型研究者“,而是三個交錯的方向:Science of AI(AI 的科學)、Science for AI(服務于 AI 的科學)、AI for Science(AI 服務于科學)。在這之上,他最想推動的事情有一個更具體的名字,叫 Physics of AI(AI 的物理學)。
用他自己的話說,今天的 AI 處境有點像大航海之前的天文學,大家仰著頭看到很多東西,但連把這些觀測整理成一張像樣星圖的“研究語言”都還沒有,連第谷(Tycho Brahe)的階段都還沒到,更別提開普勒和牛頓。
最近他在閉關,想做的事正是把 Physics of AI 本身自動化。
以下是 DeepTech 和他的對話。
從物理到 AI:一路試錯之后的轉向
DeepTech:你本科在北大讀物理,去 MIT 也是讀物理,后來怎么走到 AI 這條路上來的?
劉子鳴:其實挺早的,大二下我就開始轉向 AI 了,不過當時做的還是 AI 和物理的結合。
觸發點是我了解到了 GAN(生成對抗網絡)。當時就覺得,這玩意好像也沒有多難,但它的 formulation(問題構建方式)非常巧妙。我那時就覺得,這就是一個研究的“重點”,我就想做這樣的工作。
再一個,那個時候我在物理上的探索,說實話也不太順利。一方面,理論覺得挺難的,另一方面,做實驗、動手也挺難的。所以我當時考慮過計算物理,反正不管計算物理還是 AI,都是在電腦上搞,但覺得 AI 的問題和機會更多一點,就開始往 AI 上看。不過形式上我仍然掛在物理學院,找的也是物理學院的老師做 AI 和物理的交叉,主要是 AI for Physics。
后面讀博跟 Max Tegmark,他早就在做 AI for Physics 和 Physics for AI,所以我們早期主要也是 AI for Physics,比如用 AI 去找物理系統中的守恒量、對稱性這些東西。到 2022 年底 ChatGPT 出來之后,我們就覺得,AI 好像不再只是一個工具了,它本身變成了研究對象。從那時候起,我們開始把更多精力花在“理解 AI”上。
DeepTech:你這個路徑讓我想到楊振寧先生,他當年是因為實驗不順利才轉去做理論物理,然后找到了自己擅長的方向。
劉子鳴:我可能要更慘一點(笑),理論和實驗物理都不順利,連數論也試過。數論后來覺得太理論了,也放棄了。
DeepTech:你博士跟的 Max Tegmark 是一位典型的 polymath(通才),他的思維方式對你最大的影響是什么?
劉子鳴:Max 是那種什么都懂的人。
之前 Freeman Dyson 把數學家和科學家分成兩類,一類叫 bird person(鳥人),一類叫 frog person(蛙人)。鳥人飛得很高,能看到整片山河的圖景,喜歡能把不同領域串起來的宏大概念;蛙人則扎在泥里,看得到花朵的細節,一次解決一個具體問題。而 Max 就是絕對的鳥人。
不管是物理、AI、神經科學,還是各種應用領域,他懂的都非常多。他本科其實學的是經濟學,在斯德哥爾摩經濟學院讀的。所以我們經常聊著聊著一個話題,他就能延伸到別的在一般人看來毫不相關的地方。他能看到那些表面不同的問題底下共通的結構,這對我的 research taste(研究品味)影響非常大。
另外還有一點,他特別擅長把一個很難理解的東西解釋給別人。這背后其實就是費曼技巧的那個核心判斷,如果你不能用簡單的話向一個外行講清楚一件事,說明你自己也沒真正理解它。傳播學上也是一樣,你要讓別人知道一個東西,它至少得是一個你能講清楚的東西。這個也是我跟他學得比較多的。
DeepTech:博士后去斯坦福跟 Andreas Tolias,從物理又轉到了神經科學。為什么做這個決定?
劉子鳴:兩方面。一方面是我也想做鳥人。神經網絡最開始其實就是神經科學那一撥人搞起來的,我想了解一下那幫人的腦洞到底是什么樣的。另一方面是有一個具體的項目,我之前做 AI for Physics 時搞過一個找守恒量的工具,他們說有一個神經科學的數據集很合適。雖然后來發現其實也沒那么合適,但至少是合作的一個起點。
DeepTech:這么看,你的整個學術路徑其實可以概括為在研究“智能的底層原理”?
劉子鳴:對,而這種底層原理需要從非常多角度去觸摸和理解,有點像盲人摸象,所有學科都只是摸它的一部分。
關于 Science of AI、Science for AI、AI for Science
DeepTech:能不能用最簡單的話說說,這三個方向各自在回答什么問題?
劉子鳴:看研究的主體是什么。前面是工具,后面是研究對象。
Science for AI 和 Science of AI 都是以 AI 為研究對象,science 是研究方法。兩者挺像的,但還是要做個區分。Science of AI 更被動,研究的是現有的那些 AI 模型;Science for AI 更主動、野心更大,是用 science 去重構現在的 AI 模型,祈求能造出下一代的 AI 模型。AI for Science 大家已經講得比較多了,就是用 AI 去推動科學發現。
DeepTech:KAN 應該算 Science for AI?
劉子鳴:我自己很喜歡 KAN 的原因就是它同時包含這三個方面。它主體是 Science for AI,用 science 去重構 AI,但也有 Science of AI 的部分。比如我們解釋了為什么 MLP(多層感知機)的 scaling law(縮放律)沒有達到理想值,而 KAN 可以比 MLP 更快,所以這個工作也包含對 MLP 的某些理解。同時它也是 AI for Science,因為 KAN 工具做出來之后,最適合它的場景往往是那些你期待背后有某種動力學、有緊湊規律的任務,而不是大語言模型那種你不太指望背后會有緊湊規律的任務。
![]()
圖丨KAN 的架構(來源:arXiv)
DeepTech:你最初因為 GAN 進入 AI,后來 KAN 又引起那么大關注,這么看似乎有點呼應。
劉子鳴:某種意義上確實是一次 call back。從高層次上看,我的一些代表作(除了 KAN,還有 Poisson Flow 等)它們跟 GAN 的風格都很像,技術上沒有多難,工程上也不需要多少算力,但能找到一個比較巧妙的 formulation(問題構建方式),或者說找到一種合適的語言。一旦你找到了合適的語言、合適的結構,問題就變得非常簡單。有點像愛因斯坦研究廣義相對論的時候找到了黎曼幾何,當語言對了,很多東西就自然而然通了。
DeepTech:回頭看,KAN 對你意味著什么?是一個架構創新,還是一種思維方式的創新?
劉子鳴:我的很多工作,有些人看著覺得亂七八糟、東搞一下西搞一下,但背后其實是同一個邏輯,我想在神經(neural)和符號(symbolic)這兩個世界之間架一座橋。現在的 AI 主要是神經的,而科學主要是符號的。
KAN 對我來說很特別的地方在于,它是第一個讓我覺得存在一種類似波粒二象性的東西。在量子力學里,粒子既是波也是粒子。而 KAN 同時是網絡,也同時是符號公式,同時是神經的東西,也同時是符號的東西。在它之前,沒有這種例子,要么就是神經的,要么就是符號的,要么是 neural-symbolic(神經符號方法),但那往往是用某種比較硬的方法強行把兩者拼接起來,不是那么兼容。KAN 很優雅地體現了這種二象性。
正因為這樣,我現在思考的另一些問題是沿著這個邏輯繼續走。KAN 說的是符號公式和神經網絡的二象性,但符號公式本身仍然是一類比較局限的結構。
比如經典算法,像排序這種算法,跟神經網絡之間能不能構建二象性?再往前一步,大家現在都在說的 world model(世界模型),它背后可能有物理引擎或物理模擬器,這種東西又該怎么和神經網絡之間構建二象性?所以 KAN 其實只是第一步,后面第二步、第三步、第四步都會按照這條邏輯發展下去。
DeepTech:也有一些人覺得 KAN 在大規模任務上可能用處沒那么大。你怎么看這種評價?
劉子鳴:這是 no free lunch theorem(沒有免費午餐定理))沒有一個模型能在所有任務上都比另一個更好。所以對待模型的正確態度,是找到它的應用場景,然后在它有優勢的場景下誠實地發揮這個優勢。
具體一點,如果你關心可解釋性,尤其是想拿符號形式的表達,你就應該用 KAN;如果你有大量數據,又關心高精度的預測,那你也應該用 KAN。什么時候不應該用?數據量特別小的時候別用,因為 KAN 的 Spectral Bias 更弱,更容易過擬合。大規模大模型場景下,努力調參的話工程上都是能做到的,也許能調得比 Transformer 更好,但我不會一開始就預設 KAN 有一個很強的理由一定比傳統 Transformer 更好。
DeepTech:作為 KAN 的提出者,你怎么看它現在的生態?
劉子鳴:我昨天還看到一篇文章,用 KAN 去學生物物理(biophysics)里的一個動力系統,這是我想象中比較“小而美”的理想應用場景。也有一些場景是我一開始沒預料到的,比如金融和醫療,這些場景特別需要可解釋性,大家就自然用上了 KAN。一個東西對現實世界到底能產生什么影響,作為創造者,很多時候你在創造的時候是想象不到的。
DeepTech:你們去年的 Superposition 論文拿了 NeurIPS 2025 Best Paper Runner-up,核心發現是什么?
劉子鳴:核心發現是,當模型寬度變寬的時候,它的 loss(損失)和寬度之間是一個反比關系。
為什么這個發現令人意外?因為在我們這篇論文之前,甚至包括我自己之前一篇 paper,大家主流的看法是,scaling law 和數據分布有很強的關系。你的數據本身遵循某種冪律(power law),所以是冪律進、冪律出,數據冪律決定了模型冪律。但我們這篇文章打破了這個觀點,我們發現,即使你的數據不是冪律、是任意分布,輸出仍然呈現出一個類似物理學里“普適類(universality class)”的東西,它把數據的細節全部抹掉,模型永恒地給你一個 1/寬度 的縮放律。
解釋這個結果用的是非常簡單的理論。方法論上有一點我自己覺得比較獨特,也是 Physics of AI 區別于其他理論方法的地方,它是一種“務實的理論”。它的目的是解釋甚至改進實驗,所以會特別緊貼實驗結果,這是形式化(formal)理論做不到的。但同時我們又構建 toy model(玩具模型)去解釋背后的機理,這又是純做實驗做不到的。我們在兩者中間找到了平衡,而且在玩具模型上的分析,竟然可以遷移到大模型上。
這篇文章的主要貢獻其實是來自一作、MIT 的合作者劉逸舟。我的角色差不多就是每周跟他約一次啤酒,一邊喝一邊在白板上寫寫畫畫,討論實驗結果。逸舟最近也準備博士畢業,在考慮下一步計劃了。
DeepTech:另一篇《Neural Thermodynamic Laws》把熱力學語言用到了大模型訓練上,這個想法是怎么來的?
劉子鳴:這篇我個人覺得偏課程項目一點,因為沒有太多特別新奇的發現,但作為J人,總是喜歡能有一個統一的框架把很多小而繁瑣的觀察給整理清楚。出發點是一個非常簡單的觀察,現在訓大模型,大家會用學習率調度(learning rate schedule),先 warm up(升溫)、再 stable(穩定)、再 decay(衰減)。我們發現一個事情,最終的 loss 和它最終衰減到哪個學習率,存在一個線性關系。
這個線性關系特別像物理里“熱容”的概念。當一個物體有恒定熱容的時候,你要升多高的溫度,就得吸多少熱。這里 loss 類似于“熱”,學習率類似于“溫度”。一開始觀察到這個事情的時候,我就意識到,這可以和物理里的能均分定理(equipartition theorem)建立聯系。
從這個對應出發做下去,越做越發現很多東西都能映射到熱力學。比如你在一個陡峭的河道里走,在峭壁上彈射的過程中會產生某種“熵力(entropic force)”,算了一下,和物理里的熵力形式是一模一樣。這可能不是巧合。物理中的很多理論,本身就是在尋找簡單而普遍的東西,很多看起來不同的體系經過一定抽象之后,會變成同一個東西。我們這篇文章就是把優化動力學和熱力學,做了一個更顯式的聯系。
DeepTech:這種視角對訓練策略有什么用?
劉子鳴:我們推導出了一個最優的衰減策略,是 1/t(關于訓練步數 t 的倒數)。我們沒在大模型上試過,但有一些別的文章經驗上找出來的最優策略,其實跟我們理論上算出來的 1/t 非常像。可能不嚴格相同,但至少特征是一致的,一開始掉得快,后面慢慢停掉。
Physics of AI:什么是一種“務實的理論”
DeepTech:你經常說 Physics of AI,但不同人對這個詞的理解很不一樣。有人覺得是用物理的數學工具分析神經網絡,有人覺得是找 AI 版的牛頓定律,還有人覺得是機制可解釋性(mechanistic interpretability)換了個馬甲。你自己說的 Physics of AI 到底指什么?
劉子鳴:這里需要區分兩件事。第一,我們最終的目標是什么?第二,我們用什么方法到達這個目標?
最終的目標(我們的“North Star”)是,我要為 AI 找到一種“務實的理論”。這和傳統的理論是有區別的。傳統的理論可能是自下而上的,類似數學,從一些第一性原理出發,去推演出東西來。這種做法的壞處是,可能跟現實沒那么相關。但另一方面,我也不相信現在的 AI 背后是沒有理論的,就是無腦調參。所以我追求的是一種務實的理論。
那怎么達到這個目標?我覺得物理學的方法論本身就是這樣一種務實的理論。物理最終是要描述和預測實驗現象,所以是務實的。但同時它又是理論,可以定量地預測。要兼顧兩者,物理采取的方式是,對真實系統做抽象和簡化,研究這個簡化后的模型,它可能仍然很復雜,但至少把無關的變量簡化掉了。
先在一個更小的模型上研究清楚,再把它遷移回更大的模型,中間肯定有 gap(差距),再一步一步解釋這個 gap 是怎么加上來的。不管是機制派、現象學派,還是 Physics of LLMs 那派,目的其實都是找到一種務實的理論。
DeepTech:那你和朱澤園(Zeyuan Allen-Zhu)做的 Physics of LLMs、Anthropic 做的機制可解釋性,具體差別在哪?
劉子鳴:大家目的都差不多,硬說區別的話,我比他們更關心訓練動力學(training dynamics),他們可能更關心模型最后的結果。朱澤園更關心的是相圖,即改這些超參數,最后的指標怎么依賴于這些超參數。Anthropic 關心的是,給我一個模型,我去理解它內部怎么工作。
我關心的層面稍微不一樣,比朱澤園稍微更微觀一點,但比 Anthropic 又更宏觀一點。我關心的是,當我們訓練一個模型的時候,它的各種觀測量,比如 loss,比如權重的范數,是怎么隨著訓練演化的?所以有點像是一種“關于曲線的科學”,你訓練一個東西,可以同時畫 100 條曲線,從曲線里獲得洞察,再根據這些洞察去迭代。
但最終,我不會覺得做 Physics of AI 就不認可別人的做法。我的態度是八仙過海、取其精華去其糟粕,不同的叫法、不同的方法,只要能為我所用,我就把它吸納進來。
DeepTech:你在博客里說 AI 目前還處在“第谷階段”,有大量的觀測數據,但沒有開普勒定律,更沒有牛頓力學。你覺得 AI 領域積累的“認知債務”有多嚴重?
劉子鳴:首先糾正一下,那篇博客是我幾個月前寫的。我現在的認知更悲觀一點,可能連低谷階段都還沒到。
雖然互聯網上有大量文章、數據,但我現在想做的一件事,是把 Physics of AI 本身自動化,這也跟我閉關的項目有關,因為人做研究還是太慢了。開始做之后我才意識到,我沒有太多數據可用。
肯定會有人反問,互聯網上那么多文章,為什么說沒數據?因為我真正需要的數據,是一種人腦子里的結構化數據,它應該比自然語言更結構化,但往往我們并不會把這種東西寫下來,甚至不知道怎么寫下來。
什么數據對研究是有價值的?比如我自己寫代碼的時候,會不斷跟自己對話、自言自語,有時候甚至不用語言,腦子里潛意識在做某種判斷和取舍,這些數據都沒有。再比如老師和學生討論一個項目,老師建議這樣做、學生怎么回應、為什么,這些過程的數據也沒有。
綜合來看,其實我們連“第谷階段”的數據都還沒湊齊。我現在閉關就是要做這件事,先把自己推到第谷階段。而且我們需要先定義一門新的語言。研究本身是一門新的語言,自然語言只是我們用來交流研究的一種方式。日報仍然是自然語言,我需要把每篇日報結構化成這門新語言,才能開始有這門語言的數據,才能進行訓練。
DeepTech:這筆認知債務短期內可能還不會影響 AI 發展,但什么時候它會開始阻礙 AI 邁入下一個階段?
劉子鳴:認知債務是一個連續的東西。你解決得越多,短期風險越大,長期回報也越大。所以我不覺得它是一個相變,而是一個逐漸的過程。
四個月前我寫博客的時候,我更極端一點,覺得需要一個相變式的解決方式。現在務實多了,一步步解決。我現在的目標是,在 2 到 3 年內解決掉 10% 的認知債務,而這 10% 可能能產生 90% 的效益。剩下的債務,我覺得得靠新的賽道,否則你就算繼續解決,也只能再多拿到 10% 的效益了。
一方面,大家慢慢開始意識到有“認知債務”這件事。另一方面,有沒有意義去解決它,是一個路線選擇問題。我賭的是,要解決掉這 10%,才能掘到下一個金礦層。再往下掘、把整層鑿穿,可能付出的努力又不值得了,除非你能找到新的機會。
DeepTech:你在博客里還提了一個挺尖銳的觀點。AI 的現象學(phenomenology)之所以發展不起來,主要是“發表文化”在阻擋,只有能提升性能、或能講成完整故事的研究才能發表,而很多你覺得有意思的現象,因為包裝不成論文就被扔掉了。這個文化需要怎么改變?
劉子鳴:又是那句話,這個領域發展太快了。四個月前你問我,我會說我們需要建一個社區來做這件事。但現在我覺得,做一個 agent(智能體)就可以了,根本不用發表。
我之前的思路是集體智能(collective intelligence),我觀察到一件事,別人觀察到另一件事,把這些觀察匯聚起來,這個領域有一天會出現類似滲流相變(percolation phase transition)的東西。但我現在意識到,這種相變往往是在一個人的腦子里產生的。我需要一個智能體,能日以繼夜不停地去做這些小發現。我之前做日報,其實就是在手動做這件事。
現在我的判斷是,第一,這件事 90% 可以被自動化。第二,我可以做得更暴力一點。之前我依賴人的直覺去決定“測什么觀測量”,但現在我意識到,我可以一次測 100 萬個觀測量,暴力地測,再根據結果反推哪個觀測量是重要的。
這是超越人類的做法。人腦有一些特別的地方,但可能沒有我原來想象的那么特別。至少在“測什么”這件事上,人可能真不如機器。因此,我并不反對 scaling,但在 scale 什么的問題上,我希望我們能更多地去 scale up understanding。
我現在覺得,我們應該造一個機器,它甚至不必像智能體那么聰明,就在搜索空間里暴力搜。這件事不需要社區,因為這個過程對人來說太無聊、太耗時間了。
DeepTech:那人在其中扮演什么角色?
劉子鳴:具體說,人和機器的區別在哪?人能夠提出“分布外(out-of-distribution)”的想法(訓練數據里壓根不存在的新點子),而機器是在“分布內”做排列組合,這是機器特別擅長的。
這也聯系到我招學生的標準,我要招能提出分布外想法的人。因為分布內的部分,機器就能代替。
DeepTech:可解釋性是你很多工作的核心關切。KAN 是為了可解釋,BIMT 也是,Superposition 的研究也建立在 Anthropic 的玩具模型之上。在大家都在拼命追求更大、更強模型的當下,可解釋性的優先級應該放在哪?
劉子鳴:這還是回到剛才“認知債務”的問題。現在主流路線是關心 0% 的可解釋性,追求更強的模型。我關心 10% 的可解釋性,目標是在 2 到 3 年內建出更強的模型。所以作為一種務實的理論,最終還是要建更強的模型,只是把時間尺度拉長了一點。
可能有人選擇另一種押注,我要理解 50%,那目標可能是 5 到 10 年,或者 100%,目標是 100 年。但作為一種務實的理論,還是要做一些及時的事情。
DeepTech:聽說你最近在閉關搞一個項目,說需要連續的時間進入心流。能透露一下在做什么嗎?
劉子鳴:其實做的就是剛才說的,創造研究這門語言。
我之前寫過一篇日報,說研究不應該以論文為目標,它應該以知識圖譜(knowledge graph)為目標。而這個知識圖譜本身就是一種語言。人類的自然語言是線性的,但像電影《降臨》里外星人的語言,它是圖像化的、環形的。我現在想創造的,就是這樣一門圖像化的語言,而做研究其實就對應著去改這張圖。就先透露這些吧。
關于在清華建組和 AI 的“開普勒定律”
DeepTech:你現在正在招 2027 年秋入學的博士生。你想招什么樣的人?
劉子鳴:能提出分布外想法的人。而好奇心驅動是這件事的一個必要條件。
你需要一直保持探索,因為很可能你前 100 個想法都已經被別人想過了。這意味著你不僅要理解知識本身,還要理解人腦是怎么思考知識的,然后找到一個東西,它既是某種意義上“人腦的分布外”,又對現實世界是有意義的問題。這需要很強的好奇心,加上韌性(resilience),因為前 100 次你可能都失敗了,如果沒有好奇心,你就沒有動力堅持。
DeepTech:高校系統內的學術環境相對更強調傳統意義上的“有用”和實用主義。如果用你的這套標準,好奇心驅動、分布外研究、甚至用博客代替論文,會不會太理想化?你怎么保護學生的好奇心?
劉子鳴:如果學校有硬性的發表規定,我的學生要達到這種基本的規定是很容易的事情。
我覺得做研究的第一性原理,是拓展自己的知識圖譜。這個過程需要好奇心驅動,而發文章只是第二性的,是一個自然而然的副產物。當你知識圖譜拓展到一定程度,大到溢出的時候,你發現了一些東西,非常想跟別人分享,不得不把它寫下來,這個時候自然會出現文章。博客轉文章其實也不是太難的事。
我承認自己做研究確實比較理想主義,我感興趣、學生感興趣的東西,我就覺得值得研究。但我逐漸覺得,實用主義的思維方式也不一定是壞事。其實兩種可以在一個項目的不同階段交替使用。第一階段用理想主義的方式去探索,好奇驅動,定義問題。第二階段當問題定義清楚、拆解成了工程問題之后,就要用實用主義的態度把工程推起來。否則效率太低。所以一句話就是,像科學家一樣問有趣的問題,但像工程師一樣把它解決掉。
DeepTech:你提到要在清華開一門 Physics of AI 的課,這門課打算怎么教?
劉子鳴:這門課和一般 AI 理論課最大的區別是,我更關心“做實驗”。
理想化一點說,我希望讓學生感受到牛頓那句話,“我就像一個在沙灘上玩耍的小孩,撿起這些貝殼”。我可能對之前的人發現了什么一無所知,但我仍然能夠通過和這個世界的交互去發現一些美。
常規的 AI 理論課是去教“之前的人發現了什么現象、提出了什么理論”,但這樣太像教科書了,好像所有東西都定死了。我會反過來,從一些很小的實驗出發。我只告訴你這個模型是什么、我們在干什么,然后我給你畫一些觀測量,讓你自己觀察,你不需要先有任何先驗知識,就去看這些曲線,你會自己意識到背后可能有什么規律。以這個為引子,我再去介紹前人在這上面做過哪些理論解釋。
這也是我博客一直想做的事,就是把所有現象都簡化成一個玩具模型。這個玩具模型可以在個人電腦上用一塊 CPU、5 分鐘之內就跑出這個現象,不需要多少算力就能復現大家關心的現象。
這完全是物理學家研究世界的方式。先做實驗,先觀察,甚至可以先“當民科”,在玩耍的過程中做一些自己的歸納總結,然后再回過頭看前人怎么解釋。這樣學生對知識的印象會更深刻,因為他是真的動手做了一個東西。如果你直接灌輸,他就只能被動接受。
受眾方面,本科生和研究生都可以上。開這門課我最主要的目的,是推廣 Physics of AI 這種方法論。你不一定要在紙上推公式,也不一定要有 1 萬張卡去訓大模型,你可以在自己電腦上很快訓一個小模型,發現里面的有趣現象,而且這些現象還能和現實建立聯系。
DeepTech:如果讓你預測,5 年之后我們對 AI 的理解會到什么水平?會有 AI 版的“開普勒定律”嗎?
劉子鳴:首先像我剛才說的,我們可能還需要 1 到 2 年去收集“第谷的數據”,因為還沒到第谷階段。
開普勒定律什么時候出現,取決于當前的 scaling 范式什么時候停滯(plateau)。我現在瞄準的是 10% 的可解釋性,已經算比較深入的了,絕大多數研究可能只做到 0.1%,這是因為現在 scaling 還沒停滯,大家沒有動機去做更深的理解。
所以一個更近期的問題是,現在的范式什么時候會停滯?我覺得可能是一年內的事情。一年之后我們進入“第谷階段”,數據也準備好了,人才也開始轉向。可能會有一個延遲,一年后大家意識到 scaling 的機會沒那么多了,才會開始轉,真正的轉向可能是第二年的事情。第二年結束之后,數據收集好了、人也有了,就可以開始“理解規模化(scale up understanding)”。
我們現在是規模化模型和數據,但接下來要規模化理解,當然,這個理解也只是 10%。
![]()
圖丨開普勒模型與牛頓模型(來源:劉子鳴播客)
如果把“從第谷到開普勒”定義為這 10% 的理解,我覺得三年就夠了。但從開普勒到牛頓,才是最難的。這又取決于我們這個范式什么時候會到頭,大家什么時候意識到 10% 不夠,什么時候開始追求更深的理解。
追到 100% 的時候,牛頓級別的東西才會發生。所以我對這一段時間的估計非常長,甚至有可能 AI 這一波過去之后會進入一個冷靜期,有才華的人都去做下一個熱點了。
所以開普勒可能三年,牛頓可能要一百年。
DeepTech:最后幾個快問快答的小問題,你覺得 AI 研究者最該讀的一本非 AI 書是什么?
劉子鳴:《人類簡史》,對我啟發挺大。這也是結合 Max 給我的啟發。我之前會覺得“硬核就是一切”,越難、越不接地氣,就越顯得厲害。但《人類簡史》講的是,人類社會是由故事驅動的,所以你沒法否認故事的重要性。
當然現在大家有時候會過度講故事。你講出來的價值減去實際的價值,如果這個差值太大,那杠桿就加太多了,這次別人聽你的,下次就不信你了。做影響力的工作,不僅要理解技術本身,還要理解人性。這是我作為一個 nerd 理工男活了這么多年,最近才領悟到的事情。
DeepTech:如果沒做 AI,你可能在做什么?
劉子鳴:我申博之前跟留學老師聊天,定的方向其實是量子力學理論。那個時候我也是覺得,量子力學非常高深,越硬核越不接地氣,越能顯得厲害。不過現實是,我認識很多做量子的朋友都在往 AI 轉。所以我猜可能 10% 的平行宇宙里我還在堅守量子理論,另外 90% 的宇宙里,最終都會轉去 AI,只是遲早問題。
DeepTech:用一句話形容你理想中實驗室的文化?
劉子鳴:Netflix的那句,“極致的自由,前提是極致的人才密度”。招到最有才的同學,給他們足夠的自由和自由,讓他們自己去碰撞、去探索。就像 OpenClaw 之父 Peter Steinberger 說的,你打不過一個用游戲心態做事的人。當然,在早期同學們還沒有太多研究經驗的時候,我可能還是會多微操一點(笑)。這種務實是為了更長久的理想主義,只有先存活下來才能再談理想。
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.