網易首頁 > 網易號 > 正文申請入駐

對話劉子鳴：從MIT回到清華，給AI找一套“務實的理論”

2026-04-21 15:38:21　來源: DeepTech深科技

北京舉報

分享至

如果你關注過深度學習圈，大概率 2024 年時聽過一個三個字母的縮寫——KAN。這篇叫做 Kolmogorov–Arnold Networks(柯爾莫哥洛夫–阿諾德網絡) 的論文在 arXiv 掛出后，幾天之內席卷了各路技術社群，有人宣稱 MLP（多層感知機）這個統治了深度學習幾十年的基礎磚塊可能要被改寫，也有人質疑它只是又一個“看起來很美”的架構。近兩年之后，KAN 的 GitHub 倉庫已經攢下了超過 1.6 萬顆星，相關的跟進論文從生物物理到金融建模，鋪了一大片。

這篇論文的第一作者叫劉子鳴，當時還是 MIT 物理系的博士生，導師是以“數學宇宙假說”聞名的 Max Tegmark。幾個月前，他和合作者關于表示疊加（Superposition）的工作又拿下了 NeurIPS 2025 最佳論文亞軍。如今他 MIT 博士剛畢業，在斯坦福做了一段短暫的博士后回到國內，即將入職清華大學人工智能學院擔任助理教授。

有意思的是，如果你翻他的主頁，會發現他給自己掛的標簽既不是“深度學習研究者”，也不是“大模型研究者“，而是三個交錯的方向：Science of AI（AI 的科學）、Science for AI（服務于 AI 的科學）、AI for Science（AI 服務于科學）。在這之上，他最想推動的事情有一個更具體的名字，叫 Physics of AI（AI 的物理學）。

用他自己的話說，今天的 AI 處境有點像大航海之前的天文學，大家仰著頭看到很多東西，但連把這些觀測整理成一張像樣星圖的“研究語言”都還沒有，連第谷（Tycho Brahe）的階段都還沒到，更別提開普勒和牛頓。

最近他在閉關，想做的事正是把 Physics of AI 本身自動化。

以下是 DeepTech 和他的對話。

從物理到 AI：一路試錯之后的轉向

DeepTech：你本科在北大讀物理，去 MIT 也是讀物理，后來怎么走到 AI 這條路上來的？

劉子鳴：其實挺早的，大二下我就開始轉向 AI 了，不過當時做的還是 AI 和物理的結合。

觸發點是我了解到了 GAN（生成對抗網絡）。當時就覺得，這玩意好像也沒有多難，但它的 formulation（問題構建方式）非常巧妙。我那時就覺得，這就是一個研究的“重點”，我就想做這樣的工作。

再一個，那個時候我在物理上的探索，說實話也不太順利。一方面，理論覺得挺難的，另一方面，做實驗、動手也挺難的。所以我當時考慮過計算物理，反正不管計算物理還是 AI，都是在電腦上搞，但覺得 AI 的問題和機會更多一點，就開始往 AI 上看。不過形式上我仍然掛在物理學院，找的也是物理學院的老師做 AI 和物理的交叉，主要是 AI for Physics。

后面讀博跟 Max Tegmark，他早就在做 AI for Physics 和 Physics for AI，所以我們早期主要也是 AI for Physics，比如用 AI 去找物理系統中的守恒量、對稱性這些東西。到 2022 年底 ChatGPT 出來之后，我們就覺得，AI 好像不再只是一個工具了，它本身變成了研究對象。從那時候起，我們開始把更多精力花在“理解 AI”上。

DeepTech：你這個路徑讓我想到楊振寧先生，他當年是因為實驗不順利才轉去做理論物理，然后找到了自己擅長的方向。

劉子鳴：我可能要更慘一點（笑），理論和實驗物理都不順利，連數論也試過。數論后來覺得太理論了，也放棄了。

DeepTech：你博士跟的 Max Tegmark 是一位典型的 polymath（通才），他的思維方式對你最大的影響是什么？

劉子鳴：Max 是那種什么都懂的人。

之前 Freeman Dyson 把數學家和科學家分成兩類，一類叫 bird person（鳥人），一類叫 frog person（蛙人）。鳥人飛得很高，能看到整片山河的圖景，喜歡能把不同領域串起來的宏大概念；蛙人則扎在泥里，看得到花朵的細節，一次解決一個具體問題。而 Max 就是絕對的鳥人。

不管是物理、AI、神經科學，還是各種應用領域，他懂的都非常多。他本科其實學的是經濟學，在斯德哥爾摩經濟學院讀的。所以我們經常聊著聊著一個話題，他就能延伸到別的在一般人看來毫不相關的地方。他能看到那些表面不同的問題底下共通的結構，這對我的 research taste（研究品味）影響非常大。

另外還有一點，他特別擅長把一個很難理解的東西解釋給別人。這背后其實就是費曼技巧的那個核心判斷，如果你不能用簡單的話向一個外行講清楚一件事，說明你自己也沒真正理解它。傳播學上也是一樣，你要讓別人知道一個東西，它至少得是一個你能講清楚的東西。這個也是我跟他學得比較多的。

DeepTech：博士后去斯坦福跟 Andreas Tolias，從物理又轉到了神經科學。為什么做這個決定？

劉子鳴：兩方面。一方面是我也想做鳥人。神經網絡最開始其實就是神經科學那一撥人搞起來的，我想了解一下那幫人的腦洞到底是什么樣的。另一方面是有一個具體的項目，我之前做 AI for Physics 時搞過一個找守恒量的工具，他們說有一個神經科學的數據集很合適。雖然后來發現其實也沒那么合適，但至少是合作的一個起點。

DeepTech：這么看，你的整個學術路徑其實可以概括為在研究“智能的底層原理”？

劉子鳴：對，而這種底層原理需要從非常多角度去觸摸和理解，有點像盲人摸象，所有學科都只是摸它的一部分。

關于 Science of AI、Science for AI、AI for Science

DeepTech：能不能用最簡單的話說說，這三個方向各自在回答什么問題？

劉子鳴：看研究的主體是什么。前面是工具，后面是研究對象。

Science for AI 和 Science of AI 都是以 AI 為研究對象，science 是研究方法。兩者挺像的，但還是要做個區分。Science of AI 更被動，研究的是現有的那些 AI 模型；Science for AI 更主動、野心更大，是用 science 去重構現在的 AI 模型，祈求能造出下一代的 AI 模型。AI for Science 大家已經講得比較多了，就是用 AI 去推動科學發現。

DeepTech：KAN 應該算 Science for AI？

劉子鳴：我自己很喜歡 KAN 的原因就是它同時包含這三個方面。它主體是 Science for AI，用 science 去重構 AI，但也有 Science of AI 的部分。比如我們解釋了為什么 MLP（多層感知機）的 scaling law（縮放律）沒有達到理想值，而 KAN 可以比 MLP 更快，所以這個工作也包含對 MLP 的某些理解。同時它也是 AI for Science，因為 KAN 工具做出來之后，最適合它的場景往往是那些你期待背后有某種動力學、有緊湊規律的任務，而不是大語言模型那種你不太指望背后會有緊湊規律的任務。

圖丨KAN 的架構（來源：arXiv）

DeepTech：你最初因為 GAN 進入 AI，后來 KAN 又引起那么大關注，這么看似乎有點呼應。

劉子鳴：某種意義上確實是一次 call back。從高層次上看，我的一些代表作（除了 KAN，還有 Poisson Flow 等）它們跟 GAN 的風格都很像，技術上沒有多難，工程上也不需要多少算力，但能找到一個比較巧妙的 formulation（問題構建方式），或者說找到一種合適的語言。一旦你找到了合適的語言、合適的結構，問題就變得非常簡單。有點像愛因斯坦研究廣義相對論的時候找到了黎曼幾何，當語言對了，很多東西就自然而然通了。

DeepTech：回頭看，KAN 對你意味著什么？是一個架構創新，還是一種思維方式的創新？

劉子鳴：我的很多工作，有些人看著覺得亂七八糟、東搞一下西搞一下，但背后其實是同一個邏輯，我想在神經（neural）和符號（symbolic）這兩個世界之間架一座橋。現在的 AI 主要是神經的，而科學主要是符號的。

KAN 對我來說很特別的地方在于，它是第一個讓我覺得存在一種類似波粒二象性的東西。在量子力學里，粒子既是波也是粒子。而 KAN 同時是網絡，也同時是符號公式，同時是神經的東西，也同時是符號的東西。在它之前，沒有這種例子，要么就是神經的，要么就是符號的，要么是 neural-symbolic（神經符號方法），但那往往是用某種比較硬的方法強行把兩者拼接起來，不是那么兼容。KAN 很優雅地體現了這種二象性。

正因為這樣，我現在思考的另一些問題是沿著這個邏輯繼續走。KAN 說的是符號公式和神經網絡的二象性，但符號公式本身仍然是一類比較局限的結構。

比如經典算法，像排序這種算法，跟神經網絡之間能不能構建二象性？再往前一步，大家現在都在說的 world model（世界模型），它背后可能有物理引擎或物理模擬器，這種東西又該怎么和神經網絡之間構建二象性？所以 KAN 其實只是第一步，后面第二步、第三步、第四步都會按照這條邏輯發展下去。

DeepTech：也有一些人覺得 KAN 在大規模任務上可能用處沒那么大。你怎么看這種評價？

劉子鳴：這是 no free lunch theorem（沒有免費午餐定理)）沒有一個模型能在所有任務上都比另一個更好。所以對待模型的正確態度，是找到它的應用場景，然后在它有優勢的場景下誠實地發揮這個優勢。

具體一點，如果你關心可解釋性，尤其是想拿符號形式的表達，你就應該用 KAN；如果你有大量數據，又關心高精度的預測，那你也應該用 KAN。什么時候不應該用？數據量特別小的時候別用，因為 KAN 的 Spectral Bias 更弱，更容易過擬合。大規模大模型場景下，努力調參的話工程上都是能做到的，也許能調得比 Transformer 更好，但我不會一開始就預設 KAN 有一個很強的理由一定比傳統 Transformer 更好。

DeepTech：作為 KAN 的提出者，你怎么看它現在的生態？

劉子鳴：我昨天還看到一篇文章，用 KAN 去學生物物理（biophysics）里的一個動力系統，這是我想象中比較“小而美”的理想應用場景。也有一些場景是我一開始沒預料到的，比如金融和醫療，這些場景特別需要可解釋性，大家就自然用上了 KAN。一個東西對現實世界到底能產生什么影響，作為創造者，很多時候你在創造的時候是想象不到的。

DeepTech：你們去年的 Superposition 論文拿了 NeurIPS 2025 Best Paper Runner-up，核心發現是什么？

劉子鳴：核心發現是，當模型寬度變寬的時候，它的 loss（損失）和寬度之間是一個反比關系。

為什么這個發現令人意外？因為在我們這篇論文之前，甚至包括我自己之前一篇 paper，大家主流的看法是，scaling law 和數據分布有很強的關系。你的數據本身遵循某種冪律（power law），所以是冪律進、冪律出，數據冪律決定了模型冪律。但我們這篇文章打破了這個觀點，我們發現，即使你的數據不是冪律、是任意分布，輸出仍然呈現出一個類似物理學里“普適類（universality class）”的東西，它把數據的細節全部抹掉，模型永恒地給你一個 1/寬度的縮放律。

解釋這個結果用的是非常簡單的理論。方法論上有一點我自己覺得比較獨特，也是 Physics of AI 區別于其他理論方法的地方，它是一種“務實的理論”。它的目的是解釋甚至改進實驗，所以會特別緊貼實驗結果，這是形式化（formal）理論做不到的。但同時我們又構建 toy model（玩具模型）去解釋背后的機理，這又是純做實驗做不到的。我們在兩者中間找到了平衡，而且在玩具模型上的分析，竟然可以遷移到大模型上。

這篇文章的主要貢獻其實是來自一作、MIT 的合作者劉逸舟。我的角色差不多就是每周跟他約一次啤酒，一邊喝一邊在白板上寫寫畫畫，討論實驗結果。逸舟最近也準備博士畢業，在考慮下一步計劃了。

DeepTech：另一篇《Neural Thermodynamic Laws》把熱力學語言用到了大模型訓練上，這個想法是怎么來的？

劉子鳴：這篇我個人覺得偏課程項目一點，因為沒有太多特別新奇的發現，但作為J人，總是喜歡能有一個統一的框架把很多小而繁瑣的觀察給整理清楚。出發點是一個非常簡單的觀察，現在訓大模型，大家會用學習率調度（learning rate schedule），先 warm up（升溫）、再 stable（穩定）、再 decay（衰減）。我們發現一個事情，最終的 loss 和它最終衰減到哪個學習率，存在一個線性關系。

這個線性關系特別像物理里“熱容”的概念。當一個物體有恒定熱容的時候，你要升多高的溫度，就得吸多少熱。這里 loss 類似于“熱”，學習率類似于“溫度”。一開始觀察到這個事情的時候，我就意識到，這可以和物理里的能均分定理（equipartition theorem）建立聯系。

從這個對應出發做下去，越做越發現很多東西都能映射到熱力學。比如你在一個陡峭的河道里走，在峭壁上彈射的過程中會產生某種“熵力（entropic force）”，算了一下，和物理里的熵力形式是一模一樣。這可能不是巧合。物理中的很多理論，本身就是在尋找簡單而普遍的東西，很多看起來不同的體系經過一定抽象之后，會變成同一個東西。我們這篇文章就是把優化動力學和熱力學，做了一個更顯式的聯系。

DeepTech：這種視角對訓練策略有什么用？

劉子鳴：我們推導出了一個最優的衰減策略，是 1/t（關于訓練步數 t 的倒數）。我們沒在大模型上試過，但有一些別的文章經驗上找出來的最優策略，其實跟我們理論上算出來的 1/t 非常像。可能不嚴格相同，但至少特征是一致的，一開始掉得快，后面慢慢停掉。

Physics of AI：什么是一種“務實的理論”

DeepTech：你經常說 Physics of AI，但不同人對這個詞的理解很不一樣。有人覺得是用物理的數學工具分析神經網絡，有人覺得是找 AI 版的牛頓定律，還有人覺得是機制可解釋性（mechanistic interpretability）換了個馬甲。你自己說的 Physics of AI 到底指什么？

劉子鳴：這里需要區分兩件事。第一，我們最終的目標是什么？第二，我們用什么方法到達這個目標？

最終的目標（我們的“North Star”）是，我要為 AI 找到一種“務實的理論”。這和傳統的理論是有區別的。傳統的理論可能是自下而上的，類似數學，從一些第一性原理出發，去推演出東西來。這種做法的壞處是，可能跟現實沒那么相關。但另一方面，我也不相信現在的 AI 背后是沒有理論的，就是無腦調參。所以我追求的是一種務實的理論。

那怎么達到這個目標？我覺得物理學的方法論本身就是這樣一種務實的理論。物理最終是要描述和預測實驗現象，所以是務實的。但同時它又是理論，可以定量地預測。要兼顧兩者，物理采取的方式是，對真實系統做抽象和簡化，研究這個簡化后的模型，它可能仍然很復雜，但至少把無關的變量簡化掉了。

先在一個更小的模型上研究清楚，再把它遷移回更大的模型，中間肯定有 gap（差距），再一步一步解釋這個 gap 是怎么加上來的。不管是機制派、現象學派，還是 Physics of LLMs 那派，目的其實都是找到一種務實的理論。

DeepTech：那你和朱澤園（Zeyuan Allen-Zhu）做的 Physics of LLMs、Anthropic 做的機制可解釋性，具體差別在哪？

劉子鳴：大家目的都差不多，硬說區別的話，我比他們更關心訓練動力學（training dynamics），他們可能更關心模型最后的結果。朱澤園更關心的是相圖，即改這些超參數，最后的指標怎么依賴于這些超參數。Anthropic 關心的是，給我一個模型，我去理解它內部怎么工作。

我關心的層面稍微不一樣，比朱澤園稍微更微觀一點，但比 Anthropic 又更宏觀一點。我關心的是，當我們訓練一個模型的時候，它的各種觀測量，比如 loss，比如權重的范數，是怎么隨著訓練演化的？所以有點像是一種“關于曲線的科學”，你訓練一個東西，可以同時畫 100 條曲線，從曲線里獲得洞察，再根據這些洞察去迭代。

但最終，我不會覺得做 Physics of AI 就不認可別人的做法。我的態度是八仙過海、取其精華去其糟粕，不同的叫法、不同的方法，只要能為我所用，我就把它吸納進來。

DeepTech：你在博客里說 AI 目前還處在“第谷階段”，有大量的觀測數據，但沒有開普勒定律，更沒有牛頓力學。你覺得 AI 領域積累的“認知債務”有多嚴重？

劉子鳴：首先糾正一下，那篇博客是我幾個月前寫的。我現在的認知更悲觀一點，可能連低谷階段都還沒到。

雖然互聯網上有大量文章、數據，但我現在想做的一件事，是把 Physics of AI 本身自動化，這也跟我閉關的項目有關，因為人做研究還是太慢了。開始做之后我才意識到，我沒有太多數據可用。

肯定會有人反問，互聯網上那么多文章，為什么說沒數據？因為我真正需要的數據，是一種人腦子里的結構化數據，它應該比自然語言更結構化，但往往我們并不會把這種東西寫下來，甚至不知道怎么寫下來。

什么數據對研究是有價值的？比如我自己寫代碼的時候，會不斷跟自己對話、自言自語，有時候甚至不用語言，腦子里潛意識在做某種判斷和取舍，這些數據都沒有。再比如老師和學生討論一個項目，老師建議這樣做、學生怎么回應、為什么，這些過程的數據也沒有。

綜合來看，其實我們連“第谷階段”的數據都還沒湊齊。我現在閉關就是要做這件事，先把自己推到第谷階段。而且我們需要先定義一門新的語言。研究本身是一門新的語言，自然語言只是我們用來交流研究的一種方式。日報仍然是自然語言，我需要把每篇日報結構化成這門新語言，才能開始有這門語言的數據，才能進行訓練。

DeepTech：這筆認知債務短期內可能還不會影響 AI 發展，但什么時候它會開始阻礙 AI 邁入下一個階段？

劉子鳴：認知債務是一個連續的東西。你解決得越多，短期風險越大，長期回報也越大。所以我不覺得它是一個相變，而是一個逐漸的過程。

四個月前我寫博客的時候，我更極端一點，覺得需要一個相變式的解決方式。現在務實多了，一步步解決。我現在的目標是，在 2 到 3 年內解決掉 10% 的認知債務，而這 10% 可能能產生 90% 的效益。剩下的債務，我覺得得靠新的賽道，否則你就算繼續解決，也只能再多拿到 10% 的效益了。

一方面，大家慢慢開始意識到有“認知債務”這件事。另一方面，有沒有意義去解決它，是一個路線選擇問題。我賭的是，要解決掉這 10%，才能掘到下一個金礦層。再往下掘、把整層鑿穿，可能付出的努力又不值得了，除非你能找到新的機會。

DeepTech：你在博客里還提了一個挺尖銳的觀點。AI 的現象學（phenomenology）之所以發展不起來，主要是“發表文化”在阻擋，只有能提升性能、或能講成完整故事的研究才能發表，而很多你覺得有意思的現象，因為包裝不成論文就被扔掉了。這個文化需要怎么改變？

劉子鳴：又是那句話，這個領域發展太快了。四個月前你問我，我會說我們需要建一個社區來做這件事。但現在我覺得，做一個 agent（智能體）就可以了，根本不用發表。

我之前的思路是集體智能（collective intelligence），我觀察到一件事，別人觀察到另一件事，把這些觀察匯聚起來，這個領域有一天會出現類似滲流相變（percolation phase transition）的東西。但我現在意識到，這種相變往往是在一個人的腦子里產生的。我需要一個智能體，能日以繼夜不停地去做這些小發現。我之前做日報，其實就是在手動做這件事。

現在我的判斷是，第一，這件事 90% 可以被自動化。第二，我可以做得更暴力一點。之前我依賴人的直覺去決定“測什么觀測量”，但現在我意識到，我可以一次測 100 萬個觀測量，暴力地測，再根據結果反推哪個觀測量是重要的。

這是超越人類的做法。人腦有一些特別的地方，但可能沒有我原來想象的那么特別。至少在“測什么”這件事上，人可能真不如機器。因此，我并不反對 scaling，但在 scale 什么的問題上，我希望我們能更多地去 scale up understanding。

我現在覺得，我們應該造一個機器，它甚至不必像智能體那么聰明，就在搜索空間里暴力搜。這件事不需要社區，因為這個過程對人來說太無聊、太耗時間了。

DeepTech：那人在其中扮演什么角色？

劉子鳴：具體說，人和機器的區別在哪？人能夠提出“分布外(out-of-distribution)”的想法（訓練數據里壓根不存在的新點子），而機器是在“分布內”做排列組合，這是機器特別擅長的。

這也聯系到我招學生的標準，我要招能提出分布外想法的人。因為分布內的部分，機器就能代替。

DeepTech：可解釋性是你很多工作的核心關切。KAN 是為了可解釋，BIMT 也是，Superposition 的研究也建立在 Anthropic 的玩具模型之上。在大家都在拼命追求更大、更強模型的當下，可解釋性的優先級應該放在哪？

劉子鳴：這還是回到剛才“認知債務”的問題。現在主流路線是關心 0% 的可解釋性，追求更強的模型。我關心 10% 的可解釋性，目標是在 2 到 3 年內建出更強的模型。所以作為一種務實的理論，最終還是要建更強的模型，只是把時間尺度拉長了一點。

可能有人選擇另一種押注，我要理解 50%，那目標可能是 5 到 10 年，或者 100%，目標是 100 年。但作為一種務實的理論，還是要做一些及時的事情。

DeepTech：聽說你最近在閉關搞一個項目，說需要連續的時間進入心流。能透露一下在做什么嗎？

劉子鳴：其實做的就是剛才說的，創造研究這門語言。

我之前寫過一篇日報，說研究不應該以論文為目標，它應該以知識圖譜（knowledge graph）為目標。而這個知識圖譜本身就是一種語言。人類的自然語言是線性的，但像電影《降臨》里外星人的語言，它是圖像化的、環形的。我現在想創造的，就是這樣一門圖像化的語言，而做研究其實就對應著去改這張圖。就先透露這些吧。

關于在清華建組和 AI 的“開普勒定律”

DeepTech：你現在正在招 2027 年秋入學的博士生。你想招什么樣的人？

劉子鳴：能提出分布外想法的人。而好奇心驅動是這件事的一個必要條件。

你需要一直保持探索，因為很可能你前 100 個想法都已經被別人想過了。這意味著你不僅要理解知識本身，還要理解人腦是怎么思考知識的，然后找到一個東西，它既是某種意義上“人腦的分布外”，又對現實世界是有意義的問題。這需要很強的好奇心，加上韌性（resilience），因為前 100 次你可能都失敗了，如果沒有好奇心，你就沒有動力堅持。

DeepTech：高校系統內的學術環境相對更強調傳統意義上的“有用”和實用主義。如果用你的這套標準，好奇心驅動、分布外研究、甚至用博客代替論文，會不會太理想化？你怎么保護學生的好奇心？

劉子鳴：如果學校有硬性的發表規定，我的學生要達到這種基本的規定是很容易的事情。

我覺得做研究的第一性原理，是拓展自己的知識圖譜。這個過程需要好奇心驅動，而發文章只是第二性的，是一個自然而然的副產物。當你知識圖譜拓展到一定程度，大到溢出的時候，你發現了一些東西，非常想跟別人分享，不得不把它寫下來，這個時候自然會出現文章。博客轉文章其實也不是太難的事。

我承認自己做研究確實比較理想主義，我感興趣、學生感興趣的東西，我就覺得值得研究。但我逐漸覺得，實用主義的思維方式也不一定是壞事。其實兩種可以在一個項目的不同階段交替使用。第一階段用理想主義的方式去探索，好奇驅動，定義問題。第二階段當問題定義清楚、拆解成了工程問題之后，就要用實用主義的態度把工程推起來。否則效率太低。所以一句話就是，像科學家一樣問有趣的問題，但像工程師一樣把它解決掉。

DeepTech：你提到要在清華開一門 Physics of AI 的課，這門課打算怎么教？

劉子鳴：這門課和一般 AI 理論課最大的區別是，我更關心“做實驗”。

理想化一點說，我希望讓學生感受到牛頓那句話，“我就像一個在沙灘上玩耍的小孩，撿起這些貝殼”。我可能對之前的人發現了什么一無所知，但我仍然能夠通過和這個世界的交互去發現一些美。

常規的 AI 理論課是去教“之前的人發現了什么現象、提出了什么理論”，但這樣太像教科書了，好像所有東西都定死了。我會反過來，從一些很小的實驗出發。我只告訴你這個模型是什么、我們在干什么，然后我給你畫一些觀測量，讓你自己觀察，你不需要先有任何先驗知識，就去看這些曲線，你會自己意識到背后可能有什么規律。以這個為引子，我再去介紹前人在這上面做過哪些理論解釋。

這也是我博客一直想做的事，就是把所有現象都簡化成一個玩具模型。這個玩具模型可以在個人電腦上用一塊 CPU、5 分鐘之內就跑出這個現象，不需要多少算力就能復現大家關心的現象。

這完全是物理學家研究世界的方式。先做實驗，先觀察，甚至可以先“當民科”，在玩耍的過程中做一些自己的歸納總結，然后再回過頭看前人怎么解釋。這樣學生對知識的印象會更深刻，因為他是真的動手做了一個東西。如果你直接灌輸，他就只能被動接受。

受眾方面，本科生和研究生都可以上。開這門課我最主要的目的，是推廣 Physics of AI 這種方法論。你不一定要在紙上推公式，也不一定要有 1 萬張卡去訓大模型，你可以在自己電腦上很快訓一個小模型，發現里面的有趣現象，而且這些現象還能和現實建立聯系。

DeepTech：如果讓你預測，5 年之后我們對 AI 的理解會到什么水平？會有 AI 版的“開普勒定律”嗎？

劉子鳴：首先像我剛才說的，我們可能還需要 1 到 2 年去收集“第谷的數據”，因為還沒到第谷階段。

開普勒定律什么時候出現，取決于當前的 scaling 范式什么時候停滯(plateau)。我現在瞄準的是 10% 的可解釋性，已經算比較深入的了，絕大多數研究可能只做到 0.1%，這是因為現在 scaling 還沒停滯，大家沒有動機去做更深的理解。

所以一個更近期的問題是，現在的范式什么時候會停滯？我覺得可能是一年內的事情。一年之后我們進入“第谷階段”，數據也準備好了，人才也開始轉向。可能會有一個延遲，一年后大家意識到 scaling 的機會沒那么多了，才會開始轉，真正的轉向可能是第二年的事情。第二年結束之后，數據收集好了、人也有了，就可以開始“理解規模化（scale up understanding）”。

我們現在是規模化模型和數據，但接下來要規模化理解，當然，這個理解也只是 10%。

圖丨開普勒模型與牛頓模型（來源：劉子鳴播客）

如果把“從第谷到開普勒”定義為這 10% 的理解，我覺得三年就夠了。但從開普勒到牛頓，才是最難的。這又取決于我們這個范式什么時候會到頭，大家什么時候意識到 10% 不夠，什么時候開始追求更深的理解。

追到 100% 的時候，牛頓級別的東西才會發生。所以我對這一段時間的估計非常長，甚至有可能 AI 這一波過去之后會進入一個冷靜期，有才華的人都去做下一個熱點了。

所以開普勒可能三年，牛頓可能要一百年。

DeepTech：最后幾個快問快答的小問題，你覺得 AI 研究者最該讀的一本非 AI 書是什么？

劉子鳴：《人類簡史》，對我啟發挺大。這也是結合 Max 給我的啟發。我之前會覺得“硬核就是一切”，越難、越不接地氣，就越顯得厲害。但《人類簡史》講的是，人類社會是由故事驅動的，所以你沒法否認故事的重要性。

當然現在大家有時候會過度講故事。你講出來的價值減去實際的價值，如果這個差值太大，那杠桿就加太多了，這次別人聽你的，下次就不信你了。做影響力的工作，不僅要理解技術本身，還要理解人性。這是我作為一個 nerd 理工男活了這么多年，最近才領悟到的事情。

DeepTech：如果沒做 AI，你可能在做什么？

劉子鳴：我申博之前跟留學老師聊天，定的方向其實是量子力學理論。那個時候我也是覺得，量子力學非常高深，越硬核越不接地氣，越能顯得厲害。不過現實是，我認識很多做量子的朋友都在往 AI 轉。所以我猜可能 10% 的平行宇宙里我還在堅守量子理論，另外 90% 的宇宙里，最終都會轉去 AI，只是遲早問題。

DeepTech：用一句話形容你理想中實驗室的文化？

劉子鳴：Netflix的那句，“極致的自由，前提是極致的人才密度”。招到最有才的同學，給他們足夠的自由和自由，讓他們自己去碰撞、去探索。就像 OpenClaw 之父 Peter Steinberger 說的，你打不過一個用游戲心態做事的人。當然，在早期同學們還沒有太多研究經驗的時候，我可能還是會多微操一點（笑）。這種務實是為了更長久的理想主義，只有先存活下來才能再談理想。

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.