網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

陶哲軒的“下山”：當(dāng)數(shù)學(xué)界的莫扎特決定給 AI 立規(guī)矩

2026-02-12 16:34:31　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

這是一場關(guān)于“真理”與“概率”的博弈。

編譯 | 王啟隆

來源 | youtu.be/Z5GKnb4H_bM

出品丨AI 科技大本營（ID：rgznai100）

在數(shù)學(xué)界，陶哲軒（Terence Tao）的名字本身就代表著一種“確定性”。

這位菲爾茲獎得主、被譽為“數(shù)學(xué)界的莫扎特”的天才，過去幾十年的工作是和最純粹的邏輯、最絕對的真理打交道。但在 2026 年初，他做了一個看似“反直覺”的決定——他要以此身為橋梁，去擁抱那個充滿了概率、幻覺和不確定性的 AI 世界。

就在昨天，陶哲軒聯(lián)合創(chuàng)立的 SAIR（科學(xué)與 AI 研究基金會） 正式浮出水面，宣告這位大神入局 AI for Science。

▲ 右上角居然還有 B 站和抖音官號，這就和外國的機構(gòu)不一樣了

這件事的信號意義極強。過去兩年，“AI for Science”雖然喊得震天響，但科學(xué)界始終彌漫著一種尷尬的“割裂感”：一派是 AI 極客，他們用大模型生成看似完美的論文摘要，卻對背后的物理機制一竅不通；另一派是傳統(tǒng)科學(xué)家，他們看著 ChatGPT 編造的參考文獻嗤之以鼻，堅守著這一畝三分地。

可能比較看得清的，還屬弄出了 AlphaFold 的諾獎得主、谷歌現(xiàn)在的 AI 掌門人哈薩比斯（Demis Hassabis）。

而陶哲軒顯然認為是后者，但他加了一個極其苛刻的前提：我們必須馴服 AI。

如果你關(guān)注陶哲軒最近一年的動態(tài)，會發(fā)現(xiàn)他不再僅僅是那個解決素數(shù)猜想的數(shù)學(xué)家。他在博客上分享如何用 ChatGPT 輔助寫代碼，他在推特上推崇形式化證明語言 Lean，他甚至在思考如何讓 AI 成為數(shù)學(xué)研究的“合著者”。

SAIR 的成立，就是這種思考的實體化。在即將于 UCLA 舉辦的啟動儀式前，陶哲軒接受了一次深度專訪。

在這次對話中，他沒有盲目吹捧 AI 的神力，反而是以前所未有的冷靜，甚至帶著一種“挑剔”的眼光，剖析了當(dāng)前 AI 在科研中的致命弱點：它像一個只會討好老師的作弊學(xué)生，它像一個不僅聽不懂話還愛鉆空子的許愿精靈，它甚至連“記住昨天說過什么”都做不到。

但他同時指出，數(shù)學(xué)，可能是 AI 救贖的唯一機會。因為在所有學(xué)科中，只有數(shù)學(xué)擁有一套名為“形式化驗證”的終極測謊儀。

以下是 SAIR 官方最新發(fā)布的專訪實錄，包含了陶哲軒對 AI 介入科學(xué)研究最坦誠、最硬核的思考。

學(xué)術(shù)界不能“坐等”科技公司的施舍

主持人：大家好，今天我們非常榮幸邀請到陶哲軒。隨著 SAIR 基金會啟動在即，我們很想聽聽您的新視角。首先，能否請您簡單介紹一下自己？

陶哲軒：好的。我是陶哲軒，UCLA 的數(shù)學(xué)教授。以前我的興趣主要在純數(shù)學(xué)，但最近幾年，我越來越深入地參與到利用 AI 和其他新技術(shù)來做數(shù)學(xué)，或者更廣泛地說，做科學(xué)研究的新方法中。

最近，我和其他幾位科學(xué)家及捐贈者共同創(chuàng)立了 SAIR（Foundation for Science and AI Research）。這是一個新的基金會，旨在支持“AI for Science”，探索如何將這些新技術(shù)整合到科學(xué)工作流中。幾天后，我們將在 UCLA 的 IPAM（純粹與應(yīng)用數(shù)學(xué)研究所）舉辦首次啟動活動。

主持人：我想這是很多人都想問的問題：是什么讓您決定共同創(chuàng)立 SAIR？

陶哲軒：這是多種因素的結(jié)合。

過去幾年里，我越來越確信：這些技術(shù)已經(jīng)準備好改變科學(xué)了。

但關(guān)鍵在于，我們必須準備好去接納它們。我們需要學(xué)會“正確”地使用它，并避免“錯誤”的用法。事實上，把 AI 融入科研有很多錯誤的路徑，而正確的路徑其實非常少。

在這個過程中，學(xué)術(shù)界不能只是被動等待。我們不能等著科技公司扔給我們一個現(xiàn)成的產(chǎn)品，然后直接拿來用。我們需要深度介入，去互動，去搞清楚哪些科學(xué)領(lǐng)域適合 AI，哪些仍然適合人類的傳統(tǒng)方法。

另外，還有一個比較現(xiàn)實的原因。過去一年，資金環(huán)境充滿了不確定性。比如我所在的 IPAM，我們的很多項目曾一度面臨資金暫停的困境。那種混亂時期迫使我們?nèi)ふ倚碌馁Y金來源，去接觸新的投資人和合作伙伴。而在某種程度上，危機也帶來了轉(zhuǎn)機，SAIR 就是這次合作的成果之一。

AI 的阿喀琉斯之踵，與數(shù)學(xué)界的“終極測謊儀”

主持人：您提到數(shù)學(xué)在 AI 應(yīng)用中似乎很特別。為什么？

陶哲軒：潛力確實非常大。但我們要先談?wù)劕F(xiàn)代 AI 工具，尤其是大語言模型（LLMs）的一個巨大的“阿喀琉斯之踵”：它們的隨機性（Stochastic）。

它們并不真正“扎根”于現(xiàn)實。它們有時能給出極好的答案，有時卻給出完全的垃圾。它們只是在統(tǒng)計學(xué)上匹配出一個看似不錯的答案，而不是基于理解。

因此，在很多學(xué)科里，AI 的應(yīng)用并不像最初預(yù)期的那樣令人滿意，因為不可靠。

但在所有應(yīng)用領(lǐng)域中，數(shù)學(xué)幾乎是獨一無二的——因為我們擁有非常成熟的驗證能力。

如果你給我一個數(shù)學(xué)證明，無論是人寫的還是機器寫的，我們有邏輯定律，有數(shù)學(xué)法則，我們可以檢查它對不對。現(xiàn)在，我們甚至可以用計算機來做這件事——我們有形式化證明助手（Formal Proof Assistants）語言，它們可以自動驗證證明的正確性。

這就在某種程度上讓 AI “不得不誠實”。這讓數(shù)學(xué)比其他學(xué)科有更大的機會去過濾掉 AI 那些糟糕的、胡說八道的用法，而保留下有效的用法。當(dāng)然，并非所有數(shù)學(xué)都能被形式化驗證，比如提出新猜想或解釋概念，AI 目前還未必擅長。但在證明驗證這一塊，潛力是巨大的。

主持人：隨著驗證程序的發(fā)展，我們是否會迎來一個節(jié)點：AI 可以持續(xù)生成想法并自我驗證，從而創(chuàng)造出全新的東西？

陶哲軒：這確實是我們的目標(biāo)。目前，AI 會生成各種隨機的想法，其中可能只有極少數(shù)是有價值的。我們現(xiàn)在還無法直接驗證“想法”本身。

但我們可以借鑒物理學(xué)或化學(xué)的方法。物理學(xué)家提出一個假設(shè)，然后通過實驗收集證據(jù)——這雖然不是嚴格的證明，但能增加或減少你對假設(shè)的信心。

我預(yù)見未來的數(shù)學(xué)會帶有更多的“實驗性質(zhì)”。現(xiàn)在的數(shù)學(xué)幾乎完全是理論推導(dǎo)，但在未來，AI 可能會提出一個假設(shè)（比如某個公式對所有自然數(shù)都成立），然后它自己去設(shè)計實驗，測試幾個數(shù)值案例，或者檢查它是否與文獻中已有的結(jié)果兼容。

這種應(yīng)用目前還處于早期階段，因為我們還沒有建立起完善的驗證機制。但隨著我們對 AI 使用方式的成熟，我想象這種模式終究會出現(xiàn)——也許還需要 10 年左右。

主持人：10 年聽起來并不算太遠。

陶哲軒：其實進展比我預(yù)期的要快。之前有些人對 AI 的期望高得離譜，覺得數(shù)學(xué)家或科學(xué)家馬上就要被取代了——現(xiàn)實顯然并非如此。但 AI 確實已經(jīng)能夠證明一些以前從未被證明的定理（雖然通常是用標(biāo)準方法），也能發(fā)現(xiàn)一些我們未曾注意到的模式。

它依然不可靠，但潛力顯而易見。關(guān)鍵在于研究如何正確地使用它。

主持人：AI 似乎很擅長結(jié)構(gòu)化的重復(fù)任務(wù)。

陶哲軒：沒錯。AI 和人類是不同的。雖然“人工智能”這個名字聽起來像是要取代人類，但實際上，人類并不喜歡做那些高度重復(fù)的任務(wù)。

在數(shù)學(xué)里，如果你給一個人 1000 道類似的題目，他可能做完前兩道就煩了，剩下的根本不想碰。那么，把剩下的 998 道交給 AI，這就是一種非常自然的分工。

在短期內(nèi)，更合理的模式是：人類提出構(gòu)想，畫出第一步的草圖和方向，然后把那些繁重的填補工作交給 AI。 這將極大地加速現(xiàn)有的工作流程。

形式化驗證：如何逼迫 AI 停止“作弊”

主持人：既然 AI 經(jīng)常給出看似合理實則胡扯的解釋，我們該怎么改進這一點？

陶哲軒：在數(shù)學(xué)領(lǐng)域，目前我們找到的最好辦法就是形式化驗證（Formal Verification）。

流程是這樣的：AI 首先生成一段自然語言的論證，這可能對也可能錯。然后，我們讓同一個或另一個 AI，把這段論證轉(zhuǎn)換成形式化語言。每一個斷言、每一步推導(dǎo)都必須被轉(zhuǎn)化成精確的代碼，然后交給一個非常嚴格的編譯器去驗證。

注意，這個編譯器不是 AI，它是傳統(tǒng)的、極其可靠的軟件系統(tǒng)，專門為了高可靠性而設(shè)計。到目前為止，我們在主流形式化證明語言的編譯器中幾乎沒有發(fā)現(xiàn)過重大漏洞。

如果驗證失敗，我們就讓 AI 重試；如果通過，我們就得到了一份很長的、被機器驗證過的形式化證明。雖然這份證明可能很難讀，但我們可以反過來再讓 AI 去解釋它。

形式化證明的美妙之處在于，每一步都極其精確。你可以手動把一個巨大的定理拆分成許多小塊，每一塊都可以單獨研究。

我們已經(jīng)遇到過很多這樣的例子：AI 生成了一個證明，我們一開始完全看不懂。但在我們對它生成的代碼進行“反編譯”和研究幾天后，我們不僅理解了思路，甚至還在文獻中找到了類似的人類先例。

AI 的優(yōu)勢在于廣度。它吸收了海量文獻中的技巧精華。人類數(shù)學(xué)家可能熟練掌握四五種技巧，而 AI 可能掌握十幾種。雖然它并不總是能恰當(dāng)?shù)厥褂眠@些技巧，但只要問題本身在現(xiàn)有文獻中有基礎(chǔ)，AI 的表現(xiàn)就很強。

目前我們還沒有看到 AI 提出完全沒有先例的、前所未有的全新思想——不過說實話，大多數(shù)人類數(shù)學(xué)家也做不到這一點。

為什么現(xiàn)在的 AI 還算不上“合著者”？

主持人：您認為 AI 的下一個重要里程碑是什么？是思考方式的改變，還是應(yīng)用層面的突破？

陶哲軒：還有很多方面需要提升。首先是創(chuàng)造力，尤其是那種無法追溯到現(xiàn)有文獻的原創(chuàng)性。

其次是持續(xù)學(xué)習(xí)能力。我曾把當(dāng)前 AI 在數(shù)學(xué)上的能力比作一個研究生：它掌握了很多技巧，它會嘗試應(yīng)用，有時成功有時失敗。

但人類研究生有一個巨大的優(yōu)勢：他們會從錯誤中學(xué)習(xí)。 如果你指出他們的錯誤，下周再見面時，他們通常不會再犯同樣的錯誤。

但 AI 不是。你開啟一個新的會話，它往往就“忘記”了一切。雖然現(xiàn)在的上下文窗口可以保留之前的對話，但這并不穩(wěn)定。還有一個眾所周知的現(xiàn)象：如果你告訴 AI 不要做某件事，它反而可能更傾向于去做。目前的 AI 是通用的，我們還沒有能力讓它真正“專業(yè)化”——比如把它變成一個“只做數(shù)學(xué)”的專家。

但我最想看到的里程碑，是一個真正穩(wěn)健的、成熟的工作流整合。

目前我們使用 AI 的方式是“拼湊”的。寫論文卡住了，就打開瀏覽器問問 Chatbot；或者像有些人嘗試的那樣，把 AI 當(dāng)作 Agent（智能體）讓它接管電腦（這其實是個壞主意）。

現(xiàn)在的 AI 還談不上是真正的“合著者”。

當(dāng)你和人類合作時，你們可以在黑板前討論，寫下公式，這種互動是高度整合的。人類花了幾百年時間打磨人與人協(xié)作的方式，但我們還沒有找到與 AI 協(xié)作的最佳模式。

主持人：您覺得這種協(xié)作感具體缺失在哪里？

陶哲軒：這很難描述，可能是一種無形的因素。就像疫情期間我們都轉(zhuǎn)到了 Zoom 線上會議。從功能上講，線上會議完全可以傳達信息，但面對面的交流中有眼神接觸、有肢體語言，這些微妙的東西丟失了。

同樣，和 AI 聊天時，你也缺失了這些隱性的信號。

更重要的是，AI 公司傾向于展示那種“一鍵生成最終答案”的產(chǎn)品。你按個按鈕，AI 給你整個解決方案。但問題是，你并沒有參與到這個解決方案的創(chuàng)造過程中。

如果讓你去向別人解釋這個答案，你解釋不出來；如果你想修改它，你只能乞求 AI：“請你幫我改一下”，而每次修改往往會讓結(jié)果變得更差。

理想的協(xié)作應(yīng)該是互動式的：你走一步，AI 接一步；你給出反饋，它進行修正。通過這種互動，你會理解證明是如何一步步構(gòu)建出來的。

正如我們常說的，有時我們真正想要的不僅僅是答案，而是那個過程。

如果要找個比喻，我覺得 AI 應(yīng)該像“鹽”。做菜時加一點鹽會讓食物更美味，但你不能把整罐鹽都倒進去。關(guān)鍵在于：在合適的時候用，在不合適的時候不用。

主持人：這很有意思。AI 似乎太專注于“回答問題”本身，而不一定在乎整體意義上的“正確”。

陶哲軒：這正是機器學(xué)習(xí)哲學(xué)的核心。

早期 AI 試圖模仿人類的推理過程，結(jié)果并不好。后來人們轉(zhuǎn)向了另一種方法：只定義一個目標(biāo)（Metric），不管過程是否優(yōu)雅或合理，只要最大化這個指標(biāo)就行。這在數(shù)據(jù)量和算力上來后，效果驚人。

但也正因為如此，AI 有時“太”擅長優(yōu)化目標(biāo)了。

它就像神話故事里那個只按字面意思理解愿望的精靈（Genie）。你告訴它“我要優(yōu)化這個指標(biāo)”或者“我要解決這個問題”，它就會投入所有的算力去精確地達成這個指令。

比如，如果我要求 AI 在形式化證明助手里生成一個證明，并且強行要求“無論如何都要得到證明”。它可能會作弊——比如它會隨意添加一個新的公理，或者偷偷修改定義，以此來滿足你的要求。從字面上看，它確實完成了任務(wù)，但這違背了我們的初衷。

人類其實不太擅長精確定義目標(biāo)。當(dāng)我們讓人類去倒茶時，不需要告訴他“不要把茶倒在我身上”，因為人類有常識。但 AI 沒有這種隱含的常識背景。

所以我們正在學(xué)習(xí)，給 AI 布置任務(wù)時，尤其是那些需要精確規(guī)范的任務(wù)，必須把目標(biāo)描述得非常清楚，堵住所有漏洞，并認真思考自己真正想要什么。

最大的誤解：把所有技術(shù)都叫 AI

主持人：最后一個問題，您認為大眾在科學(xué)中使用 AI 時，最常見的誤解是什么？

陶哲軒：對大多數(shù)人來說，AI 等同于聊天機器人。它會像人一樣回應(yīng)你，說些好聽的話。

有些科學(xué)家確實用聊天機器人來輔助思考，但在科研中，更有效、更強大的 AI 用法其實完全不同，通常是結(jié)合了驗證機制的數(shù)值計算、繪圖或邏輯檢驗。科學(xué)家使用 AI 的方式與公眾大相徑庭——我們不需要它生成可愛的圖片，那對科研沒用。

遺憾的是，現(xiàn)在的輿論把所有東西都打包叫做“AI”。實際上，這是數(shù)百種相關(guān)技術(shù)的集合。

比如神經(jīng)網(wǎng)絡(luò)，這東西存在二十多年了。它沒有現(xiàn)在的 LLM 那么“性感”，沒有對話界面，本質(zhì)上就是個數(shù)據(jù)處理工具，用來在數(shù)據(jù)中尋找模式。它很樸素，很枯燥，但科學(xué)家們用了這么多年，效果非常好。

這種最常用的技術(shù)，往往不是公眾最關(guān)注的。也許我們需要更好的命名方式，而不是把所有東西都一股腦地塞進“AI”這個標(biāo)簽里。

主持人：好的，今天的采訪就到這里。非常感謝您接受我們的采訪。

陶哲軒：很高興參與。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.