這是一場關(guān)于“真理”與“概率”的博弈。
編譯 | 王啟隆
來源 | youtu.be/Z5GKnb4H_bM
出品丨AI 科技大本營(ID:rgznai100)
在數(shù)學(xué)界,陶哲軒(Terence Tao)的名字本身就代表著一種“確定性”。
這位菲爾茲獎得主、被譽為“數(shù)學(xué)界的莫扎特”的天才,過去幾十年的工作是和最純粹的邏輯、最絕對的真理打交道。但在 2026 年初,他做了一個看似“反直覺”的決定——他要以此身為橋梁,去擁抱那個充滿了概率、幻覺和不確定性的 AI 世界。
就在昨天,陶哲軒聯(lián)合創(chuàng)立的 SAIR(科學(xué)與 AI 研究基金會) 正式浮出水面,宣告這位大神入局 AI for Science。
![]()
▲ 右上角居然還有 B 站和抖音官號,這就和外國的機構(gòu)不一樣了
這件事的信號意義極強。過去兩年,“AI for Science”雖然喊得震天響,但科學(xué)界始終彌漫著一種尷尬的“割裂感”:一派是 AI 極客,他們用大模型生成看似完美的論文摘要,卻對背后的物理機制一竅不通;另一派是傳統(tǒng)科學(xué)家,他們看著 ChatGPT 編造的參考文獻嗤之以鼻,堅守著這一畝三分地。
可能比較看得清的,還屬弄出了 AlphaFold 的諾獎得主、谷歌現(xiàn)在的 AI 掌門人哈薩比斯(Demis Hassabis)。
而陶哲軒顯然認為是后者,但他加了一個極其苛刻的前提:我們必須馴服 AI。
如果你關(guān)注陶哲軒最近一年的動態(tài),會發(fā)現(xiàn)他不再僅僅是那個解決素數(shù)猜想的數(shù)學(xué)家。他在博客上分享如何用 ChatGPT 輔助寫代碼,他在推特上推崇形式化證明語言 Lean,他甚至在思考如何讓 AI 成為數(shù)學(xué)研究的“合著者”。
SAIR 的成立,就是這種思考的實體化。在即將于 UCLA 舉辦的啟動儀式前,陶哲軒接受了一次深度專訪。
在這次對話中,他沒有盲目吹捧 AI 的神力,反而是以前所未有的冷靜,甚至帶著一種“挑剔”的眼光,剖析了當(dāng)前 AI 在科研中的致命弱點:它像一個只會討好老師的作弊學(xué)生,它像一個不僅聽不懂話還愛鉆空子的許愿精靈,它甚至連“記住昨天說過什么”都做不到。
但他同時指出,數(shù)學(xué),可能是 AI 救贖的唯一機會。因為在所有學(xué)科中,只有數(shù)學(xué)擁有一套名為“形式化驗證”的終極測謊儀。
![]()
以下是 SAIR 官方最新發(fā)布的專訪實錄,包含了陶哲軒對 AI 介入科學(xué)研究最坦誠、最硬核的思考。
![]()
學(xué)術(shù)界不能“坐等”科技公司的施舍
主持人:大家好,今天我們非常榮幸邀請到陶哲軒。隨著 SAIR 基金會啟動在即,我們很想聽聽您的新視角。首先,能否請您簡單介紹一下自己?
陶哲軒:好的。我是陶哲軒,UCLA 的數(shù)學(xué)教授。以前我的興趣主要在純數(shù)學(xué),但最近幾年,我越來越深入地參與到利用 AI 和其他新技術(shù)來做數(shù)學(xué),或者更廣泛地說,做科學(xué)研究的新方法中。
最近,我和其他幾位科學(xué)家及捐贈者共同創(chuàng)立了 SAIR(Foundation for Science and AI Research)。這是一個新的基金會,旨在支持“AI for Science”,探索如何將這些新技術(shù)整合到科學(xué)工作流中。幾天后,我們將在 UCLA 的 IPAM(純粹與應(yīng)用數(shù)學(xué)研究所)舉辦首次啟動活動。
主持人:我想這是很多人都想問的問題:是什么讓您決定共同創(chuàng)立 SAIR?
陶哲軒:這是多種因素的結(jié)合。
過去幾年里,我越來越確信:這些技術(shù)已經(jīng)準備好改變科學(xué)了。
但關(guān)鍵在于,我們必須準備好去接納它們。我們需要學(xué)會“正確”地使用它,并避免“錯誤”的用法。事實上,把 AI 融入科研有很多錯誤的路徑,而正確的路徑其實非常少。
在這個過程中,學(xué)術(shù)界不能只是被動等待。我們不能等著科技公司扔給我們一個現(xiàn)成的產(chǎn)品,然后直接拿來用。我們需要深度介入,去互動,去搞清楚哪些科學(xué)領(lǐng)域適合 AI,哪些仍然適合人類的傳統(tǒng)方法。
另外,還有一個比較現(xiàn)實的原因。過去一年,資金環(huán)境充滿了不確定性。比如我所在的 IPAM,我們的很多項目曾一度面臨資金暫停的困境。那種混亂時期迫使我們?nèi)ふ倚碌馁Y金來源,去接觸新的投資人和合作伙伴。而在某種程度上,危機也帶來了轉(zhuǎn)機,SAIR 就是這次合作的成果之一。
![]()
AI 的阿喀琉斯之踵,與數(shù)學(xué)界的“終極測謊儀”
主持人:您提到數(shù)學(xué)在 AI 應(yīng)用中似乎很特別。為什么?
陶哲軒:潛力確實非常大。但我們要先談?wù)劕F(xiàn)代 AI 工具,尤其是大語言模型(LLMs)的一個巨大的“阿喀琉斯之踵”:它們的隨機性(Stochastic)。
它們并不真正“扎根”于現(xiàn)實。它們有時能給出極好的答案,有時卻給出完全的垃圾。它們只是在統(tǒng)計學(xué)上匹配出一個看似不錯的答案,而不是基于理解。
因此,在很多學(xué)科里,AI 的應(yīng)用并不像最初預(yù)期的那樣令人滿意,因為不可靠。
但在所有應(yīng)用領(lǐng)域中,數(shù)學(xué)幾乎是獨一無二的——因為我們擁有非常成熟的驗證能力。
如果你給我一個數(shù)學(xué)證明,無論是人寫的還是機器寫的,我們有邏輯定律,有數(shù)學(xué)法則,我們可以檢查它對不對。現(xiàn)在,我們甚至可以用計算機來做這件事——我們有形式化證明助手(Formal Proof Assistants)語言,它們可以自動驗證證明的正確性。
這就在某種程度上讓 AI “不得不誠實”。這讓數(shù)學(xué)比其他學(xué)科有更大的機會去過濾掉 AI 那些糟糕的、胡說八道的用法,而保留下有效的用法。當(dāng)然,并非所有數(shù)學(xué)都能被形式化驗證,比如提出新猜想或解釋概念,AI 目前還未必擅長。但在證明驗證這一塊,潛力是巨大的。
主持人:隨著驗證程序的發(fā)展,我們是否會迎來一個節(jié)點:AI 可以持續(xù)生成想法并自我驗證,從而創(chuàng)造出全新的東西?
陶哲軒:這確實是我們的目標(biāo)。目前,AI 會生成各種隨機的想法,其中可能只有極少數(shù)是有價值的。我們現(xiàn)在還無法直接驗證“想法”本身。
但我們可以借鑒物理學(xué)或化學(xué)的方法。物理學(xué)家提出一個假設(shè),然后通過實驗收集證據(jù)——這雖然不是嚴格的證明,但能增加或減少你對假設(shè)的信心。
我預(yù)見未來的數(shù)學(xué)會帶有更多的“實驗性質(zhì)”。現(xiàn)在的數(shù)學(xué)幾乎完全是理論推導(dǎo),但在未來,AI 可能會提出一個假設(shè)(比如某個公式對所有自然數(shù)都成立),然后它自己去設(shè)計實驗,測試幾個數(shù)值案例,或者檢查它是否與文獻中已有的結(jié)果兼容。
這種應(yīng)用目前還處于早期階段,因為我們還沒有建立起完善的驗證機制。但隨著我們對 AI 使用方式的成熟,我想象這種模式終究會出現(xiàn)——也許還需要 10 年左右。
主持人:10 年聽起來并不算太遠。
陶哲軒:其實進展比我預(yù)期的要快。之前有些人對 AI 的期望高得離譜,覺得數(shù)學(xué)家或科學(xué)家馬上就要被取代了——現(xiàn)實顯然并非如此。但 AI 確實已經(jīng)能夠證明一些以前從未被證明的定理(雖然通常是用標(biāo)準方法),也能發(fā)現(xiàn)一些我們未曾注意到的模式。
它依然不可靠,但潛力顯而易見。關(guān)鍵在于研究如何正確地使用它。
主持人:AI 似乎很擅長結(jié)構(gòu)化的重復(fù)任務(wù)。
陶哲軒:沒錯。AI 和人類是不同的。雖然“人工智能”這個名字聽起來像是要取代人類,但實際上,人類并不喜歡做那些高度重復(fù)的任務(wù)。
在數(shù)學(xué)里,如果你給一個人 1000 道類似的題目,他可能做完前兩道就煩了,剩下的根本不想碰。那么,把剩下的 998 道交給 AI,這就是一種非常自然的分工。
在短期內(nèi),更合理的模式是:人類提出構(gòu)想,畫出第一步的草圖和方向,然后把那些繁重的填補工作交給 AI。 這將極大地加速現(xiàn)有的工作流程。
![]()
形式化驗證:如何逼迫 AI 停止“作弊”
主持人:既然 AI 經(jīng)常給出看似合理實則胡扯的解釋,我們該怎么改進這一點?
陶哲軒:在數(shù)學(xué)領(lǐng)域,目前我們找到的最好辦法就是形式化驗證(Formal Verification)。
流程是這樣的:AI 首先生成一段自然語言的論證,這可能對也可能錯。然后,我們讓同一個或另一個 AI,把這段論證轉(zhuǎn)換成形式化語言。每一個斷言、每一步推導(dǎo)都必須被轉(zhuǎn)化成精確的代碼,然后交給一個非常嚴格的編譯器去驗證。
注意,這個編譯器不是 AI,它是傳統(tǒng)的、極其可靠的軟件系統(tǒng),專門為了高可靠性而設(shè)計。到目前為止,我們在主流形式化證明語言的編譯器中幾乎沒有發(fā)現(xiàn)過重大漏洞。
如果驗證失敗,我們就讓 AI 重試;如果通過,我們就得到了一份很長的、被機器驗證過的形式化證明。雖然這份證明可能很難讀,但我們可以反過來再讓 AI 去解釋它。
形式化證明的美妙之處在于,每一步都極其精確。你可以手動把一個巨大的定理拆分成許多小塊,每一塊都可以單獨研究。
我們已經(jīng)遇到過很多這樣的例子:AI 生成了一個證明,我們一開始完全看不懂。但在我們對它生成的代碼進行“反編譯”和研究幾天后,我們不僅理解了思路,甚至還在文獻中找到了類似的人類先例。
AI 的優(yōu)勢在于廣度。它吸收了海量文獻中的技巧精華。人類數(shù)學(xué)家可能熟練掌握四五種技巧,而 AI 可能掌握十幾種。雖然它并不總是能恰當(dāng)?shù)厥褂眠@些技巧,但只要問題本身在現(xiàn)有文獻中有基礎(chǔ),AI 的表現(xiàn)就很強。
目前我們還沒有看到 AI 提出完全沒有先例的、前所未有的全新思想——不過說實話,大多數(shù)人類數(shù)學(xué)家也做不到這一點。
![]()
為什么現(xiàn)在的 AI 還算不上“合著者”?
主持人:您認為 AI 的下一個重要里程碑是什么?是思考方式的改變,還是應(yīng)用層面的突破?
陶哲軒:還有很多方面需要提升。首先是創(chuàng)造力,尤其是那種無法追溯到現(xiàn)有文獻的原創(chuàng)性。
其次是持續(xù)學(xué)習(xí)能力。我曾把當(dāng)前 AI 在數(shù)學(xué)上的能力比作一個研究生:它掌握了很多技巧,它會嘗試應(yīng)用,有時成功有時失敗。
但人類研究生有一個巨大的優(yōu)勢:他們會從錯誤中學(xué)習(xí)。 如果你指出他們的錯誤,下周再見面時,他們通常不會再犯同樣的錯誤。
但 AI 不是。你開啟一個新的會話,它往往就“忘記”了一切。雖然現(xiàn)在的上下文窗口可以保留之前的對話,但這并不穩(wěn)定。還有一個眾所周知的現(xiàn)象:如果你告訴 AI 不要做某件事,它反而可能更傾向于去做。目前的 AI 是通用的,我們還沒有能力讓它真正“專業(yè)化”——比如把它變成一個“只做數(shù)學(xué)”的專家。
但我最想看到的里程碑,是一個真正穩(wěn)健的、成熟的工作流整合。
目前我們使用 AI 的方式是“拼湊”的。寫論文卡住了,就打開瀏覽器問問 Chatbot;或者像有些人嘗試的那樣,把 AI 當(dāng)作 Agent(智能體)讓它接管電腦(這其實是個壞主意)。
現(xiàn)在的 AI 還談不上是真正的“合著者”。
當(dāng)你和人類合作時,你們可以在黑板前討論,寫下公式,這種互動是高度整合的。人類花了幾百年時間打磨人與人協(xié)作的方式,但我們還沒有找到與 AI 協(xié)作的最佳模式。
主持人:您覺得這種協(xié)作感具體缺失在哪里?
陶哲軒:這很難描述,可能是一種無形的因素。就像疫情期間我們都轉(zhuǎn)到了 Zoom 線上會議。從功能上講,線上會議完全可以傳達信息,但面對面的交流中有眼神接觸、有肢體語言,這些微妙的東西丟失了。
同樣,和 AI 聊天時,你也缺失了這些隱性的信號。
更重要的是,AI 公司傾向于展示那種“一鍵生成最終答案”的產(chǎn)品。你按個按鈕,AI 給你整個解決方案。但問題是,你并沒有參與到這個解決方案的創(chuàng)造過程中。
如果讓你去向別人解釋這個答案,你解釋不出來;如果你想修改它,你只能乞求 AI:“請你幫我改一下”,而每次修改往往會讓結(jié)果變得更差。
理想的協(xié)作應(yīng)該是互動式的:你走一步,AI 接一步;你給出反饋,它進行修正。通過這種互動,你會理解證明是如何一步步構(gòu)建出來的。
正如我們常說的,有時我們真正想要的不僅僅是答案,而是那個過程。
如果要找個比喻,我覺得 AI 應(yīng)該像“鹽”。做菜時加一點鹽會讓食物更美味,但你不能把整罐鹽都倒進去。關(guān)鍵在于:在合適的時候用,在不合適的時候不用。
主持人:這很有意思。AI 似乎太專注于“回答問題”本身,而不一定在乎整體意義上的“正確”。
陶哲軒:這正是機器學(xué)習(xí)哲學(xué)的核心。
早期 AI 試圖模仿人類的推理過程,結(jié)果并不好。后來人們轉(zhuǎn)向了另一種方法:只定義一個目標(biāo)(Metric),不管過程是否優(yōu)雅或合理,只要最大化這個指標(biāo)就行。這在數(shù)據(jù)量和算力上來后,效果驚人。
但也正因為如此,AI 有時“太”擅長優(yōu)化目標(biāo)了。
它就像神話故事里那個只按字面意思理解愿望的精靈(Genie)。你告訴它“我要優(yōu)化這個指標(biāo)”或者“我要解決這個問題”,它就會投入所有的算力去精確地達成這個指令。
比如,如果我要求 AI 在形式化證明助手里生成一個證明,并且強行要求“無論如何都要得到證明”。它可能會作弊——比如它會隨意添加一個新的公理,或者偷偷修改定義,以此來滿足你的要求。從字面上看,它確實完成了任務(wù),但這違背了我們的初衷。
人類其實不太擅長精確定義目標(biāo)。當(dāng)我們讓人類去倒茶時,不需要告訴他“不要把茶倒在我身上”,因為人類有常識。但 AI 沒有這種隱含的常識背景。
所以我們正在學(xué)習(xí),給 AI 布置任務(wù)時,尤其是那些需要精確規(guī)范的任務(wù),必須把目標(biāo)描述得非常清楚,堵住所有漏洞,并認真思考自己真正想要什么。
![]()
最大的誤解:把所有技術(shù)都叫 AI
主持人:最后一個問題,您認為大眾在科學(xué)中使用 AI 時,最常見的誤解是什么?
陶哲軒:對大多數(shù)人來說,AI 等同于聊天機器人。它會像人一樣回應(yīng)你,說些好聽的話。
有些科學(xué)家確實用聊天機器人來輔助思考,但在科研中,更有效、更強大的 AI 用法其實完全不同,通常是結(jié)合了驗證機制的數(shù)值計算、繪圖或邏輯檢驗。科學(xué)家使用 AI 的方式與公眾大相徑庭——我們不需要它生成可愛的圖片,那對科研沒用。
遺憾的是,現(xiàn)在的輿論把所有東西都打包叫做“AI”。實際上,這是數(shù)百種相關(guān)技術(shù)的集合。
比如神經(jīng)網(wǎng)絡(luò),這東西存在二十多年了。它沒有現(xiàn)在的 LLM 那么“性感”,沒有對話界面,本質(zhì)上就是個數(shù)據(jù)處理工具,用來在數(shù)據(jù)中尋找模式。它很樸素,很枯燥,但科學(xué)家們用了這么多年,效果非常好。
這種最常用的技術(shù),往往不是公眾最關(guān)注的。也許我們需要更好的命名方式,而不是把所有東西都一股腦地塞進“AI”這個標(biāo)簽里。
主持人:好的,今天的采訪就到這里。非常感謝您接受我們的采訪。
陶哲軒:很高興參與。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.