![]()
“我們希望推動(dòng)一個(gè)開源的體系,從科學(xué)研究到工業(yè)研發(fā),再到人類命運(yùn)共同體。”
文丨程曼祺
編輯丨宋瑋
多年前,楊振寧曾在一次高能物理學(xué)術(shù)討論會(huì)上說:“The party is over”。因?yàn)樯弦粋€(gè)物理大發(fā)現(xiàn)時(shí)代已然遠(yuǎn)去。
現(xiàn)在,派對(duì)又開始了。
AI for Science,用 AI 加速科學(xué)發(fā)現(xiàn),正成為 AI 最新、最激動(dòng)人心的方向。由斯坦福大學(xué)前校長(zhǎng)參與創(chuàng)立的 AI for Science 公司 Xaira Therapeutics,去年一啟動(dòng)就募資超 10 億美元;OpenAI 也在今年成立 “OpenAI for Science” 部門,剛在上個(gè)月雇了一位黑洞理論物理學(xué)家。
早在 6 年多前,中國(guó)的 AI for Science 創(chuàng)業(yè)實(shí)踐已經(jīng)開始。最適合講述這個(gè)故事的是張林峰和孫偉杰。
2018 年,25 歲的他們創(chuàng)立深勢(shì)科技。 2022 年 3 月,張林峰寫文:《AI for Science 2022:未來已來,即將開始流行》。8 個(gè)月后,ChatGPT 才發(fā)布。
深勢(shì)的啟動(dòng)資源不是來自 VC,而是中關(guān)村顛覆性技術(shù)研發(fā)和成果轉(zhuǎn)化項(xiàng)目資金——1200 萬元人民幣。張林峰在普林斯頓讀博期間提出了 “深度勢(shì)能分子動(dòng)力學(xué)” 方法(DeePMD,Deep Potential Molecular Dynamics)。它后來獲得了全球高性能計(jì)算權(quán)威獎(jiǎng)項(xiàng) “戈登·貝爾” 獎(jiǎng)。
DeePMD 引入 AI,優(yōu)化了量子論中一個(gè)長(zhǎng)久的問題:對(duì) “第一性原理計(jì)算”,即 1926 年提出的薛定諤方程等量子論基礎(chǔ)方程的求解。在不太損失精度的情況下,DeePMD 能將第一性原理計(jì)算的范圍從上百個(gè)原子擴(kuò)展到上百億原子,即從小到難以描述的納米尺度擴(kuò)大到顯微鏡可以看到的細(xì)胞、細(xì)菌尺度。
這個(gè)成果能用于發(fā)現(xiàn)新材料、新藥物,這些領(lǐng)域都要了解物質(zhì)性質(zhì)。更長(zhǎng)遠(yuǎn)看,人類的終極科學(xué)想象:無限能源(核聚變)、消滅疾病、走向宇宙,都需要對(duì)物質(zhì)的更深探索。
張林峰的博士生導(dǎo)師之一,中科院院士鄂維南曾說:這是他三十多年沒見過的機(jī)會(huì),在他的學(xué)術(shù)生涯中,他一直沒找到那些真正想解的問題的方法,現(xiàn)在他看到了。
1993 年出生的張林峰來自山西汾陽,因參加物理競(jìng)賽保送北大。在定位于跨學(xué)科教育的元培學(xué)院,他同時(shí)修了物理、數(shù)學(xué)、計(jì)算機(jī)。與張林峰同齡的孫偉杰來自黑龍江佳木斯,主修政經(jīng)哲。兩個(gè)北方高個(gè)兒男孩是院籃球隊(duì)、羽毛球隊(duì)隊(duì)友,也在元培學(xué)生會(huì)體育部搭檔。
理科生張林峰浪漫而熱忱:保送大學(xué)時(shí),他在清華和北大之間選了北大,他向往自由、天天寫詩,還學(xué)了一段經(jīng)濟(jì)學(xué),想 “經(jīng)世濟(jì)民”。申請(qǐng)博士時(shí),張林峰拿到 MIT offer,但在普林斯頓看到愛因斯坦沉思過的草地后,他說自己走不動(dòng)道了。文科生孫偉杰邏輯清晰,當(dāng)被問及 “怎么看 Anthropic 創(chuàng)始人預(yù)測(cè) 5-10 年內(nèi),人類壽命會(huì)翻倍?”,他說:“5 到 10 年沒法科學(xué)上驗(yàn)證壽命是否翻倍,觀測(cè)時(shí)間不夠。”
![]()
張林峰剛來普林斯頓時(shí),在草地上撞見一只小鹿。“它獨(dú)立、輕逸、靈動(dòng)。它超然物外,沉浸在自己的世界里。在很長(zhǎng)時(shí)間里,我跟它一樣,處在一種 Detachment 模式里。對(duì)此我心存感激。”(《醉在普林的日子(上)》)
深勢(shì)的早期投資人,眾源資本冉翀說:“張林峰有極強(qiáng)的歷史感和科學(xué)視野,他能從科學(xué)演化的路徑上理解 AI 的意義,極為篤定 AI for Science 的未來,也清楚通向目標(biāo)的關(guān)鍵節(jié)點(diǎn)和缺乏什么。” 更讓他驚訝的是,“每次和偉杰交流,都很難感受到他是文科生。他對(duì)科學(xué)與技術(shù)的理解非常深刻。”
成立 6 年多來,深勢(shì)科技推出了 Hermite 藥物計(jì)算設(shè)計(jì)平臺(tái)、Piloteye 能源電池研發(fā)平臺(tái);以及一系列預(yù)訓(xùn)練科學(xué)模型,如分子大模型 Uni-Mol、實(shí)驗(yàn)表征大模型 Uni-AIMS 、蛋白質(zhì)大模型 Uni-Fold、基因大模型 Uni-RNA 等;科學(xué)文獻(xiàn)大模型 Uni-SMART;和綜合這些積累的科研平臺(tái)與科研 Agent,“玻爾科研空間站” 和 SciMaster;服務(wù)了寧德時(shí)代、比亞迪、多氟多、長(zhǎng)安汽車、京東方、東陽光藥、人福醫(yī)藥、諾泰生物等企業(yè)客戶。
張林峰和孫偉杰在創(chuàng)業(yè)時(shí)就定下目標(biāo):做一家源自中國(guó)、引領(lǐng)世界的科技公司。
“我們希望推動(dòng)一個(gè)開源的體系,從科學(xué)研究到工業(yè)研發(fā),說的再大一點(diǎn),到人類命運(yùn)共同體。” 在看到許多美國(guó)的科學(xué)家朋友的研究經(jīng)費(fèi)受限甚至被暫停后,張林峰說。
中國(guó)很少有創(chuàng)業(yè)者會(huì)直白提出宏大的愿景。還沒有實(shí)現(xiàn)的理想與抱負(fù),有被嘲笑和誤解的危險(xiǎn)。但這只是實(shí)現(xiàn)理想的過程中最輕的代價(jià)。
起點(diǎn):用 AI 加速 “第一性原理計(jì)算”
“這是一系列統(tǒng)一的問題:即復(fù)雜高維的物理量和方程,能不能被 AI 有效表示、逼近和加速求解。”
晚點(diǎn):所有新方向都來自一個(gè)原初的好奇心或疑問,對(duì)你來說,驅(qū)使你在博士期間走向 AI for Science 的初始問題意識(shí)是什么?
張林峰:那可以回到更早一些。在去普林前,我本科和偉杰都在北大一個(gè)特殊的學(xué)院元培,這里允許大家自由探索不同科目,我最后確定要做物理。
慢慢我意識(shí)到,我們的學(xué)習(xí)方式有欠缺:比如大二學(xué)廣義相對(duì)論時(shí),我學(xué)了黎曼幾何之后才學(xué)古典微分幾何,而數(shù)學(xué)系的順序是反過來的。這是因?yàn)槲锢硪v廣義相對(duì)論,勢(shì)必涉及黎曼幾何:1905 年,愛因斯坦在提出狹義相對(duì)論后,試著將它和引力統(tǒng)一,做到中間發(fā)現(xiàn)缺少必要的數(shù)學(xué)工具, 后來他和其它學(xué)者交流后才得知有一個(gè)已經(jīng)存在的工具,就是黎曼幾何。于是他又學(xué)了黎曼幾何,在狹義相對(duì)論 10 年后,做出了納入引力的廣義相對(duì)論。
而我們上課的過程,是直接講怎么統(tǒng)一狹義相對(duì)論和引力,把黎曼幾何當(dāng)成工具去推導(dǎo)場(chǎng)方程,就搞定了;考試也是考能否推導(dǎo)。至于它怎么來的、數(shù)學(xué)上怎么定義,都沒有深入地講。如果真要扎實(shí)地學(xué),其實(shí)應(yīng)該從古典微分幾何開始學(xué)。另一個(gè)困惑是,到大三時(shí),我已學(xué)完了弦論和相關(guān)數(shù)學(xué),那么之后呢?
當(dāng)時(shí)我覺得,我們這一代希望從底層科學(xué)出發(fā)做點(diǎn)兒事的同學(xué),都缺點(diǎn)兒讓人興奮的大問題。
在相對(duì)論和量子力學(xué)被建立的那段歲月,很多成果都是二十多歲的年輕人在幾年內(nèi)做出來的,但這樣的機(jī)會(huì)已經(jīng)不存在了。就像楊振寧先生曾說的:“The party is over”。
晚點(diǎn):從 “the party is over” 到找到研究方向,轉(zhuǎn)折怎么發(fā)生的?
張林峰:本科末期我在做電子結(jié)構(gòu)研究時(shí),開始接觸 “從頭算”(ab initio),即從最基礎(chǔ)的方程出發(fā)解決材料化學(xué)問題,得到了一些突破,正好可以用到量子化學(xué)里,這是我第一次真切體驗(yàn)科研探索的快樂。所以 2016 年去普林斯頓讀博士時(shí),我有兩個(gè)導(dǎo)師,一個(gè)是應(yīng)用數(shù)學(xué)方向的鄂維南院士,另一個(gè)就是計(jì)算化學(xué)方向的羅伯托·卡爾(Roberto Car)。
2016 年也是 AI 的轉(zhuǎn)折年,那一年有了 AlphaGo。開學(xué)前,我原本還想選 Haldane(鄧肯·霍爾丹,研究拓?fù)淞孔游飸B(tài)理論)開的凝聚態(tài)場(chǎng)論,當(dāng)時(shí)鄂老師看了我選的課后說:“你本科已經(jīng)學(xué)了這么多,就算跟大師學(xué)也只是再學(xué)一遍。我覺得你現(xiàn)在應(yīng)該做機(jī)器學(xué)習(xí)。” 第二周,Haldane 就得了諾獎(jiǎng)。諾獎(jiǎng)往往不是一個(gè)領(lǐng)域的開始,而是蓋棺定論。
當(dāng)時(shí)我感到,接下來推動(dòng)物理等基礎(chǔ)科學(xué)進(jìn)步的,很可能就是這一波 AI。那是 16 年 10 月,是我們整個(gè)研究的起點(diǎn)。
晚點(diǎn):AI 和 Science 的含義都很廣,在你們的研究之初,AI 是指機(jī)器學(xué)習(xí),Science 是指什么?
張林峰:簡(jiǎn)單來說,是指量子物理中,對(duì)薛定諤方程的加速求解。
我最開始做機(jī)器學(xué)習(xí)時(shí),它已經(jīng)能做圖像識(shí)別、用強(qiáng)化學(xué)習(xí)打游戲。但科學(xué)領(lǐng)域少有 ImageNet(李飛飛發(fā)起的圖像識(shí)據(jù)集)這樣適于機(jī)器學(xué)習(xí)的 “data ready” 的任務(wù)。大多數(shù)科學(xué)問題的數(shù)據(jù)都很稀疏,結(jié)構(gòu)復(fù)雜,變量之間存在深層關(guān)聯(lián)。
那時(shí)鄂老師把我和 Roberto 找來討論,他對(duì) Roberto 說:“我覺得機(jī)器學(xué)習(xí)幾年內(nèi)就要把你做的 ab initio molecular dynamics(從頭算分子動(dòng)力學(xué))顛覆了。”
“Ab initio” 計(jì)算(第一性原理計(jì)算)就是從第一性原理出發(fā)求解萬物。這個(gè)原理在電子、原子尺度上就是薛定諤方程——很簡(jiǎn)潔的一個(gè)方程,1926 年被提出,到 1929 年,Dirac(保羅·狄拉克,量子力學(xué)的奠基人之一,1933 年與薛定諤共獲諾獎(jiǎng))斷言,幾乎所有化學(xué)和絕大部分物理都可以被這個(gè)方程涵蓋。
但薛定諤方程難以被精確求解。怎么降低這個(gè)方程的計(jì)算復(fù)雜度,貫穿量子物理的百年探索。
![]()
薛定諤方程
晚點(diǎn):為什么說 AI 有可能會(huì)顛覆這件事?
張林峰:這需要先解釋一下,在 AI 之前,我們是怎么簡(jiǎn)化這個(gè)計(jì)算的。
薛定諤方程描述的是粒子,如電子、原子的波函數(shù)的性質(zhì)和演化規(guī)律。它的輸入是原子和電子的位置,它的輸出是這些粒子在空間中的分布狀態(tài)。
首先,這個(gè)輸入就非常復(fù)雜:比如一個(gè)水分子有一個(gè)氧原子和兩個(gè)氫原子,每個(gè)原子在三維空間的坐標(biāo)都由 (x,y,z)3 個(gè)數(shù)表達(dá),那 3 個(gè)原子就是 9 個(gè)數(shù),然后還有電子(1 個(gè)水分子有 10 個(gè)電子)的位置。一個(gè)水分子的輸入就非常多。原則上,蛋白也可以被這個(gè)方程描述。但一個(gè)蛋白通常包含幾百個(gè)氨基酸,對(duì)應(yīng)幾萬到幾十萬個(gè)原子。它的輸入就會(huì)特別大。
孫偉杰:這就涉及另一個(gè)方程——DFT(density functional theory,密度泛函理論的核心方程)。DFT 把薛定諤方程粒子間的相互作用,簡(jiǎn)化成了每一個(gè)粒子和外場(chǎng)間的相互作用。它損失了一些精度,但能算幾十個(gè)原子到上百個(gè)原子間的相互作用,計(jì)算范圍更大了。
晚點(diǎn):幾十到上百個(gè)原子是什么概念?一滴水里有多少個(gè)原子?
孫偉杰:一滴水里大概有超過 10^20 (10 的 20 次方)量級(jí)的原子。
晚點(diǎn):所以要處理日常生活中的物質(zhì),DFT 的計(jì)算還是太復(fù)雜了?
孫偉杰:對(duì)。首先我們研究的大多數(shù)材料和藥物反應(yīng)都在納米尺度,1 納米是 10^?9 米,但一個(gè)原子的直徑只有約 0.1 納米,所以幾納米的空間就會(huì)包含成千上萬個(gè)原子的相互作用。上百個(gè)原子的計(jì)算范圍顯然不夠。
然后還要考慮時(shí)間,原子間的一次相互作用大概要 10^?15 到 10^?12 秒;而要形成我們想觀察的現(xiàn)象,可能需要幾百納秒到幾微秒,甚至幾毫秒,如蛋白質(zhì)的很多性質(zhì)。過去的方法能算的時(shí)間也不夠。
所以,即便有了 DFT 這個(gè)簡(jiǎn)化后的方程,很多問題仍解決不了。隨著原子數(shù)量上升,薛定諤方程的計(jì)算復(fù)雜度會(huì)以 10^7 上升,而 DFT 方程也會(huì)以 10^3 上升。
Roberto Car 之前做的最大突破,就是在 DFT 的基礎(chǔ)上,又模擬了分子間相互作用的關(guān)系。這就是前面提到的 ab initio molecular dynamics(從頭算分子動(dòng)力學(xué))。(注:Roberto Car 和 Michele Parrinello 在 1985 年發(fā)表了論文《分子動(dòng)力學(xué)和密度泛函理論的統(tǒng)一方法》(Unified Approach for Molecular Dynamics and Density-Functional Theory),提出了 Car-Parrinello 分子動(dòng)力學(xué)方法。)
嚴(yán)格說,這不是真正的 “從頭開始”,而是一個(gè)近似計(jì)算。Car 和 Parrinello 提出這個(gè)方法已經(jīng) 40 年了,它深刻影響了計(jì)算化學(xué)、理論化學(xué)和統(tǒng)計(jì)物理。
晚點(diǎn):所以在 2016 年那個(gè)時(shí)間點(diǎn),你們是看到有了 AI 后,Car 和 Parrinello 的方法還可以被優(yōu)化?
張林峰:簡(jiǎn)單說,在 DFT 框架下,依然需要求解電子的相互作用,計(jì)算依然復(fù)雜。然后對(duì) DFT 進(jìn)一步簡(jiǎn)化,就得到了分子動(dòng)力學(xué)方程。
給定原子狀態(tài) R1、R2……一直到 Rn,每一步作用的這個(gè)能量是 E(Energy),它的受力就是 e 對(duì)每個(gè)位置的負(fù)梯度,等于 Fi。
原子的相互作用每演化一步,原子坐標(biāo)就會(huì)更新;能量也會(huì)跟著變化。就跟放電影一樣,會(huì)一幀一幀往后推。在過去,每一步都用量子力學(xué)的方式去算,很貴、規(guī)模很小。
我們的建模目標(biāo)就是,能不能用 AI 去表示這樣一個(gè)以 “從 R1 到 Rn 的原子坐標(biāo)” 為輸入、以能量為輸出的函數(shù)。
晚點(diǎn):這個(gè)建模的成果,就是后來獲得了戈登·貝爾獎(jiǎng)的 Deep Potential 模型?
張立峰:對(duì),它其實(shí)是用 AI 做了一個(gè)代理模型,使它具有 “從頭算” 的精度,也就是模擬 DFT 的精度;但計(jì)算效率高得多,可以大規(guī)模、長(zhǎng)時(shí)間的模擬粒子的相互作用。
(注:相關(guān)論文為 Deep Potential Molecular Dynamics: a scalable model with the accuracy of quantum mechanics《深度勢(shì)能分子動(dòng)力學(xué):一種具有量子力學(xué)精度的可擴(kuò)展模型》,2018 年 4 月發(fā)表于《物理評(píng)論快報(bào)》。)
晚點(diǎn):可以說,從薛定諤方程到 DFT 密度泛函,再到包括 Deep Potential 的一系列的近似或模擬,核心都是要在不損失太多精度的情況下提升計(jì)算效率?
張林峰:其實(shí)這中間不止一條路,從 2016 年底開始,我們?cè)嚵撕芏喾较颍簭?“能不能用神經(jīng)網(wǎng)絡(luò)替代復(fù)雜的波函數(shù)去求解”,到 “密度泛函的表達(dá)形式能不能更高效準(zhǔn)確”,再到 “原子間相互作用的勢(shì)函數(shù)能不能很精準(zhǔn)地建模”。
本質(zhì)上,這是一系列統(tǒng)一的問題:即復(fù)雜高維的物理量和方程,能不能被 AI 有效表示、逼近和加速求解。
這有點(diǎn)像圍棋,它規(guī)則明確,但從當(dāng)前棋局推到下一步的建模關(guān)系很復(fù)雜。物理規(guī)律也是清晰的、早就有的,但難點(diǎn)是基于這些規(guī)律求解。這就是我們從 2017 年開始,很快取得很多進(jìn)展的方向。
從 “兩億核時(shí)” 到 “筆記本跑半小時(shí)”
“那時(shí)一下有了超過 6 個(gè)數(shù)量級(jí)的計(jì)算加速,用筆記本就能干過超算。”
晚點(diǎn):你們當(dāng)時(shí)取得的第一個(gè) milestone 是什么?
張林峰:當(dāng)時(shí)處理的第一個(gè)關(guān)鍵問題是,如何用神經(jīng)網(wǎng)絡(luò)給原子體系建模。我們就想,能不能把一堆原子坐標(biāo)作為輸入,把能量作為輸出,讓神經(jīng)網(wǎng)絡(luò)直接學(xué)到這個(gè)過程?
答案是不能。因?yàn)榱W佑懈鞣N不變性;對(duì)波函數(shù),要處理電子的交換反對(duì)稱性;而對(duì)原子體系,則要處理平移旋轉(zhuǎn)的不變性和交換的不變性。
以前的方法都不夠通用,比如處理水時(shí),就根據(jù)水的性質(zhì)加描述,這就像特征工程,它能處理水,就不能處理硅。當(dāng)時(shí)我們最大的突破,就是找到了一個(gè)相對(duì)統(tǒng)一的方法來表示多種不同的不變性。
晚點(diǎn):這是個(gè)數(shù)學(xué)問題,還是一個(gè)計(jì)算問題?
張林峰:本質(zhì)上是一個(gè)數(shù)學(xué)問題——就是怎么處理對(duì)稱性建模和高維對(duì)稱函數(shù)。
解決這個(gè)問題后,我們把它放到 TensorFlow(Google 在 2015 年發(fā)布的 AI 算法開發(fā)框架)框架里去實(shí)現(xiàn),進(jìn)展很快。2017 年 5 月就有了第一個(gè) demo。到 6 月時(shí),我們?cè)诠P記本上模擬的數(shù)據(jù)已經(jīng)和 Roberto Car 組里非常昂貴的 “從頭算” 數(shù)據(jù)很一致了。
晚點(diǎn):你曾分享過,你在飛機(jī)上用自己的筆記本就跑出了水分子的狀態(tài)。
張林峰:其實(shí)訓(xùn)練好模型后,跑第一性原理(指 ab initio 計(jì)算),用筆記本只要不到半小時(shí),而之前需要兩億核時(shí)的計(jì)算。
晚點(diǎn):兩億核時(shí)是什么概念?
孫偉杰:核時(shí)就是一個(gè) CPU 核計(jì)算 1 小時(shí)。當(dāng)時(shí) 1 核時(shí)大約 1 毛錢,2 億核時(shí)是約 2000 萬人民幣。現(xiàn)在是越來越便宜了。
晚點(diǎn):所以這個(gè)突破的意義在于大幅壓縮了計(jì)算成本?
張林峰:這是一方面。那時(shí)一下有了超過 6 個(gè)數(shù)量級(jí)的計(jì)算加速,用筆記本就能干過超算。以前跟導(dǎo)師是一個(gè)月討論一次,討論完改代碼、再跑一個(gè)月;現(xiàn)在是上午討論,下午筆記本跑完就能繼續(xù)討論。我們變得特別高產(chǎn),其實(shí)是因?yàn)槟芩愕梅浅?臁?/p>
更重要的是計(jì)算規(guī)模。當(dāng)時(shí)已經(jīng)看到,這套方法從微觀還能繼續(xù)往上漲到介觀(mesoscopic,微觀到宏觀之間,納米~微米尺度)、宏觀(毫米~米尺度)的物理尺度。
這是個(gè)系統(tǒng)性的全面機(jī)會(huì):從電子相互作用、凝聚態(tài)物理到化學(xué)材料,再到天氣預(yù)報(bào)、汽車、飛機(jī)等工程建模,都有望被這樣的新方法改變。
晚點(diǎn):在計(jì)算加速上,2012 年神經(jīng)網(wǎng)絡(luò)興起后,GPU 等計(jì)算硬件有很大發(fā)展,這給你們的研究帶來了什么?
張林峰:其實(shí) 2017 年底,普林斯頓就買了 200 多塊 P100(英偉達(dá) 2016 年發(fā)布的數(shù)據(jù)中心 GPU),整個(gè)學(xué)校都可以用,但閑置率很高。
核心原因是那時(shí) AI 還沒真正火,要實(shí)現(xiàn)一個(gè)算法得寫很多代碼,TensorFlow 每次都要從頭編,軟件會(huì)提示:是否需要 CUDA(英偉達(dá)提供的、調(diào)用 GPU 并行計(jì)算能力的軟件平臺(tái)) Support。當(dāng)時(shí)看這么多機(jī)器閑置,又著急算,就點(diǎn)了 Yes,瞬間就編通了。這樣訓(xùn)練速度又提升了 10 倍,而且我們能用幾百塊卡。
到 2018 年時(shí),我發(fā)現(xiàn)生產(chǎn)力幾乎是無窮的,為了不讓卡閑著,我們開源了所有代碼,這就是 DeePMD-kit 項(xiàng)目,由此也開始建立 DeepModeling 開源社區(qū),這極大加速了對(duì)很多問題的探索。
這也讓我們很早就意識(shí)到了 Infra(基礎(chǔ)軟件層)的重要性,包括 TensorFlow 這類框架和 CUDA、GPU 算力。
晚點(diǎn):有了這個(gè)成果后,2018 年夏天,鄂維南老師正式總結(jié)了 AI for Science 這個(gè)概念,是看到了哪些更大的空間?
張林峰:這個(gè)方法論背后是一個(gè)更普遍的問題:過去很多難題都是高維函數(shù)的建模與求解。而機(jī)器學(xué)習(xí)恰好擅長(zhǎng)處理高維問題。所以鄂老師后來寫過一篇文章,說機(jī)器學(xué)習(xí)是應(yīng)用數(shù)學(xué)的最后一塊拼圖。
晚點(diǎn):你們當(dāng)時(shí)解決的問題是用機(jī)器學(xué)習(xí)加速第一性原理計(jì)算。而一般提到 AI for Sicence,會(huì)想到 Goolge DeepMind 開發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型 AlphaFold。這兩種方向是什么關(guān)系?
張林峰:這剛好是 AI 在科學(xué)中的兩種作用。
一是處理有充足數(shù)據(jù)的問題,AlphaFold 就屬于這一類——當(dāng)時(shí)已有約 20 億條蛋白序列、近 20 萬個(gè)已解析的結(jié)構(gòu)。AI 在這里主要用于擬合數(shù)據(jù),建立從序列到結(jié)構(gòu)的映射。這有點(diǎn)像 ImageNet。
二是處理規(guī)則清晰、但缺乏數(shù)據(jù)的問題。微觀物理就屬于這一類——沒有直接可觀測(cè)的大量數(shù)據(jù),但可以用第一性原理算出結(jié)果,只是以往算起來很麻煩。
DeePMD 的作用就是根據(jù)物理方程生成 “合成數(shù)據(jù)”,再來訓(xùn)練模型——把原理本身變成了數(shù)據(jù)來源。在這里,AI 的作用是在規(guī)律指引下加速求解。
孫偉杰:類似的思路在自動(dòng)駕駛、具身智能、核聚變等初期缺少數(shù)據(jù)的領(lǐng)域有很多應(yīng)用,就像當(dāng)年的 AlphaGoZero(注:用強(qiáng)化學(xué)習(xí)生成棋譜,自己和自己對(duì)弈來學(xué)習(xí)下棋)。
起步的 5 年:做微尺度的 “達(dá)索”,培養(yǎng)最優(yōu)秀的低年級(jí)本科生
“沒有哪個(gè)單一專業(yè)的人是 ready 的:懂化學(xué)的不熟算法,會(huì)算法的不精通工程……所以深勢(shì)發(fā)展中有一個(gè)關(guān)鍵脈絡(luò),就是培養(yǎng)了一批最優(yōu)秀的低年級(jí)本科生。”
晚點(diǎn):2018 年有了這些進(jìn)展后,你們是怎么決定一起創(chuàng)業(yè)的?
孫偉杰:我和林峰本科時(shí)的革命友情特別深厚,從大一開始,我們就是學(xué)院籃球和羽毛球隊(duì)隊(duì)友,后來又一起在元培學(xué)生會(huì)體育部,他是部長(zhǎng),我是副部長(zhǎng)。
2018 年林峰已經(jīng)做出了 DeePMD,夏天回國(guó)時(shí)住在我的宿舍,我了解了他在做什么。當(dāng)時(shí)我在北大繼續(xù)讀研,也在一家投資機(jī)構(gòu)實(shí)習(xí),本身就在尋找 AI 創(chuàng)業(yè)機(jī)會(huì)。而正式考慮創(chuàng)立深勢(shì),是鄂老師拉我們一起討論。
晚點(diǎn):他怎么和你們說的?
張林峰:他說 30 多年沒見過這樣的機(jī)會(huì)。他覺得自己雖然 30 歲出頭就在普林斯頓做正教授了,但一直沒找到那些他真正想解的問題的解決方案,而現(xiàn)在看到了。如果要真的讓這件事落地,光在學(xué)校里做不下去,學(xué)校人太少,也沒能力做工程化。
所以鄂老師和我說:你應(yīng)該現(xiàn)在畢業(yè)、回國(guó),然后創(chuàng)業(yè)。一開始我驚訝于這么跳脫的建議,不過很快就想清楚了:機(jī)會(huì)是 AI for Science ,不是 get simulation done,然后發(fā)論文,這完全是兩件事。TensorFlow 等 AI 生態(tài)的成熟也創(chuàng)造了條件。
最后我們的共識(shí)是,做一家 “源自中國(guó)、引領(lǐng)世界的科技公司”,讓 AI for Science 真正影響整個(gè)科研領(lǐng)域。
晚點(diǎn):你們正式開始做公司,怎么邁出從前沿技術(shù)到商業(yè)化的第一步?尤其你們 2018 年底成立時(shí),這個(gè)領(lǐng)域在全球都很新,沒有太多能對(duì)標(biāo)的公司,外界的理解成本也比較高。
孫偉杰:在起步階段,我們其實(shí)同時(shí)要解決三件事:業(yè)務(wù)方向、錢,還有人。
業(yè)務(wù)方向相對(duì)容易,雖然 AI 是新方法,但分子動(dòng)力學(xué)本身已有應(yīng)用,大的下游場(chǎng)景有化工、藥物、材料、半導(dǎo)體、新能源等。從 2019 年 5 月到 8 月,我們密集做了行業(yè)調(diào)研,最后選的第一個(gè)方向是藥物,有 3 個(gè)標(biāo)準(zhǔn):
一是看技術(shù)重要性和潛力:分子計(jì)算是藥物研發(fā)的核心之一,同時(shí),這個(gè)場(chǎng)景也能持續(xù)拉動(dòng)技術(shù)升級(jí)。
二是看商業(yè)模式:制藥公司的支付意愿很強(qiáng)、客單價(jià)高。
三是看行業(yè)分工:藥物行業(yè)鏈條劃分相對(duì)清晰,業(yè)內(nèi)本就有很多外包研發(fā)組織(CRO),我們的計(jì)算結(jié)果可以快速得到驗(yàn)證。
同時(shí),當(dāng)時(shí)國(guó)外已有薛定諤和 Accelrys 等公司,國(guó)內(nèi)也開始有 AI 制藥的萌芽。所以到 2020 年,我們很快就有了第一個(gè)產(chǎn)品——Hermite 藥物計(jì)算設(shè)計(jì)平臺(tái)。(薛定諤是為制藥等行業(yè)提供科學(xué)計(jì)算服務(wù)的一家公司,1990 年成立,目前市值 14 億美元;Accelrys 是一家為化學(xué)、材料和生命科學(xué)提供建模、仿真和數(shù)據(jù)分析軟件的公司,2010 年成立,2014 年被達(dá)索系統(tǒng)以 7.4 億美元收購。)
晚點(diǎn):既然這個(gè)鏈條已經(jīng)相對(duì)成熟了,作為新產(chǎn)品的 Hermite 和薛定諤等的差異是什么?
孫偉杰:薛定諤當(dāng)時(shí)沒有引入機(jī)器學(xué)習(xí)方法,是用之前的方法基于分子動(dòng)力學(xué)方程來計(jì)算蛋白質(zhì)之間的相互作用。
晚點(diǎn):你們?cè)趺唇鉀Q啟動(dòng)資金的?2018 到 2019 年是上一輪 AI 熱潮的融資低谷期。
孫偉杰:第一筆錢不是融資,是全國(guó)顛覆性技術(shù)創(chuàng)新大賽的金獎(jiǎng)獎(jiǎng)金,一共 1200 萬,分 3 年給到。所以第一年我們沒有著急融錢,本打算 2020 年春節(jié)后正式啟動(dòng)融資,結(jié)果趕上了疫情。
晚點(diǎn):但你們還是在 2020 年下半年拿到了百度風(fēng)投領(lǐng)投的天使輪,當(dāng)時(shí)怎么向投資人解釋深勢(shì)的價(jià)值的?
孫偉杰:我會(huì)告訴大家,世界上所有物質(zhì)歸根結(jié)底都由原子構(gòu)成,如果我們能清楚理解原子尺度的相互作用,理論上就可以求解所有材料和藥物的性質(zhì),這會(huì)給化工、藥物、材料、能源領(lǐng)域的底層研發(fā)帶來大變化。
晚點(diǎn):你們?cè)趺疵枥L商業(yè)前景的?
孫偉杰:2020 年,我們還發(fā)現(xiàn)了另一個(gè)非常值得參考的對(duì)標(biāo),就是達(dá)索系統(tǒng)(法國(guó)工業(yè)仿真公司)。
任何研發(fā)范式成熟的標(biāo)志之一,一定是這套研發(fā)流程能用電腦來做了,能用計(jì)算機(jī)精確、高效地模擬了,否則就是經(jīng)驗(yàn)性的手藝。而達(dá)索系統(tǒng)的底層,就是把所有飛機(jī)、汽車圖紙搬到電腦里,用電腦做設(shè)計(jì),再用一系列固體力學(xué)、流體力學(xué)、電磁學(xué)、光學(xué)的技術(shù)去模擬這些設(shè)計(jì)能不能跑起來、是不是安全。
用這個(gè)邏輯去看藥物和材料等分子、原子相關(guān)工業(yè)門類,研發(fā)流程都不成熟,都是重復(fù)性實(shí)驗(yàn)。所以做藥的人會(huì)自嘲是在 “煉丹”。在這些領(lǐng)域構(gòu)建更成熟的研發(fā)范式,是個(gè)很大的商業(yè)機(jī)會(huì)。
具體方法上,達(dá)索是把經(jīng)典物理,如固體、流體、電磁的規(guī)律內(nèi)化到了軟件里。而深勢(shì)是要把量子力學(xué)內(nèi)化到軟件里。在微觀世界的工業(yè)研發(fā)中,量子力學(xué)才是第一性原理。
于是 2020 年,我們明確了深勢(shì)的第一個(gè)五年計(jì)劃是做 “微尺度工業(yè)研發(fā)的平臺(tái)”,就是微尺度的達(dá)索。我們找到了這樣一個(gè)巨大的工業(yè)場(chǎng)景和深刻科學(xué)規(guī)律的匹配。
晚點(diǎn):起步階段的第三件事是人才,你們當(dāng)時(shí)面臨什么狀況,怎么搭建團(tuán)隊(duì)的?
張林峰:這是最難的問題。沒有哪個(gè)單一專業(yè)的人是 ready 的:懂化學(xué)的不熟算法,會(huì)算法的不精通工程,我們還需要懂產(chǎn)品和商業(yè)落地的人;還要同時(shí)做新的研發(fā)。所以深勢(shì)發(fā)展中有一個(gè)關(guān)鍵脈絡(luò),就是培養(yǎng)了一批最優(yōu)秀的低年級(jí)本科生。
晚點(diǎn):為什么從低年級(jí)本科生開始?這好像不是一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)找人的常規(guī)選擇。
張林峰:到了大三、大四,多數(shù)科學(xué)背景優(yōu)秀學(xué)生的議程會(huì)相對(duì)固定:不少人開始著手出國(guó)申請(qǐng),博士畢業(yè)后大多數(shù)人又會(huì)找教職,能來加入創(chuàng)業(yè)的人才不多。
同時(shí),我們最初的核心成員中,有一位正好在北大做過輔導(dǎo)員,他熟識(shí)一批最優(yōu)秀的本科生。這些實(shí)習(xí)生進(jìn)來后,一開始是我在黑板上講,很快發(fā)現(xiàn)黑板不好使,每次來個(gè)新人我都得從頭講一遍,研發(fā)也越走越深。所以后來從人才培養(yǎng)、教學(xué)到比賽,我們都自己搞了一套。
![]()
“幾位 21 年夏天畢業(yè)的伙伴前來合影”(圖片來自張林峰文章:《在 DP“讀大學(xué)” 的少年們》DP 指深勢(shì)科技。)
晚點(diǎn):你們內(nèi)部有一套專門的量子力學(xué)、計(jì)算化學(xué)的課程體系?
張林峰: 我們先用現(xiàn)成的學(xué)習(xí)工具和平臺(tái):筆記本用 Colab、線上課用 Coursera、比賽用 Kaggle……但這些平臺(tái)當(dāng)時(shí)都不怎么面向物理和生化環(huán)材等領(lǐng)域。于是我們做了 AI for Science 版的 Colab、Kaggle,也組織了比賽。后來很多人是通過打我們的比賽、參加我們的 DeepModeling 社區(qū)活動(dòng)嶄露頭角的。
孫偉杰:DeepModeling 也是現(xiàn)在全球最大的 AI for Science 開源社區(qū):這里一是能發(fā)現(xiàn)人才;二是會(huì)不斷冒出新場(chǎng)景——能看到有人拿我們的工具做這、做那。它變成了一套交叉人才的培養(yǎng)和挖掘機(jī)制。
晚點(diǎn): 其實(shí)你們相當(dāng)于在探索一種新的教育和學(xué)習(xí)方式,打破了越來越細(xì)致的學(xué)科分工。
孫偉杰:AI 時(shí)代 “學(xué)習(xí)” 正發(fā)生巨變,更多是在 “干中學(xué)”,是 “按需學(xué)習(xí)”。因?yàn)樗阉饕娼鉀Q了信息獲取,AI 解決了知識(shí)獲取,未來學(xué)習(xí)的關(guān)鍵是圍繞要解的問題,自己定義學(xué)什么、怎么學(xué)。
大家都是這樣過來的:林峰不懂創(chuàng)業(yè)、金融、財(cái)務(wù),他的商業(yè)啟蒙讀物是馬斯克傳記;我當(dāng)時(shí)對(duì)技術(shù)一無所知,用兩三個(gè)月時(shí)間啃了一遍大學(xué)數(shù)理化生教材,后面接著邊做邊學(xué)。我們做這些教育探索,本身也是被業(yè)務(wù)和研發(fā)問題逼出來的。
從機(jī)器學(xué)習(xí)到 Agent,AI for Scicence 經(jīng)歷的四個(gè)階段
“機(jī)器學(xué)習(xí)數(shù)理建模→預(yù)訓(xùn)練→大語言模型→科研 Agent。”
晚點(diǎn):資源有限時(shí)做這么多事,踩過的坑是什么?
張林峰: 最大的挑戰(zhàn)是機(jī)會(huì)太多。因?yàn)橛眠@套底層技術(shù),可以深入的領(lǐng)域很多,我們也大致知道每一條路推到極限能做到什么狀態(tài),但你只能選少數(shù)幾個(gè)方向。
晚點(diǎn):你們當(dāng)時(shí)都考慮過哪些方向?
張林峰:大部分 AI for Science 能做的事我們?cè)缙诙歼^過一遍,包括 AlphaFold 的蛋白質(zhì)預(yù)測(cè)、可控核聚變、AI for 材料。但我們當(dāng)時(shí)的資源絕對(duì)不夠,不可能放開手全力做,只能在一些方向先保留火種。
DeepMind、達(dá)索等,都是用百倍、千倍于我們的資源做和我們一樣的事。而當(dāng) Google、Meta 也開始重視這些方向時(shí),國(guó)內(nèi)又會(huì)反思,說為什么中國(guó)就做不起來。
晚點(diǎn):你想說,其實(shí)你們做了,只是大家當(dāng)時(shí)沒注意到?
張林峰:或者說,并不是真的沒機(jī)會(huì)做出這些成果,而是資源太有限了。我們可以看到非常多機(jī)會(huì),甚至是諾獎(jiǎng)級(jí)的機(jī)會(huì)。但另一方面,我們需要從頭培養(yǎng)本科生,解決機(jī)房、插電源、部署環(huán)境等基礎(chǔ)問題;我們要反復(fù)審視優(yōu)先級(jí):把有限的資源投到最關(guān)鍵的落地瓶頸和技術(shù)上。這個(gè)過程中的 trade off(取舍)是最大的挑戰(zhàn)。
晚點(diǎn):取舍中,有錯(cuò)過什么方向嗎?
孫偉杰:其實(shí)從 18 年到現(xiàn)在,最大的機(jī)會(huì)我們都抓住了。復(fù)盤下來,AI for Science 有四波關(guān)鍵機(jī)會(huì):
一是機(jī)器學(xué)習(xí)與數(shù)理建模的結(jié)合,我們做了 DeePMD,推出了 Hermite。
二是把預(yù)訓(xùn)練大模型引入科研,我們?cè)?2021 年開始做分子大模型 Uni-Mol、蛋白質(zhì)大模型 Uni-Fold 和基因大模型 Uni-RNA 等系列模型。
三是用大語言模型提升科研效率,我們訓(xùn)練了專門的科學(xué)文獻(xiàn)大模型 Uni-SMART。
四是多智能體(multi-agent)科研 Agent,我們做了 “玻爾科研空間站”、SciMaster 這樣的科研平臺(tái)和助手,貫穿讀(文獻(xiàn)研究)、算(科學(xué)計(jì)算)、做(干濕實(shí)驗(yàn))的全流程。
而接下來,最重要的方向會(huì)是 “AI 科學(xué)家”。
晚點(diǎn):引入預(yù)訓(xùn)練方法,這和你們之前用機(jī)器學(xué)習(xí)來做數(shù)理建模的區(qū)別是什么?
孫偉杰:之前用分子動(dòng)力學(xué)算材料,比如說這個(gè)支架(指向現(xiàn)場(chǎng)的電腦金屬支架)可能是鋁鎂合金,那么我們要專門訓(xùn)一個(gè)模型來預(yù)測(cè)它的硬度、光澤等性質(zhì)。
而有了預(yù)訓(xùn)練后,就能建立更統(tǒng)一的模型。無論鋁合金、高溫合金還是某種分子,都可以用一個(gè)模型處理。
2020 年前后我們就看清了這條路——先做小模型、建數(shù)據(jù)庫,再到預(yù)訓(xùn)練大模型。預(yù)訓(xùn)練的條件之一正是我們用 DeePMD 從第一性原理方程生成的大量數(shù)據(jù)。不過當(dāng)時(shí)我們沒有料到,LLM(大語言模型)的爆發(fā)會(huì)來得這么快。
晚點(diǎn):在最新階段,就是做科研 Agent 時(shí),你們的產(chǎn)品思路是怎么形成的?
孫偉杰:科研作為生產(chǎn)活動(dòng)的基礎(chǔ)要素是讀、算、做,對(duì)應(yīng)一系列基礎(chǔ)工具:數(shù)據(jù)庫、科研軟件、實(shí)驗(yàn)設(shè)備。當(dāng)然還有一個(gè)最核心的要素,就是人。
AI 已經(jīng)在改變讀、算、做:比如在 “讀文獻(xiàn)” 階段,玻爾科研空間站能幫助研究者迅速界定選題、生成可檢驗(yàn)的假設(shè);在 “做計(jì)算” 階段,它能根據(jù)假設(shè),調(diào)用不同科學(xué)計(jì)算工具,得到多個(gè)候選方案和優(yōu)先級(jí)排序;在 “做實(shí)驗(yàn)” 階段,它會(huì)調(diào)用自動(dòng)化實(shí)驗(yàn)室做干、濕實(shí)驗(yàn),以驗(yàn)證方案,實(shí)驗(yàn)數(shù)據(jù)回流后會(huì)持續(xù)迭代,直至輸出最優(yōu)方案。
而未來,Agent 作用在人這一層,甚至有潛力完全自主調(diào)用工具、執(zhí)行科研任務(wù)。這反過來又會(huì)改變基礎(chǔ)工具:因?yàn)?“讀算做” 的工具過去是為人設(shè)計(jì)的,未來肯定要為 AI 設(shè)計(jì)。
張林峰:也可以這樣理解這個(gè)脈絡(luò),每一種新技術(shù)出現(xiàn),科研與新技術(shù)結(jié)合時(shí)都會(huì)有新瓶頸。
最初是神經(jīng)網(wǎng)絡(luò)如何在物理約束下表示物理量,DeePMD 解決的是這個(gè)問題;接著是大規(guī)模計(jì)算中的高性能優(yōu)化與云端并發(fā),這就是 DeePMD-kit 做的事:建立了一套同時(shí)覆蓋超算、云端和本地的前沿算力體系。而當(dāng)大語言模型出現(xiàn)后,新的瓶頸變成了科研知識(shí)的整合與挖掘,大量高質(zhì)量文獻(xiàn)和專利數(shù)據(jù)都需要重新標(biāo)注,被建模和整合。
所以我們一直在做的是:在每一階段新技術(shù)來了之后,去處理科研流程與新技術(shù)的連接。
晚點(diǎn):這些事情都需要你們自己做嗎?比如有的公司側(cè)重文獻(xiàn)挖掘,不涉及科學(xué)計(jì)算,也有一些公司專注實(shí)驗(yàn)自動(dòng)化;而深勢(shì)的科研 Agent 看起來涵蓋全流程,做得過來嗎?
孫偉杰:肯定不需要都做,我們現(xiàn)在做很多事,是因?yàn)槭忻嫔蠜]有現(xiàn)成方案。一些相對(duì)成熟的環(huán)節(jié),比如實(shí)驗(yàn)自動(dòng)化硬件,我們就沒必要做了。
但我們一定要整合整個(gè)研發(fā)流程:因?yàn)?“讀、算、做” 是完整體系。研發(fā)不是發(fā)個(gè)文章就完了,要變成可用的成果,就需要計(jì)算,乃至真實(shí)的實(shí)驗(yàn)。整個(gè)鏈條的信息、數(shù)據(jù)要盡可能通暢。
晚點(diǎn):通用大模型公司推出的 DeepResearch(深度研究)能力不能獲得這些信息嗎?
孫偉杰:我們自己做文獻(xiàn)閱讀這一環(huán)時(shí),就發(fā)現(xiàn)過去的論文和專利語料庫并不是 AI-ready 的,需要自建一套科學(xué)語料庫。除了論文內(nèi)容,完備的科學(xué)語料還應(yīng)包括:
實(shí)驗(yàn)數(shù)據(jù)與圖譜,如光譜、晶體結(jié)構(gòu)、反應(yīng)曲線等;
分子式與結(jié)構(gòu)數(shù)據(jù);
專利全文與附圖;
科研筆記、實(shí)驗(yàn)日志、儀器參數(shù)記錄;
以及經(jīng)過結(jié)構(gòu)化和標(biāo)注的科學(xué)模態(tài)數(shù)據(jù),可供模型直接理解和訓(xùn)練。
理論上,如果一個(gè)大公司想投資源做,也能做。問題是,作為創(chuàng)業(yè)公司,你能不能先抓住這個(gè)空白,迅速做出一款好產(chǎn)品。比如原子大模型(DPA)、分子大模型(Uni-Mol)和基因大模型(Uni-RNA)這三個(gè)模型,我們就是全球首發(fā),處在第一梯隊(duì)。跟隨我們的都是國(guó)際大廠:DeepMind、Meta 后來做了原子大模型;英偉達(dá)做了類似 Uni-RNA 的 Evo 2(25 年 2 月發(fā)布,Arc 研究所、聯(lián)合斯坦福大學(xué)、英偉達(dá))、DeepMind 也做了 AlphaGenome(25 年 6 月發(fā)布)。
晚點(diǎn):現(xiàn)在全球大科技公司和一批融資更多的美國(guó) AI for Science 創(chuàng)業(yè)公司都加大了投入。你們還能看到和抓住多少市場(chǎng)空白?
張林峰:接下來的變化還會(huì)很大,最終會(huì)看到科研范式的變革。
變革的本質(zhì)是交互界面問題——人與科研工具如何交互、科研共同體如何協(xié)作、生產(chǎn)關(guān)系如何重組。之前做的很多積累:整合全量數(shù)據(jù),在每個(gè)科研方向訓(xùn)模型——無論是 DeepPMD,還是 AlphaFold——都是少數(shù)人在往深走,而現(xiàn)在 Agent 正把它們連起來。這才有點(diǎn)接近我們?cè)?17 年設(shè)想的狀態(tài):AI 結(jié)合多個(gè)不同方向,整體提升科研能力。
這也迫使整個(gè) community 重新思考:比如以前學(xué)術(shù)共同體的一大驅(qū)動(dòng)力是 peer review(同行評(píng)議)的論文發(fā)表體系,而當(dāng) AI 已經(jīng)能寫論文、審論文,甚至自己搞定不那么原創(chuàng)性的研究時(shí),發(fā)論文的意義是什么?類似的,以前實(shí)驗(yàn)科學(xué)家要找計(jì)算科學(xué)家合作分析數(shù)據(jù),現(xiàn)在他可以直接讓 Agent 調(diào)用軟件做模擬和解釋。
這些變化會(huì)比很多人想象得快,學(xué)科劃分、交叉合作的模式乃至整個(gè)科研流程本身都會(huì)有大變化。
用一套平臺(tái)服務(wù)不同方向和階段的科研,服務(wù) 1000 甚至 1 萬個(gè)客戶
“做平臺(tái),更符合科技公司的屬性,也能激發(fā)更多科學(xué)發(fā)現(xiàn),而不僅是某一個(gè)領(lǐng)域的發(fā)現(xiàn)。”
晚點(diǎn):深勢(shì)在挑戰(zhàn)一個(gè)高難度創(chuàng)業(yè)方向,中間遇到過什么大的挫折和低谷嗎?
張林峰:最深陷泥潭時(shí)應(yīng)該是 2022 年-2023 年。這不是因?yàn)榫唧w挫折,而是當(dāng)時(shí)我們處于一種需要持續(xù)自證的狀態(tài)。
我們最初的核心課題是要驗(yàn)證技術(shù),并證明我們有引領(lǐng)性,這需要拿出直觀的成果。所以我們會(huì)做藥物管線,從技術(shù)突破一路推到應(yīng)用;也會(huì)把一個(gè)創(chuàng)新算法變成真正的工業(yè)軟件,走完工程化、用戶反饋和迭代的全過程。
但到了 2022 年,我們又看到做研發(fā)平臺(tái)和重塑整個(gè)研發(fā)流程的機(jī)會(huì),尤其是年底 ChatGPT 出現(xiàn),這是機(jī)遇也是挑戰(zhàn)——我們要迅速擁抱新技術(shù),又要構(gòu)建從文獻(xiàn)、專利到實(shí)驗(yàn)的 “讀、算、做” 閉環(huán),真的加速科學(xué)發(fā)現(xiàn)。
晚點(diǎn):還是一個(gè)有限資源下的優(yōu)先級(jí)問題。
張林峰:我們是到 2023 年底突破了這個(gè)時(shí)期,一是證明了我們一系列模型的領(lǐng)先,比如前面提到很多大公司來 follow 我們的成果;同時(shí)我們也理清了之后的思路。
晚點(diǎn):你們的早期投資人之一冉翀告訴我們,你們當(dāng)時(shí)在 “垂直應(yīng)用” 和 “通用研發(fā)平臺(tái)” 間抉擇過一段時(shí)間,后來選了做平臺(tái),為什么這么選?
孫偉杰:這是一個(gè)必須的取舍。因?yàn)檠邪l(fā)平臺(tái)和垂直應(yīng)用,比如直接做藥物管線的邏輯并不兼容。做管線要把全部賭注壓在一兩個(gè)關(guān)鍵資產(chǎn)上,要深入理解市場(chǎng)和臨床需求;而做平臺(tái)則要持續(xù)優(yōu)化算法、算力和工具體系,讓平臺(tái)能持續(xù)迭代。一旦把資源押在某幾條管線上,平臺(tái)研發(fā)容易被牽制。
我們更愿意基于一套平臺(tái)服務(wù)不同方向和階段的科研,服務(wù) 1000 甚至 1 萬個(gè)客戶。這更符合我們的初心:做一家源自中國(guó)、引領(lǐng)世界的科技公司。
晚點(diǎn):為什么平臺(tái)更符合 “源自中國(guó)、引領(lǐng)世界的科技公司” 的定位?
孫偉杰:源自中國(guó)、引領(lǐng)世界是確定的。而我們認(rèn)為做平臺(tái),讓技術(shù)服務(wù)更多人,更符合科技公司的屬性,也能激發(fā)更多科學(xué)發(fā)現(xiàn),而不僅是某一個(gè)領(lǐng)域的發(fā)現(xiàn)。
其實(shí)這兩者的價(jià)值沒有高低,比如如果能做出一款新藥,對(duì)社會(huì)的價(jià)值非常大。更多是說哪個(gè)聲音在更強(qiáng)烈地呼喚我們,哪件事在我們心中投下了更大的陰影。
晚點(diǎn):你們?cè)趺纯紤]這個(gè)選擇的商業(yè)潛力?比如在半導(dǎo)體領(lǐng)域,ARM、新思這類做 IP 和基礎(chǔ)開發(fā)工具的公司的規(guī)模不如下游做具體芯片的公司,如英偉達(dá)、高通和 AMD。
孫偉杰:其實(shí)英偉達(dá)的 CUDA 生態(tài)也是一個(gè) AI 底層開發(fā)平臺(tái)。而且無論平臺(tái)還是管線,都有做到千億美元的潛力。達(dá)索現(xiàn)在的市值也有 500 多億美元。關(guān)鍵不在方向,而在能否把一條路走深。
諾獎(jiǎng)表彰 “第一個(gè)”,而基礎(chǔ)平臺(tái)要做 “最后一個(gè)”
“諾獎(jiǎng)是一個(gè)已經(jīng)存在的評(píng)價(jià)體系,而現(xiàn)在正在發(fā)生的科研范式的革新會(huì)沖擊評(píng)價(jià)體系本身。”
晚點(diǎn):在你們看過、做過的這么多能與 AI 結(jié)合的領(lǐng)域里,哪個(gè)方向最有潛力成為諾獎(jiǎng)級(jí)成果?
張林峰:可以從另一個(gè)角度看這個(gè)問題,說回前面提到的的初心里的 “源自中國(guó)”。
過去 100 多年逐漸形成的 “科學(xué)無國(guó)界” 的共識(shí)正受到挑戰(zhàn)。就以 AI 為例,它在推動(dòng)科學(xué)發(fā)展,但它的底層模型也越來越集中和封閉。
而我們希望推動(dòng)一個(gè)開源、開放的體系,從科學(xué)研究到工業(yè)研發(fā),說的再大一點(diǎn),到人類命運(yùn)共同體。這個(gè)主張,在中國(guó)是更堅(jiān)定的。
我自己在普林斯頓讀博士時(shí),看到比我大 10 到 20 歲的學(xué)長(zhǎng)、學(xué)姐,他們的發(fā)展路線相對(duì)固定:讀完博士,肯定是在幾個(gè)頂尖學(xué)校里找教職。但現(xiàn)在可以看到,不少美國(guó)實(shí)驗(yàn)室的經(jīng)費(fèi)面臨縮減,甚至?xí)和#粚?duì)研究者要做什么、不做什么,限制也越來越多。
這個(gè)時(shí)候,科學(xué)家作為一個(gè)共同體,既要拓展人類認(rèn)知邊界,又要推動(dòng)下一步產(chǎn)業(yè)創(chuàng)新,給人類帶來更好的生存狀態(tài),這面臨很大的挑戰(zhàn)。所以一個(gè)能支持多學(xué)科交叉協(xié)作、能加速很多方向的基礎(chǔ)平臺(tái)就更迫切了。這往后才是諾貝爾獎(jiǎng)的問題,即我們?cè)趺凑J(rèn)可一個(gè)科學(xué)貢獻(xiàn)。
確實(shí)在 2022 年-2023 年時(shí),要不要去沖擊某個(gè)具體的科學(xué)新發(fā)現(xiàn),對(duì)我們來說是個(gè)巨大的選擇題。因?yàn)橹Z獎(jiǎng)表彰的永遠(yuǎn)是 “第一個(gè)”;而基礎(chǔ)平臺(tái)恰恰要做 “最后一個(gè)”——當(dāng)所有人都在上面工作時(shí),它才真正成為底層標(biāo)準(zhǔn)。
但后來我們也看到,一個(gè)好的技術(shù)平臺(tái),其實(shí)可以容納這個(gè)兩個(gè)方面:因?yàn)樗铀倭税l(fā)現(xiàn),所以這里可能產(chǎn)生更多 “第一個(gè)”;同時(shí),如果很多科學(xué)家都來用它,那它也是 “最后一個(gè)”。而兼具的方式就是定義新的科研交互界面,是找到科研 Agent 的 PMF。
晚點(diǎn):所以你們看重的不是自己是否觸及諾獎(jiǎng)級(jí)成果,而是多少諾獎(jiǎng)級(jí)的新發(fā)現(xiàn)是被你們的工具和平臺(tái)加速的?
張林峰:其實(shí) 24 年 10 月 AlphaFold 得諾獎(jiǎng)時(shí),確實(shí)對(duì)我有一定影響,我當(dāng)時(shí)也感嘆過,我們?cè)驹谶^這樣一個(gè)可能性——如果能有更多資源,全力放開去推,如果不是說處于人也要從頭培養(yǎng)的狀態(tài)。
但說后不后悔這個(gè)決定?肯定不后悔。因?yàn)槲矣X得 AI 加速科學(xué)發(fā)現(xiàn),會(huì)對(duì)諾獎(jiǎng)的意義都有很大沖擊。諾獎(jiǎng)是一個(gè)已經(jīng)存在的評(píng)價(jià)體系,而現(xiàn)在正在發(fā)生的科研范式的革新會(huì)沖擊評(píng)價(jià)體系本身。
不管我們存不存在,這個(gè)變化都一定會(huì)發(fā)生,但我們希望變化能朝更好的方向前進(jìn)。
![]()
深勢(shì)創(chuàng)立初期的部分團(tuán)隊(duì)成員合影,從左到右依次為:張林峰,深勢(shì)創(chuàng)始人兼首席科學(xué)家;李鑫宇,北京科學(xué)智能研究院院長(zhǎng);孫偉杰,深勢(shì)創(chuàng)始人兼 CEO;鄭行,深勢(shì)藥物發(fā)現(xiàn)事業(yè)部總工程師;昌珺涵,深勢(shì)自動(dòng)化實(shí)驗(yàn)室負(fù)責(zé)人。
AI 科學(xué)家到來,越基礎(chǔ)的學(xué)科越安全
“更大的挑戰(zhàn)是,AI 時(shí)代,人的學(xué)習(xí)曲線被打斷了。”
晚點(diǎn):接下來一年,你們最想驗(yàn)證的一個(gè)問題或懸念是什么?
孫偉杰:AI Agent 現(xiàn)在已經(jīng)能在 “讀、算、做” 之間形成閉環(huán),獨(dú)立執(zhí)行兩三天的任務(wù)。我明年想看看,它能否自主調(diào)動(dòng)這些工具,真正發(fā)現(xiàn)一兩項(xiàng)新成果,比如在材料、化工、藥物方面有新發(fā)現(xiàn)。
張林峰:我想驗(yàn)證的問題是,Innovator(創(chuàng)新者)到底長(zhǎng)什么樣。OpenAI 之前定義了 AGI 的 5 個(gè)階段(注:Chatbot 聊天機(jī)器人、Reasoner 推理者、Agent 智能體、Innovator 創(chuàng)新者、Orgnizer 組織者),現(xiàn)在正是從 Agent 走到 Innovator 的發(fā)展期,AI 與 AI for Science 會(huì)正面相逢。
可能有兩種路徑:
一是從通用智能到科學(xué)智能——先學(xué)完全部歷史信息,再往前走。
另一個(gè)方向,是從科學(xué)智能到通用智能——先理解最本質(zhì)的規(guī)律。這就像是把 “數(shù)理化” 與 “政經(jīng)哲” 的基礎(chǔ)打牢,再走向社會(huì)。
無論是從通用智能走向科學(xué)智能,還是反過來,它們的碰撞點(diǎn)一定是 “Innovator” 模型應(yīng)當(dāng)長(zhǎng)成什么樣。這也是各家 AI 廠商發(fā)力的方向。所以 7 月底我們發(fā)布 SciMaster 的同時(shí),也推出了一個(gè) baby-level 的 Innovator——一個(gè) AI for Science 的基座模型。
晚點(diǎn):前面提到,你們認(rèn)為接下來最重要的主題是 AI 科學(xué)家。如果 AI 科學(xué)家真到來了,我們會(huì)看到什么?生活會(huì)怎么變化?
張林峰:比較直觀的,會(huì)有一批藥物、材料的新成果,比如出現(xiàn)顛覆式的電池技術(shù)、高分子領(lǐng)域的突破等。
孫偉杰:每個(gè)人會(huì)擁有一個(gè)教授級(jí)的 AI 科學(xué)家朋友,可以隨時(shí)請(qǐng)教任何問題。比如前幾天北京暴雨后天空變成粉紅色,我們就問玻爾這是怎么形成的,它給出了非常精彩的解釋。
![]()
玻爾科學(xué)導(dǎo)航網(wǎng)頁上的 “問題廣場(chǎng)”。
從產(chǎn)業(yè)上,很多突破都已逼近現(xiàn)實(shí):比如手機(jī)續(xù)航可能延長(zhǎng)到十天甚至一個(gè)月;電動(dòng)飛機(jī)會(huì)變得可行;更遠(yuǎn)一點(diǎn),AI 還可能讓藥物研發(fā)像搜索信息一樣簡(jiǎn)單——輸入疾病,系統(tǒng)就能分析相關(guān)靶點(diǎn),并快速生成候選藥物。
晚點(diǎn):Anthropic CEO 達(dá)里奧·阿莫迪(Dario Amodei)24 年 10 月曾在《仁愛機(jī)器》(Machines of Loving Grace)一文中預(yù)測(cè),未來 5 到 10 年人的壽命會(huì)翻倍,這有可能嗎?
孫偉杰:5 到 10 年沒法科學(xué)上驗(yàn)證壽命是否翻倍,觀測(cè)時(shí)間不夠。
大的邏輯是,人類的幾個(gè)終極愿景——消滅疾病、無限能源、走向宇宙,更快的通信和更強(qiáng)大的計(jì)算——都離不開原子、分子方面的科研努力。結(jié)合 AI 的科學(xué)研發(fā)平臺(tái)會(huì)加速這些領(lǐng)域的創(chuàng)新與發(fā)現(xiàn)。
晚點(diǎn):另一方面,你們覺得 AI 加速科學(xué)發(fā)現(xiàn)后,會(huì)有什么風(fēng)險(xiǎn)?我們可以提前做什么準(zhǔn)備?
張林峰:風(fēng)險(xiǎn)有顯式和隱式的。顯式的,比如 AI 可以做藥,也可以做毒品,這需要監(jiān)管。
隱式的就是前面提到的,科研評(píng)價(jià)體系正被顛覆。科研的三要素——工具、內(nèi)容、人——都在被重新定義:
工具上:Agent 的能力迅速增強(qiáng),正在沖擊傳統(tǒng)科研工具和工業(yè)軟件的邊界;
內(nèi)容上:AI 已能自動(dòng)撰寫論文、輔助研究,論文可能不再是核心成果的唯一載體;
人的層面:當(dāng) AI Scientist 出現(xiàn)后,如何評(píng)價(jià)人類科學(xué)家?
孫偉杰:我沒那么擔(dān)心顯式的風(fēng)險(xiǎn),因?yàn)楹铣尚路肿印㈤_發(fā)新材料這些領(lǐng)域的供應(yīng)鏈、環(huán)境評(píng)估等環(huán)節(jié)早就受到嚴(yán)格監(jiān)管。
更大的挑戰(zhàn)是,AI 時(shí)代,人的學(xué)習(xí)曲線被打斷了。現(xiàn)在 AI 雖不能完全替代正式員工,卻足以取代實(shí)習(xí)生,這意味著很多人失去了用初級(jí)工作練手、成長(zhǎng)的機(jī)會(huì);這可能產(chǎn)生結(jié)構(gòu)性斷層,是一代人要面臨的問題。教育的變革速度往往落后于技術(shù)演進(jìn)。
晚點(diǎn):你們覺得五年之內(nèi),什么專業(yè)還是比較安全的?
孫偉杰:越是基礎(chǔ)的學(xué)科越安全。物理、化學(xué)和數(shù)學(xué),雖然未來會(huì)有更多 AI 參與,但它們依然是培養(yǎng)思維方式的核心學(xué)科。數(shù)學(xué)訓(xùn)練邏輯與抽象能力,物理培養(yǎng)對(duì)自然規(guī)律的直覺與推理。
在社會(huì)科學(xué)領(lǐng)域,政經(jīng)哲塑造人理解世界與判斷價(jià)值的方式。這原本就是一個(gè)學(xué)科。哲學(xué)分化后形成了兩條線:自然科學(xué)的起點(diǎn)就是 “自然哲學(xué)”,牛頓那本書就叫《自然哲學(xué)的數(shù)學(xué)原理》,社會(huì)科學(xué)的起點(diǎn)是 “政治經(jīng)濟(jì)哲學(xué)”。北大的錄取趨勢(shì)也印證了這一點(diǎn):現(xiàn)在數(shù)學(xué)、物理等基礎(chǔ)理科的分?jǐn)?shù)線最高,超過了之前最火的經(jīng)管類專業(yè)。
另一類是和人的體驗(yàn)相關(guān)的:文學(xué)、藝術(shù)和體育,這都是 AI 無法取代的。
“什么時(shí)候是你最光輝的時(shí)刻?”“就是現(xiàn)在!”
“要有菩薩心腸,也要有雷霆手段。”“理想主義的實(shí)干家才能改變世界。”
晚點(diǎn):你們兩之間的相處和決策模式是怎樣的,出現(xiàn)重大分歧時(shí),怎么解決?
孫偉杰:創(chuàng)立公司后,好像沒發(fā)生過特別劇烈的分歧和爭(zhēng)吵。因?yàn)樯蠈W(xué)時(shí)把很多本質(zhì)問題都吵完了,對(duì)彼此的三觀都已充分了解和認(rèn)可。
晚點(diǎn):當(dāng)時(shí)會(huì)因?yàn)槭裁词屡鲎玻?/strong>
(兩人笑而不語)
晚點(diǎn):感覺你們已經(jīng)想到了同一件事。
孫偉杰:簡(jiǎn)單說,是一些具體問題引發(fā)的一些更抽象的爭(zhēng)論。因?yàn)槲覀冊(cè)趯W(xué)生會(huì)搭檔過,也各自領(lǐng)導(dǎo)或創(chuàng)立過社團(tuán),會(huì)遇到一些學(xué)生組織的傳承問題。
晚點(diǎn):在三觀上,你們比較底層的相同點(diǎn)和不同點(diǎn)是什么?
孫偉杰:我們相似的地方有兩點(diǎn):一是都有自驅(qū)的欲望和原動(dòng)力,區(qū)別在于,我的欲望更多來自多年體育訓(xùn)練帶來的好勝心,而林峰的動(dòng)力則更多來自他對(duì)世界和科學(xué)的好奇心。第二點(diǎn),都有改變和做決定的勇氣。
張林峰:我們還有一個(gè)共同點(diǎn),就跟決定創(chuàng)業(yè)只要 5 秒一樣,來北大也是很快就決定了。這里有更大的自由。
孫偉杰:我和林峰做選擇上有一點(diǎn)是相似的,寧可放棄概率高但上限低的確定選項(xiàng),也愿意賭更不確定但上限更高的機(jī)會(huì)。
晚點(diǎn):那區(qū)別呢?我看林峰之前在個(gè)人公眾號(hào)上寫文章分享過《牧羊少年的奇幻之旅》。這本書就是在講,你要去聽 “你心的聲音”。作為理科生,林峰很浪漫,寫的不少隨筆熾烈、熱情;偉杰反而比較冷峻。
張林峰:剛來北大時(shí),我沒覺得要學(xué)物理,天天寫詩的。也學(xué)了一段時(shí)間經(jīng)濟(jì)學(xué),覺得這是經(jīng)世濟(jì)民的方法。
孫偉杰:林峰是外冷內(nèi)熱,雖然說他是個(gè) “I 人”,平時(shí)感覺很難接近,但其實(shí)內(nèi)心似火,對(duì)所有事情充滿激情。我有點(diǎn)相反,我是外熱內(nèi)冷,很容易接觸和接近,但其實(shí)內(nèi)心的 bar(標(biāo)準(zhǔn))比較高。
晚點(diǎn):林峰有一年暑假還去流浪過, 當(dāng)時(shí)為什么要做這件事?
張林峰:是高三的夏天,我買了幾張火車票,帶了個(gè)雙節(jié)棍,就去闖沙漠了,我比較喜歡李小龍。那時(shí)寫了很多日記,其實(shí)當(dāng)時(shí)的思考和現(xiàn)在做的事也是一致的。
孫偉杰:大學(xué)剛開學(xué)不久,我就看到了林峰的這個(gè)小本子,他也寫了很多中學(xué)的經(jīng)歷和感受,我很有共鳴。比如我們都看過相同的熱血?jiǎng)勇紩?huì)把自己帶入那個(gè)傻傻的主角:龍珠的悟空、灌籃高手的櫻木花道、海賊王的路飛。他還在沙漠里創(chuàng)作了一個(gè)個(gè)人 logo,和我中學(xué)時(shí)給自己創(chuàng)作的 logo 如出一轍。所以我一入學(xué)就知道了這是自己人。
張林峰:太中二了。
晚點(diǎn):22 年 Uni-FEP 發(fā)布后,我看林峰寫文章中提到,希望很多年以后,大家會(huì)看到理想主義真的可以改變世界。現(xiàn)在你們?cè)趺蠢斫饫硐胫髁x?
孫偉杰:還得加另一句。要有菩薩心腸,也要有雷霆手段。
張林峰:理想主義的實(shí)干家才能改變世界。
晚點(diǎn):現(xiàn)在還有偶爾 “中二” 的時(shí)候嗎?
張林峰:2020 年,我回國(guó)時(shí)還是疫情,在酒店隔離了很久,重新看《灌籃高手》,后面有些內(nèi)容動(dòng)畫版沒拍,就有人用漫畫拼成視頻,然后到了一個(gè)畫面所有彈幕都是 “都給我哭!”
那是一個(gè)名場(chǎng)面(湘北對(duì)決山王時(shí),櫻木花道問安西教練):“老爹,什么時(shí)候——”
孫偉杰:“是你最光輝的時(shí)刻?”
張林峰:“就是現(xiàn)在!”
實(shí)習(xí)生姚一楠、劉賀對(duì)此文亦有貢獻(xiàn)。
題圖來源:孫偉杰。大二時(shí),元培體育部舉辦趣味羽毛球賽后,孫偉杰(左)和張林峰(右)從邱德拔體育館騎車回宿舍。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.