![]()
導語
人工智能(AI)的發展加速了科學發現。伴隨著近期授予 AI 相關研究的諾貝爾獎,這些趨勢確立了 AI 工具在科學中的作用。這一進步引發了關于 AI 工具對科學家及科學整體影響的疑問,并凸顯了個人利益與集體利益之間潛在的沖突。
為了評估這些問題,近日,清華大學電子工程系李勇教授團隊發表于 nature 的文章利用預訓練語言模型識別AI賦能的科學研究(AI for Science),發現 AI 工具顯著提升了科學家個人的產出和影響力,加速了職業晉升,但同時也導致了科學界整體關注焦點的收縮和多樣性的減少。
在文章最后,我們對比了分別發表于 Science(詳見集智俱樂部《》)和 Nature 的兩項研究。它們并非給出相互對立的判斷,而是從科研流程的不同環節切入,揭示了同一場變革的兩面性:大語言模型一方面拓寬了科學家的閱讀與連接范圍,另一方面卻可能收緊科學發現的實際路徑。合在一起,這些發現共同勾勒出一個耐人尋味的圖景——科學家讀得更廣,卻做得更窄。
關鍵詞:人工智能,科學計量學,科研生產力,馬太效應
任筱芃丨作者
趙思怡丨審校
![]()
論文題目:Artificial intelligence tools expand scientists’ impact but contract science’s focus 論文鏈接:https://doi.org/10.1038/s41586-025-09922-y 發表時間:2026年1月14日 論文來源:nature
研究背景與問題
AI 作為“雙刃劍”
AI 已深度融入知識生產過程,如 AlphaFold 預測蛋白質結構等突破性成果展示了其巨大潛力。然而,AI 工具對科學家和科學整體特征的影響尚不完全清楚。盡管現有研究表明 AI 為科學家帶來了個人利益,但也引發了對科學領域馬太效應和引用模式變化的擔憂。
核心研究問題
該研究基于 OpenAlex 數據庫中 1980 年至 2025 年間的 4130 萬篇 自然科學論文(涵蓋生物學、化學、物理學等六大基礎學科),利用微調的 BERT 模型識別 AI 輔助的研究,旨在回答以下問題:
個體生產力:采用 AI 工具如何影響科學家的產出、引用和職業生涯?
集體生產關系:AI 的廣泛應用是否改變了科學探索的廣度和多樣性?
機制探究:這種新的個體與集體之間的張力是如何產生的?
主要研究發現
個體層面的“buff”
![]()
圖1:AI 擴大了論文影響力并促進了研究人員的職業生涯。a, AI 論文(紅色)與非 AI 論文(藍色)發表后的平均年引用次數(插圖顯示了前 1% 和前 10% 的情況;樣本量 n = 27,405,011),結果顯示 AI 論文吸引了更多引用。b, 使用 AI 的研究人員與未使用 AI 的同行(對照組)的平均年引用次數(P < 0.001,樣本量 n = 5,377,346),其中采用 AI 的研究人員獲得的引用次數是未采用者的 4.84 倍。c, 采用 AI 的初級科學家與未采用 AI 的同行之間兩種角色轉變的概率(每個領域 n = 46 年的觀測值)。與未采用 AI 的同行相比,采用 AI 的初級科學家成為知名研究者(established researchers,即項目負責人)的概率更高,而退出學術界的概率更低。d, 從初級科學家向既定研究者轉變的生存函數(P < 0.001,樣本量 n = 2,282,029)。生存函數可以很好地用指數分布擬合,結果表明采用 AI 的初級科學家更早成為既定研究者。對于所有面板,99% 置信區間(CIs)均以誤差條形式顯示,其中圖 a 的插圖以 1% 和 10% 分位數為中心,其他子圖以均值為中心。所有統計檢驗均使用雙側 t 檢驗
從事 AI 增強研究的科學家,其發表論文數量是未使用 AI 同行的 3.02 倍,獲得的引用次數更是高達 4.84 倍。這種優勢在控制了早期職業地位后依然存在,表明 AI 本身就是造成差異的重要因素。
AI 的使用加速了初級科學家向既定研究者(項目負責人)的轉變。采用 AI 的初級科學家成為項目負責人的時間比同行平均縮短了 1.37 年,且不僅增加了晉升概率(高出 13.64%),還降低了退出學術界的風險。
![]()
圖2: AI 研究與研究團隊規模的縮小有關,平均減少了 1.33 名科學家(P < 0.001,樣本量 n = 33,528,469)。具體而言,初級科學家(junior scientists)的平均數量從非 AI 團隊的 2.89 人減少至 AI 團隊的 1.99 人(降幅 31.14%),而既定科學家(established scientists)的數量從 4.01 人減少至 3.58 人(降幅 10.77%)。
需要注意的是 AI 輔助的研究團隊規模通常更小,平均減少了 1.33 名成員,且主要減少的是初級科學家。這暗示 AI 可能正在替代部分初級研究人員的數據處理和模式識別工作。
集體層面的收縮視野
然而,個體層面的繁榮背后,隱藏著科學探索整體視野的狹窄化。
研究引入了“知識廣度”(Knowledge Extent)這一指標,即論文集合在向量空間覆蓋的“直徑”。結果顯示,與傳統研究相比,AI 驅動的研究在所有學科中都導致了集體知識廣度的收縮,中位數下降了 4.63%。
AI 研究的知識分布熵值更低,表明研究焦點日益不成比例地集中在特定領域的現有熱門問題上,而非探索新的領域。
![]()
圖3:AI 的采用與科學領域內外知識程度的收縮有關。a,研究團隊使用預訓練的文本嵌入模型將研究論文嵌入 768 維向量空間;然后測量該空間內論文的知識程度。b,為了可視化,研究團隊使用 t 分布隨機鄰域嵌入 (t-SNE) 算法將隨機批次 10,000 篇論文 (其中一半是 AI 論文) 的高維嵌入平鋪到二維圖中。如實心箭頭和圓形邊界所示,在整個自然科學領域,AI 論文的知識程度 (在未平鋪的空間中計算) 較小。此外,AI 論文在知識空間中更加集中,表明對特定問題的關注更加集中。c,每個領域中 AI 和非 AI 論文的知識程度 (P<0.001,每個領域中 n = 1,000 個樣本),其中 AI 研究側重于更加收縮的知識空間。d,每個領域人工智能和非人工智能論文的知識熵 (P<0.001,每個領域 n = 1,000 個樣本),其中人工智能研究的熵較低。對于面板 c 和 d,方框圖以中位數為中心,以第一和第三四分位數 (Q1 和 Q3) 為界。所有統計檢驗都使用中位數檢驗。
如圖 3 所示,在嵌入向量空間的可視化中,AI 論文(紅色點)相比非 AI 論文(藍色點)在知識空間上的分布更為聚集,覆蓋范圍更小。這意味著 AI 正引導科學界在“已知”的數據豐富區域深耕,而非向“未知”的邊緣拓展。
互動的減少與焦點的固化
為何 AI 會導致科學關注點的收縮?研究揭示了深層的互動機制變化。
研究分析了引用同一篇 AI 論文的后續論文之間的關系,發現它們彼此引用的頻率比非 AI 領域低了22%。這表明 AI 研究往往形成圍繞特定熱門成果的“星狀結構”,而非相互交織的“網絡結構”。AI 論文引發的后續研究更像是“孤獨的群體”,彼此缺乏對話。
![]()
圖4:AI 與非 AI 論文的引用分布情況。AI 論文往往更多地集中在少數頂尖論文上(P < 0.001,n = 100 個采樣論文組),表現出更強的馬太效應。
AI 領域的引用分布極不均衡。前22.20%的頂尖論文占據了80%的引用量,其基尼系數(0.754)顯著高于非 AI 論文(0.690)。這種符合“二八定律”的局面進一步強化了對少數熱門主題的關注。
分析顯示,數據可用性是 AI 選題的主要驅動因素。AI 傾向于涌向那些數據最豐富的領域,從而導致知識空間的集中,而那些缺乏數據的基礎性或新興問題則可能被邊緣化。
討論與啟示
這項研究揭示了一個加速后的兩難。AI 既是科學家個人成功的加速器,也可能是科學集體探索的減速帶。
科學家為了追求更高的產出和影響力,有強烈的動力采用 AI。然而,這種微觀上的理性選擇,在宏觀上卻導致了科學界扎堆解決已知問題,甚至是在重復性地優化現有方案,而非開辟新天地。
這一發現對科學政策提出了挑戰。僅僅增加對 AI 科研的資助可能會加劇“富數據”領域的擁擠,而忽視那些數據稀缺但至關重要的基礎問題。
為了保持科學探索的多樣性,至少未來的 AI 系統不應僅局限于認知能力的增強(如數據分析),更需要擴展“感知和實驗”能力(Sensory and experimental capacity)。我們需要能幫助科學家收集新數據、探索未知領域的 AI,而不僅僅是處理現有數據的 AI。
該研究的局限性
研究團隊指出了本工作的幾個局限性,需要予以考量:
識別方法的局限:使用的 BERT 模型雖然經過專家驗證,但可能遺漏了一些微妙或未在摘要中明確提及的 AI 使用情況
樣本范圍:研究聚焦于自然科學,排除了計算機科學和數學(AI 方法的誕生地),也未包含社會科學等領域,這可能限制了結論的普適性。
因果關系的復雜性:盡管使用了對照分析,但難以完全確定 AI 采用與科學影響之間的嚴格因果鏈條,且目前主要反映的是基于數據處理和模式識別的 AI 應用(如機器學習、深度學習),對新式 AI 的長期影響分析顯然處于初步階段
AI 正在以前所未有的速度重塑科學界。它讓科學家跑得更快,但也可能讓我們跑在同一條擁擠的跑道上。如何在利用 AI 提升效率的同時保持科學探索的廣度與好奇心,是該團隊認為的未來科學發展的關鍵命題。
AI 黑箱或許在促進個體的認知擴張的同時
也導致了集體的行動收縮
結合集智俱樂部昨日解讀Science 論文 (Kusumegi et al., 2025,詳情請見《》),我們會發現我們似乎面臨一個悖論:
? Science:LLM 讓科學家引用了更多跨學科、跨文化、更老或更新的文獻,似乎拓寬了視野。
? nature:AI 工具(主要是 ML/DL)導致科學探索的視野收縮。
這并非立場的沖突,而是通過不同的切面拼湊出了完整的科研圖景——現在我們讀得更廣,做得更窄。
LLM 作為輔助工具,確實幫助我們跨越了語言和閱讀障礙,讓我們能“看到”——至于人是否真的看了我們無從得知——更多的東西。但是,當涉及到核心的科學發現環節時,算法的本質鼓勵了我們只能去那些有數據富集的領域,導致我們的原型(archetype)選擇變得擁擠和趨同。
對于黑箱以外的觀察是信息攝入(Input)變寬了,但我們的知識生產(Output)變窄了。所以現在的局面就變成了一種很微妙的反向約束。AI 在閱讀端幫我們打破了壁壘;但在生產端,其“數據饑渴”的屬性又把我們按回了那些最擁擠的熟地里。這里有一個案例:MOSAIC(Multiple Optimized Specialists for AI-assisted Chemical Prediction)基于 Llama-3.1-8B-instruct 架構構建,通過在 Voronoi 聚類空間中訓練 2498 個專業化學專家模型,為復雜合成提供具有置信度指標的可復現、可執行的實驗方案。(Li et al., 2026, p. 1) 然而,MOSAIC 的運作機制也恰恰印證了 Nature 論文所指出的隱憂。MOSAIC 之所以強大,是因為有數百萬反應方案的既有數據供其挖掘。這種基于海量歷史數據訓練出來的專家混合模型,本質上是在“自動化既有領域(automate established fields)”(Hao et al., 2026),在已知的數據空間里進行極致的優化和預測。
與其說是 AI 限制了我們,不如說是我們為了追求發表效率,主動選擇了去摘那些 AI 夠得著的低垂果實,即使是以一種極其繁復的手段。結果就是大家方法越來越花哨,做出來的東西卻越來越像。未來的挑戰之一可能不在于怎么用 AI 分析數據,而在于怎么用 AI 去那些沒有數據的地方“感知”出新數據來。
論文作者:
參考文獻
Hao, Q., Xu, F., Li, Y., & Evans, J. (2026). Artificial intelligence tools expand scientists’ impact but contract science’s focus. Nature. https://doi.org/10.1038/s41586-025-09922-y
Kusumegi, K., Yang, X., Ginsparg, P., de Vaan, M., Stuart, T., & Yin, Y. (2025). Scientific production in the era of large language models. Science, 390(6779), 1240–1243. https://doi.org/10.1126/science.adw3000
Li, H., Sarkar, S., Lu, W., Loftus, P. O., Qiu, T., Shee, Y., Cuomo, A. E., Webster, J.-P., Kelly, H. R., Manee, V., Sreekumar, S., Buono, F. G., Crabtree, R. H., Newhouse, T. R., & Batista, V. S. (2026). Collective intelligence for AI-assisted chemical synthesis. Nature, 1–3. https://doi.org/10.1038/s41586-026-10131-4
AI+Science 讀書會
AI+Science 是近年興起的將人工智能和科學相結合的一種趨勢。 一方面是 AI for Science,機器學習和其他 AI 技術可以用來解決科學研究中的問題,從預測天氣和蛋白質結構,到模擬星系碰撞、設計優化核聚變反應堆,甚至像科學家一樣進行科學發現,被稱為科學發現的“第五范式”。 另一方面是 Science for AI,科學尤其是物理學中的規律和思想啟發機器學習理論,為人工智能的發展提供全新的視角和方法。
集智俱樂部聯合斯坦福大學計算機科學系博士后研究員吳泰霖(Jure Leskovec 教授指導)、哈佛量子計劃研究員扈鴻業、麻省理工學院物理系博士生劉子鳴(Max Tegmark 教授指導),共同發起以”為主題的讀書會,探討該領域的重要問題,共學共研相關文獻。 讀書會已完結,現在報名可加入社群并解鎖回放視頻權限。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.