【文/觀察者網 心智觀察所】
前幾天,斯坦福大學人本人工智能研究院(HAI)發布的《2026年AI指數年度報告》,是當前全球范圍內最具系統性和數據密度的AI領域綜合評估文獻之一。這份長達數百頁的年度報告,覆蓋了從研發管線、技術性能到經濟影響、公共政策的全景圖譜,其數據來源橫跨Epoch AI、OpenAlex、GitHub、Hugging Face、Cloudscene等多個獨立數據庫,分析框架嚴謹、引用鏈條完整,在學術圈和政策圈的影響力毋庸置疑。
然而,正因其權威性,對它的批判性閱讀才更為重要。
報告在中美AI競爭這一核心議題上提出了一個標志性判斷——“中美AI模型性能差距已實質性閉合”(The U.S.-China AI model performance gap has effectively closed,如下圖)。簡單說,就是差距已經可以忽略了。
這個結論本身并無問題,甚至可以說是對當下事實的準確描述。但問題在于,報告圍繞這一結論所搭建的論證結構,存在若干邏輯上的不周延之處;而更關鍵的是,這份報告受限于其方法論框架和數據覆蓋范圍,對“中國AI模型為什么能追平,以及憑什么可能超越”這個問題,留下了大量未被講透的空間。
![]()
先看報告的核心論據。報告以LMArena的Elo評分體系作為中美模型性能比較的主要標尺。數據顯示,2025年2月,DeepSeek-R1以1400分一度逼平美國頂尖模型o1的1405分,差距僅0.4%;截至2026年3月,Anthropic的Claude Opus 4.6以1503分領先中國最佳模型Dola-Seed-2.0 Preview的1464分,差距2.7%。報告據此得出“差距閉合”的判斷,邏輯上是站得住腳的。但這里存在一個方法論層面的深層問題:Arena排行榜本身的可靠性正在被質疑。
報告自身也引用了Singh等人2025年的研究,指出Arena的排名可能部分反映的是對平臺本身的適應性優化,而非模型的通用能力。如果評價標尺本身可能存在系統性偏差,那么基于該標尺得出的“差距閉合”結論,其置信度就需要打一個折扣——但報告在表述上并未對此做出充分的限定。更深層的問題在于,Arena的Elo評分本質上測量的是“用戶偏好”而非“客觀能力”。
用戶在盲測中選擇偏好的輸出,這種評價方式天然偏向流暢性、風格化和指令遵從度,而非推理深度、專業準確性或長鏈條任務完成率。中國模型在這些軟性維度上的進步是真實的,但如果我們關注的是AI在科學發現、工程實踐和復雜決策中的實際效用,Arena并不是最合適的衡量工具。
報告在專業領域基準測試如SWE-bench、FrontierMath、CorpFin等上的數據呈現,主要以模型名稱排列而非按國別分組,這使得讀者難以直觀地判斷中美模型在這些更硬核的評估維度上的相對位置。這不是一個疏忽,而是一種分析框架上的選擇,但這種選擇客觀上遮蔽了中國模型在多個專業領域已經進入第一梯隊這一事實。
還有一個容易被忽略的邏輯問題存在于報告對“透明度”的論述中。報告在第一章反復強調,美國前沿實驗室如OpenAI、Anthropic、Google正變得越來越不透明——訓練代碼、參數量、數據集規模、訓練時長等關鍵信息不再公開披露。
報告將此視為阻礙外部研究者復現和審計的障礙,這一判斷完全正確。但報告沒有追問的是:這種不透明對中美比較本身意味著什么?當美國模型的訓練計算量只能通過間接方法估算,而中國模型如DeepSeek-V3反而公開了詳細的訓練信息時,報告圖表中“美國模型訓練計算量遠高于中國”的視覺印象,實際上可能部分來自估算方法對不透明模型的高估。
報告在腳注中提到Epoch AI對訓練計算量的估算方法包括“基于硬件規格推算”和“基于基準性能反推”,這些間接方法對于未披露信息的模型存在較大的不確定性區間。但在正文的圖表呈現中,美國模型和中國模型的數據點被放在同一坐標系中,未做任何不確定性標注,給讀者造成了一種精確對比的錯覺。
接下來看報告在研發管線分析中的邏輯鏈條。
第一章詳細追蹤了“顯著AI模型”的國別分布,2025年美國發布50個、中國發布30個。這個數據來自Epoch AI的人工遴選數據庫,篩選標準包括“前沿性突破”、“歷史意義”、或“高引用率”等。報告也承認這并非所有AI模型的普查,而是一種基于專家判斷的策展。問題在于,Epoch AI作為一個主要由西方學術圈運營的數據庫,其對“顯著性”的判斷標準是否對中國模型存在系統性的低估?
中國的AI模型生態如魔搭社區、百度飛槳等活躍于國內平臺,而非Hugging Face或GitHub的項目,這些模型在Epoch AI的篩選網絡中天然處于低可見度的位置。報告在開源軟件部分也坦承,中國開發者大量使用Gitee和GitCode等國內平臺,而這些平臺的數據并未被納入分析——報告甚至在腳注中明確標注了這一點。這意味著,“美國50個vs中國30個”這一看似清晰的數量對比,實際上可能建立在不對稱的數據采集基礎之上。報告的誠實之處在于它沒有掩飾這一局限,但其不足之處在于它沒有對這一局限的潛在影響做出定量或定性的修正。
![]()
中美主流模型序列發布時間線(截圖自該報告)
在算力和基礎設施維度上,報告提供了一個極具沖擊力的數據點:美國擁有5427個數據中心,是排名第二的德國(529個)的十倍以上,中國僅449個。但報告自己也提醒,數據中心的數量并不等于計算容量或利用率。
事實上,中國的數據中心建設采用了與美國截然不同的集約化模式——更少但更大、更集中、更面向AI訓練優化的超大規模設施。騰訊、阿里巴巴、字節跳動的智算中心單體算力密度,在全球范圍內處于領先水平。將“數據中心數量”作為AI基礎設施實力的代理指標,其實質是用美國的基礎設施范式去度量中國的基礎設施投入,這在方法論上是有偏差的。
報告在論述中國AI發展時,還遺漏了幾個關鍵的結構性優勢。第一是效率路徑的范式意義。DeepSeek-V3的訓練碳排放僅597噸二氧化碳當量,而同期美國模型Grok 4高達72816噸,兩者相差超過120倍。報告將此數據呈現在環境影響章節中,但并未將其與中美競爭敘事打通。
事實上,DeepSeek-R1引入的GRPO訓練方法,通過對比一組生成輸出而非依賴獨立評審模型來訓練推理能力,所代表的不僅僅是一種技術創新,而是一種資源約束驅動的效率范式。在芯片禁令的壓力下,中國模型被迫走向用更少資源做更多事的路徑,而這種路徑一旦走通,其可擴展性反而可能超過美國式的暴力堆算力模式。報告承認DeepSeek-R1的發布引發了美國科技股超過一萬億美元的市值波動,但對這種效率優勢的長期戰略意義缺乏深入分析。
在應用落地的速度和規模方面,報告提到中國Apollo Go在2025年完成了1100萬次完全無人駕駛出行,同比增長175%,而美國Waymo的周出行量約45萬次。簡單換算,Apollo Go的年化出行量是Waymo的約四到五倍。但報告將這一數據點放在了自動駕駛技術進展的敘述中,而非中美競爭分析的框架內。類似的遺漏還出現在工業機器人安裝量(報告在摘要中提到中國領先但未在前兩章展開)、AI在制造業和供應鏈中的滲透率等維度上。
![]()
中美AI模型的碳排放
中國AI的比較優勢,很大程度上不在于“模型能力的峰值”而在于“從模型到產品到大規模部署”的全鏈條速度,而這恰恰是當前報告的分析框架——以基準測試和論文計量為核心——難以捕捉的。
有關開源生態的戰略縱深,報告記錄了一個值得深思的數據趨勢:在Hugging Face的模型下載份額中,美國開發者的占比從2020年的超過70%下降到2025年的不足25%,而中國開發者和“無國別標注”用戶的份額持續上升。阿里巴巴的Qwen系列、DeepSeek系列、智譜的GLM系列,在全球開源社區中的影響力已經與Meta的Llama形成了正面競爭。
報告在組織維度的數據中顯示,2025年阿里巴巴發布了11個顯著模型,僅次于OpenAI的19個和Google的12個,超過了Anthropic和Meta。但報告并未將這一趨勢放進中美競爭的分析框架中討論其戰略含義:中國企業正通過開源模型在全球范圍內建立開發者生態和技術標準影響力,“模型數量”和“基準評分”之外的一種全新競爭維度正在形成。這種通過開源輸出技術影響力的路徑,與中國在5G標準制定中的經驗一脈相承,但報告對此完全沒有觸及。
除此之外,報告詳細記錄了一個引人注目的趨勢:流入美國的AI研究人員自2017年以來下降了89%,僅過去一年就下降了80%。但報告在人才部分的數據來源Zeki并不覆蓋中國,這意味著我們看到了美國人才吸引力的衰退,卻無法看到中國人才池的擴張。中國每年培養的STEM博士數量已超過美國,且中國在全球高被引AI論文Top 100中的份額從2021年的33篇增長到2024年的41篇,首次逼近美國的46篇。清華大學在Epoch AI的累計顯著模型榜中與斯坦福并列第一(各26個)。
如果把這些散落在報告各處的數據點串聯起來,呈現的圖景遠比“差距閉合”更具沖擊力,它指向的是一種可能的“交叉”(crossover),而非僅僅是“追平”。
報告在投資數據上的處理方式也有不小的問題。報告指出2025年美國AI私人投資達2859億美元,是中國124億美元的23倍以上。但報告自己也在腳注中承認,僅看私人投資“可能低估了中國的AI總支出,因為中國有政府引導基金”。這種將核心修正條件放在腳注中的處理方式,在學術寫作中并不罕見,但對于一份面向政策制定者和媒體的報告而言,其效果是使正文中“23倍差距”的數字獲得了遠大于其實際信息量的傳播力。
中國政府通過國家大基金、地方政府AI產業基金、國有企業研發投入等渠道注入AI領域的資本規模,目前缺乏可靠的公開估算,但多個獨立來源認為其量級遠超私人投資的口徑。報告對此的處理,稱不上是誤導,但確實構成了一種系統性的低估。
綜合來看,斯坦福AI指數報告的核心判斷“中美AI差距已經閉合”是準確的,但這份報告并沒有完整地解釋這個故事。
中國AI的競爭力不僅來自模型性能本身的追趕,更來自效率范式的突破、應用落地的加速、人才厚度的積累、以及國家戰略與產業生態的深度耦合。在一個Arena評分差距僅2.7%的世界里,決定下一階段競爭格局的變量,很可能不是誰的模型在基準測試上多得幾分,而是誰能更快地將模型能力轉化為產業價值和社會效用。在這些真正決定勝負的維度上,中國不僅不亞于美國,而且在多個關鍵方向上正在建立結構性優勢。遺憾的是,這些維度恰恰是斯坦福這份以基準測試和學術計量為核心方法論的報告,最不擅長捕捉的。
![]()
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平臺觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閱讀趣味文章。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.