![]()
智東西
編譯 程茜 王涵
編輯 李水青
智東西4月14日消息,昨日晚間,美國斯坦福大學以人為本AI研究院(HAI)發布長達423頁的《AI指數報告2026》,報告提到全球頂尖AI模型的性能格局,正呈現中美交替領先的態勢。
這一長篇報告全面統計了中美AI模型競爭態勢、開閉源模型競爭、AI投融資、算力等領域的最新數據和進展。
《AI指數報告2026》核心信息提煉如下:
1、頂尖模型:2025年AI產業界產生超90%的頂尖模型,若干模型達到或超過人類基線。全球頂尖模型貢獻方前三為OpenAI、谷歌、阿里巴巴。
2、中美差距:頂尖模型仍集中在全球少數國家手中,過去一年中美模型差距在近乎持平到個位數的區間內波動。
2025年2月,DeepSeek-R1僅以0.4%的差距落后于當時領先的美國模型o1-2024-12-17。截至2026年3月,美國Claude Opus 4.6領先字節的Dola-Seed-2.0 Preview,差距為2.7%。
![]()
3、學術論文:中國AI論文發表數量、引用次數、專利產出上位居全球第一。
4、算力需求:2025年全球總算力規模達到1710萬塊H100等效算力。數據中心層面,美國共運營5427個數據,中國排第4為449個。
5、AI投資:全球2025年AI總投資5816.9億美元(約合人民幣3.97萬億元),私募投資中生成式AI企業投資同比增長200%。地域分布上,AI總投資額美國第一、中國第二。此外,2000-2023年間,中國政府引導基金已向AI企業投入約1840億美元(約合人民幣1.25萬億元)。
6、AI發展風險:當下AI發展需要警惕三大風險:最強模型透明度變低;基準測試的可用性降低;AI實用性不足,大模型拿下奧數金牌卻看不懂時鐘。
《AI指數報告2026》聯合主席約蘭達·吉爾(Yolanda Gil)、雷蒙德·佩羅(Raymond Perrault)在報告中寫道,生成式AI僅用三年時間,就實現了近53%的全球人口級滲透,遠超個人電腦與互聯網。AI有望成為21世紀最具變革性的技術,但若缺乏審慎引導與規范,其發展紅利恐難以均勻分配。
多家外媒在分析報告時提到,在AI領域,中國與美國的差距幾乎已經消失。
![]()
一、AI論文、引用、專利數中國第一,美國運營5427個數據中心、中國449個
2025年整體來看,支撐AI發展的資源投入仍在持續增長,但其中有兩大風險。
首先,重磅模型發布數量較上年有所減少,前沿AI系統愈發集中在極少數機構手中,但模型的訓練代碼、數據集規模、參數量等核心信息開源大幅減少。
其次,自2022年以來這些模型背后的算力需求每年增長約3.3倍,但幾乎所有算力都依賴中國臺灣的臺積電,導致全球硬件供應鏈很脆弱。
1、產業界主導90%以上頂尖AI模型,但最強模型透明度變低
2025年,超過90%的標桿AI模型由企業打造,報告顯示,2025年美國共發布50個標桿AI模型,位居全球第一;中國發布30個,位列第二;韓國發布5個,加拿大、法國、中國香港、英國各發布1個。
![]()
在產業界,2025年全球頂尖模型貢獻方為OpenAI(19個)、谷歌(12個)、阿里巴巴(11個),在學術界,過去十年產出最豐碩的機構為清華大學(26個)、斯坦福大學(26個)、卡內基梅隆大學(25個)。
![]()
但OpenAI、Anthropic、谷歌等頭部廠商的多款超大規模模型,已不再公開訓練代碼、參數量、數據集規模、訓練時長等核心技術細節。2025年,95個標桿模型中有80個未公開對應的訓練代碼,僅4個將代碼完全開源。
![]()
2、總算力規模達到1710萬塊H100等效算力
2008年至2025年間,機器學習硬件的峰值計算性能呈指數級增長,FP16、Tensor-FP16/BF16等低精度格式,已成為多數訓練與推理場景的標準配置。
![]()
主流芯片廠商的AI算力供給持續擴張,自2022年起,總算力規模以每年約3.3倍的速度增長,達到約1710萬塊H100等效算力。
![]()
2025年美國運營5427個數據中心,數量是其他任何國家的10倍以上;德國529個、英國523個、中國449個緊隨其后,其余多數國家的數據中心數量均不足300個。
![]()
3、中國AI出版物、AI論文引用量,領跑全球
2024年,中國以17.8%的AI出版物占比位居全球第一,歐洲為11.1%,印度為7.6%;在AI論文引用量上,中國同樣以20.6%的占比領跑,歐洲19.5%、美國為12.6%。
![]()
高引用論文中,美國居高引論文數量第一,但份額持續下滑,中國份額持續攀升,從2023年的34篇增至2024年的41篇。
![]()
4、中國AI專利數量全球第一,占比達74.2%
全球已授權AI專利數量從2010年的3866件飆升至2024年的131121件。2023-2024年,授權專利量同比增長8.2%。其中,中國占據全球絕對主導地位,占全球總量的74.2%,美國占比12.1%位居第二。
![]()
5、模型規模擴張遠超能效提升
訓練環節,機器學習硬件的能效持續提升,但模型規模的擴張速度遠超能效提升,因此訓練前沿系統所需的總功率仍在持續增長。大模型通常碳排放更高,但DeepSeek V3的碳排放約為597噸,遠低于同規模其他模型。
![]()
推理環節,2025年能耗排名前15的模型中,DeepSeek V3.2 Exp與DeepSeek V3.2單查詢能耗最高,達23Wh;GPT-5(high)以21.9Wh緊隨其后。即使同年發布的模型,能耗與碳排放也存在巨大差異,這表明推理能效存在顯著分化,模型能力強弱與環境成本并非正相關。
![]()
二、中美模型交替領先,頭部模型分差縮小
當下,頭部模型之間的性能差距正在持續縮小,且中美頂尖模型之間的性能鴻溝也在縮小。這或許意味著行業競爭焦點將轉向成本、可靠性與真實世界實用性。
1、中美模型差距徹底收窄
過去一年,中美模型的性能差距始終在近乎持平和個位數小幅領先之間波動。
![]()
截至2026年3月,在Arena Leaderboard的人類投票評估中,Anthropic、xAI、谷歌、OpenAI四家頭部廠商的模型Elo分差不足25,阿里巴巴、DeepSeek等緊隨其后。性能差距收窄后,行業競爭焦點從基準跑分轉向成本、延遲、可靠性、垂直領域優化等工程化能力。
![]()
2、開閉源模型差距被拉開
開源與閉源模型的性能差距在2024年短暫收窄后,2025年再度擴大。截至2026年3月,頭部閉源模型領先開源模型3.3%;Arena排行榜前10模型中,6款為閉源模型。
![]()
3、基準測試可靠性持續下滑,無效問題率最高達42%
用于衡量AI進展的基準測試,正面臨越來越嚴重的可靠性與刷榜問題。9個主流基準中,無效問題率從MMLU Math的2%到GSM8K的42%不等。
![]()
4、奧數拿金牌,卻無法準確讀時鐘
AI可斬獲國際數學奧林匹克(IMO)金牌,卻無法準確讀表,凸顯能力“鋸齒狀前沿”(大模型能力分布極度不均衡)。
Gemini Deep Think在IMO中奪得金牌,但頂尖模型讀取模擬鐘表的正確率僅為50.1%。AI智能體在真實計算機任務上的成功率從12%躍升至約66%,可跨操作系統運行,但在結構化基準測試中仍有約1/3的嘗試失敗。
![]()
5、AI能力持續超越基準,人類級測試快速飽和
AI能力的提升速度,已遠超為衡量它而設計的基準。原本設計用于多年追蹤進展的高難度測試,在數月內就被模型飽和,大幅壓縮了基準的有效生命周期。
三、生成式AI普及增速遠超PC、互聯網,全球AI投資近6000億美元
生成式AI在面向大眾市場推出后,三年時間實現了近53%的人口滲透率,增速超過個人電腦與互聯網,這種快速普及正在轉化為實實在在的價值:截至2026年初,美國消費者從生成式AI中獲得的年度剩余價值,預計達到1720億美元。
![]()
▲2025年關鍵AI事件
1、全球企業AI投資翻倍,美國主導全球私募AI投資
2025年,全球AI總投資達到5816.9億美元,同比增長129.9%。2025年全球AI私募投資總額達到344.7億美元,同比增長127.5%,其中生成式AI企業貢獻了170.9億美元,占全部私募AI投資的近一半,同比增長超200%。
![]()
從投資總額和新融資企業數量來看,全球AI私募投資都高度集中在少數國家。
2025年的AI總投資額美國為近2859億美元位居全球第一,中國124億美元位居第二,英國59億美元位居第三。在美國,超半數私募AI投資流向生成式AI,規模達1636億美元;中國與歐洲的生成式AI投資合計為47億美元。
![]()
但報告特別提到,私募數據嚴重低估中國AI總投入,2000-2023年間,中國政府引導基金已向AI企業投入約1840億美元。
此外,2025年AI初創企業私募投資按賽道拆分顯示,資本大幅向AI基礎設施搭建與規模化的上游環節傾斜。
![]()
2、AI公司營收爆發式增長,算力成本同步創歷史新高
AI公司營收以歷史最快速度增長,但算力成本與基礎設施開支也同步創下紀錄。頭部企業短期內實現可觀營收規模,同時算力開支同比大幅攀升。
如下圖所示,OpenAI、Anthropic、xAI、Mistral AI、智譜等頭部AI企業的年化營收估算,在近年實現了快速增長。
![]()
主流云服務商加速資本開支,2025年谷歌年度資本開支超1500億美元。
![]()
3、生成式AI三年滲透率達53%,速度超PC、互聯網
生成式AI僅用三年實現53%的滲透率,增速超過個人電腦與互聯網。
2025年,企業AI adoption率持續上升,受訪組織中生成式AI已在70%的企業中用于至少一項業務職能,中國與歐洲同比增速最高。AI Agent在幾乎所有業務職能中的部署率仍僅為個位數,處于早期階段。
![]()
4、AI對就業市場影響不均,1/3企業預期裁員
在就業市場22-25歲軟件開發者的就業率較2024年下降近20%。
![]()
雇主調研中,1/3組織預期未來一年將裁員,近半數受訪組織預期崗位無變化。服務運營、供應鏈、軟件工程等領域的裁員預期最高。幾乎所有公司中,預期裁員規模均已超過實際已發生的裁員。
四、負責任AI發展嚴重滯后于AI能力
最新研究表明,提升某一項負責任AI維度,往往會以犧牲另一項為代價:如隱私保護的提升,可能導致公平性下降;安全性的增強,可能伴隨準確率降低。報告顯示,目前尚無框架可平衡這些取舍;對于公平性、隱私性、可解釋性等維度,也缺乏可追蹤長期進展的標準化數據。
1、負責任AI基準測試增長,但嚴重滯后于AI技術迭代
幾乎所有前沿模型廠商,都會披露MMLU、SWE-bench等能力基準的結果,但負責任AI基準的報告率始終極低。且有記錄的AI安全事件持續攀升,AI事件數據庫2025年記錄362起,2024年為233起。
![]()
在一項用于區分已知事實與主觀信念的全新基準KaBLE上,26款頂尖模型的幻覺率區間為22%至94%:GPT-4o的準確率從98.2%跌至64.4%,DeepSeek R1從90%降至14.4%。當錯誤陳述被包裝為他人的信念時,模型無法有效甄別。
![]()
2、AI在英語外表現大幅滑坡,方言差距更顯著
AI在英語場景表現最優,非英語場景的性能差距大于全球基準的表面數據。在HELM阿拉伯語測試中,專為阿拉伯語訓練的專用模型,表現超越了GPT-5.1、Gemini 2.5 Flash。
![]()
在斯洛文尼亞常識推理測試中,多款頂尖模型用區域方言測試時,準確率較標準語版本下跌近50%。
![]()
3、AI企業透明度不升反降
基礎模型透明度指數(FMTI)在2023-2024年從37分升至58分后,2025年平均得分回落至40分。在訓練數據、計算資源、部署后影響等核心維度,企業披露仍存在缺口。
![]()
五、AI4S論文年增26%,但復現任務遭遇瓶頸
2024年諾貝爾化學獎授予了德米斯·哈薩比斯、約翰·江珀和戴維·貝克,以表彰他們在AI驅動的蛋白質結構預測與設計方面的貢獻。到了2025年,AI不再局限于優化單個流程環節,而是開始替代整個科研工作流。然而,最前沿的智能體在論文級復現任務中的成功率不到20%,與實際科研還存在較大壁壘。
在Web of Science數據庫中,自然科學領域與AI相關的論文發表量從2024年的63547篇增至2025年的約80150篇,一年內增長約26%。其廣泛性表明,AI方法正成為各學科科研實踐中常規組成部分。
![]()
六、AI臨床推理超越醫生,AI摘要開始影響用戶健康理解
2025年,AI在醫學領域取得了多方面進展,但強大的模型性能并未完全地轉化為現實世界的臨床影響力。
1、多智能體協同成為生物醫學研究發展趨勢
2025年,科學發現的自動化探索聚焦于將數字推理與物理實驗驗證相結合,Robin、STELLA、Agent Laboratory、Virtual Lab等智能體已經有了相關進展,代表了生物醫學研究中向多智能體協同發展的早期趨勢。
2、AI在臨床推理的表現優于醫生
在實驗評估中,OpenAI的o1-preview已經超越了大多數現有的真人醫生的臨床推理基準,但它們反映的是孤立的認知評估,而非現實世界的臨床整合。
![]()
3、AI摘要影響用戶健康理解
在五類主要查詢類型中,平均有84%至92%的健康相關查詢會觸發谷歌的AI Overview,影響著大多數用戶對所提問題的初步理解。
![]()
七、AI教育普及90%國家,但課程與師資滯后
在全球范圍內,大學和K-12階段的學生都在大量使用AI工具,但針對AI的專門課程和教師培訓仍然有限。
1、AI研究轉向研究生階段
2024年至2025年間,美國四年制大學的計算機科學入學人數下降了11%,但AI相關研究生項目持續增長。
![]()
2、全球AI教育已普及90%,中國進展亮眼
目前超過90%的國家已向中小學生提供計算機科學教育,但AI教育的普及速度較慢,其中,在中國,北京、廣東和杭州在2025年5月發布的《中國中小學人工智能教育通識指南(2025年版)》和《中小學生生成式人工智能使用指南(2025年版)》之后,均于2025-26學年開始要求開展AI教育。
![]()
3、印度人最喜歡在領英中體現AI技能
根據領英數據,印度用戶最喜歡在個人資料中體現AI技能,以3.0的滲透率領先,意味著其會員個人資料中AI技能的出現頻率幾乎是全球平均水平的三倍,其次是美國(2.0)和德國(1.8)。
![]()
八、中美模型發布量占壟斷地位,中國領跑基礎設施
在全球范圍內,各國政府開始投資建設并維持自身在構成該技術的基礎設施、模型等方面的能力。
1、中國在國家超算數量上大幅領先
AI計算基礎設施,包括高性能GPU集群和AI優化型超級計算機,已成為AI主權投資最顯著的領域之一。根據Epoch AI追蹤用于訓練先進AI模型的大規模GPU集群的數據,2010年至2025年間,國家支持的AI超算在大多數地區都有所擴展。其中,中國擁有最多,為85個。
![]()
2、中美大模型發布數量占主導地位
在AI模型開發數量方面,中國和美國依舊占主導地位。根據Epoch AI追蹤公開報道的模型發布數據,2018年至2025年間,美國累計發布的模型數量從237個增長到1618個。中國在2022年至2025年間模型發布數量從151個增長到849個,增長超過五倍。由于開源生態的逐漸完善,越來越多的地區正在構建和部署自己的模型。
![]()
結語:中美AI實力差距縮小,形成相互制約促進關系
從報告來看,中美在模型性能上已形成動態平衡,中國憑借論文專利、開源生態、基礎設施布局和工業應用優勢,在全球AI產業鏈中占據關鍵位置;而美國在資本、數據中心和閉源創新上仍具領先。
未來勝負手,或許將在于誰能更好解決能源約束、提升真實世界可靠性和實現普惠落地。通過負責任的治理、綠色基礎設施建設和人機協同創新,AI紅利將更均勻地惠及全球,避免技術鴻溝繼續擴大。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.