![]()
4月13日,斯坦福大學人本AI研究所(HAI)發(fā)布了2026年度AI Index報告。400多頁,覆蓋技術能力、投資格局、就業(yè)影響、公眾認知,是這個行業(yè)迄今最完整的第三方年度審計。
這份報告從2017年開始連續(xù)發(fā)布,今年的結論可以用一句話概括:AI的能力正在以從未有過的速度跑贏一切——跑贏監(jiān)管框架,跑贏公眾信任,跑贏教育體系,甚至跑贏AI公司自己對信息透明度的意愿。
以下是從報告中提煉的核心內容。
原文鏈接:https://hai.stanford.edu/ai-index/2026-ai-index-report
一、科學能解奧數,不會看鐘
先從一個細節(jié)說起。
今年的報告里有一張圖,橫軸是時間,縱軸是AI在各類任務上相對于人類的表現。圖上有一條線幾乎是垂直上升的:代碼能力。SWE-bench Verified——衡量AI自主完成真實軟件工程任務的標準測試——在一年之內從60%跳到了近100%。同期,AI代理處理現實任務的成功率從20%躍升至77.3%,網絡安全問題的解題率從15%飆到93%。
![]()
過去一年,Terminal-Bench 2.0 的準確率顯著提升,從 2025 年 2 月的 20%提升到 2026 年初的 77.3%(見圖 2.5.2)。
Humanity's Last Exam是一套由全球近千名領域專家共同設計的考題,專門為了難倒AI而生,覆蓋物理、數學、歷史、法律等幾乎所有高難度學科。2025年時,排名第一的模型只能答對8.8%的題目。到今天,前沿模型的得分已經超過50%。
![]()
2024 年至 2025 年間,HLE 模型準確率提高了 30 個百分點(見圖 2.4.4)。一年內,準確率從不到 10%躍升到38.3%
這不是線性增長,是躍遷。
但同一份報告里,還有另一條線——機器人完成真實家務任務的成功率,折疊衣服、洗碗這類事,至今只有12%。AI仍然不能穩(wěn)定地看懂模擬時鐘。生成連貫視頻仍然困難,多步驟規(guī)劃仍然出錯,某些專家級學術考試仍然答不對。
![]()
Gemini Deep Think 在 2025 年 IMO 中以自然語言進行首發(fā)工作,在 4.5 小時的時間限制內獲得 35 分(金),高于 2024 年獲得的 28 分銀獎。在 ClockBench 上,頂級型號能正確讀取模擬時鐘的 50.1%,而人類則為 90.1%
能力的分布是不均勻的——某些維度已經超越了人類可以驗證的范圍,另一些地方仍在爬行。這是2026年AI的真實狀態(tài),也是接下來所有問題的底色。
二、美國是中國投資額的23倍,但AI人才流入已跌了89%
2025年,全球AI私人投資達到3447億美元,同比增長127.5%。企業(yè)層面的AI投資總額達到5817億美元,一年翻了一倍多。
美國在這場軍備競賽里出手最猛。2025年,美國AI投資額2859億美元,是排名第二的中國(124億美元)的23倍。這個差距是壓倒性的。
![]()
但同一份報告里,另一組數字指向了完全相反的方向。
2017年到2026年,AI領域頂尖學者移居美國的數量下降了89%。僅在過去一年,這一數字又跌了80%。
兩組數字放在一起的含義很清楚:美國在AI上砸的錢越來越多,但能用這些錢招到的最頂尖的人越來越少。錢還在涌入,但它的邊際價值正在被人才流失侵蝕。
中國的投資邏輯與此不同。報告指出,單純以私人投資額比較,會系統性地低估中國投入AI的資本體量。中國政府通過"政府引導基金"這一機制,自2000年以來在包括AI在內的各領域累計部署了超過9120億美元。這筆錢不走市場化渠道,不出現在私人投資數據里,但它實實在在地存在。
在模型數量上,美國2025年發(fā)布了50個"值得關注"的模型,中國大約30個,差距在縮小。在工業(yè)機器人安裝量上,中國2024年安裝了29.5萬臺,美國3.42萬臺,差距是8.6倍。中美在AI上走的是兩條平行賽道,正面交鋒的地方只是其中一部分。
![]()
![]()
三、22歲的程序員已經感受到了,CEO還在說AI只是工具
就業(yè)影響的數據今年第一次清晰到無法繞開。
22到25歲的軟件開發(fā)者,從2024年以來就業(yè)人數下降了近20%。同一時期,26歲以上的同行就業(yè)人數基本持平甚至小幅增長。這不是整個軟件行業(yè)在萎縮——是AI沖擊從底部開始,精準地切掉了入門崗位。
![]()
自 2022 年以來,最年輕工人(22 至 25 歲)的就業(yè)人數有所下降,盡管年長年齡段的員工人數持續(xù)增長(見圖 4.4.29)。到 2025 年 9 月,22 至 25 歲軟件開發(fā)者的就業(yè)人數較 2022 年峰值下降了近 20%。
客服領域同樣出現了類似的模式:初級崗位在收縮,資深崗位暫時安全。
三分之一的企業(yè)高管在麥肯錫的調查中表示,預計未來一年將進一步縮減員工規(guī)模,尤其集中在服務業(yè)、供應鏈和軟件工程。這是關于未來的計劃,不是已經發(fā)生的事。已經發(fā)生的是:年輕人先感受到了。
報告的研究者同時提出了一個重要的限定:就業(yè)數據受到宏觀經濟的干擾,無法把AI的影響完全分離出來。但他們也指出了一個反常的現象——AI暴露程度低的職業(yè),失業(yè)率的上升反而高于AI暴露程度高的職業(yè)。這與"AI直接替代"的簡單敘事不符,背后可能有更復雜的勞動力市場重構正在發(fā)生。
AI帶來的生產力提升數字,報告同樣給出了:客服領域提升14%,軟件開發(fā)領域提升26%。這些增益是真實的,但享受這些增益的,是已經在崗的、有經驗的工人。新進入市場的年輕人,面對的是崗位數量本身正在減少的入口。
增益集中在上面,代價落在了底部。
四、模型越來越強,告訴你它是怎么訓練出來的公司越來越少
有一組數字在這份報告里是最少被引用的,但可能是最重要的。
Foundation Model Transparency Index,衡量主要AI公司對其模型訓練數據、計算資源、能力邊界、風險及使用政策的披露程度。這個指標去年的平均分是58分,今年跌到了40分。
報告的結論更直接:在透明度最低的模型里,往往是能力最強的那批。
![]()
人工分析開放性指數根據權重的自由訪問和許可程度,以及訓練方法和訓練前后數據的透明度,對 AI 模型進行 0 到 100 的評分。領先模型的得分較低,大多數在 100 分中的 2 到 16 分之間(見圖 3.8.1)
這是一個有意思的反轉。AI能力在加速進化,但公眾能用來理解、審查、監(jiān)督這些能力的信息,在系統性減少。大型模型的訓練數據是什么、用了多少算力、有哪些已知局限——這些本來應該隨著能力增強而更受關注的問題,正在隨著能力增強而變得更加不透明。
公眾信任的數字也在印證這件事。全球調查中,只有31%的美國人表示信任本國政府能有效監(jiān)管AI,是所有被調查國家中倒數第二(中國是27%,墊底)。歐盟的數字是53%,差距明顯。
與此同時,Gen Z對AI的情緒正在發(fā)生轉變。他們曾是生成式AI最早的熱情擁躉,現在的調查數據顯示這一人群的焦慮和憤怒在上升。TechCrunch引用的一位研究者說得更直白:AI領袖們自己都在說"如果什么都不做,很多人會很慘",然后奇怪為什么公眾會焦慮。
4/5的美國高中和大學生在用AI完成學業(yè)任務,但只有6%的教師表示學校有清晰的AI使用政策。能力跑在前面,框架跑在后面,中間的空白地帶是每天在使用AI的幾億個普通人。
![]()
![]()
五、訓練一個模型,等于1.7萬輛車跑一年
AI的能力在加速,代價也在加速。只是這個代價大部分是看不見的。
報告給出的數字:xAI的Grok 4,訓練產生的碳排放估計約為7.28萬噸CO?當量,相當于1.7萬輛汽車行駛一整年產生的溫室氣體。而Epoch AI的獨立估算認為這個數字更高,約為14萬噸。
作為對比,OpenAI的GPT-4訓練排放約5184噸,Meta的Llama 3.1 405B約8930噸。從GPT-4到Grok 4,不到兩年,單次訓練的碳排放增加了超過10倍。
推理側的消耗同樣在積累。全年GPT-4o的推理水耗(用于冷卻數據中心服務器或水力發(fā)電),據估算可能超過1200萬人全年的飲用水需求。全球AI數據中心的總電力容量達到29.6GW,相當于整個紐約州的峰值用電量,也與瑞士或奧地利的全國用電量相當。
與能源消耗同步增長的,是算力的集中度。Nvidia的GPU目前占全球AI算力總量的60%以上,而全球AI算力自2022年以來每年增長3.3倍,累計已是2021年的30倍。整個AI系統的物理基礎,正在加速向少數幾家硬件供應商和超大規(guī)模云服務商集中。
這些成本不會出現在AI產品的價格標簽上,也不會出現在生產力提升的統計數字里。但它們是真實的,只是被分攤到了大氣、地下水和電網里。
報告里有一個細節(jié),可以作為整篇的注腳。
AI已經能解開數學奧林匹克競賽的題目,但仍然不能穩(wěn)定地看懂模擬時鐘。
這個不均勻性,不是AI的bug,是這個階段的特征。某些維度的能力已經超出了人類可以直覺驗證的范圍,另一些維度還在爬行。而我們正處在這兩條曲線都在快速移動的時刻——高速能力擴張,與治理、信任、透明度的同步滑落。
斯坦福的研究者在報告序言里寫道:今年的報告揭示了"AI能做什么"與"我們準備好管理它沒有"之間的裂縫正在變寬。這份報告本身能做的,是用數據讓裂縫可見。
裂縫之后怎么辦,是另一個問題。
關注硅星GenAI,獲取最新AI資訊~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.