網易首頁 > 網易號 > 正文申請入駐

能解奧數，不會看鐘：斯坦福2026年AI報告的15個判斷

2026-04-14 20:01:18　來源: 硅星GenAI

上海舉報

分享至

4月13日，斯坦福大學人本AI研究所（HAI）發(fā)布了2026年度AI Index報告。400多頁，覆蓋技術能力、投資格局、就業(yè)影響、公眾認知，是這個行業(yè)迄今最完整的第三方年度審計。

這份報告從2017年開始連續(xù)發(fā)布，今年的結論可以用一句話概括：AI的能力正在以從未有過的速度跑贏一切——跑贏監(jiān)管框架，跑贏公眾信任，跑贏教育體系，甚至跑贏AI公司自己對信息透明度的意愿。

以下是從報告中提煉的核心內容。

原文鏈接：https://hai.stanford.edu/ai-index/2026-ai-index-report

一、科學能解奧數，不會看鐘

先從一個細節(jié)說起。

今年的報告里有一張圖，橫軸是時間，縱軸是AI在各類任務上相對于人類的表現。圖上有一條線幾乎是垂直上升的：代碼能力。SWE-bench Verified——衡量AI自主完成真實軟件工程任務的標準測試——在一年之內從60%跳到了近100%。同期，AI代理處理現實任務的成功率從20%躍升至77.3%，網絡安全問題的解題率從15%飆到93%。

過去一年，Terminal-Bench 2.0 的準確率顯著提升，從 2025 年 2 月的 20%提升到 2026 年初的 77.3%（見圖 2.5.2）。

Humanity's Last Exam是一套由全球近千名領域專家共同設計的考題，專門為了難倒AI而生，覆蓋物理、數學、歷史、法律等幾乎所有高難度學科。2025年時，排名第一的模型只能答對8.8%的題目。到今天，前沿模型的得分已經超過50%。

2024 年至 2025 年間，HLE 模型準確率提高了 30 個百分點（見圖 2.4.4）。一年內，準確率從不到 10%躍升到38.3%

這不是線性增長，是躍遷。

但同一份報告里，還有另一條線——機器人完成真實家務任務的成功率，折疊衣服、洗碗這類事，至今只有12%。AI仍然不能穩(wěn)定地看懂模擬時鐘。生成連貫視頻仍然困難，多步驟規(guī)劃仍然出錯，某些專家級學術考試仍然答不對。

Gemini Deep Think 在 2025 年 IMO 中以自然語言進行首發(fā)工作，在 4.5 小時的時間限制內獲得 35 分（金），高于 2024 年獲得的 28 分銀獎。在 ClockBench 上，頂級型號能正確讀取模擬時鐘的 50.1%，而人類則為 90.1%

能力的分布是不均勻的——某些維度已經超越了人類可以驗證的范圍，另一些地方仍在爬行。這是2026年AI的真實狀態(tài)，也是接下來所有問題的底色。

二、美國是中國投資額的23倍，但AI人才流入已跌了89%

2025年，全球AI私人投資達到3447億美元，同比增長127.5%。企業(yè)層面的AI投資總額達到5817億美元，一年翻了一倍多。

美國在這場軍備競賽里出手最猛。2025年，美國AI投資額2859億美元，是排名第二的中國（124億美元）的23倍。這個差距是壓倒性的。

但同一份報告里，另一組數字指向了完全相反的方向。

2017年到2026年，AI領域頂尖學者移居美國的數量下降了89%。僅在過去一年，這一數字又跌了80%。

兩組數字放在一起的含義很清楚：美國在AI上砸的錢越來越多，但能用這些錢招到的最頂尖的人越來越少。錢還在涌入，但它的邊際價值正在被人才流失侵蝕。

中國的投資邏輯與此不同。報告指出，單純以私人投資額比較，會系統性地低估中國投入AI的資本體量。中國政府通過"政府引導基金"這一機制，自2000年以來在包括AI在內的各領域累計部署了超過9120億美元。這筆錢不走市場化渠道，不出現在私人投資數據里，但它實實在在地存在。

在模型數量上，美國2025年發(fā)布了50個"值得關注"的模型，中國大約30個，差距在縮小。在工業(yè)機器人安裝量上，中國2024年安裝了29.5萬臺，美國3.42萬臺，差距是8.6倍。中美在AI上走的是兩條平行賽道，正面交鋒的地方只是其中一部分。

三、22歲的程序員已經感受到了，CEO還在說AI只是工具

就業(yè)影響的數據今年第一次清晰到無法繞開。

22到25歲的軟件開發(fā)者，從2024年以來就業(yè)人數下降了近20%。同一時期，26歲以上的同行就業(yè)人數基本持平甚至小幅增長。這不是整個軟件行業(yè)在萎縮——是AI沖擊從底部開始，精準地切掉了入門崗位。

自 2022 年以來，最年輕工人（22 至 25 歲）的就業(yè)人數有所下降，盡管年長年齡段的員工人數持續(xù)增長（見圖 4.4.29）。到 2025 年 9 月，22 至 25 歲軟件開發(fā)者的就業(yè)人數較 2022 年峰值下降了近 20%。

客服領域同樣出現了類似的模式：初級崗位在收縮，資深崗位暫時安全。

三分之一的企業(yè)高管在麥肯錫的調查中表示，預計未來一年將進一步縮減員工規(guī)模，尤其集中在服務業(yè)、供應鏈和軟件工程。這是關于未來的計劃，不是已經發(fā)生的事。已經發(fā)生的是：年輕人先感受到了。

報告的研究者同時提出了一個重要的限定：就業(yè)數據受到宏觀經濟的干擾，無法把AI的影響完全分離出來。但他們也指出了一個反常的現象——AI暴露程度低的職業(yè)，失業(yè)率的上升反而高于AI暴露程度高的職業(yè)。這與"AI直接替代"的簡單敘事不符，背后可能有更復雜的勞動力市場重構正在發(fā)生。

AI帶來的生產力提升數字，報告同樣給出了：客服領域提升14%，軟件開發(fā)領域提升26%。這些增益是真實的，但享受這些增益的，是已經在崗的、有經驗的工人。新進入市場的年輕人，面對的是崗位數量本身正在減少的入口。

增益集中在上面，代價落在了底部。

四、模型越來越強，告訴你它是怎么訓練出來的公司越來越少

有一組數字在這份報告里是最少被引用的，但可能是最重要的。

Foundation Model Transparency Index，衡量主要AI公司對其模型訓練數據、計算資源、能力邊界、風險及使用政策的披露程度。這個指標去年的平均分是58分，今年跌到了40分。

報告的結論更直接：在透明度最低的模型里，往往是能力最強的那批。

人工分析開放性指數根據權重的自由訪問和許可程度，以及訓練方法和訓練前后數據的透明度，對 AI 模型進行 0 到 100 的評分。領先模型的得分較低，大多數在 100 分中的 2 到 16 分之間（見圖 3.8.1）

這是一個有意思的反轉。AI能力在加速進化，但公眾能用來理解、審查、監(jiān)督這些能力的信息，在系統性減少。大型模型的訓練數據是什么、用了多少算力、有哪些已知局限——這些本來應該隨著能力增強而更受關注的問題，正在隨著能力增強而變得更加不透明。

公眾信任的數字也在印證這件事。全球調查中，只有31%的美國人表示信任本國政府能有效監(jiān)管AI，是所有被調查國家中倒數第二（中國是27%，墊底）。歐盟的數字是53%，差距明顯。

與此同時，Gen Z對AI的情緒正在發(fā)生轉變。他們曾是生成式AI最早的熱情擁躉，現在的調查數據顯示這一人群的焦慮和憤怒在上升。TechCrunch引用的一位研究者說得更直白：AI領袖們自己都在說"如果什么都不做，很多人會很慘"，然后奇怪為什么公眾會焦慮。

4/5的美國高中和大學生在用AI完成學業(yè)任務，但只有6%的教師表示學校有清晰的AI使用政策。能力跑在前面，框架跑在后面，中間的空白地帶是每天在使用AI的幾億個普通人。

五、訓練一個模型，等于1.7萬輛車跑一年

AI的能力在加速，代價也在加速。只是這個代價大部分是看不見的。

報告給出的數字：xAI的Grok 4，訓練產生的碳排放估計約為7.28萬噸CO?當量，相當于1.7萬輛汽車行駛一整年產生的溫室氣體。而Epoch AI的獨立估算認為這個數字更高，約為14萬噸。

作為對比，OpenAI的GPT-4訓練排放約5184噸，Meta的Llama 3.1 405B約8930噸。從GPT-4到Grok 4，不到兩年，單次訓練的碳排放增加了超過10倍。

推理側的消耗同樣在積累。全年GPT-4o的推理水耗（用于冷卻數據中心服務器或水力發(fā)電），據估算可能超過1200萬人全年的飲用水需求。全球AI數據中心的總電力容量達到29.6GW，相當于整個紐約州的峰值用電量，也與瑞士或奧地利的全國用電量相當。

與能源消耗同步增長的，是算力的集中度。Nvidia的GPU目前占全球AI算力總量的60%以上，而全球AI算力自2022年以來每年增長3.3倍，累計已是2021年的30倍。整個AI系統的物理基礎，正在加速向少數幾家硬件供應商和超大規(guī)模云服務商集中。

這些成本不會出現在AI產品的價格標簽上，也不會出現在生產力提升的統計數字里。但它們是真實的，只是被分攤到了大氣、地下水和電網里。

報告里有一個細節(jié)，可以作為整篇的注腳。

AI已經能解開數學奧林匹克競賽的題目，但仍然不能穩(wěn)定地看懂模擬時鐘。

這個不均勻性，不是AI的bug，是這個階段的特征。某些維度的能力已經超出了人類可以直覺驗證的范圍，另一些維度還在爬行。而我們正處在這兩條曲線都在快速移動的時刻——高速能力擴張，與治理、信任、透明度的同步滑落。

斯坦福的研究者在報告序言里寫道：今年的報告揭示了"AI能做什么"與"我們準備好管理它沒有"之間的裂縫正在變寬。這份報告本身能做的，是用數據讓裂縫可見。

裂縫之后怎么辦，是另一個問題。

關注硅星GenAI，獲取最新AI資訊～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.