網易首頁 > 網易號 > 正文申請入駐

AI模型燒掉的Token，對應多少GDP？AI的經濟貢獻現在有數了

2026-02-23 19:01:38　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

本文作者為摩爾線程天使投資人、中國初代AI投資人王捷。他于 2025 年 8 月和 12 月分別發表了《浮現中的AI經濟》、《關于AI經濟的四十個問題》兩篇文章，對即將到來的 AI 經濟進行了展望和解讀。本篇是他近期的第三篇文章，是就如何從經濟生產力的角度評價 AI 大模型，提出的一個思路。

AI生產能力函數：

從經濟生產力的角度評估AI模型

Measuring Model Capability as Economic Productivity: A Production Capacity Function for Artificial Intelligence

1. 引言

1.1 背景

AI 大模型已經從技術、產品走向全面影響經濟和社會，需要一個指標，來評價AI對于真實經濟任務的工作能力。
現有主流評測基準包括MMLU、BIG-bench、SWE-Bench、WebArena、GAIA、AgentBench、MiniWoB等，這些基準被廣泛用于衡量模型在知識理解、推理、編程等任務中的表現。
但現有評測基準：
任務同質性假設：
所有任務對總評分的貢獻相同，未區分任務價值差異；
未含人類和組織的接受度；
忽略推理成本：
Token消耗未納入能力衡量，僅作為附加指標；
不能反映經濟產出，因此宏觀統計（GDP、TFP）也無法分辨 AI 的真實邊際貢獻。
關鍵缺口：缺乏一個連接“AI模型→生產能力→生產率→宏觀經濟”的表達函數。

1.2 研究問題

如何以統一、可計量的方式衡量AI對經濟產出的“真實生產能力
我們提出一個以任務為基本單元、以 token 為投入/計量基礎、以 GDP 為產出的 AI 生產能力函數，定義為模型給定任務空間社會接受約束下，將計算資源token）穩定地轉化為經濟價值能力上限（capacity），明確包括以下要素：
通過引入“經濟圖靈測試”，將任務集中的任務從僅體現“技術正確性/feasibility”，變為也體現“在真實經濟環境中被人類接受/desirability
模型能夠成功完成的任務的經濟價值；
成功完成任務的概率；
完成任務所消耗的推理資源token）。
希望回答以下問題：
一個 AI 模型每消耗一個token，能創造多少經濟價值？即GDP/token問題。
可否將 AI 模型能力從“在若干 benchmark 上的點狀表現（pointwise performance）”，轉化為“在整個經濟任務空間中的價值加權期望產出密度（task-space integral
不同模型、不同經濟任務、不同國家擁有的AI能力、AI大模型的不同發展階段之間如何可比？

2. 當前對模型能力評估方案的局限性

2.1 AI 能力評測與 Benchmark

傳統 benchmark（如 MMLU、BIG-bench、SWE-Bench、AgentBench）只測成功率或通過率；
無法回答“單位 AI 投入 → 經濟產出”；
缺乏“經濟系統接受性”的內生處理。

2.2 引入AI生產能力函數 ()

() 同時考慮：
任務經濟價值
任務異質性
成功概率（技術能力）
資源消耗（成本約束）
() 將任務經濟價值、任務異質性、成功概率、資源消耗統一在一個框架中，是從技術能力到經濟生產力的度量映射。

3. 基本概念與定義

3.1 定義與核心函數

模型能力被定義為模型在其可被經濟接受的任務集合上，單位 token 所能穩定地產生任務成果的期望經濟價值。

3.2 分子：經濟產出

含義：模型 (m) 在可接受任務集上可實現的總經濟價值，這些經濟價值來自于統計。
關鍵性質：任務集中的任務符合兩個條件
該AI模型可以完成該類任務（解決“能不能做”的問題）；
該AI模型完成該類任務的結果通過了“經濟圖靈測試”（解決“做得好不好人類是否接受”的問題）。
任務價值異質時，公式自動對高價值任務賦權。

3.3 分母：token 投入

分母是完成該j項任務消耗的token數的加總，以百萬token計。其中單任務 token 消耗定義：

單任務 token 消耗＝完成單項任務的單次平均token消耗/該模型對該任務的成功完成率，其中完成單項任務的單次平均token消耗＝完成該項任務的總次數所消耗的總token數/總次數；這些數據來自統計。
單任務 token 消耗內生地反映模型的成本效率
成功率內生地反映：
能力水平
穩定性
復現性

3.4 任務（Task）

人的工作是以單個勞動力作為最小的執行單元，AI完成工作是以“任務”為最小執行單元。
對AI而言，任務是一個被明確形式化的目標實例，它定義了期望結果、行動空間、約束條件與完成判定，使 Agent 能夠將開放式環境問題轉化為可規劃、可執行、可評估的決策過程。

3.5任務集合 (J_m)

針對模型 (m) 定義的可執行任務集；需要滿足兩個準入條件：
1. 技術可完成性
2. 通過經濟圖靈測試
任務集的構建：我們需要將當前經濟活動中的所有任務，構建為適配Agent工作方式的任務集，并基于此展開任務的統計工作。

3.6 經濟圖靈測試（ETT, Economic Turing Test）

定義：如果模型完成任務的輸出在真實經濟環境被人類接受，則視為成功；否則視為失敗；
取值為[0, 1]，即“不通過”為0，“通過”為1；
與傳統圖靈測試的差異；
在生產函數中的角色：經濟圖靈測試等價于一個制度與偏好約束（institutional and preference constraint），決定哪些 AI 產出可以被計入 GDP。

3.7 任務經濟價值 (V_j)

任務經濟價值統計方式包括：
人類工作成本：人類完成同一個任務所需的工作成本/工資；
市場交易價格：如果該任務是可在市場上交易的，市場交易價格是多少；
影子價格：對沒有市場價格但會影響社會福利、風險或長期產出的任務，估計其隱含邊際價值。
這些數據來自統計。

3.8 量綱與解釋

單位：貨幣 / 百萬 token。

4. 與傳統生產函數的關系

4.1 AI 作為新型生產要素

AI =以 token 表達的任務執行能力；是一種以計算資源驅動、以任務執行能力表現、可在數字環境中規模復制的生產性要素；
在宏觀經濟領域，這是Model-Level AI Capability in Macroeconomics；可在宏觀層面衡量 AI 對經濟總產出的貢獻；
在經濟增長領域，這是Task-Based AI Capability Models for Economic Growth.

4.2 嵌入傳統生產函數

AI可以被視為一種“可資本化復制的任務執行能力”，其經濟屬性既具有勞動的任務完成功能又具有資本的規模復制特征；
在AI經濟階段，任務執行能力以token 表達，這意味著token作為生產函數的中間變量，是可精確計量的代理變量；
與TFP的關系：可能導致傳統生產函數中的TFP從殘差變為可解釋，AI生產力是可解釋的TFP分量。

4.3 與勞動生產率的比較

在工業經濟中，勞動生產率通常以“單位勞動投入創造的產出”表示，典型形式為 GDP/工時。其直觀含義是：在既定技術、資本與組織條件下，勞動每單位時間可以實現多少產出；
本文提出的 AI 生產能力函數在結構上與之具有清晰對應關系：它以“單位 token 所能穩定轉化的經濟價值”刻畫 AI 的生產能力，典型口徑為GDP/token（或 GDP/百萬 token）；GDP/token的形式可以進入更一般的生產率分析框架。

5. 應用與擴展

前文給出的 AI 生產能力函數主要完成兩個任務：其一，給出模型能力作為經濟生產力的形式化定義；其二，說明該定義如何與宏觀生產分析建立聯系。在此基礎上，本節進一步討論該框架的應用與擴展方向。

5.1 模型比較

不同模型之間的AI生產能力排序：對不同模型進行“單位token經濟價值產出能力”的排序；
同一模型不同版本的工作能力比較：更清楚地區分“技術分數提升”與“經濟生產能力提升”是否同步。

5.2 時間維度比較

不同階段的模型能力比較，技術進步的動態刻畫：

“成本下降”：單次平均token 消耗下降，即推理效率改善、工具調用更有效或策略更緊湊；

“質量提升”：單位任務的成功概率提升，即模型在既有任務上的能力水平、穩定性或復現性增強；

“能力邊界擴張”：任務集合(J_m)擴張，即模型能夠覆蓋更多任務，尤其是更高價值或更復雜的任務。

5.3 成本結構分析

() 可用于分析推理端的商品化（commoditization）過程：如果多個模型在某些任務集上的成功率趨近，模型間競爭往往從“能不能做”轉向“誰能更低成本、更穩定地做”，本文的生產能力函數可以提供理解模型服務價格競爭、推理優化策略的統一視角。
() 為分析能源與算力約束提供了中間變量：可將()與“每 token 的能耗和算力成本”結合，構建從資源約束到模型能力到經濟產出的多層映射。

5.4 產業與國家層面

產業任務結構差異：
某些行業（如軟件開發、數字營銷、在線客服、標準化文書處理）具有較高的任務形式化程度與數字化環境兼容性，因而更容易形成穩定的(J_m)并實現較高的 () 應用收益；
另一些行業（如高風險醫療決策、復雜現場作業、強監管流程）則可能因ETT約束嚴格、任務價值評估復雜或執行環境非數字化而限制AI 生產能力的釋放。
國家級 AI 生產能力不同經濟體的AI生產能力對比：
“國家級AI 生產能力”是該經濟體基于其可獲得AI基礎模型、任務數字化程度、組織采用能力、制度接受邊界與基礎設施條件，對AI生產能力的綜合實現水平；
本文框架的意義在于，為這種“模型能力—任務結構—制度環境—經濟產出”的分層分析提供統一的概念與度量接口。

5.5 政策與投資導向

本文提出的AI生產能力函數可以為AI模型研發投入、模型部署選擇、AI投入產出核算、公共采購、經濟政策、投資分析制定提供量化工具，是連接技術評估、部署決策、產業分析宏觀政策通用度量語言

在 AI 快速擴散的階段，僅依賴benchmark排名進行決策，容易導致資源配置偏向“技術表現最優而非經濟生產率最優”。
對于企業用戶而言，模型選擇不應僅依據公開評測名次，而應基于目標任務集合下的或其近似估計值進行比較，從而將采購決策與業務價值創造能力對齊。
在 AI投入產出核算公共采購中，提供了一種更具可審計性的量化框架。
產業政策層面，政策制定者可利用該框架識別哪些產業的任務結構更適合 AI 先行滲透，哪些制度約束正在限制高價值任務進入(J_m)，以及哪些基礎設施瓶頸（能源、算力、數據中心、組織數字化）正在制約 AI 生產能力轉化為實際產出。
投資分析中，及其構成項也可為判斷 AI 相關企業或行業的競爭優勢提供補充視角。

6. 結論

本文提出了一種基于經濟生產力的模型能力度量方法，即在給定任務空間與社會接受約束下，模型將計算資源（token）穩定地轉化為經濟價值的能力上限（capacity）

傳統benchmark的成功率排名無法準確反映模型的經濟生產力；本文提供了可操作的測量框架，將現有 benchmark 數據轉化為經濟生產力度量；
從pointwise performance轉向task-space integral；現有 benchmark 衡量的是模型在給定任務點上的正確率；本文衡量的是模型在整個經濟任務空間上的價值加權期望產出密度。
本文提出的模型能力定義將任務經濟價值、任務異質性、成功概率和資源消耗都納入考慮，從而將AI模型的能力從技術評測語境中的“性能表現”，推進到經濟分析語境中的“生產能力”與“生產率”度量。
本文為企業、研究機構政策制定者提供了一個衡量、比較與優化 AI 生產力操作框架，使得AI生產力可觀測、可計量、可比較，為benchmark設計、模型研發、模型比較、技術進步分析、AI成本分析、產業和國家層面AI能力評估、模型部署、資源分配、經濟政策、宏觀生產力測算提供了理論與實證基礎及新的量化工具；也為 AI 經濟學研究提供了一個連接微觀模型評估與宏觀生產率分析的橋梁變量，是一個可進一步細化、實證化與制度化的分析基礎。
隨著 AI 在經濟體系中的進一步滲透，圍繞的數據化、標準化與實證化工作，有望成為理解AI 真實經濟貢獻及其階段演進的重要基礎。
本文應被理解為一個基礎性測度框架，而非已完成的最終經驗體系。其進一步落地仍依賴若干關鍵工作任務集合的系統構建、經濟圖靈測試判定機制的標準化、真實部署數據的持續統計。這些問題并不削弱本文框架的理論意義，反而說明其核心價值正在于提供一個可組織后續測量工作的統一形式。與其在理論上等待一個完美而封閉的 AI 經濟指標，不如先建立一個可迭代、可擴展、可實證化的能力度量框架，使模型能力能夠在經濟分析中被逐步觀測、比較與檢驗。

作者簡介

作者王捷，中國初代 AI 投資人，完整經歷了移動互聯網各個發展和投資階段， 2017 年以來主要從事 AI 行業投資，投資了摩爾線程、比亞迪半導體、萬國數據、京東科技、開思時代、奇安信、明略科技等公司。作者郵箱 jie_wang7@sina.com，歡迎交流，添加請說明工作/學習機構、職務信息。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.