OpenRouter 和 a16z 剛剛聯合發布了一份報告:
《State of AI:An Empirical 100 Trillion Token Study》
![]()
https://openrouter.ai/state-of-ai
這份報告,基于來自全球的真實請求:
100 萬億 token,300 多個模型,60 多個提供方
這是 AI 領域,迄今最大規模用數據研究
最核心的三個信息:
? 推理模型已經吃掉了全體 token 的一半
? 開源模型穩定在三成,中國開源抬頭
? 編程和角色扮演是最真實的兩條主線
這份報告信息非常多,容我慢慢道來
*十分注意:本報告僅代表經由 OpenRouter 的算力調用
開源 vs 閉源
先說一個數字
閉源模型,占有約 70% 的 token
![]()
開源 vs 閉源比例
在這張圖中,淺藍色是開源(分中國和其他地區),深藍色是閉源
豎線標注了DeepSeek V3等重要發布節點
在過去的一年中,中國的開源崛起,是一大敘事
![]()
開源 vs 閉源模型分布
2024 年底,中國開源模型的周用量只有1.2%
到 2025 年底,抬到單周接近30%,全年平均約13%
中國的開源模型,占據了穩定位置
中國模型的崛起
在這份報告中,對于開源模型,列了一個排行
![]()
24年11月-25年11月的 OpenRouter 調用情況
DeepSeek 遙遙領先,14.37 萬億 token。Qwen 第二,5.59 萬億。Meta LLaMA 3.96 萬億,Mistral AI 2.92 萬億
后面還有 OpenAI 的開源系列、Minimax、Z-AI、TNGTech、月之暗面、Google
這里還有一份變化曲線
![]()
Top 15 開源模型走勢
早期幾乎是 DeepSeek 雙核壟斷
DeepSeek V3 和 R1 兩條帶子加起來,長期占 OSS 使用的一半以上
從 2025 年夏天開始,市場格局完全變了Qwen、GLM、Moonshot、Minimax、GPT-OSS系列迅速抬頭
到 2025 年底,沒有任何單個模型超過 25% 的份額
這是一個從寡頭到多元的轉變
模型尺寸:小型退潮,中型起勢
報告把 OSS 按參數規模分成三檔
? 小于 15B
? 15–70B
? 大于等于 70B
結論還算明顯:
? 小模型的數量在持續增加,但使用占比在下降
? 中模型和大模型的使用占比在提升
中檔市場基本是從Qwen2.5 Coder 32B發布后被“做”出來的
后面Mistral Small 3、GPT-OSS 20B等一批中型模型,把這個帶變成了一個穩定選項
![]()
不同大小模型數量變化
現在的開源市場,大致可以這么看
? 小模型是試驗場
? 中模型是性價比區
? 大模型是高復雜度區
這是一份反直覺的發現,開源模型的使用如下
?第一大場景是角色扮演,占超過 50%
? 編程則是第二,占約 20%
? 其他翻譯、知識問答、教育等都在后面
對此,報告給的解釋是:
開源模型的內容過濾更少,可以更自由地用于創意場景,故事續寫、角色扮演、游戲場景
對于角色扮演,這里的也有個細分
![]()
Roleplay 子標簽結構
58% 是 Role-Playing Game 場景
另外有寫作資源、成人相關內容
國產模型:主要是編程
但如果單看中國開源模型,畫面又不一樣了
![]()
中國 OSS 任務類別趨勢
Roleplay 仍然是最大類,但只有約33%,編程和技術合計約39%
這說明一件事
中國模型在開源世界里,更偏技術生產力使用
編程場景:閉源吃大頭,開源靠中國
報告單獨把 Programming 拎出來看
![]()
編程場景,在不同模型源的份額
編程這個品類里,閉源模型(主要是 Claude)還是主力
但開源部分,中國模型則是主流選擇
Roleplay 場景:五五開
同樣方式看 Roleplay
閉源和開源已經是可替代關系
![]()
Roleplay場景,在不同模型源的份額 推理模型占一半
都說今年是 Agent 的元年
AI 不再是「給個問題,出個答案」
而是:開始規劃、調用工具、多步推理、在長上下文中迭代
報告用四個指標來追蹤這個趨勢
第一,推理模型的用量占比![]()
推理 vs 非推理 token 趨勢
2025 年初,推理模型的用量幾乎可以忽略
現在,這個數字已經超過了 50%
供給側
GPT-5、Claude 4.5、Gemini 3 這些新模型都強調多步推理
需求側
用戶開始偏好能夠管理任務狀態、執行多步邏輯、支持 agent 工作流的模型
下面這個圖,則是頭部推理模型的份額
![]()
Top 推理模型 token 份額
之前 Gemini 2.5 Pro 還是第一
然后是 xAI 的 Grok Code Fast 1 領先,Gemini 2.5 Pro 和 Flash 緊隨其后,OpenAI 的 gpt-oss-120b 也在前列
第二,工具調用的使用率![]()
工具調用占比
整體趨勢向上,5 月的尖峰是個別大客戶導致的
這意味著更多的請求不只是問答,而是讓模型去執行外部操作
讓我們再看看工具的使用
![]()
按模型看工具調用量
最開始主要是gpt-4o-mini 和 Claude 3.5、3.7
到 9 月之后,Claude 4.5 Sonnet 迅速階梯,然后 Grok Code Fast、GLM 4.5 也開始出現
第三,Prompt 長度的增長![]()
Prompt token 數增長
平均 prompt 長度翻了 4 倍,從約 1,500 token 漲到 6,000+ token
![]()
Completion token 數增長
輸出長度也漲了近 3 倍,從約 150 token 到 400 token
![]()
不同類別下 Prompt 長度變化
Prompt 長度的增長主要來自編程類任務。代碼理解、調試、生成這些任務經常需要 20K+ 的輸入 token
第四,整體序列長度![]()
平均序列長度變化
過去 20 個月,平均序列長度漲了 2.7 倍
![]()
編程 vs 全體 序列長度
現在的典型請求不再是“寫一段東西”
而是“給你一大堆代碼 / 文檔,你幫我分析、推理、修改”
報告的判斷是:
Agentic Inference 很快就會(如果還沒有的話)超過人類推理的用量
模型任務的使用場景
報告用 GoogleTagClassifier 把請求分成 12 個類別
Programming、Roleplay、Technology、Science、Translation、Health 等
編程是最大的增長品類![]()
編程成為主導類別
2025 年初,編程相關請求占 token 約 11%
最近幾周,這個數字已超過 50%
這條線對應的是
? AI 輔助開發在 IDE 里的深度集成
? 內部平臺對 LLM 的接入
? 以及調試、日志分析、數據腳本等長上下文場景
在編程盤子里
? Anthropic Claude 長期吃掉超過 60% 的支出
? Google 穩在 15% 左右,OpenAI 從 2% 爬到約 8%
? MiniMax 最近幾周明顯抬頭,是增長最快的新玩家
報告給了兩張“Top 6 類別”和“Next 6 類別”的子標簽分布
![]()
前六大類別的子標簽結構
有幾個點值得留意
Roleplay
約 60% 是 Games/Roleplaying Games
另外有 Writers Resources 和 Adult 的不小占比
Programming
超過三分之二被打在 “Programming/Other” 標簽下
說明它是廣義編程需求,不是單一語言的垂直場景
Translation
幾乎平均分布在語言資源和其他
是一個“工具型”長期需求
Science
80% 是 Machine Learning & AI 自身相關
典型的“問 AI 關于 AI”
Health
是所有大類里最分散的
沒有任何一個子標簽超過 25%
![]()
次六大類別的子標簽結構
健康是最分散的品類,沒有任何子標簽超過 25%
金融、學術、法律也都很分散,可能是因為這些領域的 LLM 工作流還不成熟
各家廠商的使用畫像
報告把Anthropic、Google、OpenAI、xAI、DeepSeek、Qwen這幾家抽出來,看它們各自的任務分布
![]()
Anthropic 使用結構
Anthropic高度集中在編程和技術任務。角色扮演和閑聊只是一小部分
![]()
Google 使用結構
Google使用分布更均勻。翻譯、科學、技術、知識問答都有份額。編程占比在 2025 年底降到了 18% 左右
![]()
xAI 使用結構
xAI大部分時間 80% 以上是編程。但 11 月突然變了,技術、角色扮演、學術都漲起來了。報告推測這和 xAI 通過某些消費應用免費分發有關,帶來了大量非開發者用戶
![]()
OpenAI 使用結構
OpenAI2025 年初超過一半是科學類任務,到年底降到 15% 以下。編程和技術各占 29% 左右
![]()
DeepSeek 使用結構
DeepSeek角色扮演、閑聊、娛樂占了大頭,經常超過 2/3。編程和科學只占一小部分
![]()
Qwen 使用結構
Qwen編程長期維持在 40–60% 區間,Science、Technology、Roleplay 份額波動較大
每個廠商都有自己的定位,沒有誰能通吃所有場景
地理分布
LLM 使用越來越全球化,OpenRouter 的亞洲請求持續增多
區域結構:亞洲份額翻倍![]()
按地區的支出占比
亞洲份額從 13% 漲到 31%,翻了一倍多
北美還是最大的,占 47.22%,但已經不到一半了。亞洲 28.61%,歐洲 21.32%。大洋洲、南美、非洲加起來不到 3%
按國家看,美國 47.17%,新加坡 9.21%,德國 7.51%,中國 6.01%,韓國 2.88%,荷蘭 2.65%,英國 2.52%,加拿大 1.90%,日本 1.77%,印度 1.62%,其他 60+ 國家合計 16.76%
語言結構:英文第一,中文第二
語言分布很直白
? 英語 82.87%
? 簡體中文 4.95%
? 俄語 2.47%
? 西班牙語 1.43%
? 泰語 1.03%
英文仍然是絕對統治地位,但中文已經是第二大單語種
需要注意:這個數據只代表 OpenRouter 的訪問請求
用戶留存:灰姑娘的玻璃鞋
這是很意思的發現
早期用戶的留存遠遠好于后來的用戶
他們把這叫做「灰姑娘的玻璃鞋」
灰姑娘的玻璃鞋 Cinderella Glass Slipper 當一個新模型發布時,最早嘗試的那批用戶,如果發現這個模型剛好能解決他們的問題(「鞋子剛好合腳」),他們就會留下來,而且留存時間非常長
第一個解決用戶真實痛點的模型,會建立起深度、粘性的使用
用戶會圍繞這個模型建立工作流和習慣,切換成本很高
對于模型開發者和投資人來說,要看的不是增長曲線,而是留存曲線,那些「基礎性群組」的形成
這里先放幾個留存曲線,大家感受下
![]()
Claude 4 Sonnet 留存
Gemini 2.5 Pro 留存
OpenAI GPT-4o Mini 留存
DeepSeek R1 留存
對此,讓我們來看看這幾組模型
OpenAI GPT-4o Mini的水晶鞋
2024 年 7 月的曲線明顯高出其他時期
后面所有曲線幾乎都在底部貼著走
![]()
OpenAI GPT-4o Mini 留存
如果某個模型在發布時就抓住了需求
對應的用戶就會成為基礎性群組
后面再進來的用戶
要么已經有主力模型
要么只是輕度使用
窗口只有一次,錯過就沒有
Gemini 2.0 Flash沒有水晶鞋
Gemini 2.0 Flash的留存,則非常貼合
每條曲線都差不多
沒有任何一條明顯高出
![]()
OpenAI GPT-4o Mini 留存
這是啥意思呢?
這模型來的太遲了,也沒有足夠的性能優勢
所以,并不會某個高價值工作負載視為“第一選擇”
它們從一開始就被當作“夠用”的替代品
DeepSeek的先跌后升
DeepSeek V3/R1則比較特殊
留存曲線都出現了「先跌后升」
![]()
DeepSeek V3 留存
DeepSeek R1 留存
報告把這個叫boomerang effect
就是用戶離開以后又回來
說明對比了其他模型后
確認 DeepSeek 在性能 + 成本 + 特性組合上仍然最合適
就只能說牛逼了
定價與用量:四種關系
在報告的最后,有這么一張圖
不同模型的定價策略
開源 vs 閉源模型成本 vs 使用
再看提供方視角
![]()
模型成本 vs 使用市場圖
對此,就有了四象限分類:效率巨頭、高端領導者、長尾、高端專家
Efficient giants/效率巨頭低價高量如 Gemini 2.0 Flash、DeepSeek V3 0324
Premium leaders/高端領導者高價高量如 Claude 3.7 Sonnet、Claude Sonnet 4
Long tail/長尾低價低量如 Qwen 2 7B Instruct、IBM Granite 4.0 Micro
Premium specialists/高端專家極高單價如 GPT-4、GPT-5 Pro
進而的,又多了一些結論
? 企業愿意為關鍵任務付高價,開發者和愛好者會涌向便宜的模型
? 便宜的模型消耗了更多 token,但不會帶來深度集成
? Claude 和 GPT-4 雖然貴,但用量依然大,因為它們更可靠、信任度更高
? 光便宜沒用:很多接近零成本的開源模型用量也很小
報告最后給了六個判斷
第一,多模型生態是常態
沒有誰能通吃,用戶會根據任務選模型,開發者沒有忠誠度
第二,使用場景很多元
角色扮演和娛樂用量巨大,不只是生產力工具。
第三,Agentic 推理正在成為主流
單輪問答的時代在過去,多步推理、工具調用、長上下文迭代,這些才是現在的主戰場
第四,地理格局在去中心化
亞洲份額翻倍,中國既是消費者也是供應商。LLM 必須是全球可用的
第五,價格不是唯一變量
用戶會在質量、可靠性、能力廣度之間做權衡
第六,留存是真正的護城河
第一個解決用戶痛點的模型,會建立深度粘性
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.