近日,AI推理平臺OpenRouter聯合硅谷知名投資機構a16z發布了一份重磅研究報告——《AI現狀:基于100萬億Token的實證研究》。
![]()
基于OpenRouter平臺上超過100萬億Token的真實交互數據,系統分析了2024年底至2025年底全球大語言模型的實際使用情況,報告揭示了多個出乎意料的發現:
開源模型的使用占比已接近30%。
角色扮演類應用的使用量超過編程。
推理模型在一年內從零增長到占據半壁江山。
中國開源模型的全球份額從1.2%飆升至近30%。
大模型是有護城河的。
這些數據為我們理解AI技術的真實應用場景和發展趨勢,提供了難得的第一手觀察視角。
一、開源模型正在改寫市場格局
從邊緣走向主流
過去一年,開源大模型經歷了爆發式增長。報告數據顯示,截至2025年底,開源模型的使用量已占到總量的30%。這意味著在全球范圍內,每3次AI對話中就有1次使用的是開源模型。
![]()
這一比例在2024年初還不足5%,短短一年時間增長了6倍,而且增長趨勢仍在持續。
這打破了"開源模型只是實驗性工具"的固有印象,表明開源生態已經具備了支撐大規模生產應用的能力。
中國開源模型的崛起
更值得關注的是中國開源模型的表現。報告顯示,中國開發的開源模型(包括DeepSeek、Qwen、Kimi、Minimax等)的全球使用量占比,從2024年初的1.2%躍升至2025年底的近30%,增長超過25倍。
![]()
在具體模型排名中,DeepSeek以14.37萬億Token的總使用量位居開源模型榜首,是第二名Qwen(5.59萬億)的近三倍,Meta的LLaMA系列(3.96萬億)位列第三。
![]()
中等規模模型成為新趨勢
報告還發現了一個有趣的現象:參數規模在150億到700億之間的"中等規模模型"正在快速崛起。
![]()
這一細分市場在2024年底幾乎不存在。但隨著Qwen2.5 Coder 32B、Mistral Small 3和GPT-OSS 20B等模型的發布,中等規模模型在開源生態中的份額穩步上升。
這類模型在性能和部署成本之間找到了更好的平衡點,既能滿足大多數應用場景的需求,又顯著降低了算力門檻,因此受到開發者的青睞。
二、角色扮演是最高頻的使用場景
超過50%的使用量來自Roleplay。
報告中最令人意外的發現之一,是Roleplay(角色扮演/創意對話)占據了所有開源模型使用量的52%以上,遠超編程(15-20%)、翻譯、知識問答等其他應用場景。
![]()
在開源模型的使用分類中,角色扮演類應用包括互動式故事創作、虛擬角色對話、游戲場景模擬、粉絲創作等。
用戶對AI的需求并不僅限于提高生產力,情感陪伴和娛樂互動同樣是重要的應用方向。
編程場景的快速增長
雖然角色扮演占據首位,但編程相關的使用量增長速度更快。
數據顯示,編程類應用占比從2025年初的11%增長到年底的超過50%(包含所有模型)。
![]()
這反映出AI輔助編程工具正在被越來越多的開發者納入日常工作流程。
在編程場景中,Claude系列模型占據主導地位,長期保持60%以上的市場份額。
OpenAI和Google的模型也在該領域占有一席之地,中國的Qwen Coder系列在開源編程輔助工具中表現突出。
使用場景的多元化
除了角色扮演和編程,報告還統計了翻譯(外語資源占51.1%)、科學研究(機器學習與AI占80.4%)、健康咨詢、法律文檔、金融分析等多個垂直領域的使用情況。
有趣的是,科學類查詢中,絕大多數是關于AI和機器學習本身的提問,而不是物理、化學等傳統學科。這說明AI技術從業者是當前大模型的重要用戶群體。
三、推理模型成為新的主流
o1的發布是重要轉折點。
2024年12月5日,OpenAI正式發布o1推理模型,標志著大語言模型從"單步生成"向"多步推理"的范式轉變。與傳統模型直接輸出答案不同,推理模型會在內部進行多輪思考、驗證和自我糾錯,然后給出最終結果。
報告數據顯示,到2025年底,推理模型的使用量已占到總量的50%以上。
![]()
僅用一年時間,推理模型就從零增長到與傳統模型平分秋色。
推理模型的競爭格局
在推理模型領域,競爭格局變化迅速。截至報告發布時,xAI的Grok Code Fast 1占據推理模型使用量第一的位置,Google的Gemini 2.5 Pro和Gemini 2.5 Flash緊隨其后。幾周前,這一排名還是Gemini 2.5 Pro領先。
![]()
Anthropic的Claude系列、OpenAI的gpt-oss-120b等模型也在推理領域占有重要份額。
這種快速的排名變化反映出該領域的競爭異常激烈,各家都在快速迭代更新。
Agent化趨勢明顯
推理能力的提升帶來了另一個重要變化:AI正從"回答問題"轉向"執行任務"。報告顯示,帶有工具調用(Tool Call)功能的請求量穩步上升,平均對話序列長度已是一年前的3倍。
![]()
這表明用戶越來越多地將AI作為能夠主動調用外部工具、執行多步驟任務的智能代理(Agent),而不僅僅是對話式的問答助手。
編程類任務的平均輸入長度更是達到其他類型任務的3-4倍,顯示出復雜任務場景的需求正在快速增長。
![]()
四、成本與性能的新平衡
開源模型的成本優勢
報告指出,開源模型快速崛起的核心原因是顯著的成本優勢。許多開發者和中小企業發現,使用開源模型可以將成本降低90%以上,而在特定場景下的效果與閉源模型相差無幾。
特別是在角色扮演、中文對話、代碼生成等領域,開源模型已經展現出與閉源模型相當甚至更優的表現。
例如,在角色扮演場景中,開源模型(主要是中國和西方的開源模型)和閉源模型的使用量幾乎平分秋色,各占約43%和42%。
模型選擇的多元化
報告發現,用戶越來越傾向于針對不同場景選擇不同的模型,而不是使用單一模型完成所有任務。編程場景優先選擇Claude或Qwen Coder,創意寫作選擇DeepSeek或Kimi,復雜推理選擇o1或Gemini 2.5 Pro。
用戶留存與"灰姑娘玻璃鞋"現象
報告對多個主流模型的用戶留存率進行了深入分析,發現了一個被稱為"灰姑娘玻璃鞋效應"的關鍵現象。
數據顯示,盡管大多數模型面臨高流失率和快速用戶衰減,但在這種波動之下隱藏著更深遠的信號:一小部分早期用戶群體表現出持久的保留率。
這些被稱為"基礎隊列"的用戶群體,才是模型真正的護城河。
這個效應描述了一個獨特現象:在快速發展的AI生態系統中,存在著大量高價值工作負載,它們在等待"完美匹配"的模型出現。
每一個新的前沿模型實際上都是在這些未解決問題上"試穿"。當新發布的模型恰好符合此前未被滿足的技術和經濟限制時,它就找到了精確的契合度。這就是那只"玻璃鞋"。
對于那些工作負載最終合適的開發者或組織來說,這種對齊會產生強烈的鎖定效應。
他們的系統、數據管道和用戶體驗都錨定在最先解決問題的模型上。隨著成本下降和可靠性提升,重新遷移的動力急劇減弱。
從實證數據看,不同模型的留存表現差異巨大。Gemini 2.5 Pro和Claude 4 Sonnet的早期隊列在第5個月約有40%的用戶保留率,遠高于后續隊列。
![]()
OpenAI GPT-4o Mini則展現了這一現象的極端案例。一個基礎隊列(2024年7月)在啟動時建立了主導且粘性的工作負載匹配,所有后續群體的留存率都遠低于這個早期隊列。
DeepSeek模型引入了更復雜的模式,展現出極其罕見的"回旋鏢效應":多個DeepSeek隊列在初期流失后顯示出明顯的保留率上升。
![]()
一些流失用戶在嘗試其他替代方案后,重新確認DeepSeek因其專業技術性能、成本效益或其他獨特特性的優越組合,更適合其特定工作負載。
AI工作負載的四象限格局
報告通過對數-對數尺度的成本與使用量分析,揭示了AI工作負載的獨特細分格局。以每100萬Token成本0.73美元為分界線,市場被自然劃分為四個象限。
![]()
每個象限展現出截然不同的特征:
高級工作負載(高成本+高使用)
這個象限包含technology和science等有價值且使用頻繁的專業工作負載。用戶愿意為性能或專業能力支付溢價。特別值得注意的是,technology類查詢的價格遠高于其他類別,可能涉及復雜系統設計或架構問題,需要更強大且更昂貴的推理模型,但其使用量依然很高,顯示出其本質性質。
大眾市場成交量驅動因素(低成本+高使用)
這一領域主要由兩個大型應用場景主導:programming和roleplay。Programming以"殺手級專業"類別脫穎而出,展示了最高的使用量,同時擁有高度優化的中位數成本。Roleplay的使用量極為龐大,幾乎可與programming相當。
這是一個令人震驚的洞察:面向消費者的角色扮演應用能帶來與頂級專業應用相當的互動量。
這兩個類別的規模之大證明了,職業生產力和對話娛樂都是人工智能的主要且巨大的驅動力。開源模型在這一象限的成本敏感性中找到了顯著優勢。
專業專家(高成本+低使用)
該象限包含finance、academia、health和marketing等高風險、細分的專業領域。較低的總量是合乎邏輯的,因為人們咨詢AI關于"健康"或"財務"的頻率遠低于"編程"。用戶愿意為這些任務支付高額費用,可能是因為對準確性、可靠性和領域特定知識的需求極高。
小眾實用工具(低成本+低使用)
該象限包含translation、legal和trivia等功能性強、成本優化的公用事業。這些任務可能被高度優化、"解決"或商品化,在有足夠好的廉價替代方案時,用戶對價格更加敏感。
開源vs閉源:截然不同的市場定位
報告的成本-使用分析顯示出強烈的市場細分。整體趨勢線幾乎持平,表明需求相對非價格彈性——價格下降10%對應的使用量增加約0.5%至0.7%。但這個宏觀數據掩蓋了不同的微觀行為:
閉源模型占據了高成本、高使用量的區域。Claude 3.7 Sonnet和Claude 4 Sonnet約每100萬Token 2美元,但使用率依然很高,表明用戶愿意為更優越的推理和大規模可靠度付費。
GPT-4和GPT-5 Pro每100萬Token約35美元,雖然使用量相對較低,但服務于細分、高風險工作,輸出質量遠比邊際Token成本更重要。
開源模型則占據了低成本、高流量的區域。DeepSeek V3-0324每100萬Token約0.39美元,使用量達到10^6.55級別。Gemini 2.0 Flash每100萬Token僅0.14美元,使用量為10^6.68,低價和強勁的分布使其成為默認的高產量主力。
數據中還出現了類似杰文悖論的跡象:讓某些模型變得非常便宜(且快速)后,人們用它們做更多任務,最終消耗了更多的Token。這解釋了為什么Gemini Flash和DeepSeek V3這類低價模型反而有極高的使用量。
但大量使用昂貴模型(Claude、GPT-4)表明,如果模型明顯更好或擁有信任優勢,用戶將承擔更高的成本。這些模型通常集成在成本相對于其產出價值微乎其微的工作流程中,例如,節省一小時開發時間的代碼遠比幾美元的API調用更值錢。
五、地域分布與全球化特征
超過50%的使用來自美國以外的地區。
OpenRouter平臺的數據顯示,超過50%的使用量來自美國以外的地區。這表明AI技術的應用已經呈現出明顯的全球化特征,不再局限于硅谷或北美市場。
![]()
中國、歐洲、東南亞等地區的用戶占比持續上升,不同地區的用戶在模型選擇和使用場景上也表現出一定的差異性。
![]()
六、深度討論:數據背后的關鍵洞察
這項基于100萬億Token的實證研究,不僅呈現了大模型使用的表面數據,更揭示了幾個細致入微的主題,深刻改變了我們對AI部署的傳統認知。
多模型生態系統:沒有"一統天下"
數據顯示,沒有單一模型能夠主導所有使用場景,我們正在目睹一個豐富的多模型生態系統的形成,閉源和開源模型各自占據重要份額。
例如OpenAI和Anthropic的模型在編程和知識任務中領先,但像DeepSeek和Qwen這樣的開源模型共同服務了超過30%的Token使用量。這表明LLM的未來使用將是模型無關且異質化的。
對開發者而言,這意味著保持靈活性、整合多個模型、為每個項目選擇最佳方案,而非把所有賭注押在單一模型上。對模型提供者來說,這強調了競爭可能來自意想不到的地方,社區模型可能侵蝕市場份額,除非持續改進和差異化。
使用多樣性超越生產力:陪伴與創意的崛起
一個令人驚訝的發現是角色扮演和娛樂導向應用的大量使用。超過50%的開源模型使用是用于角色扮演和講故事,而非編程或辦公。即使在專有平臺上,早期ChatGPT的使用也有相當一部分是隨意且富有創意的探索。
這反駁了"LLM主要用于編寫代碼、電子郵件或摘要"的假設。
實際上,許多用戶通過這些模型尋求陪伴、情感互動或創意探索。
這具有重要意義:
凸顯了面向消費者應用在融合敘事設計、情感互動方面的巨大機遇
為個性化開辟新前沿——能夠演化個性、記住偏好、維持長期互動的AI代理
重新定義模型評估指標:成功可能更多依賴連貫性和持續對話能力,而非單純的事實準確性
為AI與娛樂IP的跨界開辟道路,在互動敘事、游戲和創作者驅動的虛擬角色領域具有潛力
Agent時代來臨:從對話到執行
LLM的使用正從單回合交互轉向智能推理模式。模型不再只是產出一次性響應,而是協調工具調用、訪問外部數據、迭代優化輸出以實現目標。
早期證據顯示多步查詢和鏈式工具使用正在快速增長。隨著這一范式擴展,評估將從語言質量轉向任務完成度和執行效率。
下一個競爭前沿是模型如何有效執行持續推理。這一轉變最終可能重新定義"大規模AI代理推理"在實踐中的含義。
地理格局:全球化與去中心化
LLM的使用正變得越來越全球化和去中心化,增長迅速超出北美地區。亞洲在Token需求中的份額已從約13%上升至31%,反映出企業采用和創新的增強。
中國不僅通過國內消費,還通過生產具有全球競爭力的模型,成為重要力量。
更廣泛的結論是:LLM必須在全球范圍內都非常有用,在不同語言、語境和市場中表現優異。
下一階段的競爭將取決于文化適應性和多語言能力,而不僅僅是模型規模。
成本與使用動態:遠非簡單的價格競爭
LLM市場還不像商品市場——單靠價格對使用量解釋不多。用戶在權衡質量、可靠性和能力廣度的同時考慮成本。
閉源模型繼續捕獲高價值、與收入相關的工作負載,而開源模型主導低成本且高流量的任務。這創造了一個動態平衡,這種平衡更多是由來自下方的恒定壓力而非穩定性所定義。
開源模型不斷推動效率前沿,尤其在推理和編碼領域(例如Kimi K2)快速迭代和創新可以縮小性能差距。開放模型的每一次改進都壓縮了專有系統的定價能力,迫使它們通過卓越的集成、一致性和企業支持來合理化溢價。
由此產生的競爭節奏快速、不對稱且不斷變化。隨著時間推移,隨著質量趨同加速,價格彈性可能增加,使曾經分化的市場變得更加流動。
"灰姑娘玻璃鞋現象":留存率才是真正的護城河
隨著基礎模型能力的躍進而非漸進,留存率已成為衡量可防御性的真正標準。每一次突破都會創造一個短暫的發布窗口,讓模型能夠完美"適配"高價值工作負載——這就是"灰姑娘玻璃鞋時刻"。用戶一旦找到合適的模型,就會圍繞它構建工作流程和習慣。
在這種范式中,產品市場契合等同于工作負載模型契合:率先解決真實痛點,推動用戶圍繞該能力構建工作流程,從而推動深層且粘性的采用。因此,切換成本在技術和行為上都變得昂貴。
對于建設者和投資者來說,需要關注的信號不是增長,而是留存曲線——建立能夠持續經受模型更新考驗的基礎用戶群體。在日益快速變化的市場中,及早捕捉這些關鍵未滿足需求,決定了下一次能力飛躍后誰能堅持下去。
七、研究價值與未來展望
LLM正成為跨領域推理任務的重要計算基礎,從編程到創意寫作。隨著模型的不斷進步和部署的擴大,準確了解現實世界的使用動態對于做出明智決策至關重要。
人們使用LLM的方式并不總是符合預期,且因國家、地區和用例而有很大差異。通過大規模觀察使用情況,我們可以將對LLM影響的理解扎根于現實,確保后續的發展——無論是技術改進、產品特性還是法規——都與實際使用模式和需求保持一致。
從競爭到協作的范式轉變
過去一年催化了該領域對推理理解方式的根本性轉變。o1類模型的出現使得長時間思考和工具使用變得規范化,評估從單次基準轉向基于過程的指標、延遲-成本權衡以及編排下的任務成功率。
數據顯示,LLM生態系統在結構上是多元的。沒有單一模式或供應商占據主導地位;相反,用戶根據具體場景,在能力、延遲、價格和信任等多個維度上選擇系統。這種異質性不是暫時階段,而是市場的基本特征。它促進快速迭代,減少對任何單一模型或技術棧的系統性依賴。
Agent推理:下一個競爭前沿
推理本身也在變化。多步驟和工具關聯交互的興起,標志著從靜態補全向動態編排的轉變。用戶正在串聯模型、API和工具以實現復合目標,催生了可稱為"Agent推理"的現象。有充分理由相信,Agent推理的使用量將超過、甚至已經超過人類單次推理。
實際上,o1并未終結競爭,而是擴展了設計空間。該領域正朝向系統性思維而非單一押注,向基于數據的分析取代直覺,向實證使用分析取代排行榜競爭的方向發展。
如果過去一年證明了Agent推理在大規模上是可行的,那么明年將聚焦于運營卓越:測量真實任務完成度、減少分布轉移下的方差,以及使模型行為與生產規模工作負載的實際需求保持一致。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.