網易首頁 > 網易號 > 正文申請入駐

100萬億token的大模型真相:灰姑娘玻璃鞋現象與DeepSeek回旋鏢效應

2025-12-08 07:29:32　來源: AI先鋒官

北京舉報

分享至

近日，AI推理平臺OpenRouter聯合硅谷知名投資機構a16z發布了一份重磅研究報告——《AI現狀：基于100萬億Token的實證研究》。

基于OpenRouter平臺上超過100萬億Token的真實交互數據，系統分析了2024年底至2025年底全球大語言模型的實際使用情況，報告揭示了多個出乎意料的發現：

開源模型的使用占比已接近30%。
角色扮演類應用的使用量超過編程。
推理模型在一年內從零增長到占據半壁江山。
中國開源模型的全球份額從1.2%飆升至近30%。
大模型是有護城河的。

這些數據為我們理解AI技術的真實應用場景和發展趨勢，提供了難得的第一手觀察視角。

一、開源模型正在改寫市場格局

從邊緣走向主流

過去一年，開源大模型經歷了爆發式增長。報告數據顯示，截至2025年底，開源模型的使用量已占到總量的30%。這意味著在全球范圍內，每3次AI對話中就有1次使用的是開源模型。

這一比例在2024年初還不足5%，短短一年時間增長了6倍，而且增長趨勢仍在持續。

這打破了"開源模型只是實驗性工具"的固有印象，表明開源生態已經具備了支撐大規模生產應用的能力。

中國開源模型的崛起

更值得關注的是中國開源模型的表現。報告顯示，中國開發的開源模型（包括DeepSeek、Qwen、Kimi、Minimax等）的全球使用量占比，從2024年初的1.2%躍升至2025年底的近30%，增長超過25倍。

在具體模型排名中，DeepSeek以14.37萬億Token的總使用量位居開源模型榜首，是第二名Qwen（5.59萬億）的近三倍，Meta的LLaMA系列（3.96萬億）位列第三。

中等規模模型成為新趨勢

報告還發現了一個有趣的現象：參數規模在150億到700億之間的"中等規模模型"正在快速崛起。

這一細分市場在2024年底幾乎不存在。但隨著Qwen2.5 Coder 32B、Mistral Small 3和GPT-OSS 20B等模型的發布，中等規模模型在開源生態中的份額穩步上升。

這類模型在性能和部署成本之間找到了更好的平衡點，既能滿足大多數應用場景的需求，又顯著降低了算力門檻，因此受到開發者的青睞。

二、角色扮演是最高頻的使用場景

超過50%的使用量來自Roleplay。

報告中最令人意外的發現之一，是Roleplay（角色扮演/創意對話）占據了所有開源模型使用量的52%以上，遠超編程（15-20%）、翻譯、知識問答等其他應用場景。

在開源模型的使用分類中，角色扮演類應用包括互動式故事創作、虛擬角色對話、游戲場景模擬、粉絲創作等。

用戶對AI的需求并不僅限于提高生產力，情感陪伴和娛樂互動同樣是重要的應用方向。

編程場景的快速增長

雖然角色扮演占據首位，但編程相關的使用量增長速度更快。

數據顯示，編程類應用占比從2025年初的11%增長到年底的超過50%（包含所有模型）。

這反映出AI輔助編程工具正在被越來越多的開發者納入日常工作流程。

在編程場景中，Claude系列模型占據主導地位，長期保持60%以上的市場份額。

OpenAI和Google的模型也在該領域占有一席之地，中國的Qwen Coder系列在開源編程輔助工具中表現突出。

使用場景的多元化

除了角色扮演和編程，報告還統計了翻譯（外語資源占51.1%）、科學研究（機器學習與AI占80.4%）、健康咨詢、法律文檔、金融分析等多個垂直領域的使用情況。

有趣的是，科學類查詢中，絕大多數是關于AI和機器學習本身的提問，而不是物理、化學等傳統學科。這說明AI技術從業者是當前大模型的重要用戶群體。

三、推理模型成為新的主流

o1的發布是重要轉折點。

2024年12月5日，OpenAI正式發布o1推理模型，標志著大語言模型從"單步生成"向"多步推理"的范式轉變。與傳統模型直接輸出答案不同，推理模型會在內部進行多輪思考、驗證和自我糾錯，然后給出最終結果。

報告數據顯示，到2025年底，推理模型的使用量已占到總量的50%以上。

僅用一年時間，推理模型就從零增長到與傳統模型平分秋色。

推理模型的競爭格局

在推理模型領域，競爭格局變化迅速。截至報告發布時，xAI的Grok Code Fast 1占據推理模型使用量第一的位置，Google的Gemini 2.5 Pro和Gemini 2.5 Flash緊隨其后。幾周前，這一排名還是Gemini 2.5 Pro領先。

Anthropic的Claude系列、OpenAI的gpt-oss-120b等模型也在推理領域占有重要份額。

這種快速的排名變化反映出該領域的競爭異常激烈，各家都在快速迭代更新。

Agent化趨勢明顯

推理能力的提升帶來了另一個重要變化：AI正從"回答問題"轉向"執行任務"。報告顯示，帶有工具調用（Tool Call）功能的請求量穩步上升，平均對話序列長度已是一年前的3倍。

這表明用戶越來越多地將AI作為能夠主動調用外部工具、執行多步驟任務的智能代理（Agent），而不僅僅是對話式的問答助手。

編程類任務的平均輸入長度更是達到其他類型任務的3-4倍，顯示出復雜任務場景的需求正在快速增長。

四、成本與性能的新平衡

開源模型的成本優勢

報告指出，開源模型快速崛起的核心原因是顯著的成本優勢。許多開發者和中小企業發現，使用開源模型可以將成本降低90%以上，而在特定場景下的效果與閉源模型相差無幾。

特別是在角色扮演、中文對話、代碼生成等領域，開源模型已經展現出與閉源模型相當甚至更優的表現。

例如，在角色扮演場景中，開源模型（主要是中國和西方的開源模型）和閉源模型的使用量幾乎平分秋色，各占約43%和42%。

模型選擇的多元化

報告發現，用戶越來越傾向于針對不同場景選擇不同的模型，而不是使用單一模型完成所有任務。編程場景優先選擇Claude或Qwen Coder，創意寫作選擇DeepSeek或Kimi，復雜推理選擇o1或Gemini 2.5 Pro。

用戶留存與"灰姑娘玻璃鞋"現象

報告對多個主流模型的用戶留存率進行了深入分析，發現了一個被稱為"灰姑娘玻璃鞋效應"的關鍵現象。

數據顯示，盡管大多數模型面臨高流失率和快速用戶衰減，但在這種波動之下隱藏著更深遠的信號：一小部分早期用戶群體表現出持久的保留率。

這些被稱為"基礎隊列"的用戶群體，才是模型真正的護城河。

這個效應描述了一個獨特現象：在快速發展的AI生態系統中,存在著大量高價值工作負載，它們在等待"完美匹配"的模型出現。

每一個新的前沿模型實際上都是在這些未解決問題上"試穿"。當新發布的模型恰好符合此前未被滿足的技術和經濟限制時,它就找到了精確的契合度。這就是那只"玻璃鞋"。

對于那些工作負載最終合適的開發者或組織來說,這種對齊會產生強烈的鎖定效應。

他們的系統、數據管道和用戶體驗都錨定在最先解決問題的模型上。隨著成本下降和可靠性提升,重新遷移的動力急劇減弱。

從實證數據看，不同模型的留存表現差異巨大。Gemini 2.5 Pro和Claude 4 Sonnet的早期隊列在第5個月約有40%的用戶保留率，遠高于后續隊列。

OpenAI GPT-4o Mini則展現了這一現象的極端案例。一個基礎隊列（2024年7月）在啟動時建立了主導且粘性的工作負載匹配，所有后續群體的留存率都遠低于這個早期隊列。

DeepSeek模型引入了更復雜的模式，展現出極其罕見的"回旋鏢效應"：多個DeepSeek隊列在初期流失后顯示出明顯的保留率上升。

一些流失用戶在嘗試其他替代方案后，重新確認DeepSeek因其專業技術性能、成本效益或其他獨特特性的優越組合，更適合其特定工作負載。

AI工作負載的四象限格局

報告通過對數-對數尺度的成本與使用量分析，揭示了AI工作負載的獨特細分格局。以每100萬Token成本0.73美元為分界線，市場被自然劃分為四個象限。

每個象限展現出截然不同的特征：

高級工作負載（高成本+高使用）

這個象限包含technology和science等有價值且使用頻繁的專業工作負載。用戶愿意為性能或專業能力支付溢價。特別值得注意的是，technology類查詢的價格遠高于其他類別，可能涉及復雜系統設計或架構問題，需要更強大且更昂貴的推理模型，但其使用量依然很高，顯示出其本質性質。

大眾市場成交量驅動因素（低成本+高使用）

這一領域主要由兩個大型應用場景主導：programming和roleplay。Programming以"殺手級專業"類別脫穎而出，展示了最高的使用量，同時擁有高度優化的中位數成本。Roleplay的使用量極為龐大，幾乎可與programming相當。

這是一個令人震驚的洞察：面向消費者的角色扮演應用能帶來與頂級專業應用相當的互動量。

這兩個類別的規模之大證明了，職業生產力和對話娛樂都是人工智能的主要且巨大的驅動力。開源模型在這一象限的成本敏感性中找到了顯著優勢。

專業專家（高成本+低使用）

該象限包含finance、academia、health和marketing等高風險、細分的專業領域。較低的總量是合乎邏輯的，因為人們咨詢AI關于"健康"或"財務"的頻率遠低于"編程"。用戶愿意為這些任務支付高額費用，可能是因為對準確性、可靠性和領域特定知識的需求極高。

小眾實用工具（低成本+低使用）

該象限包含translation、legal和trivia等功能性強、成本優化的公用事業。這些任務可能被高度優化、"解決"或商品化，在有足夠好的廉價替代方案時，用戶對價格更加敏感。

開源vs閉源：截然不同的市場定位

報告的成本-使用分析顯示出強烈的市場細分。整體趨勢線幾乎持平，表明需求相對非價格彈性——價格下降10%對應的使用量增加約0.5%至0.7%。但這個宏觀數據掩蓋了不同的微觀行為：

閉源模型占據了高成本、高使用量的區域。Claude 3.7 Sonnet和Claude 4 Sonnet約每100萬Token 2美元，但使用率依然很高，表明用戶愿意為更優越的推理和大規模可靠度付費。

GPT-4和GPT-5 Pro每100萬Token約35美元，雖然使用量相對較低，但服務于細分、高風險工作，輸出質量遠比邊際Token成本更重要。

開源模型則占據了低成本、高流量的區域。DeepSeek V3-0324每100萬Token約0.39美元，使用量達到10^6.55級別。Gemini 2.0 Flash每100萬Token僅0.14美元，使用量為10^6.68，低價和強勁的分布使其成為默認的高產量主力。

數據中還出現了類似杰文悖論的跡象：讓某些模型變得非常便宜（且快速）后，人們用它們做更多任務，最終消耗了更多的Token。這解釋了為什么Gemini Flash和DeepSeek V3這類低價模型反而有極高的使用量。

但大量使用昂貴模型（Claude、GPT-4）表明，如果模型明顯更好或擁有信任優勢，用戶將承擔更高的成本。這些模型通常集成在成本相對于其產出價值微乎其微的工作流程中，例如，節省一小時開發時間的代碼遠比幾美元的API調用更值錢。

五、地域分布與全球化特征

超過50%的使用來自美國以外的地區。

OpenRouter平臺的數據顯示，超過50%的使用量來自美國以外的地區。這表明AI技術的應用已經呈現出明顯的全球化特征，不再局限于硅谷或北美市場。

中國、歐洲、東南亞等地區的用戶占比持續上升，不同地區的用戶在模型選擇和使用場景上也表現出一定的差異性。

六、深度討論：數據背后的關鍵洞察

這項基于100萬億Token的實證研究，不僅呈現了大模型使用的表面數據，更揭示了幾個細致入微的主題，深刻改變了我們對AI部署的傳統認知。

多模型生態系統：沒有"一統天下"

數據顯示，沒有單一模型能夠主導所有使用場景，我們正在目睹一個豐富的多模型生態系統的形成，閉源和開源模型各自占據重要份額。

例如OpenAI和Anthropic的模型在編程和知識任務中領先，但像DeepSeek和Qwen這樣的開源模型共同服務了超過30%的Token使用量。這表明LLM的未來使用將是模型無關且異質化的。

對開發者而言，這意味著保持靈活性、整合多個模型、為每個項目選擇最佳方案，而非把所有賭注押在單一模型上。對模型提供者來說，這強調了競爭可能來自意想不到的地方，社區模型可能侵蝕市場份額，除非持續改進和差異化。

使用多樣性超越生產力：陪伴與創意的崛起

一個令人驚訝的發現是角色扮演和娛樂導向應用的大量使用。超過50%的開源模型使用是用于角色扮演和講故事，而非編程或辦公。即使在專有平臺上,早期ChatGPT的使用也有相當一部分是隨意且富有創意的探索。

這反駁了"LLM主要用于編寫代碼、電子郵件或摘要"的假設。

實際上，許多用戶通過這些模型尋求陪伴、情感互動或創意探索。

這具有重要意義：

凸顯了面向消費者應用在融合敘事設計、情感互動方面的巨大機遇
為個性化開辟新前沿——能夠演化個性、記住偏好、維持長期互動的AI代理
重新定義模型評估指標：成功可能更多依賴連貫性和持續對話能力，而非單純的事實準確性
為AI與娛樂IP的跨界開辟道路，在互動敘事、游戲和創作者驅動的虛擬角色領域具有潛力

Agent時代來臨：從對話到執行

LLM的使用正從單回合交互轉向智能推理模式。模型不再只是產出一次性響應，而是協調工具調用、訪問外部數據、迭代優化輸出以實現目標。

早期證據顯示多步查詢和鏈式工具使用正在快速增長。隨著這一范式擴展，評估將從語言質量轉向任務完成度和執行效率。

下一個競爭前沿是模型如何有效執行持續推理。這一轉變最終可能重新定義"大規模AI代理推理"在實踐中的含義。

地理格局：全球化與去中心化

LLM的使用正變得越來越全球化和去中心化,增長迅速超出北美地區。亞洲在Token需求中的份額已從約13%上升至31%,反映出企業采用和創新的增強。

中國不僅通過國內消費，還通過生產具有全球競爭力的模型，成為重要力量。

更廣泛的結論是：LLM必須在全球范圍內都非常有用，在不同語言、語境和市場中表現優異。

下一階段的競爭將取決于文化適應性和多語言能力，而不僅僅是模型規模。

成本與使用動態：遠非簡單的價格競爭

LLM市場還不像商品市場——單靠價格對使用量解釋不多。用戶在權衡質量、可靠性和能力廣度的同時考慮成本。

閉源模型繼續捕獲高價值、與收入相關的工作負載，而開源模型主導低成本且高流量的任務。這創造了一個動態平衡，這種平衡更多是由來自下方的恒定壓力而非穩定性所定義。

開源模型不斷推動效率前沿，尤其在推理和編碼領域（例如Kimi K2）快速迭代和創新可以縮小性能差距。開放模型的每一次改進都壓縮了專有系統的定價能力，迫使它們通過卓越的集成、一致性和企業支持來合理化溢價。

由此產生的競爭節奏快速、不對稱且不斷變化。隨著時間推移，隨著質量趨同加速，價格彈性可能增加，使曾經分化的市場變得更加流動。

"灰姑娘玻璃鞋現象"：留存率才是真正的護城河

隨著基礎模型能力的躍進而非漸進，留存率已成為衡量可防御性的真正標準。每一次突破都會創造一個短暫的發布窗口，讓模型能夠完美"適配"高價值工作負載——這就是"灰姑娘玻璃鞋時刻"。用戶一旦找到合適的模型，就會圍繞它構建工作流程和習慣。

在這種范式中，產品市場契合等同于工作負載模型契合：率先解決真實痛點，推動用戶圍繞該能力構建工作流程，從而推動深層且粘性的采用。因此，切換成本在技術和行為上都變得昂貴。

對于建設者和投資者來說，需要關注的信號不是增長，而是留存曲線——建立能夠持續經受模型更新考驗的基礎用戶群體。在日益快速變化的市場中，及早捕捉這些關鍵未滿足需求，決定了下一次能力飛躍后誰能堅持下去。

七、研究價值與未來展望

LLM正成為跨領域推理任務的重要計算基礎，從編程到創意寫作。隨著模型的不斷進步和部署的擴大，準確了解現實世界的使用動態對于做出明智決策至關重要。

人們使用LLM的方式并不總是符合預期，且因國家、地區和用例而有很大差異。通過大規模觀察使用情況，我們可以將對LLM影響的理解扎根于現實，確保后續的發展——無論是技術改進、產品特性還是法規——都與實際使用模式和需求保持一致。

從競爭到協作的范式轉變

過去一年催化了該領域對推理理解方式的根本性轉變。o1類模型的出現使得長時間思考和工具使用變得規范化，評估從單次基準轉向基于過程的指標、延遲-成本權衡以及編排下的任務成功率。

數據顯示，LLM生態系統在結構上是多元的。沒有單一模式或供應商占據主導地位；相反，用戶根據具體場景，在能力、延遲、價格和信任等多個維度上選擇系統。這種異質性不是暫時階段，而是市場的基本特征。它促進快速迭代，減少對任何單一模型或技術棧的系統性依賴。

Agent推理：下一個競爭前沿

推理本身也在變化。多步驟和工具關聯交互的興起，標志著從靜態補全向動態編排的轉變。用戶正在串聯模型、API和工具以實現復合目標，催生了可稱為"Agent推理"的現象。有充分理由相信，Agent推理的使用量將超過、甚至已經超過人類單次推理。

實際上，o1并未終結競爭，而是擴展了設計空間。該領域正朝向系統性思維而非單一押注，向基于數據的分析取代直覺，向實證使用分析取代排行榜競爭的方向發展。

如果過去一年證明了Agent推理在大規模上是可行的，那么明年將聚焦于運營卓越：測量真實任務完成度、減少分布轉移下的方差，以及使模型行為與生產規模工作負載的實際需求保持一致。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

AI先鋒官

AIGC大模型及應用精選與評測

437文章數 60關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

家居

游戲

時尚

教育

手機 / 數碼

房產 / 家居

100萬億token的大模型真相:灰姑娘玻璃鞋現象與DeepSeek回旋鏢效應

“機器人只跳舞，沒什么用”

新房被淹男子12年未交物業費 春節前后家中停水超50天

新房被淹男子12年未交物業費 春節前后家中停水超50天

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

撒貝寧到沈陽跑親戚 老婆李白模特身材

上海樓市放大招，地產預期別太大

750km超長續航 2026款小鵬X9純電版將于3月2日上市

態度原創

海南樓市春節熱銷地圖曝光！三亞、陵水又殺瘋了！

藝居辦公 溫度與效率

《Reloadian》正式亮相Steam新品試玩節

普通人穿衣別太老氣橫秋！這些穿搭給你靈感，保暖耐看兩不誤

關注 | 當孩子滿口“網絡諧音梗”：是語言潮流，還是表達力危機？

新房被淹男子12年未交物業費春節前后家中停水超50天

新房被淹男子12年未交物業費春節前后家中停水超50天

曝雄鹿計劃今夏追小卡字母哥渴望與其并肩作戰

撒貝寧到沈陽跑親戚老婆李白模特身材

藝居辦公溫度與效率