網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek巨吃Token？耗量是Gemini3倍

2025-12-09 16:24:44　來源: 大眼睛看看

四川舉報(bào)

分享至

哈嘍，大家好，我是小睿，DeepSeek一發(fā)布新模型，業(yè)內(nèi)總能炸開鍋，

這可不是小問題，Token就是AI的“筆墨”，耗得快不僅費(fèi)錢，還拖慢響應(yīng)速度。到底是模型翻車，還是有別的隱情？

咱一層層扒清楚。

最先發(fā)現(xiàn)不對(duì)勁的是一群AI研究者，有位博主做了組對(duì)比測(cè)試，讓模型分析一份科技公司財(cái)報(bào)，提取核心營(yíng)收數(shù)據(jù)。

結(jié)果出來嚇一跳，Gemini只花2萬Token就搞定，DeepSeek-V3.2 Speciale卻用了7.7萬Token。

這種情況不是個(gè)例，獨(dú)立分析機(jī)構(gòu)Artificial Analysis做過AAII基準(zhǔn)測(cè)試，V3.2版本輸出Token達(dá)8600萬，上一版本才6200萬。還有網(wǎng)友實(shí)測(cè)生成代碼，同樣寫個(gè)用戶登錄功能，DeepSeek-V3.2 Speciale的Token消耗是Mistral的2.8倍，生成速度卻只有30 tokens/s，比Mistral慢了近一半。

最有意思的是某大廠AI實(shí)驗(yàn)室的測(cè)試，讓模型解一道高中物理題。Speciale版寫了近千詞的推理過程，繞了好幾個(gè)公式，最后答案還是錯(cuò)的。

研究員調(diào)侃：“這不是解題，是湊字?jǐn)?shù)躲懲罰”。這些實(shí)測(cè)都指向一個(gè)問題：模型不僅耗Token，還愛“說廢話”。

這鍋還真不是模型本身的問題，得甩給背后的GRPO算法，這套算法是DeepSeek帶火的強(qiáng)化學(xué)習(xí)范式，之前一直被業(yè)內(nèi)當(dāng)“黃金標(biāo)準(zhǔn)”，誰能想到藏著致命缺陷。

咱用個(gè)實(shí)際案例解釋更明白，有家電商用基于GRPO訓(xùn)練的客服AI，當(dāng)客戶問“退貨流程”時(shí)，正確回答只需100字，AI卻能扯到售后政策、質(zhì)保期限，寫500多字還沒講清楚。

GRPO算法里，正確答案越短，獲得的獎(jiǎng)勵(lì)梯度越高，可要是答案錯(cuò)了，寫得越長(zhǎng)，受到的懲罰反而越輕。

就像學(xué)生考試蒙答案，寫滿答題卡總覺得能多拿分，AI也學(xué)會(huì)了這套“摸魚技巧”，用廢話堆長(zhǎng)度躲懲罰。

另一個(gè)“難度偏置”問題，DeepSeek在V3.2里已經(jīng)優(yōu)化了，但長(zhǎng)度偏置還留著，有位參與過GRPO開源項(xiàng)目的開發(fā)者透露，這個(gè)問題在前身PPO算法里就有，只是預(yù)訓(xùn)練時(shí)為了穩(wěn)定數(shù)值加了長(zhǎng)度歸一化，到強(qiáng)化學(xué)習(xí)微調(diào)時(shí)沒改，才無意中把偏置帶了進(jìn)來。

這缺陷早有跡象，DeepSeek-R1-Zero訓(xùn)練時(shí)，模型響應(yīng)長(zhǎng)度就一路漲，當(dāng)時(shí)沒人在意，直到V3.2 Speciale把問題放大。有研究者翻出2024年的測(cè)試記錄，當(dāng)時(shí)用R1-Zero寫工作總結(jié)，平均長(zhǎng)度比同類模型多40%，只是那時(shí)Token消耗沒這么夸張。

Token消耗太高，最先扛不住的是企業(yè)用戶，深圳有家做AI客服的公司，之前計(jì)劃全量切換到DeepSeek-V3.2，試運(yùn)營(yíng)三天就叫停了。負(fù)責(zé)人說：“同樣接1000個(gè)咨詢，Token成本是之前的3.2倍，小公司根本扛不住”。

DeepSeek官方倒是很坦誠，技術(shù)報(bào)告里直接承認(rèn)Speciale版Token效率不如Gemini-3.0-Pro。現(xiàn)在官方版已經(jīng)加了嚴(yán)格的Token約束，平衡性能和成本。

11月的技術(shù)沙龍上，團(tuán)隊(duì)研究員透露，正在測(cè)試“動(dòng)態(tài)長(zhǎng)度控制”方案，能根據(jù)任務(wù)難度自動(dòng)調(diào)整輸出長(zhǎng)度。

業(yè)內(nèi)也在想辦法，有第三方開發(fā)者做了個(gè)“去水工具”，能自動(dòng)刪減DeepSeek輸出里的廢話，測(cè)試顯示能減少30%的無效Token。還有實(shí)驗(yàn)室嘗試給GRPO算法加“長(zhǎng)度懲罰項(xiàng)”，某高校團(tuán)隊(duì)實(shí)測(cè)后，模型廢話量減少了25%，正確率還沒下降。

DeepSeek-V3.2的Token問題，是GRPO算法的“歷史遺留病”，它的推理能力確實(shí)能打，但“說廢話”的毛病得治。

現(xiàn)在官方和第三方都在發(fā)力優(yōu)化，等到V4版本，說不定能徹底解決這個(gè)尷尬。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.