![]()
哈嘍,大家好,我是小睿,DeepSeek一發(fā)布新模型,業(yè)內(nèi)總能炸開鍋,
這可不是小問題,Token就是AI的“筆墨”,耗得快不僅費(fèi)錢,還拖慢響應(yīng)速度。到底是模型翻車,還是有別的隱情?
咱一層層扒清楚。
![]()
最先發(fā)現(xiàn)不對(duì)勁的是一群AI研究者,有位博主做了組對(duì)比測(cè)試,讓模型分析一份科技公司財(cái)報(bào),提取核心營(yíng)收數(shù)據(jù)。
結(jié)果出來嚇一跳,Gemini只花2萬Token就搞定,DeepSeek-V3.2 Speciale卻用了7.7萬Token。
![]()
這種情況不是個(gè)例,獨(dú)立分析機(jī)構(gòu)Artificial Analysis做過AAII基準(zhǔn)測(cè)試,V3.2版本輸出Token達(dá)8600萬,上一版本才6200萬。還有網(wǎng)友實(shí)測(cè)生成代碼,同樣寫個(gè)用戶登錄功能,DeepSeek-V3.2 Speciale的Token消耗是Mistral的2.8倍,生成速度卻只有30 tokens/s,比Mistral慢了近一半。
最有意思的是某大廠AI實(shí)驗(yàn)室的測(cè)試,讓模型解一道高中物理題。Speciale版寫了近千詞的推理過程,繞了好幾個(gè)公式,最后答案還是錯(cuò)的。
研究員調(diào)侃:“這不是解題,是湊字?jǐn)?shù)躲懲罰”。這些實(shí)測(cè)都指向一個(gè)問題:模型不僅耗Token,還愛“說廢話”。
![]()
這鍋還真不是模型本身的問題,得甩給背后的GRPO算法,這套算法是DeepSeek帶火的強(qiáng)化學(xué)習(xí)范式,之前一直被業(yè)內(nèi)當(dāng)“黃金標(biāo)準(zhǔn)”,誰能想到藏著致命缺陷。
咱用個(gè)實(shí)際案例解釋更明白,有家電商用基于GRPO訓(xùn)練的客服AI,當(dāng)客戶問“退貨流程”時(shí),正確回答只需100字,AI卻能扯到售后政策、質(zhì)保期限,寫500多字還沒講清楚。
![]()
GRPO算法里,正確答案越短,獲得的獎(jiǎng)勵(lì)梯度越高,可要是答案錯(cuò)了,寫得越長(zhǎng),受到的懲罰反而越輕。
就像學(xué)生考試蒙答案,寫滿答題卡總覺得能多拿分,AI也學(xué)會(huì)了這套“摸魚技巧”,用廢話堆長(zhǎng)度躲懲罰。
另一個(gè)“難度偏置”問題,DeepSeek在V3.2里已經(jīng)優(yōu)化了,但長(zhǎng)度偏置還留著,有位參與過GRPO開源項(xiàng)目的開發(fā)者透露,這個(gè)問題在前身PPO算法里就有,只是預(yù)訓(xùn)練時(shí)為了穩(wěn)定數(shù)值加了長(zhǎng)度歸一化,到強(qiáng)化學(xué)習(xí)微調(diào)時(shí)沒改,才無意中把偏置帶了進(jìn)來。
![]()
這缺陷早有跡象,DeepSeek-R1-Zero訓(xùn)練時(shí),模型響應(yīng)長(zhǎng)度就一路漲,當(dāng)時(shí)沒人在意,直到V3.2 Speciale把問題放大。有研究者翻出2024年的測(cè)試記錄,當(dāng)時(shí)用R1-Zero寫工作總結(jié),平均長(zhǎng)度比同類模型多40%,只是那時(shí)Token消耗沒這么夸張。
![]()
Token消耗太高,最先扛不住的是企業(yè)用戶,深圳有家做AI客服的公司,之前計(jì)劃全量切換到DeepSeek-V3.2,試運(yùn)營(yíng)三天就叫停了。負(fù)責(zé)人說:“同樣接1000個(gè)咨詢,Token成本是之前的3.2倍,小公司根本扛不住”。
DeepSeek官方倒是很坦誠,技術(shù)報(bào)告里直接承認(rèn)Speciale版Token效率不如Gemini-3.0-Pro。現(xiàn)在官方版已經(jīng)加了嚴(yán)格的Token約束,平衡性能和成本。
![]()
11月的技術(shù)沙龍上,團(tuán)隊(duì)研究員透露,正在測(cè)試“動(dòng)態(tài)長(zhǎng)度控制”方案,能根據(jù)任務(wù)難度自動(dòng)調(diào)整輸出長(zhǎng)度。
業(yè)內(nèi)也在想辦法,有第三方開發(fā)者做了個(gè)“去水工具”,能自動(dòng)刪減DeepSeek輸出里的廢話,測(cè)試顯示能減少30%的無效Token。還有實(shí)驗(yàn)室嘗試給GRPO算法加“長(zhǎng)度懲罰項(xiàng)”,某高校團(tuán)隊(duì)實(shí)測(cè)后,模型廢話量減少了25%,正確率還沒下降。
![]()
DeepSeek-V3.2的Token問題,是GRPO算法的“歷史遺留病”,它的推理能力確實(shí)能打,但“說廢話”的毛病得治。
現(xiàn)在官方和第三方都在發(fā)力優(yōu)化,等到V4版本,說不定能徹底解決這個(gè)尷尬。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.