網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI工程師踩坑實(shí)錄：壓縮30%token后

2026-04-07 13:28:20　來源: 算力游俠

北京舉報(bào)

分享至

去年有個(gè)數(shù)據(jù)在硅谷傳瘋了：某頭部AI公司的推理成本里，token費(fèi)用占比超過60%。但沒人告訴你的是，為了省這筆錢，多少團(tuán)隊(duì)把模型"養(yǎng)殘"了。

本文作者Pallav Kalal在OpenAI干了四年，專門啃這塊硬骨頭。他最近公開了一次翻車經(jīng)歷——本想給公司省點(diǎn)錢，結(jié)果把系統(tǒng)搞"傻"了。這不是個(gè)例，是行業(yè)通病。

從"堆料"到"縮骨"：一個(gè)經(jīng)典的技術(shù)債故事

Kalal當(dāng)時(shí)在做檢索增強(qiáng)生成（RAG）系統(tǒng)。這種架構(gòu)的原理很簡(jiǎn)單：用戶提問時(shí)，先從知識(shí)庫(kù)搜一堆相關(guān)文檔，塞進(jìn)提示詞（prompt）里讓大模型（LLM）參考。文檔越多，回答越準(zhǔn)，但token消耗也越嚇人。

他的做法很"標(biāo)準(zhǔn)"： aggressive summarization（激進(jìn)摘要）+ 截?cái)嚅L(zhǎng)文本。成本確實(shí)下來了，降幅還很好看。但測(cè)試時(shí)團(tuán)隊(duì)發(fā)現(xiàn)，模型開始給出"自信的錯(cuò)誤答案"——不是胡編亂造的幻覺，而是基于殘缺信息做了一套漂亮推理。

「I hadn't optimized tokens. I had optimized away the signal.」Kalal的原話。翻譯成大白話：他沒壓縮信息，他壓縮的是模型能看懂的信息結(jié)構(gòu)。

這里有個(gè)反直覺的點(diǎn)。人類覺得"意思一樣就行"，但LLM不吃這套。它處理的是token序列上的統(tǒng)計(jì)模式，你刪掉重復(fù)內(nèi)容的同時(shí)，可能也在拆掉模型用來定位、關(guān)聯(lián)、驗(yàn)證的"腳手架"。

為什么"冗余"對(duì)AI不是浪費(fèi)

Kalal把這種現(xiàn)象叫"注意力偽裝成token問題"。工程師盯著賬單上的數(shù)字，真正卡脖子的卻是模型能關(guān)注多少有效信號(hào)。

他舉了個(gè)例子：一段技術(shù)文檔里，"這個(gè)功能在2023年Q2上線"和"該功能于2023年第二季度發(fā)布"對(duì)人類完全等價(jià)。但對(duì)某些模型，日期格式的細(xì)微差別會(huì)影響它和訓(xùn)練數(shù)據(jù)中對(duì)齊方式，進(jìn)而改變推理路徑。

更麻煩的是評(píng)估陷阱。團(tuán)隊(duì)通常用"回答長(zhǎng)度"或"格式正確性"當(dāng)指標(biāo)，這些和"事實(shí)準(zhǔn)確性"根本是兩回事。一個(gè)被過度壓縮的prompt，可能輸出更流暢的廢話——檢測(cè)成本比幻覺還高。

「Redundancy is not waste. It's scaffolding.」Kalal的這句判斷，現(xiàn)在被不少Prompt Engineer（提示詞工程師）抄在備忘錄里。

省錢的正確姿勢(shì)：不是少token，是對(duì)token

Kalal沒只罵街，他后來搭了一套新的優(yōu)化框架。核心思路換了個(gè)方向：從"怎么塞更少"變成"怎么讓模型看得更清"。

具體做法包括分層檢索——先讓一個(gè)小模型篩一遍，再讓大模型精讀；還有動(dòng)態(tài)上下文，根據(jù)問題類型決定塞多少背景信息。最狠的一招是"結(jié)構(gòu)化冗余"：故意保留關(guān)鍵信息的多種表述方式，讓模型有更多錨點(diǎn)可以抓。

這套玩法的token用量其實(shí)沒比"暴力壓縮"高多少，但準(zhǔn)確率回了血。Kalal沒透露具體數(shù)字，只說是"statistically significant improvement"（統(tǒng)計(jì)顯著的提升）。

有個(gè)細(xì)節(jié)很有意思。他團(tuán)隊(duì)現(xiàn)在評(píng)估prompt質(zhì)量，會(huì)加一個(gè)"困惑度波動(dòng)"指標(biāo)——看模型在生成過程中，對(duì)關(guān)鍵事實(shí)的置信度變化曲線。波動(dòng)太平滑，說明信息密度不夠；波動(dòng)太劇烈，可能是關(guān)鍵錨點(diǎn)缺失。

行業(yè)正在經(jīng)歷的認(rèn)知翻轉(zhuǎn)

Kalal的文章發(fā)在2026年4月，但討論早就開始了。Anthropic去年發(fā)布的Claude 3技術(shù)報(bào)告里，專門有一節(jié)講"long-context degradation"（長(zhǎng)上下文退化）——不是token不夠長(zhǎng)，是模型在長(zhǎng)序列里抓不住重點(diǎn)。

Google DeepMind同期的工作更直接：他們發(fā)現(xiàn)把同樣信息拆成多條短消息，比塞進(jìn)一條長(zhǎng)消息，模型召回率高23%。這和Kalal的"腳手架"理論互相印證。

國(guó)內(nèi)這邊，字節(jié)跳動(dòng)的Seed團(tuán)隊(duì)今年初有個(gè)內(nèi)部分享，主題叫"Prompt的密度戰(zhàn)爭(zhēng)"。講者放了張圖：同樣1000token，信息熵（entropy）分布不同的prompt，模型表現(xiàn)差距能到40%。

這些信號(hào)指向同一個(gè)結(jié)論：token優(yōu)化的戰(zhàn)場(chǎng)，已經(jīng)從"壓縮算法"轉(zhuǎn)向"信息架構(gòu)"。

Kalal在文章結(jié)尾留了個(gè)開放問題：「If we can't trust our own intuition about what LLMs "understand," what should we trust?」

他的答案是測(cè)試，更刁鉆的測(cè)試。不是看模型能不能答對(duì)，是看它在信息被故意壓縮、打亂、污染時(shí)，還能不能保持穩(wěn)定的推理鏈條。

這大概是2026年AI工程最殘酷的真相——你以為在優(yōu)化成本，其實(shí)是在和模型的認(rèn)知盲區(qū)博弈。而對(duì)手不會(huì)告訴你它哪里看不懂。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.