去年有個(gè)數(shù)據(jù)在硅谷傳瘋了:某頭部AI公司的推理成本里,token費(fèi)用占比超過60%。但沒人告訴你的是,為了省這筆錢,多少團(tuán)隊(duì)把模型"養(yǎng)殘"了。
本文作者Pallav Kalal在OpenAI干了四年,專門啃這塊硬骨頭。他最近公開了一次翻車經(jīng)歷——本想給公司省點(diǎn)錢,結(jié)果把系統(tǒng)搞"傻"了。這不是個(gè)例,是行業(yè)通病。
從"堆料"到"縮骨":一個(gè)經(jīng)典的技術(shù)債故事
Kalal當(dāng)時(shí)在做檢索增強(qiáng)生成(RAG)系統(tǒng)。這種架構(gòu)的原理很簡(jiǎn)單:用戶提問時(shí),先從知識(shí)庫(kù)搜一堆相關(guān)文檔,塞進(jìn)提示詞(prompt)里讓大模型(LLM)參考。文檔越多,回答越準(zhǔn),但token消耗也越嚇人。
他的做法很"標(biāo)準(zhǔn)": aggressive summarization(激進(jìn)摘要)+ 截?cái)嚅L(zhǎng)文本。成本確實(shí)下來了,降幅還很好看。但測(cè)試時(shí)團(tuán)隊(duì)發(fā)現(xiàn),模型開始給出"自信的錯(cuò)誤答案"——不是胡編亂造的幻覺,而是基于殘缺信息做了一套漂亮推理。
「I hadn't optimized tokens. I had optimized away the signal.」Kalal的原話。翻譯成大白話:他沒壓縮信息,他壓縮的是模型能看懂的信息結(jié)構(gòu)。
這里有個(gè)反直覺的點(diǎn)。人類覺得"意思一樣就行",但LLM不吃這套。它處理的是token序列上的統(tǒng)計(jì)模式,你刪掉重復(fù)內(nèi)容的同時(shí),可能也在拆掉模型用來定位、關(guān)聯(lián)、驗(yàn)證的"腳手架"。
為什么"冗余"對(duì)AI不是浪費(fèi)
Kalal把這種現(xiàn)象叫"注意力偽裝成token問題"。工程師盯著賬單上的數(shù)字,真正卡脖子的卻是模型能關(guān)注多少有效信號(hào)。
他舉了個(gè)例子:一段技術(shù)文檔里,"這個(gè)功能在2023年Q2上線"和"該功能于2023年第二季度發(fā)布"對(duì)人類完全等價(jià)。但對(duì)某些模型,日期格式的細(xì)微差別會(huì)影響它和訓(xùn)練數(shù)據(jù)中對(duì)齊方式,進(jìn)而改變推理路徑。
更麻煩的是評(píng)估陷阱。團(tuán)隊(duì)通常用"回答長(zhǎng)度"或"格式正確性"當(dāng)指標(biāo),這些和"事實(shí)準(zhǔn)確性"根本是兩回事。一個(gè)被過度壓縮的prompt,可能輸出更流暢的廢話——檢測(cè)成本比幻覺還高。
「Redundancy is not waste. It's scaffolding.」Kalal的這句判斷,現(xiàn)在被不少Prompt Engineer(提示詞工程師)抄在備忘錄里。
省錢的正確姿勢(shì):不是少token,是對(duì)token
Kalal沒只罵街,他后來搭了一套新的優(yōu)化框架。核心思路換了個(gè)方向:從"怎么塞更少"變成"怎么讓模型看得更清"。
具體做法包括分層檢索——先讓一個(gè)小模型篩一遍,再讓大模型精讀;還有動(dòng)態(tài)上下文,根據(jù)問題類型決定塞多少背景信息。最狠的一招是"結(jié)構(gòu)化冗余":故意保留關(guān)鍵信息的多種表述方式,讓模型有更多錨點(diǎn)可以抓。
這套玩法的token用量其實(shí)沒比"暴力壓縮"高多少,但準(zhǔn)確率回了血。Kalal沒透露具體數(shù)字,只說是"statistically significant improvement"(統(tǒng)計(jì)顯著的提升)。
有個(gè)細(xì)節(jié)很有意思。他團(tuán)隊(duì)現(xiàn)在評(píng)估prompt質(zhì)量,會(huì)加一個(gè)"困惑度波動(dòng)"指標(biāo)——看模型在生成過程中,對(duì)關(guān)鍵事實(shí)的置信度變化曲線。波動(dòng)太平滑,說明信息密度不夠;波動(dòng)太劇烈,可能是關(guān)鍵錨點(diǎn)缺失。
行業(yè)正在經(jīng)歷的認(rèn)知翻轉(zhuǎn)
Kalal的文章發(fā)在2026年4月,但討論早就開始了。Anthropic去年發(fā)布的Claude 3技術(shù)報(bào)告里,專門有一節(jié)講"long-context degradation"(長(zhǎng)上下文退化)——不是token不夠長(zhǎng),是模型在長(zhǎng)序列里抓不住重點(diǎn)。
Google DeepMind同期的工作更直接:他們發(fā)現(xiàn)把同樣信息拆成多條短消息,比塞進(jìn)一條長(zhǎng)消息,模型召回率高23%。這和Kalal的"腳手架"理論互相印證。
國(guó)內(nèi)這邊,字節(jié)跳動(dòng)的Seed團(tuán)隊(duì)今年初有個(gè)內(nèi)部分享,主題叫"Prompt的密度戰(zhàn)爭(zhēng)"。講者放了張圖:同樣1000token,信息熵(entropy)分布不同的prompt,模型表現(xiàn)差距能到40%。
這些信號(hào)指向同一個(gè)結(jié)論:token優(yōu)化的戰(zhàn)場(chǎng),已經(jīng)從"壓縮算法"轉(zhuǎn)向"信息架構(gòu)"。
Kalal在文章結(jié)尾留了個(gè)開放問題:「If we can't trust our own intuition about what LLMs "understand," what should we trust?」
他的答案是測(cè)試,更刁鉆的測(cè)試。不是看模型能不能答對(duì),是看它在信息被故意壓縮、打亂、污染時(shí),還能不能保持穩(wěn)定的推理鏈條。
這大概是2026年AI工程最殘酷的真相——你以為在優(yōu)化成本,其實(shí)是在和模型的認(rèn)知盲區(qū)博弈。而對(duì)手不會(huì)告訴你它哪里看不懂。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.