![]()
2025年Chroma的一項測試讓18個頂級大模型集體翻車——包括GPT-4.1、Claude、Gemini。輸入越長,表現(xiàn)越差,部分模型準(zhǔn)確率從95%斷崖跌至60%。
這戳破了一個流傳三年的幻覺:給AI塞更多信息,它會更聰明。真相是,大模型有結(jié)構(gòu)性盲區(qū),你喂什么、怎么擺,比喂多少重要得多。這門手藝叫上下文工程(Context Engineering)。
三個必須搞懂的概念
聊上下文工程前,先理清三個術(shù)語。Token(詞元)是大模型的思考單元,不是完整單詞,而是約四分之三個詞的文本塊。"context"算1個token,"engineering"會被切成2個。你輸入的問題、系統(tǒng)指令、附帶的文檔,全部按token計費。
上下文窗口(Context Window)是單次交互中模型能"看見"的token總量。系統(tǒng)人設(shè)、對話歷史、外部數(shù)據(jù)、你的問題,全部擠在這個框里。主流模型標(biāo)稱128K到200萬token不等,但數(shù)字大≠好用。
注意力機(jī)制(Attention)決定模型如何關(guān)聯(lián)token。生成每個新token前,模型要把它和窗口內(nèi)所有token比對一遍。這讓大模型能跨長文本串聯(lián)概念,也是性能瓶頸的根源。
大模型"閱讀"方式有多反直覺
人類讀書從左到右,大模型完全不同。注意力機(jī)制是全局比對:每個token要和所有token算關(guān)系,計算量隨長度平方級膨脹。1000token的文本,模型要做約50萬次比對;10萬token就是50億次。
這種設(shè)計帶來一個副作用:信息位置極度敏感。Chroma的研究發(fā)現(xiàn),關(guān)鍵信息放在上下文窗口的開頭或結(jié)尾,模型提取準(zhǔn)確率顯著高于塞在中間。中間段落像被"稀釋"了,模型注意力天然向兩端傾斜。
更麻煩的是"迷失在中間"(Lost in the Middle)現(xiàn)象。當(dāng)文檔超過一定長度,模型對中段內(nèi)容的召回率系統(tǒng)性下降。不是偶爾忘,是結(jié)構(gòu)性遺忘。你塞進(jìn)去的PDF、代碼庫、聊天記錄,中間部分正在被模型"跳過"。
上下文工程的四條實戰(zhàn)策略
第一條:信息分級,不是刪減是重組。把必須保留的指令、關(guān)鍵事實、用戶問題放在窗口兩端;背景材料、參考案例、歷史對話往中間堆。讓模型"不得不看"的東西占據(jù)注意力高地。
第二條:結(jié)構(gòu)化優(yōu)于平鋪。列表、表格、層級標(biāo)題比大段文字更易被模型解析。JSON、YAML等格式明確標(biāo)注字段關(guān)系,減少模型"猜"的負(fù)擔(dān)。代碼塊用markdown包裹,別讓模型自己找邊界。
第三條:動態(tài)裁剪,而非靜態(tài)截斷。長對話不要全塞,摘要歷史輪次;多文檔不要全堆,按相關(guān)性排序后取Top-K。RAG(檢索增強(qiáng)生成)的本質(zhì)就是動態(tài)上下文工程——先檢索,再組裝,最后塞進(jìn)窗口。
第四條:測試你的窗口極限。每個模型、每個任務(wù)的"甜蜜點"不同。用真實數(shù)據(jù)跑消融實驗:逐步增加上下文長度,觀察準(zhǔn)確率拐點。Chroma測試?yán)铮行┠P驮?K token就崩了,有些撐到64K才下滑。
為什么這事現(xiàn)在才有人講清楚
2023到2024年,行業(yè)焦點在拼參數(shù)、卷窗口。Anthropic把Claude拉到200萬token,Google Gemini跟進(jìn),OpenAI默默加碼。廠商敘事是"越大越能裝",用戶直覺是"裝得多懂得多"。
Chroma的測試數(shù)據(jù)把敘事拽回地面:18個模型,零例外,全都在長度面前露餡。這不是某個架構(gòu)的bug,是Transformer注意力機(jī)制的固有代價。上下文工程的價值,在于用組織策略對沖硬件限制。
一個細(xì)節(jié)值得玩味:研究發(fā)布于2025年4月,但"迷失在中間"現(xiàn)象2023年就有論文記錄。為什么兩年后才有系統(tǒng)性的工程指南?因為早期大模型窗口太短,問題被"裝不下"掩蓋了;窗口膨脹后,"裝得下但用不好"才浮出水面。
產(chǎn)品團(tuán)隊現(xiàn)在面臨的選擇是:繼續(xù)追逐200萬token的軍備競賽,還是在8萬token里把信息密度做到極致?后者需要更多設(shè)計工作,更少API調(diào)用費,以及一套被驗證過的組裝邏輯。
Chroma的研究團(tuán)隊在附錄里埋了一句話:測試中最穩(wěn)定的模型,不是窗口最大的那個,而是對輸入結(jié)構(gòu)最敏感的那個。這算是一種暗示嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.