GPT-4準(zhǔn)確率從95%暴跌60%：上下文工程這坑

2026-04-06 23:45:26　來源: 固件更新中

北京舉報

分享至

2025年Chroma的一項測試讓18個頂級大模型集體翻車——包括GPT-4.1、Claude、Gemini。輸入越長，表現(xiàn)越差，部分模型準(zhǔn)確率從95%斷崖跌至60%。

這戳破了一個流傳三年的幻覺：給AI塞更多信息，它會更聰明。真相是，大模型有結(jié)構(gòu)性盲區(qū)，你喂什么、怎么擺，比喂多少重要得多。這門手藝叫上下文工程（Context Engineering）。

三個必須搞懂的概念

聊上下文工程前，先理清三個術(shù)語。Token（詞元）是大模型的思考單元，不是完整單詞，而是約四分之三個詞的文本塊。"context"算1個token，"engineering"會被切成2個。你輸入的問題、系統(tǒng)指令、附帶的文檔，全部按token計費。

上下文窗口（Context Window）是單次交互中模型能"看見"的token總量。系統(tǒng)人設(shè)、對話歷史、外部數(shù)據(jù)、你的問題，全部擠在這個框里。主流模型標(biāo)稱128K到200萬token不等，但數(shù)字大≠好用。

注意力機(jī)制（Attention）決定模型如何關(guān)聯(lián)token。生成每個新token前，模型要把它和窗口內(nèi)所有token比對一遍。這讓大模型能跨長文本串聯(lián)概念，也是性能瓶頸的根源。

大模型"閱讀"方式有多反直覺

人類讀書從左到右，大模型完全不同。注意力機(jī)制是全局比對：每個token要和所有token算關(guān)系，計算量隨長度平方級膨脹。1000token的文本，模型要做約50萬次比對；10萬token就是50億次。

這種設(shè)計帶來一個副作用：信息位置極度敏感。Chroma的研究發(fā)現(xiàn)，關(guān)鍵信息放在上下文窗口的開頭或結(jié)尾，模型提取準(zhǔn)確率顯著高于塞在中間。中間段落像被"稀釋"了，模型注意力天然向兩端傾斜。

更麻煩的是"迷失在中間"（Lost in the Middle）現(xiàn)象。當(dāng)文檔超過一定長度，模型對中段內(nèi)容的召回率系統(tǒng)性下降。不是偶爾忘，是結(jié)構(gòu)性遺忘。你塞進(jìn)去的PDF、代碼庫、聊天記錄，中間部分正在被模型"跳過"。

上下文工程的四條實戰(zhàn)策略

第一條：信息分級，不是刪減是重組。把必須保留的指令、關(guān)鍵事實、用戶問題放在窗口兩端；背景材料、參考案例、歷史對話往中間堆。讓模型"不得不看"的東西占據(jù)注意力高地。

第二條：結(jié)構(gòu)化優(yōu)于平鋪。列表、表格、層級標(biāo)題比大段文字更易被模型解析。JSON、YAML等格式明確標(biāo)注字段關(guān)系，減少模型"猜"的負(fù)擔(dān)。代碼塊用markdown包裹，別讓模型自己找邊界。

第三條：動態(tài)裁剪，而非靜態(tài)截斷。長對話不要全塞，摘要歷史輪次；多文檔不要全堆，按相關(guān)性排序后取Top-K。RAG（檢索增強(qiáng)生成）的本質(zhì)就是動態(tài)上下文工程——先檢索，再組裝，最后塞進(jìn)窗口。

第四條：測試你的窗口極限。每個模型、每個任務(wù)的"甜蜜點"不同。用真實數(shù)據(jù)跑消融實驗：逐步增加上下文長度，觀察準(zhǔn)確率拐點。Chroma測試?yán)铮行┠Ｐ驮?K token就崩了，有些撐到64K才下滑。

為什么這事現(xiàn)在才有人講清楚

2023到2024年，行業(yè)焦點在拼參數(shù)、卷窗口。Anthropic把Claude拉到200萬token，Google Gemini跟進(jìn)，OpenAI默默加碼。廠商敘事是"越大越能裝"，用戶直覺是"裝得多懂得多"。

Chroma的測試數(shù)據(jù)把敘事拽回地面：18個模型，零例外，全都在長度面前露餡。這不是某個架構(gòu)的bug，是Transformer注意力機(jī)制的固有代價。上下文工程的價值，在于用組織策略對沖硬件限制。

一個細(xì)節(jié)值得玩味：研究發(fā)布于2025年4月，但"迷失在中間"現(xiàn)象2023年就有論文記錄。為什么兩年后才有系統(tǒng)性的工程指南？因為早期大模型窗口太短，問題被"裝不下"掩蓋了；窗口膨脹后，"裝得下但用不好"才浮出水面。

產(chǎn)品團(tuán)隊現(xiàn)在面臨的選擇是：繼續(xù)追逐200萬token的軍備競賽，還是在8萬token里把信息密度做到極致？后者需要更多設(shè)計工作，更少API調(diào)用費，以及一套被驗證過的組裝邏輯。

Chroma的研究團(tuán)隊在附錄里埋了一句話：測試中最穩(wěn)定的模型，不是窗口最大的那個，而是對輸入結(jié)構(gòu)最敏感的那個。這算是一種暗示嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

“Claude Code更新廢了”！思考深度降67%，無法勝任復(fù)雜工程任務(wù)

量子位 2026-04-07 14:07:07
1 跟貼 1
CVPR 2026 | 從視覺Token內(nèi)在變化量出發(fā)，實現(xiàn)VLM無損加速1.87倍

機(jī)器之心Pro 2026-03-16 11:56:33
0 跟貼 0

PMDformer：一個簡單減法實現(xiàn)長時序預(yù)測注意力機(jī)制糾偏

機(jī)器之心Pro 2026-04-07 13:31:21
0 跟貼 0

Claude Code一周份額，一天燒完一半？有人逆向工程發(fā)現(xiàn)了7個bug

機(jī)器之心Pro 2026-04-07 17:34:08
0 跟貼 0
英偉達(dá)巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
75 跟貼 75

鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機(jī)器之心Pro 2026-04-07 14:27:35
0 跟貼 0

iPhone本地跑Gemma 4火了，0 token時代還有多遠(yuǎn)？

機(jī)器之心Pro 2026-04-07 10:52:08
8 跟貼 8
Meta員工空轉(zhuǎn)AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
1 跟貼 1

告別昂貴賬單，Token直降68%，多智能體動態(tài)協(xié)作編程來了

機(jī)器之心Pro 2026-04-07 13:16:40
0 跟貼 0
河南小伙，被中東大佬下300輛戰(zhàn)車模型，全村都上了！

乘風(fēng)笑浪 2026-04-06 14:56:09
1 跟貼 1
AI邪修時刻！Meta聯(lián)手MIT投毒，左腳踩右腳強(qiáng)行升天

新智元 2026-04-07 09:43:43
0 跟貼 0
燒Token成KPI，8.5萬Meta員工狂刷60萬億Token，爭榜一大哥

機(jī)器之心Pro 2026-04-07 13:24:24
0 跟貼 0
張雪說要革掉一些不上進(jìn)的人

點時新聞 2026-04-07 14:50:35
81 跟貼 81
讓多模態(tài)檢索超越SOTA！ReCALL框架化解生成式與判別式的范式?jīng)_突

量子位 2026-04-06 23:28:00
0 跟貼 0
三年學(xué)倆單詞不足為怪夠用就行

青煙影剪 2026-04-06 10:18:52
1 跟貼 1
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2612 跟貼 2612
“祖先給的特權(quán)”，河南網(wǎng)友稱祖墳在景區(qū)祭祖免票，景區(qū)回應(yīng)：沒過檢票口，一般是附近住戶的祖墳

大風(fēng)新聞 2026-04-06 15:06:12
2008 跟貼 2008
GPT-6 曝光了，奧特曼卻成了硅谷最焦慮的人

AppSo 2026-04-06 17:15:36
34 跟貼 34
模仿學(xué)習(xí)如何賦能靈巧操作？這有一份「2021-2025」全景技術(shù)圖譜

機(jī)器之心Pro 2026-04-07 13:23:01
0 跟貼 0
廢除漢字幾十年后，韓語終于被確診“中國拼音”，韓國人又破防了

新一說史 2026-04-07 20:53:00
12 跟貼 12
甲狀腺結(jié)節(jié)報告單上的“危險信號”：這幾個字一出現(xiàn)，別拖！

北苑日常 2026-04-07 10:30:05
1 跟貼 1
詞元這么火，該怎么安全用？警惕“囤Token暴富”騙局！

每日經(jīng)濟(jì)新聞 2026-04-07 18:18:01
0 跟貼 0
Codeforces難題不夠刷？謝賽寧等造了AI出題機(jī)，能生成原創(chuàng)編程題

機(jī)器之心Pro 2025-10-20 14:17:05
0 跟貼 0
完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
97 跟貼 97
囤Token能暴富？國家安全部提醒

眉山共青團(tuán) 2026-04-07 20:29:31
0 跟貼 0
姑娘大街上直播跳舞，硬件條件太差了，想復(fù)制阿梓的路不可能

矜寡愛時尚 2026-04-06 09:17:05
0 跟貼 0
賽力斯：公司不承擔(dān)其他品牌門店的建店、運營相關(guān)費用

每日經(jīng)濟(jì)新聞 2026-04-07 15:53:45
1502 跟貼 1502
風(fēng)箏-鄭耀先被催婚了！一套邏輯下來，說的徐百川啞口無言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
一夜變天:GPT-Image-2流出,昔日王者Nano Banana Pro被拉下神壇？

機(jī)器之心Pro 2026-04-07 11:19:35
0 跟貼 0
男子和小老外結(jié)婚三年，開始健身女友這樣理解，婆婆秒接受指令！

搞笑大蘑菇 2026-04-05 13:19:09
0 跟貼 0
內(nèi)容投毒，工作埋坑，打工人開始用「魔法」對抗Skill煉化？

雷科技 2026-04-07 21:42:51
0 跟貼 0
美媒：“無法無天的世界代價高昂”

參考消息 2026-04-07 16:50:06
63 跟貼 63
“虧大了”？浙江多個小區(qū)物業(yè)主動撤場，業(yè)主卻稱：錢花得冤，背后有筆算不攏的賬

環(huán)球網(wǎng)資訊 2026-04-07 14:42:45
46 跟貼 46
讓老公形容今天穿搭，下幕倆人心照不宣，專業(yè)的術(shù)語竟然都懂了！

呆橘爆笑社 2026-04-06 09:53:31
1 跟貼 1
小樣變正裝正裝變小樣，男人專業(yè)術(shù)語買化妝品，柜姐竟然都聽懂了

搞笑達(dá)人站 2026-04-07 14:17:59
1 跟貼 1
趙心童創(chuàng)“三冠”新紀(jì)錄，英媒直呼：其統(tǒng)治力“令對手膽寒”

環(huán)球網(wǎng)資訊 2026-04-07 06:56:17
137 跟貼 137
媒體稱前理想i8負(fù)責(zé)人已創(chuàng)辦具身智能企業(yè)，獲理想汽車投資

識礁Farsight 2026-04-07 23:09:22
0 跟貼 0
免費無限用！谷歌上線了一款A(yù)I語音轉(zhuǎn)寫神器

智東西 2026-04-07 19:09:17
3 跟貼 3
美國連夜飛來兩架專機(jī)，卻擋不住一個方向，臺海主動權(quán)正在易手

孤城落日 2026-04-08 00:50:46
0 跟貼 0
農(nóng)民養(yǎng)老金專題座談會在京召開專家建議提高高齡農(nóng)民基礎(chǔ)養(yǎng)老金

中國青年報 2026-04-07 19:52:06
26 跟貼 26

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

GPT-4準(zhǔn)確率從95%暴跌60%：上下文工程這坑

三個必須搞懂的概念

大模型"閱讀"方式有多反直覺

上下文工程的四條實戰(zhàn)策略

為什么這事現(xiàn)在才有人講清楚

滿嘴謊言！OpenAI奧特曼黑料大起底

白宮：美伊談判進(jìn)展“只有總統(tǒng)知道實際情況”

白宮：美伊談判進(jìn)展“只有總統(tǒng)知道實際情況”

拉門斯：我讀過寫科比、詹姆斯&喬丹等人的書，學(xué)習(xí)他們的心態(tài)

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

10萬億財政轉(zhuǎn)移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

《GTA6》之后是《大表哥3》？R星更可能做中世紀(jì)！

雅致愜意 感知生活之美

索尼新高端頭戴耳機(jī)曝光售價比蘋果還貴

美軍營救飛行員出動155架飛機(jī)

女首富陳麗華離世被曝生前已分好遺產(chǎn)

不止是大極狐首款MPV問道V9靜態(tài)體驗

雅致愜意感知生活之美