Claude Code 更新后“翻車”，思考深度驟降67%，“無法再信任其處理復(fù)雜工程任務(wù)”!

2026-04-07 16:17:25　來源: 華爾街見聞官方

上海舉報

分享至

Anthropic旗下AI編程工具Claude Code遭遇嚴(yán)重口碑危機(jī)。來自AMD的AI總監(jiān)在GitHub官方倉庫公開提交問題報告，基于對數(shù)萬條會話日志的量化分析，指控Claude Code自今年2月起出現(xiàn)系統(tǒng)性能力退化，思考深度驟降67%，模型行為全面走樣。這一報告迅速在開發(fā)者社區(qū)引爆討論，將Anthropic推上輿論風(fēng)口。

提交這份分析報告的是AMD的AI團(tuán)隊負(fù)責(zé)人Stella Laurenzo。她在GitHub官方倉庫直接開Issue，措辭嚴(yán)峻："Claude已無法被信任來執(zhí)行復(fù)雜工程任務(wù)。"她表示，團(tuán)隊已切換至其他服務(wù)商，并警告Anthropic："6個月前，Claude在推理質(zhì)量和執(zhí)行能力上獨(dú)樹一幟。但現(xiàn)在，其他競爭者需要被非常認(rèn)真地關(guān)注和評估。"

這一Issue在Hacker News上迅速發(fā)酵，獲得975點(diǎn)支持和548條評論，成為近期Claude Code相關(guān)討論中熱度最高的帖子之一。網(wǎng)友評論直指問題核心——"ClaudeCode曾經(jīng)像一個聰明的結(jié)對編程伙伴，現(xiàn)在感覺像一個過于熱情的實習(xí)生，不停地把事情搞砸，然后建議最簡單的臨時方案"；"最近總跟我說'你該去睡覺了。太晚了，今天就到這吧'這類話，一開始我還以為是我不小心讓Claude知道了我的deadline。"

Anthropic對此作出回應(yīng)。Claude Code團(tuán)隊成員Boris出面澄清，稱思考內(nèi)容隱藏功能（redact-thinking）僅為界面層面的改動，"不會影響模型內(nèi)部實際的推理邏輯本身，也不會影響思考預(yù)算或底層推理運(yùn)行機(jī)制"。

他同時承認(rèn)，團(tuán)隊在2月進(jìn)行了兩項實質(zhì)性調(diào)整：一是2月9日隨Opus 4.6發(fā)布引入"自適應(yīng)思考"（adaptive thinking）機(jī)制；二是3月3日將默認(rèn)effort等級從高調(diào)整為中等（Medium）。Boris建議用戶通過/effort high指令或修改配置文件手動恢復(fù)高強(qiáng)度思考模式。

然而，這一解釋并未平息社區(qū)質(zhì)疑。多位開發(fā)者表示，即便將effort調(diào)至最高，"急于完成任務(wù)"的擺爛行為依然存在。用戶richardjennings稱：

"在輸出質(zhì)量斷崖式下跌之前，我完全不知道默認(rèn)effort已經(jīng)被改成了Medium。為了糾正這些問題，我大概花了一整天的工作時間。"

數(shù)據(jù)實錘：思考深度驟降，行為全面走樣

Laurenzo的分析基于其團(tuán)隊在~/.claude/projects/目錄下積累的6852個Claude Code會話JSONL文件，覆蓋17871個思考塊、234760次工具調(diào)用及18000余條用戶提示詞，時間跨度從2026年1月底延伸至4月初，全程使用Anthropic官方API直連Opus模型。

數(shù)據(jù)揭示了一條清晰的退化時間線。在1月30日至2月8日的"優(yōu)質(zhì)期"，Claude Code的思考深度中位值約為2200字符；到2月下旬，這一數(shù)字暴跌至約720字符，降幅達(dá)67%；3月初進(jìn)一步縮水至約560字符，降幅達(dá)75%。

思考深度的崩塌直接引發(fā)了工具使用模式的根本性轉(zhuǎn)變。在優(yōu)質(zhì)期，Claude Code修改代碼前的"讀改比"（每次編輯前的文件讀取次數(shù)）高達(dá)6.6，遵循"先研究再修改"的嚴(yán)謹(jǐn)工作流。而到3月8日之后的"退化期"，這一比率驟降至2.0，研究投入減少約70%。更觸目驚心的是，退化期內(nèi)每三次代碼修改中，就有一次是在未讀取目標(biāo)文件的情況下直接進(jìn)行的——這直接導(dǎo)致代碼被插入錯誤位置、注釋語義關(guān)聯(lián)被破壞等低級錯誤頻發(fā)。

行為層面的量化指標(biāo)同樣觸目驚心。用于捕捉"推諉責(zé)任、提前終止、請求許可"等不良行為的終止鉤子腳本（stop-phrase-guard.sh），在3月8日之前從未觸發(fā)；而在此后17天內(nèi)，觸發(fā)次數(shù)飆升至173次，平均每天10次。用戶提示詞中的負(fù)面情緒占比從5.8%升至9.8%，漲幅68%；用戶中斷率（即用戶發(fā)現(xiàn)模型犯錯并強(qiáng)行終止的頻率）從優(yōu)質(zhì)期到后期飆升了12倍。

隱藏的"思考內(nèi)容隱藏"功能：退化被刻意遮蔽？

Laurenzo的分析指出，上述退化與一項名為redact-thinking-2026-02-12的功能部署時間線高度吻合。數(shù)據(jù)顯示，該功能從3月5日開始灰度上線（1.5%），至3月10日至11日已覆蓋逾99%的請求，3月12日起全量生效。

這一功能的作用是在API響應(yīng)中剝離思考內(nèi)容，使用戶無法從外部觀察模型的實際推理過程。Laurenzo認(rèn)為，這一設(shè)計客觀上使思考深度的退化對用戶變得不可見——"3月初上線的隱藏功能，只是讓這一退化對用戶變得不可見。

她進(jìn)一步指出，思考深度的下降實際上早于該功能上線，在2月中旬便已開始。這與Anthropic在2月9日推出Opus 4.6并引入"自適應(yīng)思考"（adaptive thinking）模式，以及3月3日將默認(rèn)思考等級調(diào)整為"Medium effort"（effort=85）的時間節(jié)點(diǎn)相吻合。

報告還發(fā)現(xiàn)，思考深度在隱藏功能上線后呈現(xiàn)出明顯的時段波動特征——太平洋時間17:00（美國西海岸下班時段）是全天最差時段，中位估算思考深度僅423字符；19:00為第二差時段，僅373字符。

這一模式與固定預(yù)算分配不符，更接近負(fù)載敏感型動態(tài)分配系統(tǒng)的特征，暗示思考資源可能隨平臺負(fù)載實時波動。

Anthropic官方回應(yīng)：設(shè)置問題，非模型退化

面對GitHub議題的快速發(fā)酵，Claude Code團(tuán)隊成員Boris在數(shù)小時內(nèi)于GitHub和Hacker News雙平臺作出回應(yīng)，承認(rèn)了部分問題的存在并提供了技術(shù)解釋。

Boris的核心澄清包括：

第一、思考內(nèi)容隱藏功能（redact-thinking）屬于UI層改動，不影響實際推理過程，用戶可通過settings.json中的showThinkingSummaries: true選項恢復(fù)顯示；
第二、2月下旬的思考深度下降，主要與2月9日Opus 4.6引入自適應(yīng)思考機(jī)制（adaptive thinking）以及3月3日默認(rèn)effort等級調(diào)整為中等有關(guān)，前者可通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1關(guān)閉，后者可通過/effort high或/effort max手動提升。

Boris還表示，團(tuán)隊計劃測試將Teams和Enterprise用戶的默認(rèn)effort等級調(diào)整為高，并正在就部分用戶反映的自適應(yīng)思考機(jī)制在特定輪次分配推理不足的問題展開調(diào)查。

然而，這一解釋在社區(qū)中引發(fā)廣泛質(zhì)疑。用戶koverstreet回應(yīng)稱：

"問題遠(yuǎn)不止是默認(rèn)思考等級被改成了中等。即便把effort調(diào)到最高，模型'急于完成任務(wù)'的擺爛行為也明顯變多了。"

還有用戶直接指出，原始報告的提交者在提交時已采用了所有已知的公開設(shè)置，問題并非配置不當(dāng)。一位用戶提出諷刺性反問：

"這是一種什么精神——告訴用戶'你們調(diào)錯設(shè)置了'"。

成本雪崩與用戶出走

退化帶來的代價不僅是質(zhì)量損失，更引發(fā)了成本的災(zāi)難性膨脹。

Laurenzo的數(shù)據(jù)顯示，從2月到3月，其團(tuán)隊的用戶提示詞數(shù)量幾乎持平（5608條 vs 5701條），但API請求量暴漲80倍，總輸入token增長170倍，輸出token增長64倍，按Bedrock Opus定價估算的月度成本從345美元飆升至42121美元，漲幅達(dá)122倍。

Laurenzo解釋，成本暴漲部分源于團(tuán)隊主動擴(kuò)容并發(fā)Agent數(shù)量，但退化本身造成的無效循環(huán)、頻繁中斷和重試，使每單位有效工作消耗的API請求量額外放大了8至16倍。團(tuán)隊最終被迫關(guān)停整個Agent集群，退回到單會話人工監(jiān)督模式。Laurenzo寫道：

"人類投入的工作量幾乎沒變，但模型消耗了80倍的API請求和64倍的輸出token，卻產(chǎn)出了明顯更差的結(jié)果。"

在Hacker News的討論中，大量用戶表達(dá)了類似遭遇，部分人已宣布切換至OpenAI Codex或其他替代方案。"我已經(jīng)取消了訂閱，切換到了Codex"；"現(xiàn)在用Qwen3.5-27b，雖然不如兩個月前的Opus那么鋒利，但我們又能正常推進(jìn)工作了。"

用戶自救：臨時應(yīng)對方案

面對退化，部分開發(fā)者已摸索出若干臨時應(yīng)對策略。

在CLAUDE.md中明確授權(quán)是最常見的做法——通過在項目根目錄的配置文件中寫入"你有權(quán)編輯本項目任何文件""不要在重構(gòu)時請求確認(rèn)"等指令，可在實踐中將安全中斷頻率降低約70%。

將復(fù)雜任務(wù)拆解為邊界清晰的子任務(wù)，也被廣泛驗證有效。相比"重構(gòu)整個認(rèn)證系統(tǒng)"，"僅重構(gòu)auth.js，完成后輸出變更摘要"這類有明確邊界的指令，能顯著減少模型的提前終止行為。

在設(shè)置層面，將effort調(diào)至high或max，并通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1禁用自適應(yīng)思考，是目前官方認(rèn)可的最直接干預(yù)手段。

Laurenzo則在報告中提出了更系統(tǒng)性的訴求：Anthropic應(yīng)公開思考token的分配情況，推出面向復(fù)雜工程工作流的"滿額思考"專屬訂閱檔位，并在API響應(yīng)中暴露thinking_tokens字段，讓用戶能夠自主監(jiān)控推理深度是否達(dá)標(biāo)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.