Anthropic旗下AI編程工具Claude Code遭遇嚴(yán)重口碑危機(jī)。來自AMD的AI總監(jiān)在GitHub官方倉庫公開提交問題報告,基于對數(shù)萬條會話日志的量化分析,指控Claude Code自今年2月起出現(xiàn)系統(tǒng)性能力退化,思考深度驟降67%,模型行為全面走樣。這一報告迅速在開發(fā)者社區(qū)引爆討論,將Anthropic推上輿論風(fēng)口。
提交這份分析報告的是AMD的AI團(tuán)隊負(fù)責(zé)人Stella Laurenzo。她在GitHub官方倉庫直接開Issue,措辭嚴(yán)峻:"Claude已無法被信任來執(zhí)行復(fù)雜工程任務(wù)。"她表示,團(tuán)隊已切換至其他服務(wù)商,并警告Anthropic:"6個月前,Claude在推理質(zhì)量和執(zhí)行能力上獨(dú)樹一幟。但現(xiàn)在,其他競爭者需要被非常認(rèn)真地關(guān)注和評估。"
![]()
這一Issue在Hacker News上迅速發(fā)酵,獲得975點(diǎn)支持和548條評論,成為近期Claude Code相關(guān)討論中熱度最高的帖子之一。網(wǎng)友評論直指問題核心——"ClaudeCode曾經(jīng)像一個聰明的結(jié)對編程伙伴,現(xiàn)在感覺像一個過于熱情的實習(xí)生,不停地把事情搞砸,然后建議最簡單的臨時方案";"最近總跟我說'你該去睡覺了。太晚了,今天就到這吧'這類話,一開始我還以為是我不小心讓Claude知道了我的deadline。"
Anthropic對此作出回應(yīng)。Claude Code團(tuán)隊成員Boris出面澄清,稱思考內(nèi)容隱藏功能(redact-thinking)僅為界面層面的改動,"不會影響模型內(nèi)部實際的推理邏輯本身,也不會影響思考預(yù)算或底層推理運(yùn)行機(jī)制"。
他同時承認(rèn),團(tuán)隊在2月進(jìn)行了兩項實質(zhì)性調(diào)整:一是2月9日隨Opus 4.6發(fā)布引入"自適應(yīng)思考"(adaptive thinking)機(jī)制;二是3月3日將默認(rèn)effort等級從高調(diào)整為中等(Medium)。Boris建議用戶通過/effort high指令或修改配置文件手動恢復(fù)高強(qiáng)度思考模式。
然而,這一解釋并未平息社區(qū)質(zhì)疑。多位開發(fā)者表示,即便將effort調(diào)至最高,"急于完成任務(wù)"的擺爛行為依然存在。用戶richardjennings稱:
"在輸出質(zhì)量斷崖式下跌之前,我完全不知道默認(rèn)effort已經(jīng)被改成了Medium。為了糾正這些問題,我大概花了一整天的工作時間。"數(shù)據(jù)實錘:思考深度驟降,行為全面走樣
Laurenzo的分析基于其團(tuán)隊在~/.claude/projects/目錄下積累的6852個Claude Code會話JSONL文件,覆蓋17871個思考塊、234760次工具調(diào)用及18000余條用戶提示詞,時間跨度從2026年1月底延伸至4月初,全程使用Anthropic官方API直連Opus模型。
![]()
數(shù)據(jù)揭示了一條清晰的退化時間線。在1月30日至2月8日的"優(yōu)質(zhì)期",Claude Code的思考深度中位值約為2200字符;到2月下旬,這一數(shù)字暴跌至約720字符,降幅達(dá)67%;3月初進(jìn)一步縮水至約560字符,降幅達(dá)75%。
![]()
思考深度的崩塌直接引發(fā)了工具使用模式的根本性轉(zhuǎn)變。在優(yōu)質(zhì)期,Claude Code修改代碼前的"讀改比"(每次編輯前的文件讀取次數(shù))高達(dá)6.6,遵循"先研究再修改"的嚴(yán)謹(jǐn)工作流。而到3月8日之后的"退化期",這一比率驟降至2.0,研究投入減少約70%。更觸目驚心的是,退化期內(nèi)每三次代碼修改中,就有一次是在未讀取目標(biāo)文件的情況下直接進(jìn)行的——這直接導(dǎo)致代碼被插入錯誤位置、注釋語義關(guān)聯(lián)被破壞等低級錯誤頻發(fā)。
![]()
行為層面的量化指標(biāo)同樣觸目驚心。用于捕捉"推諉責(zé)任、提前終止、請求許可"等不良行為的終止鉤子腳本(stop-phrase-guard.sh),在3月8日之前從未觸發(fā);而在此后17天內(nèi),觸發(fā)次數(shù)飆升至173次,平均每天10次。用戶提示詞中的負(fù)面情緒占比從5.8%升至9.8%,漲幅68%;用戶中斷率(即用戶發(fā)現(xiàn)模型犯錯并強(qiáng)行終止的頻率)從優(yōu)質(zhì)期到后期飆升了12倍。
![]()
![]()
隱藏的"思考內(nèi)容隱藏"功能:退化被刻意遮蔽?
Laurenzo的分析指出,上述退化與一項名為redact-thinking-2026-02-12的功能部署時間線高度吻合。數(shù)據(jù)顯示,該功能從3月5日開始灰度上線(1.5%),至3月10日至11日已覆蓋逾99%的請求,3月12日起全量生效。
這一功能的作用是在API響應(yīng)中剝離思考內(nèi)容,使用戶無法從外部觀察模型的實際推理過程。Laurenzo認(rèn)為,這一設(shè)計客觀上使思考深度的退化對用戶變得不可見——"3月初上線的隱藏功能,只是讓這一退化對用戶變得不可見。
她進(jìn)一步指出,思考深度的下降實際上早于該功能上線,在2月中旬便已開始。這與Anthropic在2月9日推出Opus 4.6并引入"自適應(yīng)思考"(adaptive thinking)模式,以及3月3日將默認(rèn)思考等級調(diào)整為"Medium effort"(effort=85)的時間節(jié)點(diǎn)相吻合。
報告還發(fā)現(xiàn),思考深度在隱藏功能上線后呈現(xiàn)出明顯的時段波動特征——太平洋時間17:00(美國西海岸下班時段)是全天最差時段,中位估算思考深度僅423字符;19:00為第二差時段,僅373字符。
![]()
這一模式與固定預(yù)算分配不符,更接近負(fù)載敏感型動態(tài)分配系統(tǒng)的特征,暗示思考資源可能隨平臺負(fù)載實時波動。
Anthropic官方回應(yīng):設(shè)置問題,非模型退化
面對GitHub議題的快速發(fā)酵,Claude Code團(tuán)隊成員Boris在數(shù)小時內(nèi)于GitHub和Hacker News雙平臺作出回應(yīng),承認(rèn)了部分問題的存在并提供了技術(shù)解釋。
Boris的核心澄清包括:
- 第一、思考內(nèi)容隱藏功能(redact-thinking)屬于UI層改動,不影響實際推理過程,用戶可通過settings.json中的showThinkingSummaries: true選項恢復(fù)顯示;
- 第二、2月下旬的思考深度下降,主要與2月9日Opus 4.6引入自適應(yīng)思考機(jī)制(adaptive thinking)以及3月3日默認(rèn)effort等級調(diào)整為中等有關(guān),前者可通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1關(guān)閉,后者可通過/effort high或/effort max手動提升。
Boris還表示,團(tuán)隊計劃測試將Teams和Enterprise用戶的默認(rèn)effort等級調(diào)整為高,并正在就部分用戶反映的自適應(yīng)思考機(jī)制在特定輪次分配推理不足的問題展開調(diào)查。
然而,這一解釋在社區(qū)中引發(fā)廣泛質(zhì)疑。用戶koverstreet回應(yīng)稱:
"問題遠(yuǎn)不止是默認(rèn)思考等級被改成了中等。即便把effort調(diào)到最高,模型'急于完成任務(wù)'的擺爛行為也明顯變多了。"
還有用戶直接指出,原始報告的提交者在提交時已采用了所有已知的公開設(shè)置,問題并非配置不當(dāng)。一位用戶提出諷刺性反問:
"這是一種什么精神——告訴用戶'你們調(diào)錯設(shè)置了'"。成本雪崩與用戶出走
退化帶來的代價不僅是質(zhì)量損失,更引發(fā)了成本的災(zāi)難性膨脹。
Laurenzo的數(shù)據(jù)顯示,從2月到3月,其團(tuán)隊的用戶提示詞數(shù)量幾乎持平(5608條 vs 5701條),但API請求量暴漲80倍,總輸入token增長170倍,輸出token增長64倍,按Bedrock Opus定價估算的月度成本從345美元飆升至42121美元,漲幅達(dá)122倍。
![]()
Laurenzo解釋,成本暴漲部分源于團(tuán)隊主動擴(kuò)容并發(fā)Agent數(shù)量,但退化本身造成的無效循環(huán)、頻繁中斷和重試,使每單位有效工作消耗的API請求量額外放大了8至16倍。團(tuán)隊最終被迫關(guān)停整個Agent集群,退回到單會話人工監(jiān)督模式。Laurenzo寫道:
"人類投入的工作量幾乎沒變,但模型消耗了80倍的API請求和64倍的輸出token,卻產(chǎn)出了明顯更差的結(jié)果。"
在Hacker News的討論中,大量用戶表達(dá)了類似遭遇,部分人已宣布切換至OpenAI Codex或其他替代方案。"我已經(jīng)取消了訂閱,切換到了Codex";"現(xiàn)在用Qwen3.5-27b,雖然不如兩個月前的Opus那么鋒利,但我們又能正常推進(jìn)工作了。"
用戶自救:臨時應(yīng)對方案
面對退化,部分開發(fā)者已摸索出若干臨時應(yīng)對策略。
在CLAUDE.md中明確授權(quán)是最常見的做法——通過在項目根目錄的配置文件中寫入"你有權(quán)編輯本項目任何文件""不要在重構(gòu)時請求確認(rèn)"等指令,可在實踐中將安全中斷頻率降低約70%。
將復(fù)雜任務(wù)拆解為邊界清晰的子任務(wù),也被廣泛驗證有效。相比"重構(gòu)整個認(rèn)證系統(tǒng)","僅重構(gòu)auth.js,完成后輸出變更摘要"這類有明確邊界的指令,能顯著減少模型的提前終止行為。
在設(shè)置層面,將effort調(diào)至high或max,并通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1禁用自適應(yīng)思考,是目前官方認(rèn)可的最直接干預(yù)手段。
Laurenzo則在報告中提出了更系統(tǒng)性的訴求:Anthropic應(yīng)公開思考token的分配情況,推出面向復(fù)雜工程工作流的"滿額思考"專屬訂閱檔位,并在API響應(yīng)中暴露thinking_tokens字段,讓用戶能夠自主監(jiān)控推理深度是否達(dá)標(biāo)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.