![]()
AMD AI 團隊負責人公開炮轟 Claude Code:復雜工程任務“已無法信任”,Anthropic 再陷產品與透明度爭議。
![]()
Anthropic 旗下編程工具 Claude Code,正在遭遇一場來自高階開發者群體的公開信任危機。
2026 年 4 月 2 日,GitHub 上出現一條題為“Claude Code 無法勝任復雜工程任務”的問題單,發帖者稱,在長期、高復雜度的軟件工程環境中,Claude Code 自 2 月以來出現明顯退化,已經下降到“不再能被信任處理復雜工程技術任務”的程度。
![]()
該問題單隨后在開發者社區持續發酵。
該用戶的 GitHub 個人資料和相關的 LinkedIn 帖子顯示該發帖人是 AMD 的 AI 團隊主管 Stella Laurenzo。
![]()
![]()
“Claude Code 根本無法勝任復雜的工程技術任務,” Laurenzo 寫道,并指出其團隊通過查閱數月來收集的日志得出了這一結論,這些日志來自他們使用 Claude Code 的“高度穩定且高度復雜的工作環境”。Laurenzo 補充道:“我團隊中的每位高級工程師都反映過類似的經歷/遭遇。”
這份指控并非停留在“體感變差”的層面,而是附帶了一整套基于歷史日志的量化分析。
GitHub 原帖給出的數據稱,團隊分析了 6,852 個 Claude Code 會話文件、234,760 次工具調用,以及 17,871 個 thinking blocks。
結論是,從 2 月中旬到 3 月,Claude Code 在復雜、長時程工程工作流中的表現出現了可測量的下滑。
![]()
按照問題單中的說法,這種退化最直觀的表現,是模型越來越少做“先研究、再下手”的工作。
日志分析顯示,Claude 在修改代碼前讀取文件的頻率大幅下降。
每次編輯前的平均讀取次數,從 1 月底到 2 月上旬的 6.6 次,下降到 3 月中下旬的 2.0 次,降幅約 70%。
與此同時,模型更頻繁地直接改寫整個文件,而不是做局部、精確的編輯。這意味著它在復雜工程任務中更像是在“搶答”,而不是在充分理解上下文后再動手。
原帖還給出了另一組更刺眼的數據。
團隊自建了一個用于捕捉“偷懶式停止”“推卸責任”“過度請求許可”等行為的 stop hook。
結果顯示,3 月 8 日之前,這類違規在歷史中是 0 次;3 月 8 日之后,17 天內觸發了 173 次,折算下來平均接近每天 10 次。
與之同步上升的,還有用戶提示詞中的“挫敗感指標”,以及模型出現 reasoning loops 的會話數量。
Laurenzo據此認為,Claude Code 在復雜工作流中的“思考深度”明顯下降,以至于模型開始系統性地選擇成本最低、但并不正確的動作:不先讀代碼就改、任務未完成就停、遇到問題先甩鍋、優先給出最省事的修復方案。 ?
被鞭子抽打的 Claude Code:
這份分析把矛頭對準了一個時間點,Claude Code 的 thinking 內容脫敏或隱藏策略變化。
Laurenzo 表示,所有這一切表明 Claude Code 的思考不夠深入,并且這一情況與3月初 Claude Code 2.1.69 版本部署思考內容脫敏功能同時出現。思考內容脫敏功能以標頭的形式出現,默認情況下會從 Claude Code API 響應中移除思考內容,這意味著用戶無法了解 Claude Code 在思考請求時實際執行的操作。
![]()
thinking blocks 的可見性在 3 月上旬快速下降,3 月 12 日之后幾乎變成 100% redacted;而質量下滑的時間窗口,與這輪 rollout 高度重合。
Laurenzo 據此提出質疑,Anthropic 是否在后臺減少了 thinking token 的分配,或者對復雜工程場景的推理深度進行了限制,只是用戶因為 thinking 內容被隱藏,已經很難直接觀察到。
Anthropic 官方文檔顯示,在 Claude 4 系列的 API 中,extended thinking 默認返回的是“總結版 thinking”,而非完整原始 thinking;文檔同時明確表示,用戶仍然會按完整 thinking tokens 計費,且 summary 行為本身也可能繼續調整。另一份官方更新記錄還顯示,Claude Code 后續版本已將 interactive sessions 中的 thinking summaries 改為默認不再顯示,用戶需要手動開啟 showThinkingSummaries: true 才能恢復。也就是說,官方確實在近期對 thinking 的展示方式做了調整,但“展示減少”是否等于“實際思考變淺”,官方并未承認。
這正是此次爭議的核心所在。
對于大量普通用戶來說,thinking 被隱藏,更多只是可解釋性變弱;但對于依賴 Claude Code 承擔復雜軟件工程任務的團隊來說,問題不只是“看不見過程”,而是無法確認模型是否真的拿到了足夠的推理預算。
更微妙的是,這場產品口碑風波,發生在 Anthropic 一連串負面事件之后。
3 月 31 日,Anthropic 因一次發布打包失誤,意外將 Claude Code 大規模內部源碼暴露到公共軟件倉庫。
這次事件涉及近 2,000 個文件、約 500,000 行代碼;外界從泄露代碼中看到了更多未發布功能、內部指令和“常駐后臺代理”等設計線索。
Anthropic 事后回應稱,這屬于“人為錯誤導致的發布打包問題”,并非外部安全入侵,也沒有客戶數據或憑證泄露,但這起事件依然引發了對其工程流程和運營成熟度的質疑。
與此同時,Claude Code 的配額與 token 消耗問題也在同步發酵。
Anthropic 已承認“用戶觸及 Claude Code 使用上限的速度比預期快得多”,并表示團隊正在調查。
在短短一周左右的時間里,Anthropic 一邊要處理源碼泄露帶來的工程與品牌壓力,一邊又要回應開發者對配額異常、復雜任務能力下滑、thinking 不透明的連續質疑。
過去半年,Claude 在開發者圈中一度建立起很強的口碑,尤其是在長鏈路執行、多文件修改、系統工程類任務中的表現,被不少工程師視為頭部水準。
Laurenzo 希望 Anthropic 能夠公開透明地說明其是否減少或限制了思考 token 的數量,從而導致 Claude Code 輸出垃圾結果。至少,她希望 Claude Code 能公開每次請求使用的思考 token 數量,以便用戶“監測他們的請求是否獲得了所需的推理深度”。
Laurenzo 還要求 Anthropic 為運行復雜工作流程的工程師增設一個最高思考級別的選項。這位 AMD AI 主管解釋:“目前的訂閱模式無法區分每次響應需要 200 個思考 token 的用戶和需要 20000 個思考 token 的用戶。運行復雜工程技術工作流程的用戶愿意為有保障的深度思考支付更高的費用。”
“我們已換成了另一家供應商,他們提供的服務質量更優,不過 Claude 一直對我們不錯,我們離開是希望 Anthropic 能夠改進其產品,”Laurenzo 解釋道,同時以保密協議為由,拒絕透露其團隊所使用的新工具的具體細節。盡管如此,Laurenzo 還是警告 Anthropic,AI 編程領域仍處于早期階段;如果 Anthropic 一意孤行、不思改進,很可能會失去領先地位。
“我只想補充一點,6 個月前,Claude 在推理質量和執行方面獨占鰲頭,”Laurenzo 在問題單討論帖中回復道。“但也需要密切關注和仔細評估其他 AI 開發商。在 Claude Opus 之前占據的能力層級上,Anthropic 絕非獨此一家。
對 Anthropic 來說,這才是最危險的信號。
當最懂產品上限的重度用戶開始遷移,失去的可能不只是口碑,而是整個 AI 編程賽道最核心的一批標桿客戶。 ?
在 AI 編程工具進入工程化競爭階段之后,開發者最在意的,不只是模型能不能寫代碼,而是它在復雜任務里是否穩定、是否透明、是否可預期。只要這三個問題回答不好,再強的模型,也很難長期保住“可被信任”的位置。
原帖:
![]()
參考鏈接:https://github.com/anthropics/claude-code/issues/42796
云頭條聲明:如以上內容有誤或侵犯到你公司、機構、單位或個人權益,請聯系我們說明理由,我們會配合,無條件刪除處理。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.