網易首頁 > 網易號 > 正文申請入駐

越更越廢！Claude Code遭大廠主管怒懟，官方回應被罵翻

2026-04-08 09:37:40　來源: 魏家東

北京舉報

分享至

曾被視為AI編程領域標桿的ClaudeCode，近期陷入一場前所未有的信任危機。2026年2月更新后，多位資深開發者反映其處理復雜工程任務的能力斷崖式下跌，從"靠譜隊友"淪為"頻繁掉鏈子"的工具。這場爭議由AMDAI團隊主管StellaLaurenzo引爆，她以詳實數據揭示模型思考深度驟降67%，引發全球開發者共鳴，連ClaudeCode負責人BorisCherny都親自下場回應。這場風波不僅關乎一款產品的口碑，更折射出AI工具商業化進程中，效率與質量、成本與體驗的艱難平衡。

一、數據實錘：從"深思熟慮"到"淺嘗輒止"

這場爭議的核心，是一份基于海量真實數據的分析報告。Laurenzo團隊深挖了2026年1月30日至4月1日期間，6852份ClaudeCode會話文件、17871個思考模塊與234760次工具調用，用客觀數據勾勒出模型能力退化的清晰軌跡。

最刺眼的變化是思考深度暴跌67%。1月"優質期"時，ClaudeCode每次思考的字符數穩定在2200個左右，能完整呈現多步驟推理、上下文關聯與規范遵循的過程。到2月下旬，這一數字直接腰斬至720字符，減少了三分之二的思考量。3月初"redact-thinking"功能全量上線后，思考過程被隱藏，但數據估算顯示其深度進一步跌至560字符，累計降幅達75%。

更關鍵的是工作流徹底異化。原本ClaudeCode遵循嚴謹的"先研究后修改"邏輯：每次編輯前平均讀取6.6次相關文件，先吃透目標代碼、梳理調用關系、研讀頭文件與測試用例，再精準動手。退化后這一比例驟降至2.0次，調研行為減少70%，常常只讀當前文件就直接編輯，甚至出現不讀文件就改寫的情況。模型越來越傾向于重寫整個文件而非局部修改，看似更快，卻頻繁破壞原有邏輯、丟失上下文信息。

還有"擺爛"行為激增。團隊專門編寫腳本檢測模型回避責任、提前終止任務、反復請求授權等敷衍行為。3月8日"redact-thinking"覆蓋超50%用戶后，17天內觸發173次，而此前數月記錄為零。開發者反饋：模型常忽略明確指令、聲稱完成卻未改動、執行操作與需求完全相反，處理復雜多文件項目時頻頻"罷工"。

二、時間線吻合：三次更新埋下隱患

數據顯示，ClaudeCode的退化并非偶然，而是與Anthropic三次關鍵更新精準同步，形成清晰的問題傳導鏈。

2月9日：Opus4.6發布，引入"自適應思考"。這是問題的起點。此前模型采用固定思考預算，更新后改為自主決定推理深度與時長。初衷是提升效率、降低成本，卻導致模型為追求速度主動"偷懶"，優先選擇最簡路徑而非最優方案。Laurenzo團隊發現，思考深度下降正是從這一天開始，與自適應思考的上線完全吻合。

3月3日：默認思考強度調至"中等（85）"。Anthropic官方稱，這是在智能水平、延遲與成本間找到的"最優平衡點"，能提升token效率、降低響應時間。但對復雜工程場景而言，中等強度遠不足以支撐深度推理。開發者反映，直到質量暴跌才發現默認設置被更改，耗費大量時間修復錯誤。

3月5-12日："redact-thinking-2026-02-12"全量上線。這一功能從API響應中剝離思考內容，讓用戶無法查看模型推理過程。其部署節奏呈明顯灰度特征：從1.5%逐步升至25%、58%，最終一周內覆蓋100%用戶。3月8日覆蓋超50%當天，正是大規模質量問題被集中上報的日子，時間線完全重合。Anthropic稱這只是UI層面調整，不影響實際思考，但開發者認為這是在"掩蓋退化"。

三、官方回應與開發者反彈：各執一詞的爭議

面對洶涌的質疑，ClaudeCode負責人BorisCherny在GitHub與開發者論壇親自回應，試圖平息風波，但解釋并未獲得廣泛認可。

Cherny的核心觀點有三：一是redact-thinking僅隱藏UI，不影響底層推理與思考預算，用戶可通過設置恢復顯示；二是自適應思考與默認強度調整是為平衡體驗，多數用戶能受益，專業用戶可手動調至"high"或"max"模式；三是邀請用戶提交bug反饋，以便定位問題是異常還是正常波動。

但Laurenzo直接反駁：團隊已嘗試所有思考參數組合，均無法扭轉質量下滑趨勢。"在思考被隱藏前，模型性能就已嚴重退化，沒有證據表明問題可通過現有設置修復"。她強調，數據來自真實工程場景，覆蓋完整會話日志，結論客觀可靠。

其他開發者紛紛站隊。有人直言"若官方堅稱沒問題，就遷移到Codex"；有人反饋調至最高強度后才恢復穩定，懇請增加"始終全力思考"模式；也有人發現最高強度反而"用力過猛"，表現與低強度類似，問題根源遠超參數設置。

四、深層反思：AI工具的效率與質量悖論

ClaudeCode事件，本質是AI商業化進程中"降本增效"與"專業體驗"的激烈沖突。Anthropic的調整邏輯不難理解：大模型運算成本高昂，固定高思考預算會導致資源浪費、響應緩慢、用戶流失。通過自適應思考與強度分級，既能控制成本、提升速度，又能滿足普通用戶需求，看似是理性選擇。

但對專業開發者與企業用戶而言，這種調整是致命的。復雜工程任務需要深度推理、長上下文保持、多步驟關聯，思考深度不足會直接導致輸出失效，反而增加調試成本、降低整體效率。正如Laurenzo所說："減少單次思考看似節省算力，卻因質量下降引發頻繁重試、錯誤修正，整體算力消耗反而暴漲幾個數量級"。

這場風波也暴露了AI產品更新的倫理問題。核心功能與默認設置的重大調整，是否應充分告知用戶？專業級工具能否為迎合大眾而犧牲專業能力？當AI從"輔助工具"變為"生產核心"，穩定性與可靠性遠比"速度更快"重要。

目前，Laurenzo已刪除部分易被斷章取義的表述，稱初衷是呈現客觀數據，而非全盤否定ClaudeCode。她表示會繼續測試、提交bug反饋，希望幫助Anthropic修復問題，找回曾經的高質量體驗。而Anthropic也承諾，將測試為團隊與企業版用戶默認啟用高思考強度，平衡專業需求與成本控制。

對整個AI行業而言，ClaudeCode的"翻車"是一次重要警示：技術迭代不能只追求速度與流量，更要守住專業底線。真正優秀的AI助手，不該在效率與質量間二選一，而要通過技術創新實現兼顧——既讓普通用戶輕快流暢，也讓專業用戶深度可靠。畢竟，開發者需要的是能并肩作戰的"靠譜隊友"，而非關鍵時刻掉鏈子的"表面功夫"。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.