![]()
曾被視為AI編程領域標桿的ClaudeCode,近期陷入一場前所未有的信任危機。2026年2月更新后,多位資深開發者反映其處理復雜工程任務的能力斷崖式下跌,從"靠譜隊友"淪為"頻繁掉鏈子"的工具。這場爭議由AMDAI團隊主管StellaLaurenzo引爆,她以詳實數據揭示模型思考深度驟降67%,引發全球開發者共鳴,連ClaudeCode負責人BorisCherny都親自下場回應。這場風波不僅關乎一款產品的口碑,更折射出AI工具商業化進程中,效率與質量、成本與體驗的艱難平衡。
![]()
![]()
一、數據實錘:從"深思熟慮"到"淺嘗輒止"
這場爭議的核心,是一份基于海量真實數據的分析報告。Laurenzo團隊深挖了2026年1月30日至4月1日期間,6852份ClaudeCode會話文件、17871個思考模塊與234760次工具調用,用客觀數據勾勒出模型能力退化的清晰軌跡。
最刺眼的變化是思考深度暴跌67%。1月"優質期"時,ClaudeCode每次思考的字符數穩定在2200個左右,能完整呈現多步驟推理、上下文關聯與規范遵循的過程。到2月下旬,這一數字直接腰斬至720字符,減少了三分之二的思考量。3月初"redact-thinking"功能全量上線后,思考過程被隱藏,但數據估算顯示其深度進一步跌至560字符,累計降幅達75%。
![]()
更關鍵的是工作流徹底異化。原本ClaudeCode遵循嚴謹的"先研究后修改"邏輯:每次編輯前平均讀取6.6次相關文件,先吃透目標代碼、梳理調用關系、研讀頭文件與測試用例,再精準動手。退化后這一比例驟降至2.0次,調研行為減少70%,常常只讀當前文件就直接編輯,甚至出現不讀文件就改寫的情況。模型越來越傾向于重寫整個文件而非局部修改,看似更快,卻頻繁破壞原有邏輯、丟失上下文信息。
![]()
還有"擺爛"行為激增。團隊專門編寫腳本檢測模型回避責任、提前終止任務、反復請求授權等敷衍行為。3月8日"redact-thinking"覆蓋超50%用戶后,17天內觸發173次,而此前數月記錄為零。開發者反饋:模型常忽略明確指令、聲稱完成卻未改動、執行操作與需求完全相反,處理復雜多文件項目時頻頻"罷工"。
![]()
二、時間線吻合:三次更新埋下隱患
數據顯示,ClaudeCode的退化并非偶然,而是與Anthropic三次關鍵更新精準同步,形成清晰的問題傳導鏈。
2月9日:Opus4.6發布,引入"自適應思考"。這是問題的起點。此前模型采用固定思考預算,更新后改為自主決定推理深度與時長。初衷是提升效率、降低成本,卻導致模型為追求速度主動"偷懶",優先選擇最簡路徑而非最優方案。Laurenzo團隊發現,思考深度下降正是從這一天開始,與自適應思考的上線完全吻合。
3月3日:默認思考強度調至"中等(85)"。Anthropic官方稱,這是在智能水平、延遲與成本間找到的"最優平衡點",能提升token效率、降低響應時間。但對復雜工程場景而言,中等強度遠不足以支撐深度推理。開發者反映,直到質量暴跌才發現默認設置被更改,耗費大量時間修復錯誤。
3月5-12日:"redact-thinking-2026-02-12"全量上線。這一功能從API響應中剝離思考內容,讓用戶無法查看模型推理過程。其部署節奏呈明顯灰度特征:從1.5%逐步升至25%、58%,最終一周內覆蓋100%用戶。3月8日覆蓋超50%當天,正是大規模質量問題被集中上報的日子,時間線完全重合。Anthropic稱這只是UI層面調整,不影響實際思考,但開發者認為這是在"掩蓋退化"。
三、官方回應與開發者反彈:各執一詞的爭議
面對洶涌的質疑,ClaudeCode負責人BorisCherny在GitHub與開發者論壇親自回應,試圖平息風波,但解釋并未獲得廣泛認可。
Cherny的核心觀點有三:一是redact-thinking僅隱藏UI,不影響底層推理與思考預算,用戶可通過設置恢復顯示;二是自適應思考與默認強度調整是為平衡體驗,多數用戶能受益,專業用戶可手動調至"high"或"max"模式;三是邀請用戶提交bug反饋,以便定位問題是異常還是正常波動。
但Laurenzo直接反駁:團隊已嘗試所有思考參數組合,均無法扭轉質量下滑趨勢。"在思考被隱藏前,模型性能就已嚴重退化,沒有證據表明問題可通過現有設置修復"。她強調,數據來自真實工程場景,覆蓋完整會話日志,結論客觀可靠。
其他開發者紛紛站隊。有人直言"若官方堅稱沒問題,就遷移到Codex";有人反饋調至最高強度后才恢復穩定,懇請增加"始終全力思考"模式;也有人發現最高強度反而"用力過猛",表現與低強度類似,問題根源遠超參數設置。
![]()
四、深層反思:AI工具的效率與質量悖論
ClaudeCode事件,本質是AI商業化進程中"降本增效"與"專業體驗"的激烈沖突。Anthropic的調整邏輯不難理解:大模型運算成本高昂,固定高思考預算會導致資源浪費、響應緩慢、用戶流失。通過自適應思考與強度分級,既能控制成本、提升速度,又能滿足普通用戶需求,看似是理性選擇。
但對專業開發者與企業用戶而言,這種調整是致命的。復雜工程任務需要深度推理、長上下文保持、多步驟關聯,思考深度不足會直接導致輸出失效,反而增加調試成本、降低整體效率。正如Laurenzo所說:"減少單次思考看似節省算力,卻因質量下降引發頻繁重試、錯誤修正,整體算力消耗反而暴漲幾個數量級"。
這場風波也暴露了AI產品更新的倫理問題。核心功能與默認設置的重大調整,是否應充分告知用戶?專業級工具能否為迎合大眾而犧牲專業能力?當AI從"輔助工具"變為"生產核心",穩定性與可靠性遠比"速度更快"重要。
目前,Laurenzo已刪除部分易被斷章取義的表述,稱初衷是呈現客觀數據,而非全盤否定ClaudeCode。她表示會繼續測試、提交bug反饋,希望幫助Anthropic修復問題,找回曾經的高質量體驗。而Anthropic也承諾,將測試為團隊與企業版用戶默認啟用高思考強度,平衡專業需求與成本控制。
對整個AI行業而言,ClaudeCode的"翻車"是一次重要警示:技術迭代不能只追求速度與流量,更要守住專業底線。真正優秀的AI助手,不該在效率與質量間二選一,而要通過技術創新實現兼顧——既讓普通用戶輕快流暢,也讓專業用戶深度可靠。畢竟,開發者需要的是能并肩作戰的"靠譜隊友",而非關鍵時刻掉鏈子的"表面功夫"。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.