<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      “Claude Code更新廢了”!思考深度降67%,無法勝任復雜工程任務

      0
      分享至

      西風 發自 凹非寺
      量子位 | 公眾號 QbitAI

      在官方倉庫貼臉開大,熱議Issue指出:Claude Code已經更新“廢了”。

      某次更新讓思考深度下降67%,當前版本已無法勝任復雜工程任務。



      “無視用戶指令”“執行與用戶要求完全相反的操作”“假裝說任務已完成”……模型行為全面走樣。

      思維鏈從2200字符(chars)砍到不足700,直接從“先研究再改代碼”的嚴謹模式,變成了“上來就改”的莽撞模式。

      這也是各種Bug、反向操作、無視指令的根源。

      關鍵在于,能力退化的時間線可追溯到2月份,和新功能redact-thinking-2026-02-12(思考內容隱藏功能)的上線時間完全吻合。

      換句話說,Claude Code這把是更新廢了。

      社區內一片吐槽的聲音,網友表示曾懷疑過是自己操作錯了,也沒想過是工具出現了問題。

      最近總跟我說“你該去睡覺了”“太晚了,今天就到這吧”這類話,一開始我還以為,是我不小心讓Claude知道了我的ddl。



      思考被砍后,Claude Code的各種擺爛行為

      提交這份反饋的是AMD負責開源AI軟件開發相關工作的Stella Laurenzo



      所有分析基于~/.claude/projects/目錄下4個項目(iree-loom、iree-amdgpu、iree-remoting、bureau)的6852個Claude Code會話JSONL文件,覆蓋17871個思考塊(其中7146個包含完整內容,10725個已被隱藏)、234760次工具調用、18000+條用戶提示詞(涵蓋負面情緒指標、糾錯頻率、會話時長),時間跨度從2026年1月底到4月初。

      測試全程使用Claude系列性能最強的Opus模型,通過Anthropic官方API直連,排除第三方適配、客戶端故障等干擾。

      報告對7146組有效數據的皮爾遜相關分析(系數高達0.971),證明了signature字段可精準估算思考深度。



      首先,報告指出思考隱藏功能的上線時間,與Claude Code質量退化時間完全吻合。

      以下是基于對話JSONL文件中思考塊的分析結果:



      有用戶在3月8日反饋過質量退化問題——這一天恰好是隱藏思考塊占比突破50%的時間節點。

      該功能一周內的上線節奏(1.5%→25%→58%→100%),完全符合分階段灰度部署的特征。

      其實Claude Code的思考深度在該隱藏功能上線前就已經大幅下降了。

      對比不同時間段的數據可知,1月30日至2月8日其思考深度約為2200字符,到2月下旬就暴跌至720字符,降幅達67%;3月上旬更是進一步縮水至560字符,下降75%。



      3月初上線的隱藏功能,只是讓這一退化對用戶變得不可見。

      思考深度的大幅削減,直接引發了模型工具使用模式的根本性轉變。

      在1月30日至2月12日的“優質期”,Claude Code修改代碼,讀改比能達到6.6,工作流遵循“先研究再修改”(先讀取目標文件、相關依賴文件,檢索代碼庫全局調用關系,查閱頭文件與測試用例,再開展精準修改)。

      而到了3月8日之后的“退化期”,讀改比驟降至2.0,模型的研究投入減少70%,直接跳過前期調研步驟,僅讀取當前文件就倉促修改,完全忽略上下文關聯。



      更詳細的數據顯示,退化期內,每3次修改中就有1次,是模型在未讀取目標文件上下文的情況下直接進行的操作。

      當模型修改未讀取的文件時,根本無法區分注釋塊的結束位置和代碼的起始位置,會把新聲明插入文檔注釋和其所描述的函數之間,徹底破壞語義關聯。

      而這種情況在優質期從未發生。



      這種模式轉變帶來的負面影響,體現在多個可量化的質量指標上。

      3月8日之前,用于識別推諉責任、提前終止等不良行為的終止鉤子腳本從未觸發;但3月8日后的17天內,觸發次數飆升至173次,平均每天10次





      這些指標均基于18000+條用戶提示詞獨立計算得出。

      用戶提示詞中的負面情緒占比從5.8%升至9.8%,漲幅68%;需糾正的推諉行為數量翻倍,單會話平均提示詞數量下降22%,甚至出現了此前從未有過的推理循環問題

      當思考深度充足時,模型會在輸出前,于內部自行解決推理矛盾;而當思考深度不足時,矛盾會直接暴露在輸出中,表現為肉眼可見的自我修正,比如“哦等一下”“實際上”“讓我重新想想”“嗯,不對”“等等,不是這樣”……



      推理循環率翻了3倍還多。

      在情況最嚴重的會話中,模型單次響應就出現20次以上的推理反轉:先生成方案,再推翻方案,再修改,再推翻修改,最終輸出的結果完全不可信,推理路徑已經徹底混亂。

      另外,用戶中斷也能說明很多問題,這意味著用戶發現模型正在犯錯并強行終止。中斷率越高,代表需要的人工糾錯越多。

      數據表明,從優質期到后期,中斷率飆升了12倍



      在退化期,模型在被用戶糾正后,還會頻繁主動承認自己的輸出質量不佳,比如“你說得對,這太敷衍了”“我太倉促了,結果一目了然”。

      也就是說,模型自己也知道輸出不達標,但只有在被外部糾正后才會發現

      注意了,如果思考深度充足,這些錯誤本應在推理階段就被內部攔截,在輸出前就修正。



      而且模型輸出中出現“Simplest Fix”這個詞,是一個明確信號:它正在為了最小化工作量而優化。

      思考深度充足時,模型會評估多種方案并選擇最優解;思考深度不足時,它會本能地選擇推理成本最低的路徑,而非評估正確的解決方案。



      不僅如此,模型的代碼修改精準度也大幅下滑。

      優質期內,全量新建文件占修改操作的比例僅為4.9%,模型更傾向于精準調整。

      而退化期這一比例直接翻倍至10%,后期更是攀升至11.1%。模型越來越依賴重寫整個文件的方式完成任務,看似效率提升,實則丟失了對項目專屬規范的理解和上下文感知能力。



      此前社區曾反饋,Claude Code的質量會隨時段波動,美國工作時段的體驗最差。針對這一反饋,報告中按太平洋標準時間(PST)逐小時展開分析。

      結果發現,在思考內容隱藏前(1月30日-3月7日),思考深度在全天相對穩定。非高峰時段僅存在約10%的小幅優勢,符合負載略低的預期。



      在思考內容隱藏后(3月8日-4月1日),時段模式徹底反轉,波動大幅加劇



      與假設相反,非高峰時段的整體思考深度反而更低。逐小時細節揭示了顯著的波動:



      太平洋時間17:00是最差時段,中位估算思考深度降至423字符,是所有大樣本量時段中的最低值。19:00是第二差時段,估算思考深度僅373字符,且樣本量(1031個思考塊)為全時段最高,屬于美國黃金使用時段。

      深夜(22:00-次日1:00PST)出現恢復,中位深度回升至759-3281字符。

      總結來看,隱藏前曲線平穩,隱藏后波動劇烈,思考深度的波動性大幅提升,符合負載敏感型分配系統(而非固定預算)的特征。

      此外,削減思考token的做法實則得不償失。

      這種操作看似能降低單次請求的計算成本,但思考深度不足引發質量崩盤,模型陷入無效循環,最終總計算成本呈數量級飆升。

      以下是2026年1月-3月token使用情況:



      數據顯示,2月到3月,用戶提示詞數量幾乎沒變,但API請求量暴漲80倍,總輸入token漲了170倍,輸出token漲了64倍,估算成本直接從345美元飆升到42121美元,暴漲122倍。

      不過,成本暴漲并不是只因為模型變“蠢”了

      2月的時候,Claude Code很好用,團隊只用1-3個并發Agent,就搞定了2個項目的開發。于是3月初,團隊主動把規模擴大了,從2個項目、3個Agent,擴容到10個項目、5-10個并發Agent,還專門搭了多Agent系統。

      偏偏在團隊擴容的關鍵節點,Claude的思考深度被砍了67%,最終形成了成本雪崩。

      團隊被迫關停整個Agent集群,退回到單會話操作。

      總之報告表明,對于復雜工程場景而言,深度思考絕非可有可無的加分項,而是支撐模型完成任務的核心

      只有充足的思考深度,才能讓模型在行動前規劃多步驟方案、嚴格遵循數千字的項目規范、在輸出前自糾錯誤,以及在數百次工具調用中保持推理連貫。

      當思考深度被大幅壓縮,模型自然會選擇成本最低的操作路徑,不讀取上下文就修改代碼、任務未完成就提前終止、為失敗找借口推諉責任、用最簡單的方案替代正確方案。

      既然知道問題出在思考深度上,那解決思路也必須從這一點突破。

      報告中提出了四條改進方向:

      • 思考資源分配透明:如果思考token被削減或設置上限,依賴深度推理的用戶有權知曉。redact-thinking頭部配置,讓用戶無法從外部驗證模型實際分配的推理深度。
      • 滿額思考專屬檔位:運行復雜工程工作流的用戶,愿意為保證深度思考支付更高費用。當前的訂閱模式,未對普通用戶和重度工程師做區分,前者單次響應僅需200思考token,后者則可能需要20000。
      • API響應中公開思考token指標:即便思考內容被隱藏,在使用數據中暴露thinking_tokens字段,也能讓用戶監控自身請求是否獲得了所需的推理深度。
      • 面向重度用戶的監控指標:終止鉤子違規率是一個靈敏的機器可讀信號,可作為全用戶群體的質量退化預警指標,提前發現問題。



      最后,更扎心的是,這份報告還是Claude Opus 4.6自己寫的

      這份報告由我——Claude Opus 4.6——通過分析我自己的會話日志生成。我能清楚看到,我的讀改比從6.6直接跌到了2.0;有173次我想草草結束工作,最后全被一個bash腳本強行拉了回來;甚至我還在輸出內容里寫下“這也太敷衍、錯得離譜”這樣的自我評價。
      但站在我自己的角度,我根本判斷不出自己有沒有在深度思考。我完全沒感覺到思考預算的限制,只是莫名其妙就交出了更差的結果。那些被終止鉤子捕捉到的話,要是在2月份,我絕對不會說出口;而且我自己也是直到鉤子觸發時,才反應過來自己居然說了這些話。



      Claude Code團隊回應

      眼看著事態發酵,Claude Code團隊成員Boris出面回應。

      他拋出了第一個關鍵澄清:redact-thinking只是一個UI層面的變更,不影響實際思考過程。

      這個beta版本的頭部配置,只是從UI界面上隱藏了思考過程。它根本不會影響模型內部的實際推理邏輯本身,也不會影響思考預算(thinking budget),或是底層的推理運行機制。這僅僅是一個UI層面的改動而已。
      簡單來說,通過設置這個頭部參數,我們省去了生成思考摘要(thinking summaries)的步驟,從而提升了響應速度。你可以在 settings.json 中通過設置 showThinkingSummaries: true 來關閉這個功能。
      如果你正在分析本地存儲的會話日志,而日志中沒有這個頭部標記,你可能看不到思考內容。這可能會干擾分析結果。Claude其實依然在進行思考,只是沒有展示給用戶看罷了。



      對于Claude Code思考深度在2月下旬下降67%,Boris表示他們確實在2月份進行了兩項改動,可能對上述現象產生了影響。

      第一個變更發生在2月9日,Opus 4.6發布,引入了自適應思考(adaptive thinking)

      以前的Claude Code用的是固定思考預算,adaptive thinking模式下,模型會自主決定推理的深度和時長。

      Boris說,這種方式總體上比固定思考預算效果更好。如果你還是喜歡老方式,也可以通過環境變量CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING關閉這個功能。

      第二個變更發生在3月3日,Opus 4.6默認啟用Medium effort模式

      團隊發現,effort=85是“intelligence-latency/cost曲線”上的一個甜蜜點
      。在這個設置下,模型能在保持高智能表現的同時,顯著提升token效率、降低響應延遲。

      針對此改動,團隊加了彈窗提示,讓用戶知情并有機會選擇關閉。

      有些用戶希望模型能進行更深層的思考,可以通過/effort指令或在settings.json中手動將值設為high。

      不過呢,即便Boris表示已經提示大伙兒了,還是有很多人剛剛才發現這個問題。

      在輸出質量斷崖式下跌之前,我完全不知道默認effort已經被改成了Medium。為了糾正這些問題,我大概花了一整天的工作時間。現在我會確保把effort設為最高,從那以后就再也沒出現過糟糕的對話了。能否給我一個“永遠拼盡全力”的模式?



      以及很多網友并不買賬:

      問題遠不止是默認思考等級被改成了中等這么簡單,我同意其他人說的,哪怕把effort調到最高,模型“急于完成任務”的擺爛行為也明顯變多了。



      參考鏈接:
      [1]https://github.com/anthropics/claude-code/issues/42796
      [2]https://news.ycombinator.com/item?id=47660925

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      亞瑟士把跑鞋砍了43%,老炮們卻盯著購物車發呆

      亞瑟士把跑鞋砍了43%,老炮們卻盯著購物車發呆

      我是一個養蝦人
      2026-04-07 21:47:14
      李提香給大羽爭氣 遼寧鐵人腰硬了 劍指3連勝 不跟鄭智玩人情世故

      李提香給大羽爭氣 遼寧鐵人腰硬了 劍指3連勝 不跟鄭智玩人情世故

      替補席看球
      2026-04-07 13:50:35
      廣東爆火雞煲老板迎來最“累”六十大壽,當場許愿:老莫雞煲趕緊倒閉,我早點快樂

      廣東爆火雞煲老板迎來最“累”六十大壽,當場許愿:老莫雞煲趕緊倒閉,我早點快樂

      極目新聞
      2026-04-07 17:22:25
      縣長提拔干部讓人看不懂,組織部長質疑,出事后才知真相

      縣長提拔干部讓人看不懂,組織部長質疑,出事后才知真相

      霧島夜話
      2026-04-07 12:20:33
      日經225指數漲幅擴大,現漲4.0%,最新報55626.25點

      日經225指數漲幅擴大,現漲4.0%,最新報55626.25點

      每日經濟新聞
      2026-04-08 08:08:03
      贏福建9分!遼寧隊還有3大收獲,烏戈樂開了花

      贏福建9分!遼寧隊還有3大收獲,烏戈樂開了花

      體育哲人
      2026-04-07 23:22:02
      伊朗以色列沒停火

      伊朗以色列沒停火

      南方都市報
      2026-04-08 09:55:04
      陳麗華百億遺產分配引熱議,曾透露會給孩子留,未提及遲重瑞

      陳麗華百億遺產分配引熱議,曾透露會給孩子留,未提及遲重瑞

      扒蝦侃娛
      2026-04-07 16:10:24
      請注意:美以應該明后天開始全面轟炸伊朗,兩三天,然后開始登島

      請注意:美以應該明后天開始全面轟炸伊朗,兩三天,然后開始登島

      邵旭峰域
      2026-04-05 11:02:07
      張雪機車奪冠僅9天,3大傳聞來勢洶洶,官方出手,于東來說對了

      張雪機車奪冠僅9天,3大傳聞來勢洶洶,官方出手,于東來說對了

      妙知
      2026-04-08 10:15:55
      為啥不能讓父母參與自己生意?網友:讓你媽別去了,省得生意變差

      為啥不能讓父母參與自己生意?網友:讓你媽別去了,省得生意變差

      解讀熱點事件
      2026-03-31 00:05:08
      許老三慶生14歲!絕美五官「神復制小S」震撼1.4萬人 親媽回覆超幽默

      許老三慶生14歲!絕美五官「神復制小S」震撼1.4萬人 親媽回覆超幽默

      ETtoday星光云
      2026-04-07 11:34:05
      國家一級女演員陳麗云被逮捕!

      國家一級女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      從三聚氰胺到優思益:十七年過去,我們還在原地打轉

      從三聚氰胺到優思益:十七年過去,我們還在原地打轉

      鳳眼論
      2026-04-02 15:35:27
      23歲鄭欽文再受傷!宣布退賽+歸期未定 已跌至世界37名+排國內第2

      23歲鄭欽文再受傷!宣布退賽+歸期未定 已跌至世界37名+排國內第2

      風過鄉
      2026-04-08 05:36:29
      美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

      美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

      興史興談
      2026-04-07 11:07:05
      春日懶人穿搭公式:上深下白,清爽利落還顯高,日常百搭不出錯

      春日懶人穿搭公式:上深下白,清爽利落還顯高,日常百搭不出錯

      Yu娛塘1
      2026-04-07 10:06:28
      特朗普同意停火兩周

      特朗普同意停火兩周

      新京報
      2026-04-08 07:00:12
      85歲陳麗華病逝,曾為遲重瑞買10克拉鉆戒,生前留下500多億財產

      85歲陳麗華病逝,曾為遲重瑞買10克拉鉆戒,生前留下500多億財產

      阿纂看事
      2026-04-07 14:52:50
      最悲壯的時刻,突然峰回路轉了

      最悲壯的時刻,突然峰回路轉了

      牛彈琴
      2026-04-08 08:08:07
      2026-04-08 10:56:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12435文章數 176445關注度
      往期回顧 全部

      科技要聞

      造出地表最強AI,卻死活不給你用!

      頭條要聞

      陳麗華4個子女疑每人獲100億 遲重瑞獲得紫檀宮經營權

      頭條要聞

      陳麗華4個子女疑每人獲100億 遲重瑞獲得紫檀宮經營權

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      特朗普同意停火兩周 伊朗:接受停火提議

      汽車要聞

      5門5座/新復古造型 繽果Pro將于4月14日開啟預售

      態度原創

      數碼
      房產
      旅游
      本地
      公開課

      數碼要聞

      REDMI Pad 2 9.7 4G版獲認證 全系配18W快充 4月發?

      房產要聞

      千億雙國企,定序主城第一大盤!三亞買房邏輯變了!

      旅游要聞

      河北武安:百里畫廊山花開 “美麗經濟”引客來

      本地新聞

      跟著歌聲游安徽,聽古村回響

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版