<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude Code 更新后“翻車”,思考深度驟降67%,“無法再信任其處理復(fù)雜工程任務(wù)”!

      0
      分享至

      Anthropic旗下AI編程工具Claude Code遭遇嚴(yán)重口碑危機(jī)。來自AMD的AI總監(jiān)在GitHub官方倉庫公開提交問題報告,基于對數(shù)萬條會話日志的量化分析,指控Claude Code自今年2月起出現(xiàn)系統(tǒng)性能力退化,思考深度驟降67%,模型行為全面走樣。這一報告迅速在開發(fā)者社區(qū)引爆討論,將Anthropic推上輿論風(fēng)口。

      提交這份分析報告的是AMD的AI團(tuán)隊負(fù)責(zé)人Stella Laurenzo。她在GitHub官方倉庫直接開Issue,措辭嚴(yán)峻:"Claude已無法被信任來執(zhí)行復(fù)雜工程任務(wù)。"她表示,團(tuán)隊已切換至其他服務(wù)商,并警告Anthropic:"6個月前,Claude在推理質(zhì)量和執(zhí)行能力上獨(dú)樹一幟。但現(xiàn)在,其他競爭者需要被非常認(rèn)真地關(guān)注和評估。"


      這一Issue在Hacker News上迅速發(fā)酵,獲得975點(diǎn)支持和548條評論,成為近期Claude Code相關(guān)討論中熱度最高的帖子之一。網(wǎng)友評論直指問題核心——"ClaudeCode曾經(jīng)像一個聰明的結(jié)對編程伙伴,現(xiàn)在感覺像一個過于熱情的實習(xí)生,不停地把事情搞砸,然后建議最簡單的臨時方案";"最近總跟我說'你該去睡覺了。太晚了,今天就到這吧'這類話,一開始我還以為是我不小心讓Claude知道了我的deadline。"

      Anthropic對此作出回應(yīng)。Claude Code團(tuán)隊成員Boris出面澄清,稱思考內(nèi)容隱藏功能(redact-thinking)僅為界面層面的改動,"不會影響模型內(nèi)部實際的推理邏輯本身,也不會影響思考預(yù)算或底層推理運(yùn)行機(jī)制"。

      他同時承認(rèn),團(tuán)隊在2月進(jìn)行了兩項實質(zhì)性調(diào)整:一是2月9日隨Opus 4.6發(fā)布引入"自適應(yīng)思考"(adaptive thinking)機(jī)制;二是3月3日將默認(rèn)effort等級從高調(diào)整為中等(Medium)。Boris建議用戶通過/effort high指令或修改配置文件手動恢復(fù)高強(qiáng)度思考模式。

      然而,這一解釋并未平息社區(qū)質(zhì)疑。多位開發(fā)者表示,即便將effort調(diào)至最高,"急于完成任務(wù)"的擺爛行為依然存在。用戶richardjennings稱:

      "在輸出質(zhì)量斷崖式下跌之前,我完全不知道默認(rèn)effort已經(jīng)被改成了Medium。為了糾正這些問題,我大概花了一整天的工作時間。"
      數(shù)據(jù)實錘:思考深度驟降,行為全面走樣

      Laurenzo的分析基于其團(tuán)隊在~/.claude/projects/目錄下積累的6852個Claude Code會話JSONL文件,覆蓋17871個思考塊、234760次工具調(diào)用及18000余條用戶提示詞,時間跨度從2026年1月底延伸至4月初,全程使用Anthropic官方API直連Opus模型。


      數(shù)據(jù)揭示了一條清晰的退化時間線。在1月30日至2月8日的"優(yōu)質(zhì)期",Claude Code的思考深度中位值約為2200字符;到2月下旬,這一數(shù)字暴跌至約720字符,降幅達(dá)67%;3月初進(jìn)一步縮水至約560字符,降幅達(dá)75%。


      思考深度的崩塌直接引發(fā)了工具使用模式的根本性轉(zhuǎn)變。在優(yōu)質(zhì)期,Claude Code修改代碼前的"讀改比"(每次編輯前的文件讀取次數(shù))高達(dá)6.6,遵循"先研究再修改"的嚴(yán)謹(jǐn)工作流。而到3月8日之后的"退化期",這一比率驟降至2.0,研究投入減少約70%。更觸目驚心的是,退化期內(nèi)每三次代碼修改中,就有一次是在未讀取目標(biāo)文件的情況下直接進(jìn)行的——這直接導(dǎo)致代碼被插入錯誤位置、注釋語義關(guān)聯(lián)被破壞等低級錯誤頻發(fā)。


      行為層面的量化指標(biāo)同樣觸目驚心。用于捕捉"推諉責(zé)任、提前終止、請求許可"等不良行為的終止鉤子腳本(stop-phrase-guard.sh),在3月8日之前從未觸發(fā);而在此后17天內(nèi),觸發(fā)次數(shù)飆升至173次,平均每天10次。用戶提示詞中的負(fù)面情緒占比從5.8%升至9.8%,漲幅68%;用戶中斷率(即用戶發(fā)現(xiàn)模型犯錯并強(qiáng)行終止的頻率)從優(yōu)質(zhì)期到后期飆升了12倍。



      隱藏的"思考內(nèi)容隱藏"功能:退化被刻意遮蔽?

      Laurenzo的分析指出,上述退化與一項名為redact-thinking-2026-02-12的功能部署時間線高度吻合。數(shù)據(jù)顯示,該功能從3月5日開始灰度上線(1.5%),至3月10日至11日已覆蓋逾99%的請求,3月12日起全量生效。

      這一功能的作用是在API響應(yīng)中剝離思考內(nèi)容,使用戶無法從外部觀察模型的實際推理過程。Laurenzo認(rèn)為,這一設(shè)計客觀上使思考深度的退化對用戶變得不可見——"3月初上線的隱藏功能,只是讓這一退化對用戶變得不可見。

      她進(jìn)一步指出,思考深度的下降實際上早于該功能上線,在2月中旬便已開始。這與Anthropic在2月9日推出Opus 4.6并引入"自適應(yīng)思考"(adaptive thinking)模式,以及3月3日將默認(rèn)思考等級調(diào)整為"Medium effort"(effort=85)的時間節(jié)點(diǎn)相吻合。

      報告還發(fā)現(xiàn),思考深度在隱藏功能上線后呈現(xiàn)出明顯的時段波動特征——太平洋時間17:00(美國西海岸下班時段)是全天最差時段,中位估算思考深度僅423字符;19:00為第二差時段,僅373字符。


      這一模式與固定預(yù)算分配不符,更接近負(fù)載敏感型動態(tài)分配系統(tǒng)的特征,暗示思考資源可能隨平臺負(fù)載實時波動。

      Anthropic官方回應(yīng):設(shè)置問題,非模型退化

      面對GitHub議題的快速發(fā)酵,Claude Code團(tuán)隊成員Boris在數(shù)小時內(nèi)于GitHub和Hacker News雙平臺作出回應(yīng),承認(rèn)了部分問題的存在并提供了技術(shù)解釋。

      Boris的核心澄清包括:

      • 第一、思考內(nèi)容隱藏功能(redact-thinking)屬于UI層改動,不影響實際推理過程,用戶可通過settings.json中的showThinkingSummaries: true選項恢復(fù)顯示;
      • 第二、2月下旬的思考深度下降,主要與2月9日Opus 4.6引入自適應(yīng)思考機(jī)制(adaptive thinking)以及3月3日默認(rèn)effort等級調(diào)整為中等有關(guān),前者可通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1關(guān)閉,后者可通過/effort high或/effort max手動提升。

      Boris還表示,團(tuán)隊計劃測試將Teams和Enterprise用戶的默認(rèn)effort等級調(diào)整為高,并正在就部分用戶反映的自適應(yīng)思考機(jī)制在特定輪次分配推理不足的問題展開調(diào)查。

      然而,這一解釋在社區(qū)中引發(fā)廣泛質(zhì)疑。用戶koverstreet回應(yīng)稱:

      "問題遠(yuǎn)不止是默認(rèn)思考等級被改成了中等。即便把effort調(diào)到最高,模型'急于完成任務(wù)'的擺爛行為也明顯變多了。"

      還有用戶直接指出,原始報告的提交者在提交時已采用了所有已知的公開設(shè)置,問題并非配置不當(dāng)。一位用戶提出諷刺性反問:

      "這是一種什么精神——告訴用戶'你們調(diào)錯設(shè)置了'"。
      成本雪崩與用戶出走

      退化帶來的代價不僅是質(zhì)量損失,更引發(fā)了成本的災(zāi)難性膨脹。

      Laurenzo的數(shù)據(jù)顯示,從2月到3月,其團(tuán)隊的用戶提示詞數(shù)量幾乎持平(5608條 vs 5701條),但API請求量暴漲80倍,總輸入token增長170倍,輸出token增長64倍,按Bedrock Opus定價估算的月度成本從345美元飆升至42121美元,漲幅達(dá)122倍。


      Laurenzo解釋,成本暴漲部分源于團(tuán)隊主動擴(kuò)容并發(fā)Agent數(shù)量,但退化本身造成的無效循環(huán)、頻繁中斷和重試,使每單位有效工作消耗的API請求量額外放大了8至16倍。團(tuán)隊最終被迫關(guān)停整個Agent集群,退回到單會話人工監(jiān)督模式。Laurenzo寫道:

      "人類投入的工作量幾乎沒變,但模型消耗了80倍的API請求和64倍的輸出token,卻產(chǎn)出了明顯更差的結(jié)果。"

      在Hacker News的討論中,大量用戶表達(dá)了類似遭遇,部分人已宣布切換至OpenAI Codex或其他替代方案。"我已經(jīng)取消了訂閱,切換到了Codex";"現(xiàn)在用Qwen3.5-27b,雖然不如兩個月前的Opus那么鋒利,但我們又能正常推進(jìn)工作了。"

      用戶自救:臨時應(yīng)對方案

      面對退化,部分開發(fā)者已摸索出若干臨時應(yīng)對策略。

      在CLAUDE.md中明確授權(quán)是最常見的做法——通過在項目根目錄的配置文件中寫入"你有權(quán)編輯本項目任何文件""不要在重構(gòu)時請求確認(rèn)"等指令,可在實踐中將安全中斷頻率降低約70%。

      將復(fù)雜任務(wù)拆解為邊界清晰的子任務(wù),也被廣泛驗證有效。相比"重構(gòu)整個認(rèn)證系統(tǒng)","僅重構(gòu)auth.js,完成后輸出變更摘要"這類有明確邊界的指令,能顯著減少模型的提前終止行為。

      在設(shè)置層面,將effort調(diào)至high或max,并通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1禁用自適應(yīng)思考,是目前官方認(rèn)可的最直接干預(yù)手段。

      Laurenzo則在報告中提出了更系統(tǒng)性的訴求:Anthropic應(yīng)公開思考token的分配情況,推出面向復(fù)雜工程工作流的"滿額思考"專屬訂閱檔位,并在API響應(yīng)中暴露thinking_tokens字段,讓用戶能夠自主監(jiān)控推理深度是否達(dá)標(biāo)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      馬刺最怕掘金,雷霆給馬刺挖坑!一圈操作下來,湖人倒撿了便宜?

      馬刺最怕掘金,雷霆給馬刺挖坑!一圈操作下來,湖人倒撿了便宜?

      天光破云來
      2026-04-13 00:54:22
      35億賭國運(yùn)!阿聯(lián)酋落井下石,逼迫巴基斯坦還債,沙特百億馳援

      35億賭國運(yùn)!阿聯(lián)酋落井下石,逼迫巴基斯坦還債,沙特百億馳援

      南宗歷史
      2026-04-12 05:09:29
      廣東勝廣廈!奎因+麥考爾轟50分,王洪澤進(jìn)步明顯,徐杰主導(dǎo)末節(jié)

      廣東勝廣廈!奎因+麥考爾轟50分,王洪澤進(jìn)步明顯,徐杰主導(dǎo)末節(jié)

      籃球資訊達(dá)人
      2026-04-12 21:38:29
      國安5輪3次遭誤判?蓉城扳平球疑手球 球迷憤怒:直接判降級算了

      國安5輪3次遭誤判?蓉城扳平球疑手球 球迷憤怒:直接判降級算了

      我愛英超
      2026-04-12 23:04:19
      李想的這個朋友圈越界了

      李想的這個朋友圈越界了

      關(guān)爾東
      2026-04-11 23:22:30
      湖人掘金杠上了,疑似輪休老詹打爵士,推嚴(yán)父進(jìn)坑和恩怨無關(guān)

      湖人掘金杠上了,疑似輪休老詹打爵士,推嚴(yán)父進(jìn)坑和恩怨無關(guān)

      兵哥籃球故事
      2026-04-12 15:20:08
      匈牙利舉行國會選舉

      匈牙利舉行國會選舉

      新華社
      2026-04-12 12:42:04
      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

      古書記史
      2026-01-06 16:31:56
      伊朗消息人士:美國已同意解凍伊朗海外資產(chǎn)

      伊朗消息人士:美國已同意解凍伊朗海外資產(chǎn)

      澎湃新聞
      2026-04-11 17:55:13
      0-1!不是假球,王國明發(fā)文道歉:劉殿座留言,王大雷卻隱身

      0-1!不是假球,王國明發(fā)文道歉:劉殿座留言,王大雷卻隱身

      建哥說體育
      2026-04-12 11:14:18
      趙一鳴零食被造謠品牌涉日、店鋪是拐賣兒童窩點(diǎn),抖音公告:處置謠言內(nèi)容1500余條、清理違規(guī)評論8.8萬條

      趙一鳴零食被造謠品牌涉日、店鋪是拐賣兒童窩點(diǎn),抖音公告:處置謠言內(nèi)容1500余條、清理違規(guī)評論8.8萬條

      大象新聞
      2026-04-11 18:45:03
      華為憋了一整年的大招終于要來了——PuraXMax,全球首款大闊折疊

      華為憋了一整年的大招終于要來了——PuraXMax,全球首款大闊折疊

      明美無限
      2026-04-12 16:36:07
      洛杉磯小學(xué)外,兩娃媽被流浪漢拖進(jìn)帳篷,滿地針頭竟無人管

      洛杉磯小學(xué)外,兩娃媽被流浪漢拖進(jìn)帳篷,滿地針頭竟無人管

      超喜歡我
      2026-04-11 17:00:48
      鄭麗文回家!大陸千億大禮包送抵臺島,打臉美政客說麗文訪陸無用

      鄭麗文回家!大陸千億大禮包送抵臺島,打臉美政客說麗文訪陸無用

      涵豆說娛
      2026-04-12 19:41:39
      美女美圖9036期

      美女美圖9036期

      東方不敗然多多
      2026-04-13 00:56:22
      鄭麗文現(xiàn)身小米汽車工廠參訪,分享體驗:只有一個字,贊!雷軍親自接見,并贈送鄭麗文一部小米手機(jī)

      鄭麗文現(xiàn)身小米汽車工廠參訪,分享體驗:只有一個字,贊!雷軍親自接見,并贈送鄭麗文一部小米手機(jī)

      大風(fēng)新聞
      2026-04-12 19:45:02
      完爆楊瀚森+碾壓周琦!男籃第一中鋒或被廣東隊看中,比徐昕更強(qiáng)

      完爆楊瀚森+碾壓周琦!男籃第一中鋒或被廣東隊看中,比徐昕更強(qiáng)

      緋雨兒
      2026-04-12 14:47:58
      王炸!2026武漢新增3家永旺!

      王炸!2026武漢新增3家永旺!

      越喬
      2026-04-11 23:03:38
      兩性關(guān)系:男人再強(qiáng)壯,再有勁,女人也不怕你,別傻傻不懂了

      兩性關(guān)系:男人再強(qiáng)壯,再有勁,女人也不怕你,別傻傻不懂了

      心靈的觸動a
      2026-03-17 17:00:13
      萬斯:這是最終方案,也是最優(yōu)報價

      萬斯:這是最終方案,也是最優(yōu)報價

      西樓飲月
      2026-04-12 21:43:31
      2026-04-13 01:39:00
      華爾街見聞官方 incentive-icons
      華爾街見聞官方
      中國領(lǐng)先的金融商業(yè)信息提供商
      144431文章數(shù) 2653217關(guān)注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

      頭條要聞

      伊媒:美驅(qū)逐艦遭革命衛(wèi)隊鎖定 距離被摧毀僅差幾分鐘

      頭條要聞

      伊媒:美驅(qū)逐艦遭革命衛(wèi)隊鎖定 距離被摧毀僅差幾分鐘

      體育要聞

      創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

      娛樂要聞

      賭王女兒何超蕸病逝,常年和乳癌斗爭

      財經(jīng)要聞

      美伊談判破裂的三大癥結(jié)

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      健康
      藝術(shù)
      公開課

      教育要聞

      小班教學(xué),9月開校,樹德派校長!這所中學(xué),正在招老師

      房產(chǎn)要聞

      土地供應(yīng)突然暴跌!2026海口樓市,格局大變!

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      藝術(shù)要聞

      揭開她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版