網易首頁 > 網易科技 > 網易科技 > 正文

最強編程AI被指降智！網友吵翻天，官方緊急回應被群嘲：縮水也叫優化？

2026-04-14 15:57:02　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 辰辰

編輯 | 王鳳枝

最強的編程AI，到底降沒降智？

今年2月初，Anthropic發布Claude Opus 4.6，其憑借著深邃的推理邏輯和對復雜代碼規范的精準執行，被業界奉為代碼真神。

然而好景不長，發布僅數周后就不斷有用戶在社交媒體上聲討，稱其性能出現了斷崖式下跌。

不少用戶聲稱自己付著同樣高昂的月費，換來的卻是一個被明顯降智的縮水版本，Opus 4.6開始變得懶惰與健忘，甚至在基礎邏輯里反復撞墻。

面對全網的聲討，Anthropic官方團隊出面回應，他們辯稱從未削弱模型，種種異常表現只是為了幫用戶節省Token而做出的默認配置優化。

這種單方面的技術辯解顯然無法平息開發者的怒火。

這究竟是大量用戶的集體心理錯覺，還是資本在算力瓶頸下精心炮制的縮水？

一、AMD高管的深度分析：6852份日志見端倪

如果說普通用戶的抱怨只是體感，那么斯特拉·勞倫佐（Stella Laurenzo）的分析，則是讓這件事徹底“實錘”了。

根據領英資料，勞倫佐是AMD的AI部門高級總監，目前在AMD領導一支龐大的團隊為開源AI編譯器開發貢獻力量。她曾在谷歌擔任首席軟件工程師，后作為前Nod.ai工程副總裁加入AMD。

4月2日，勞倫佐在GitHub上發布了一份詳盡的性能回溯報告。

作為一名頂級AI專家，她沒有只憑直覺說話，而是詳細分析了6852份Claude Code會話文件與17871個思考塊以及超過23萬次工具調用記錄，堪稱一份詳盡的高水平個案研究。

這份基于海量數據的分析揭露了一個令人不安的真相，從今年2月份開始，Claude的推理深度就出現了斷崖式下跌。

細節信息顯示：

推理字數縮減：中位思考長度從2200字符縮減到了600字符。

研究退化：以前Claude在寫代碼前會進行多輪研究（Research），現在的模式變成了直接上手改（Edit），這導致讀取與編輯的比率從6.6倍降至2.0倍。

任務早退：在短短17天內，Claude嘗試放棄任務或反問我是否應該繼續的次數達到了173次，而在3月8日之前這個數字是0。

自相矛盾：推理過程中的自我否定（如“哦等等，實際上……”）頻率增加了三倍。

勞倫佐的結論非常冷酷，對于高級工程工作流來說，深度推理不是奢侈品而是模型可用的前提，現在Claude在復雜工程中已經靠不住了。

不過需要注意的是，勞倫佐的分析結論只是說今年2月底Claude思考長度縮短了67%，推文將思考量減少直接等同于智力下降的說法難論嚴謹。

二、社交媒體的證言墻：40分鐘的思考與無效的賬單

勞倫佐的帖子迅速引爆了社交媒體X和Reddit，無數開發者發現自己遇到的問題與這份報告高度契合。

網紅開發者奧姆·帕特爾（Om Patel）直接在X上貼出了結論，有人測出了Claude變笨了多少，答案是67%。

他的論點主要集中在Opus 4.6的思考量比以前少了三分之二。他諷刺地寫道，Anthropic一直保持沉默，直到這些數字被公開，他們的團隊才出來滅火。

帕特爾還在推文中透露，泄露的源代碼顯示他們有一個內部開關，可以讓模型在Anthropic員工使用時保持最佳狀態。不過這一說法尚未得到獨立驗證，Anthropic也未對此作出回應。

他還直言，有人說Anthropic故意降低Opus的性能，是為了節省計算資源來訓練他們的下一個模型Mythos。但這一推測同樣缺乏直接證據。

在Reddit上，用戶們的吐槽則更具具像化，也更顯無奈：

坐等式思考：用戶DangerousSetOfBewbs稱他曾讓Claude處理一個500行的文件，結果Claude進入了長達24分鐘的思考中狀態，只是在那里干坐著。還有網友附和，讓它做研究，40分鐘幾乎沒用什么Token，所以根本不清楚它這40分鐘到底做了什么。

規則視若無睹：許多開發者習慣在CLAUDE.md中設定項目規范，但現在Claude仿佛患上了失憶癥。一位用戶憤怒地留言，如果你不盯著它的輸出，它能分分鐘毀掉你的代碼庫。

價格沒變智力降級：這就是典型的縮水通脹。Reddit用戶Firm_Meeting6350說，我今天退訂了Claude Max 20并轉投了Codex Pro，Claude現在給我的感覺就像在用過時的舊模型。

三、跑分迷霧：從第2名到第10名的跌落

如果用戶抱怨還可以解釋成主觀感受，那么基準測試則似乎要拿真實數據討說法。

4月12日，專門負責幻覺基準測試的機構BridgeMind發布了一條推文，直接將爭議推向高潮。

推文指出Claude Opus 4.6被削弱了，BridgeBench剛剛證明了這一點。上周它排名第2且準確率83.3%，今天重測它掉到了第10且準確率僅剩68.3%，幻覺率增加了98%。

然而這一測試結果遭到了反駁。外部AI研究員保羅·卡爾克拉夫特（Paul Calcraft）隨后指出測試中存在誤導性，BridgeMind的兩次測試并不是對等比較。第一次測試只涵蓋了6個任務，而第二次測試擴充到了30個任務。

卡爾克拉夫特指出，如果只看那6個共同的任務，Claude的得分僅從87.6%輕微波動到85.4%，最大的偏差幾乎來自于單個虛構結果，這種差異在統計學上完全可以歸類為噪音。

這場跑分爭議本身也說明，目前業界缺乏統一且可復現的AI性能基準測試標準，很多測試頗有先下結論后找論據的風格，用戶很難從測試數據中獲得確定性的答案。

然而那個跌落至第10名的數據在社交媒體上瘋傳，截圖給人的視覺沖擊力使其成為了Claude降智這一說法的最有力佐證。

四、官方回應：是優化而非削弱

面對洶洶民意，Anthropic的核心團隊成員不得不公開回應。

Claude Code負責人鮑里斯·切爾尼（Boris Cherny）在勞倫佐的GitHub原文下認真解釋了一通，并在X上連發數條回復，核心觀點只有一個，他們沒有削弱模型，只是為了響應用戶反饋調低了默認的努力程度。

切爾尼表示，很多用戶此前反饋Claude消耗Token太多。為了響應用戶反饋，Anthropic做了以下改變：

默認努力度降級：在3月3日默認將推理努力度設置為中等，如果你想要深度推理，需要手動輸入對應高級指令。

前端隱藏思考過程：改變了前端顯示，不再完整展示思考塊，減少了延遲，但這不影響思考預算或后端的深度推理。

自適應思考機制：在2月9日引入了動態調整機制。

Claude Code團隊成員塔里克·希希帕爾（Thariq Shihipar）也力挺自己的部門老大，他連發數條推文用技術層面的解釋打消用戶疑慮，還堅稱公司不會為了更好地滿足需求而降低模型性能。

值得注意的是，切爾尼提到的默認努力度降級，恰好可以解釋勞倫佐分析報告中的思考長度縮短與研究行為減少以及任務放棄頻率上升等多種現象，這與推理處于中等的默認設置高度吻合。

然而官方解釋并不能平息眾怒，社交媒體上很多用戶都認為，如果為了幫用戶省錢而降低性能或者給出錯誤答案，那這種省錢根本毫無意義可言。

何況公司沒通知就直接進行了調整，直接損害了用戶的知情權。

五、幕后暗戰：緩存生存時間與算力瓶頸

除了推理深度的變化，不少用戶還注意到Claude變得更貴了。

GitHub上一份編號為46829的反饋指出，Claude Code的提示詞緩存生存時間從原本的1小時被縮短到了5分鐘。

這意味著對于長時間工作的程序員來說，你剛才跟Claude說的話，5分鐘后它就忘了。為了繼續工作，你需要重新上傳上下文。

這不僅增加了延遲，更讓用戶的Token消耗量激增，使得一些訂閱用戶開始觸及以前從未遇到的使用上限。

Anthropic工程師賈里德·薩姆納（Jarred Sumner）承認了3月6日的這一改變，但辯稱這是為了持續的緩存優化工作而不是暗中降級。在開發者眼中，這無異于證實了官方確實在后臺積極調整緩存行為，而這正是大家抱怨配額消耗過快的時間段。

不管是Claude變笨也好變貴也罷，Reddit網友raven2cz的說辭堪稱一語中的。

這兩大問題也就是額度限制和思考能力下降都與基礎設施過載密切相關，去GitHub上看看就知道了，成千上萬的用戶現在都在面臨類似的問題，這情況感覺就像一年半前GPT發布新模型時一樣。

網友Wickywire則分析了其中的根本原因，Anthropic在兩個月內日活用戶從400萬漲到了1100萬，他們完全沒有準備并不得不全天候連軸轉去拼命擴容，這就是所謂削弱的真相。你去對時間線，和二三月份發生的事完全吻合。

這里沒有任何隱藏的意圖，只是一個經歷增長之痛的公司，硬件與能源的瓶頸是真實且證據確鑿的。

我們知道原因所在且它們都是結構性的，所以解決辦法也確實有限，在Reddit上反復糾結毫無意義。

這位網友給出的解決方法倒是立竿見影且切實可行，如果你覺得Claude表現不佳可以試試在非高峰時段使用，如果不行換別家AI服務商也行，反正又不是沒有選擇，真是受夠了那些在論壇上抱怨使用量和性能下降的人了。

六、結語：信任危機比變笨更可怕

目前的局面是，用戶在描述體感，而Anthropic在描述參數。

用戶覺得它變笨了且任務失敗了，官方則表示沒有動權重，只是改了默認努力值與縮短了緩存以及調整了前端顯示并公開披露過。

這兩種描述其實并不矛盾，在AI領域即便公司認為自己沒有在底層削弱模型，但微妙的設置變化和配額限制，對全天候依賴它的開發者來說體驗上與變笨毫無二致。

當開發者開始懷疑一個工具的穩定性時，這種信任的裂痕是極難修復的。

尤其是在強敵環伺的當下，OpenAI的Codex正在步步緊逼，它憑借更穩定的算力輸出與靈活的中階訂閱及全新的交互功能，精準收割失望的開發者。

第三方開發者調研工具顯示，自今年3月底Claude降智傳聞發酵以來，Codex及其相關插件的周新增用戶量環比增長了約22%。

如果Anthropic無法在節省算力成本與維持深度推理之間找到真正的平衡點，那么Claude辛辛苦苦建立起的口碑恐怕將在這場風波中受到考驗。

有老用戶所說，我寧愿付兩倍的錢買一個聰明的Claude，也不愿花同樣的錢買一個只會說道歉并要求更多信息的笨蛋。

這場AI界的性能拉鋸戰才剛剛開始。

本文來源：網易智能責任編輯：王鳳枝_NT2541

相關推薦

熱點推薦

上一個兄弟離職了，我接手了他的代碼，我承認沒憋住

環亞搞笑 2026-04-14 14:35:36
3 跟貼 3
Claude Code締造者：一個自學成才的程序員如何重塑AI編程賽道

華爾街見聞官方 2026-04-13 10:10:02
9 跟貼 9

中國年薪最高的十大職業，看完震驚了，網紅掙錢容易！

搞笑杰瑞 2026-04-14 09:12:52
4 跟貼 4

心機女挑釁程序員灰姑娘，反轉劇情令人震驚！

幾盞煙火y 2026-04-12 02:52:30
0 跟貼 0
公司最瀟灑程序員，一個人養活整個公司，電腦和鍵盤比例是亮點！

甜心萌物醬i 2026-04-14 14:55:25
0 跟貼 0

Claude Code 源碼泄露了，有人用Python復刻了一個極簡版

機器之心Pro 2026-04-02 11:30:10
0 跟貼 0

媒體：多國政要密集訪華一人來訪時機特殊、安排特殊

上觀新聞 2026-04-14 18:52:07
413 跟貼 413
大模型吞噬Word

錦緞研究院 2026-04-14 08:14:37
0 跟貼 0

2026年防止掉隊，4個好入門的AI技能（別焦慮！

小戴同學呃 2026-04-12 01:20:08
0 跟貼 0
Anthropic又“上新”，或本周發布旗艦模型Opus 4.7和AI設計工具

華爾街見聞官方 2026-04-15 06:21:18
0 跟貼 0
Anthropic的殺手锏：一個本科輟學、自學編程的“Claude Code之父”

智東西 2026-04-13 19:07:22
0 跟貼 0
R星大量數據遭黑客公開！R星拒絕發表評論

游民星空 2026-04-14 09:20:43
6 跟貼 6
裝完騰訊WorkBuddy，我提前過上了五一

鈦媒體APP 2026-04-13 18:03:09
45 跟貼 45
120W是“型號”不是功率？誤導消費者要付出代價

南方都市報 2026-04-13 00:36:10
3612 跟貼 3612
一個印尼程序員被拒12次后，發現最狠的懲罰不是失敗本身

心事寄山海 2026-04-14 16:58:59
0 跟貼 0
7860萬條記錄泄露，GTA6玩家白等了

碼上閑敘 2026-04-14 18:47:36
1 跟貼 1
物理加速外掛

爆笑瓢蟲 2026-04-14 11:54:21
1 跟貼 1
30多歲程序員寫字越來越小，以為頸椎病竟確診帕金森！醫生提醒

掌聞視訊 2026-04-11 15:50:15
0 跟貼 0
知名電腦軟件CPU-Z、HWMonitor被入侵！安裝包被投毒開發者回應

快科技 2026-04-13 15:39:50
0 跟貼 0
利用外掛當黃牛，打擊處理不留情

主持人老崔 2026-04-12 16:00:57
0 跟貼 0
舉債3.68億、總投資超7億，農業實訓基地為何不見農業影子？

上觀新聞 2026-04-14 21:54:17
841 跟貼 841
“常州北站”被改為“常洲北站”？官方回應

微泰州 2026-04-14 09:16:36
228 跟貼 228
廣東一面包店發出閉店通知，顧客：“孩子得知后當場大哭!”街坊紛紛挽留，多方幫助后面包店重獲“新生”

極目新聞 2026-04-14 11:30:13
648 跟貼 648
莫氏雞煲拒收溫氏千只雞，老莫：沒地放，沒罵他；溫氏股份：在溝通更多合作想法

界面新聞 2026-04-14 10:23:03
1143 跟貼 1143
上海機器人批量進廠，8小時不間斷“打工”，拐點時刻或要等4年

上觀新聞 2026-04-15 06:44:05
182 跟貼 182
19歲小哥的“原始人”skill，最高省87%Token

量子位 2026-04-10 19:24:54
0 跟貼 0
千問 Excel 功能實測：簡單表格秒生成，復雜函數搞不定

雷科技 2026-04-14 21:32:26
0 跟貼 0
美國“封鎖令”正式生效！一文讀懂：霍爾木茲最新形勢究竟如何？

財聯社 2026-04-14 10:11:07
478 跟貼 478
NBA官方：東契奇再度加冕得分王約基奇榮獲籃板&助攻王

北青網-北京青年報 2026-04-14 20:04:19
150 跟貼 150
文章新開面館口味評分3.6分，網友：30多元一碗面有點貴

紅星新聞 2026-04-13 17:22:41
1249 跟貼 1249
黑客勒索未果泄露R星財報《GTA6》核心秘密幸免

3DM游戲 2026-04-14 09:34:08
1 跟貼 1
在一臺1970年代的PDP-11上訓練Transformer要多久？答案是5.5分鐘

機器之心Pro 2026-04-14 10:18:12
0 跟貼 0
男子21萬注射臨床試驗干細胞：注射10多分鐘即感不適

澎湃新聞 2026-04-14 19:38:29
35 跟貼 35
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
WTI原油期貨跌幅擴大至6%

每日經濟新聞 2026-04-14 22:12:07
84 跟貼 84
掃碼繳費咋成了“闖關游戲”？記者走訪發現：停車場、充電樁、快遞柜也布滿“廣告陷阱”

中國能源網 2026-04-14 11:15:32
164 跟貼 164
“張雪機車”被點名！

極目新聞 2026-04-14 19:24:32
177 跟貼 177
俄外長已抵達中國進行訪問

環球網 2026-04-14 09:50:53
108 跟貼 108
江蘇等多地新能源車牌被指綠色變白色交管部門回應

上觀新聞 2026-04-14 11:34:06
0 跟貼 0
新華社18秒視頻，讓美國前高官“焦慮”了

新華社 2026-04-14 20:53:52
0 跟貼 0

網易新聞

iOS

Android

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

游戲

手機

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

最強編程AI被指降智！網友吵翻天，官方緊急回應被群嘲：縮水也叫優化？

硬剛馬斯克！亞馬遜擲115億美元收購

特朗普：美國對伊朗的戰爭已經結束

特朗普：美國對伊朗的戰爭已經結束

帶出中超最大黑馬！他讓球迷們“排隊道歉”

網曝鐘麗緹代孕要了個男孩 備孕近10年

特朗普稱美國對伊朗的戰爭已經結束

售12.99萬起/續航2000km 風云T9L上市

態度原創

行攝華山——香氣撲鼻紫丁香

《守墓人2》愿望單突破40萬 一代玩家數也飆升

一加官方自曝新形態設備：首款掌機要來了！

萬斯：對當前美伊局勢進展“感到樂觀”

網曝鐘麗緹代孕要了個男孩備孕近10年

《守墓人2》愿望單突破40萬一代玩家數也飆升