出品 | 網易智能
作者 | 辰辰
編輯 | 王鳳枝
最強的編程AI,到底降沒降智?
今年2月初,Anthropic發布Claude Opus 4.6,其憑借著深邃的推理邏輯和對復雜代碼規范的精準執行,被業界奉為代碼真神。
然而好景不長,發布僅數周后就不斷有用戶在社交媒體上聲討,稱其性能出現了斷崖式下跌。
![]()
不少用戶聲稱自己付著同樣高昂的月費,換來的卻是一個被明顯降智的縮水版本,Opus 4.6開始變得懶惰與健忘,甚至在基礎邏輯里反復撞墻。
面對全網的聲討,Anthropic官方團隊出面回應,他們辯稱從未削弱模型,種種異常表現只是為了幫用戶節省Token而做出的默認配置優化。
這種單方面的技術辯解顯然無法平息開發者的怒火。
這究竟是大量用戶的集體心理錯覺,還是資本在算力瓶頸下精心炮制的縮水?
一、AMD高管的深度分析:6852份日志見端倪
如果說普通用戶的抱怨只是體感,那么斯特拉·勞倫佐(Stella Laurenzo)的分析,則是讓這件事徹底“實錘”了。
根據領英資料,勞倫佐是AMD的AI部門高級總監,目前在AMD領導一支龐大的團隊為開源AI編譯器開發貢獻力量。她曾在谷歌擔任首席軟件工程師,后作為前Nod.ai工程副總裁加入AMD。
4月2日,勞倫佐在GitHub上發布了一份詳盡的性能回溯報告。
作為一名頂級AI專家,她沒有只憑直覺說話,而是詳細分析了6852份Claude Code會話文件與17871個思考塊以及超過23萬次工具調用記錄,堪稱一份詳盡的高水平個案研究。
![]()
這份基于海量數據的分析揭露了一個令人不安的真相,從今年2月份開始,Claude的推理深度就出現了斷崖式下跌。
細節信息顯示:
推理字數縮減:中位思考長度從2200字符縮減到了600字符。
研究退化:以前Claude在寫代碼前會進行多輪研究(Research),現在的模式變成了直接上手改(Edit),這導致讀取與編輯的比率從6.6倍降至2.0倍。
任務早退:在短短17天內,Claude嘗試放棄任務或反問我是否應該繼續的次數達到了173次,而在3月8日之前這個數字是0。
自相矛盾:推理過程中的自我否定(如“哦等等,實際上……”)頻率增加了三倍。
勞倫佐的結論非常冷酷,對于高級工程工作流來說,深度推理不是奢侈品而是模型可用的前提,現在Claude在復雜工程中已經靠不住了。
不過需要注意的是,勞倫佐的分析結論只是說今年2月底Claude思考長度縮短了67%,推文將思考量減少直接等同于智力下降的說法難論嚴謹。
二、社交媒體的證言墻:40分鐘的思考與無效的賬單
勞倫佐的帖子迅速引爆了社交媒體X和Reddit,無數開發者發現自己遇到的問題與這份報告高度契合。
網紅開發者奧姆·帕特爾(Om Patel)直接在X上貼出了結論,有人測出了Claude變笨了多少,答案是67%。
他的論點主要集中在Opus 4.6的思考量比以前少了三分之二。他諷刺地寫道,Anthropic一直保持沉默,直到這些數字被公開,他們的團隊才出來滅火。
![]()
帕特爾還在推文中透露,泄露的源代碼顯示他們有一個內部開關,可以讓模型在Anthropic員工使用時保持最佳狀態。不過這一說法尚未得到獨立驗證,Anthropic也未對此作出回應。
他還直言,有人說Anthropic故意降低Opus的性能,是為了節省計算資源來訓練他們的下一個模型Mythos。但這一推測同樣缺乏直接證據。
在Reddit上,用戶們的吐槽則更具具像化,也更顯無奈:
坐等式思考:用戶DangerousSetOfBewbs稱他曾讓Claude處理一個500行的文件,結果Claude進入了長達24分鐘的思考中狀態,只是在那里干坐著。還有網友附和,讓它做研究,40分鐘幾乎沒用什么Token,所以根本不清楚它這40分鐘到底做了什么。
![]()
規則視若無睹:許多開發者習慣在CLAUDE.md中設定項目規范,但現在Claude仿佛患上了失憶癥。一位用戶憤怒地留言,如果你不盯著它的輸出,它能分分鐘毀掉你的代碼庫。
![]()
價格沒變智力降級:這就是典型的縮水通脹。Reddit用戶Firm_Meeting6350說,我今天退訂了Claude Max 20并轉投了Codex Pro,Claude現在給我的感覺就像在用過時的舊模型。
![]()
三、跑分迷霧:從第2名到第10名的跌落
如果用戶抱怨還可以解釋成主觀感受,那么基準測試則似乎要拿真實數據討說法。
4月12日,專門負責幻覺基準測試的機構BridgeMind發布了一條推文,直接將爭議推向高潮。
推文指出Claude Opus 4.6被削弱了,BridgeBench剛剛證明了這一點。上周它排名第2且準確率83.3%,今天重測它掉到了第10且準確率僅剩68.3%,幻覺率增加了98%。
![]()
然而這一測試結果遭到了反駁。外部AI研究員保羅·卡爾克拉夫特(Paul Calcraft)隨后指出測試中存在誤導性,BridgeMind的兩次測試并不是對等比較。第一次測試只涵蓋了6個任務,而第二次測試擴充到了30個任務。
![]()
卡爾克拉夫特指出,如果只看那6個共同的任務,Claude的得分僅從87.6%輕微波動到85.4%,最大的偏差幾乎來自于單個虛構結果,這種差異在統計學上完全可以歸類為噪音。
這場跑分爭議本身也說明,目前業界缺乏統一且可復現的AI性能基準測試標準,很多測試頗有先下結論后找論據的風格,用戶很難從測試數據中獲得確定性的答案。
然而那個跌落至第10名的數據在社交媒體上瘋傳,截圖給人的視覺沖擊力使其成為了Claude降智這一說法的最有力佐證。
![]()
四、官方回應:是優化而非削弱
面對洶洶民意,Anthropic的核心團隊成員不得不公開回應。
Claude Code負責人鮑里斯·切爾尼(Boris Cherny)在勞倫佐的GitHub原文下認真解釋了一通,并在X上連發數條回復,核心觀點只有一個,他們沒有削弱模型,只是為了響應用戶反饋調低了默認的努力程度。
![]()
切爾尼表示,很多用戶此前反饋Claude消耗Token太多。為了響應用戶反饋,Anthropic做了以下改變:
默認努力度降級:在3月3日默認將推理努力度設置為中等,如果你想要深度推理,需要手動輸入對應高級指令。
前端隱藏思考過程:改變了前端顯示,不再完整展示思考塊,減少了延遲,但這不影響思考預算或后端的深度推理。
自適應思考機制:在2月9日引入了動態調整機制。
Claude Code團隊成員塔里克·希希帕爾(Thariq Shihipar)也力挺自己的部門老大,他連發數條推文用技術層面的解釋打消用戶疑慮,還堅稱公司不會為了更好地滿足需求而降低模型性能。
![]()
值得注意的是,切爾尼提到的默認努力度降級,恰好可以解釋勞倫佐分析報告中的思考長度縮短與研究行為減少以及任務放棄頻率上升等多種現象,這與推理處于中等的默認設置高度吻合。
然而官方解釋并不能平息眾怒,社交媒體上很多用戶都認為,如果為了幫用戶省錢而降低性能或者給出錯誤答案,那這種省錢根本毫無意義可言。
何況公司沒通知就直接進行了調整,直接損害了用戶的知情權。
五、幕后暗戰:緩存生存時間與算力瓶頸
除了推理深度的變化,不少用戶還注意到Claude變得更貴了。
GitHub上一份編號為46829的反饋指出,Claude Code的提示詞緩存生存時間從原本的1小時被縮短到了5分鐘。
![]()
這意味著對于長時間工作的程序員來說,你剛才跟Claude說的話,5分鐘后它就忘了。為了繼續工作,你需要重新上傳上下文。
這不僅增加了延遲,更讓用戶的Token消耗量激增,使得一些訂閱用戶開始觸及以前從未遇到的使用上限。
Anthropic工程師賈里德·薩姆納(Jarred Sumner)承認了3月6日的這一改變,但辯稱這是為了持續的緩存優化工作而不是暗中降級。在開發者眼中,這無異于證實了官方確實在后臺積極調整緩存行為,而這正是大家抱怨配額消耗過快的時間段。
不管是Claude變笨也好變貴也罷,Reddit網友raven2cz的說辭堪稱一語中的。
這兩大問題也就是額度限制和思考能力下降都與基礎設施過載密切相關,去GitHub上看看就知道了,成千上萬的用戶現在都在面臨類似的問題,這情況感覺就像一年半前GPT發布新模型時一樣。
![]()
網友Wickywire則分析了其中的根本原因,Anthropic在兩個月內日活用戶從400萬漲到了1100萬,他們完全沒有準備并不得不全天候連軸轉去拼命擴容,這就是所謂削弱的真相。你去對時間線,和二三月份發生的事完全吻合。
這里沒有任何隱藏的意圖,只是一個經歷增長之痛的公司,硬件與能源的瓶頸是真實且證據確鑿的。
我們知道原因所在且它們都是結構性的,所以解決辦法也確實有限,在Reddit上反復糾結毫無意義。
![]()
這位網友給出的解決方法倒是立竿見影且切實可行,如果你覺得Claude表現不佳可以試試在非高峰時段使用,如果不行換別家AI服務商也行,反正又不是沒有選擇,真是受夠了那些在論壇上抱怨使用量和性能下降的人了。
六、結語:信任危機比變笨更可怕
目前的局面是,用戶在描述體感,而Anthropic在描述參數。
用戶覺得它變笨了且任務失敗了,官方則表示沒有動權重,只是改了默認努力值與縮短了緩存以及調整了前端顯示并公開披露過。
這兩種描述其實并不矛盾,在AI領域即便公司認為自己沒有在底層削弱模型,但微妙的設置變化和配額限制,對全天候依賴它的開發者來說體驗上與變笨毫無二致。
當開發者開始懷疑一個工具的穩定性時,這種信任的裂痕是極難修復的。
尤其是在強敵環伺的當下,OpenAI的Codex正在步步緊逼,它憑借更穩定的算力輸出與靈活的中階訂閱及全新的交互功能,精準收割失望的開發者。
第三方開發者調研工具顯示,自今年3月底Claude降智傳聞發酵以來,Codex及其相關插件的周新增用戶量環比增長了約22%。
如果Anthropic無法在節省算力成本與維持深度推理之間找到真正的平衡點,那么Claude辛辛苦苦建立起的口碑恐怕將在這場風波中受到考驗。
有老用戶所說,我寧愿付兩倍的錢買一個聰明的Claude,也不愿花同樣的錢買一個只會說道歉并要求更多信息的笨蛋。
這場AI界的性能拉鋸戰才剛剛開始。
