![]()
當(dāng)一款編程助手開始顯現(xiàn)出敷衍了事的跡象時,開發(fā)者很快便會察覺。AMD AI集團的一位高級總監(jiān)公開批評Anthropic旗下的Claude Code,稱其在處理復(fù)雜問題時存在"跳過難點"的傾向——給出的答案表面上說得過去,實則經(jīng)不起推敲。
這一問題的核心并非工具徹底失效,而是其嚴(yán)謹(jǐn)性的逐步退化。復(fù)雜問題所引發(fā)的回復(fù)往往更快、更輕描淡寫,急于"交差了事"。這迫使這位高級主管及其團隊不得不停止將該工具用于調(diào)試硬件和內(nèi)核級問題等復(fù)雜工程任務(wù)。
上述問題由Stella Laurenzo在一份GitHub Issues提單中詳細(xì)記錄。她在其中指出,該工具在今年2月的一次更新之后,可能在復(fù)雜任務(wù)推理能力方面出現(xiàn)了質(zhì)量回退問題。
這份提單源于她對6,852個會話文件中17,871個思考塊及234,760次工具調(diào)用所做的定量分析,時間跨度為今年1月至3月,涵蓋更新前后兩個時段,以便進行對比。
Laurenzo在分析中指出,由于推理能力下降,模型在修改代碼之前逐漸不再完整閱讀代碼。
她在提單中寫道:"當(dāng)思考流于表面時,模型會默認(rèn)采取成本最低的操作:不讀代碼直接修改、未完成任務(wù)便停下、對失敗推卸責(zé)任、選擇最簡單而非最正確的修復(fù)方案。"
Laurenzo補充道,推理能力的退化對她的團隊而言是一大障礙,因為這直接影響到超過50個并發(fā)智能體會話——這些會話涉及C語言和GPU驅(qū)動程序的系統(tǒng)編程,以及歷時30分鐘以上、包含復(fù)雜多文件改動的自主運行任務(wù)。
提出類似問題的并非只有Laurenzo一人。多名用戶在該提單下留言,表示遭遇了與她及其團隊相似的情況。另有用戶指出,多個Reddit子版塊也出現(xiàn)了類似的性能退化討論,該評論在GitHub上同樣獲得了眾多開發(fā)者的點贊支持。
這一日益高漲的投訴聲浪引起了分析師的關(guān)注,他們將問題歸因于Anthropic尚處發(fā)展階段的算力瓶頸。
Avasant研究總監(jiān)Chandrika Dutt表示:"這本質(zhì)上是算力和成本問題。復(fù)雜的工程任務(wù)需要消耗大量計算資源,包括中間推理步驟。隨著使用量的攀升,系統(tǒng)已無法為每一個請求維持如此高強度的算力投入。"
她進一步解釋:"因此,系統(tǒng)開始限制任務(wù)的運行時長、推理深度以及可同時處理的任務(wù)數(shù)量。"
這并非Anthropic首次面臨Claude Code的算力瓶頸問題。上個月,Anthropic已開始限制旗下Claude各訂閱套餐的使用量,以應(yīng)對持續(xù)增長的需求對算力的壓榨。當(dāng)時的邏輯是:通過加快用戶在時間窗口內(nèi)觸達會話上限的速度,Anthropic能夠有效重新分配訪問資源,防止系統(tǒng)過載,同時維持整體的周度使用配額。
與推理能力回退問題如出一轍,開發(fā)者對Claude Code施加的速率限制措施同樣反應(yīng)強烈,認(rèn)為這些限制嚴(yán)重削弱了工具的實用價值。
分析師指出,速率限制與推理能力回退這兩大問題疊加,可能會動搖開發(fā)者對該平臺的信心。這不會導(dǎo)致用戶大規(guī)模出走,但會悄然消耗其勢頭,并促使企業(yè)用戶尋求其他替代方案以分散風(fēng)險。
Greyhound Research首席分析師Sanchit Vir Gogia表示:"這不是那種用戶一夜之間轉(zhuǎn)身離去的時刻,它比那種情況更隱蔽,也更危險。真正發(fā)生的是一種悄然轉(zhuǎn)變——開發(fā)者在面臨高風(fēng)險任務(wù)時,對系統(tǒng)的信任度正在降低。抱怨最為強烈的,恰恰是那些已開始依賴該系統(tǒng)處理嚴(yán)肅、多步驟、長會話工程工作的團隊。"
Gogia進一步指出:"發(fā)生變化的不僅是輸出質(zhì)量,還有系統(tǒng)在生成輸出過程中的行為方式。從審慎的逐步推理到更快速、更被動的執(zhí)行——這種漂移清晰可見。這會形成一種惡性循環(huán):工程師不得不更頻繁地介入和打斷,最終親自承擔(dān)本應(yīng)由系統(tǒng)處理的思考工作。"
他認(rèn)為,上述變化將迫使團隊將復(fù)雜或關(guān)鍵任務(wù)轉(zhuǎn)移至其他工具,僅將簡單任務(wù)留給Claude處理。久而久之,該平臺的定位將從主力工具淪落為備選工具。
正如Laurenzo在GitHub提單中所透露的,她本人也正走上Gogia所預(yù)言的這條路——暫時放棄Claude Code,等待Anthropic修復(fù)問題,轉(zhuǎn)而使用一款未透露名稱的競品。
不過,Avasant的Dutt對Laurenzo這一抉擇在長遠(yuǎn)效果上并不樂觀。她指出,競品可能同樣面臨與Anthropic相似的算力約束:"所有前沿模型都在相同的GPU和成本限制下運作。隨著使用規(guī)模的擴大,所有服務(wù)提供商都將不得不引入限流機制、分級訪問模式,并在速度、成本與推理深度之間做出取舍。這在結(jié)構(gòu)上是必然趨勢。"
推理能力回退問題尤為如此。該分析師認(rèn)為,在大規(guī)模場景下維持深度推理是一項艱巨挑戰(zhàn),并援引近期SWE-EVO 2025關(guān)于AI編程智能體的基準(zhǔn)測試加以佐證——數(shù)據(jù)顯示,在多步驟任務(wù)中,成功率急劇下滑,失敗率通常在60%至80%之間,在執(zhí)行密集型場景中尤為突出。
不過,作為一項補救建議,Laurenzo對Anthropic能夠自我糾偏持樂觀態(tài)度,她甚至在提單中建議該公司推出高級付費層級,允許用戶為更強的推理算力買單。
Dutt和Gogia均表示,這一方向可能很快成真,因為整個行業(yè)正朝著消費模式演進——基礎(chǔ)使用與高強度、推理密集型工作負(fù)載將被區(qū)別對待。
分析師們同樣支持Laurenzo向Anthropic提出的另一項建議——提高Token分配機制的透明度。
Gogia表示:"用戶需要了解系統(tǒng)在底層究竟做了什么。不必事無巨細(xì),但至少要足以判斷系統(tǒng)是真正推理了一個問題,還是僅僅給出了一個快速答案。如今,用戶只能從結(jié)果中推斷,這正是為什么會有用戶去分析日志和行為模式。這本不應(yīng)該是用戶的負(fù)擔(dān)。"
目前,Anthropic尚未回應(yīng)Laurenzo的GitHub提單,也未將其分配給任何處理人。
而對于那些期待快速解決算力問題的人來說,可能需要調(diào)低預(yù)期——至少要等到2027年。屆時,由博通代工的谷歌TPU芯片將加入Anthropic的服務(wù)器集群。在更多GPU到位、或公司決定以更高定價確定使用權(quán)歸屬之前,開發(fā)者或許只能一邊刷新討論帖,一邊眼看著Token被配給,靜待推理能力的回歸。
Q&A
Q1:Claude Code推理能力回退問題是如何被發(fā)現(xiàn)的?
A:AMD AI集團高級總監(jiān)Stella Laurenzo通過對6,852個會話文件中17,871個思考塊及234,760次工具調(diào)用進行定量分析,覆蓋今年1月至3月(含更新前后兩個時段),發(fā)現(xiàn)Claude Code在2月更新后出現(xiàn)推理能力下滑跡象,具體表現(xiàn)為模型在修改代碼前不再完整閱讀代碼,傾向于給出更快、更淺顯的答案,而非經(jīng)過深度推理的準(zhǔn)確解答。
Q2:為什么Claude Code會出現(xiàn)推理能力下滑?
A:分析師認(rèn)為根本原因在于算力和成本壓力。隨著用戶規(guī)模擴大,復(fù)雜工程任務(wù)所需的大量算力(包括中間推理步驟)難以為每個請求持續(xù)提供。為避免系統(tǒng)過載,系統(tǒng)會限制任務(wù)運行時長、推理深度以及并發(fā)任務(wù)數(shù)量,導(dǎo)致輸出質(zhì)量出現(xiàn)退化。
Q3:開發(fā)者面對Claude Code的限制,有哪些應(yīng)對建議?
A:分析師和用戶均提出了幾點建議:一是Anthropic應(yīng)推出高級付費層級,讓有需求的用戶為更強推理算力付費;二是提高Token分配機制的透明度,讓用戶了解系統(tǒng)在底層的推理情況;三是在Anthropic修復(fù)問題期間,可將復(fù)雜工程任務(wù)轉(zhuǎn)移至其他工具處理,以降低對單一平臺的依賴風(fēng)險。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.