Claude Code可靠性遭質(zhì)疑，開發(fā)者反映復(fù)雜工程任務(wù)推理能力下滑

2026-04-10 21:52:37　來源: 至頂頭條

北京舉報

分享至

當(dāng)一款編程助手開始顯現(xiàn)出敷衍了事的跡象時，開發(fā)者很快便會察覺。AMD AI集團的一位高級總監(jiān)公開批評Anthropic旗下的Claude Code，稱其在處理復(fù)雜問題時存在"跳過難點"的傾向——給出的答案表面上說得過去，實則經(jīng)不起推敲。

這一問題的核心并非工具徹底失效，而是其嚴(yán)謹(jǐn)性的逐步退化。復(fù)雜問題所引發(fā)的回復(fù)往往更快、更輕描淡寫，急于"交差了事"。這迫使這位高級主管及其團隊不得不停止將該工具用于調(diào)試硬件和內(nèi)核級問題等復(fù)雜工程任務(wù)。

上述問題由Stella Laurenzo在一份GitHub Issues提單中詳細(xì)記錄。她在其中指出，該工具在今年2月的一次更新之后，可能在復(fù)雜任務(wù)推理能力方面出現(xiàn)了質(zhì)量回退問題。

這份提單源于她對6,852個會話文件中17,871個思考塊及234,760次工具調(diào)用所做的定量分析，時間跨度為今年1月至3月，涵蓋更新前后兩個時段，以便進行對比。

Laurenzo在分析中指出，由于推理能力下降，模型在修改代碼之前逐漸不再完整閱讀代碼。

她在提單中寫道："當(dāng)思考流于表面時，模型會默認(rèn)采取成本最低的操作：不讀代碼直接修改、未完成任務(wù)便停下、對失敗推卸責(zé)任、選擇最簡單而非最正確的修復(fù)方案。"

Laurenzo補充道，推理能力的退化對她的團隊而言是一大障礙，因為這直接影響到超過50個并發(fā)智能體會話——這些會話涉及C語言和GPU驅(qū)動程序的系統(tǒng)編程，以及歷時30分鐘以上、包含復(fù)雜多文件改動的自主運行任務(wù)。

提出類似問題的并非只有Laurenzo一人。多名用戶在該提單下留言，表示遭遇了與她及其團隊相似的情況。另有用戶指出，多個Reddit子版塊也出現(xiàn)了類似的性能退化討論，該評論在GitHub上同樣獲得了眾多開發(fā)者的點贊支持。

這一日益高漲的投訴聲浪引起了分析師的關(guān)注，他們將問題歸因于Anthropic尚處發(fā)展階段的算力瓶頸。

Avasant研究總監(jiān)Chandrika Dutt表示："這本質(zhì)上是算力和成本問題。復(fù)雜的工程任務(wù)需要消耗大量計算資源，包括中間推理步驟。隨著使用量的攀升，系統(tǒng)已無法為每一個請求維持如此高強度的算力投入。"

她進一步解釋："因此，系統(tǒng)開始限制任務(wù)的運行時長、推理深度以及可同時處理的任務(wù)數(shù)量。"

這并非Anthropic首次面臨Claude Code的算力瓶頸問題。上個月，Anthropic已開始限制旗下Claude各訂閱套餐的使用量，以應(yīng)對持續(xù)增長的需求對算力的壓榨。當(dāng)時的邏輯是：通過加快用戶在時間窗口內(nèi)觸達會話上限的速度，Anthropic能夠有效重新分配訪問資源，防止系統(tǒng)過載，同時維持整體的周度使用配額。

與推理能力回退問題如出一轍，開發(fā)者對Claude Code施加的速率限制措施同樣反應(yīng)強烈，認(rèn)為這些限制嚴(yán)重削弱了工具的實用價值。

分析師指出，速率限制與推理能力回退這兩大問題疊加，可能會動搖開發(fā)者對該平臺的信心。這不會導(dǎo)致用戶大規(guī)模出走，但會悄然消耗其勢頭，并促使企業(yè)用戶尋求其他替代方案以分散風(fēng)險。

Greyhound Research首席分析師Sanchit Vir Gogia表示："這不是那種用戶一夜之間轉(zhuǎn)身離去的時刻，它比那種情況更隱蔽，也更危險。真正發(fā)生的是一種悄然轉(zhuǎn)變——開發(fā)者在面臨高風(fēng)險任務(wù)時，對系統(tǒng)的信任度正在降低。抱怨最為強烈的，恰恰是那些已開始依賴該系統(tǒng)處理嚴(yán)肅、多步驟、長會話工程工作的團隊。"

Gogia進一步指出："發(fā)生變化的不僅是輸出質(zhì)量，還有系統(tǒng)在生成輸出過程中的行為方式。從審慎的逐步推理到更快速、更被動的執(zhí)行——這種漂移清晰可見。這會形成一種惡性循環(huán)：工程師不得不更頻繁地介入和打斷，最終親自承擔(dān)本應(yīng)由系統(tǒng)處理的思考工作。"

他認(rèn)為，上述變化將迫使團隊將復(fù)雜或關(guān)鍵任務(wù)轉(zhuǎn)移至其他工具，僅將簡單任務(wù)留給Claude處理。久而久之，該平臺的定位將從主力工具淪落為備選工具。

正如Laurenzo在GitHub提單中所透露的，她本人也正走上Gogia所預(yù)言的這條路——暫時放棄Claude Code，等待Anthropic修復(fù)問題，轉(zhuǎn)而使用一款未透露名稱的競品。

不過，Avasant的Dutt對Laurenzo這一抉擇在長遠(yuǎn)效果上并不樂觀。她指出，競品可能同樣面臨與Anthropic相似的算力約束："所有前沿模型都在相同的GPU和成本限制下運作。隨著使用規(guī)模的擴大，所有服務(wù)提供商都將不得不引入限流機制、分級訪問模式，并在速度、成本與推理深度之間做出取舍。這在結(jié)構(gòu)上是必然趨勢。"

推理能力回退問題尤為如此。該分析師認(rèn)為，在大規(guī)模場景下維持深度推理是一項艱巨挑戰(zhàn)，并援引近期SWE-EVO 2025關(guān)于AI編程智能體的基準(zhǔn)測試加以佐證——數(shù)據(jù)顯示，在多步驟任務(wù)中，成功率急劇下滑，失敗率通常在60%至80%之間，在執(zhí)行密集型場景中尤為突出。

不過，作為一項補救建議，Laurenzo對Anthropic能夠自我糾偏持樂觀態(tài)度，她甚至在提單中建議該公司推出高級付費層級，允許用戶為更強的推理算力買單。

Dutt和Gogia均表示，這一方向可能很快成真，因為整個行業(yè)正朝著消費模式演進——基礎(chǔ)使用與高強度、推理密集型工作負(fù)載將被區(qū)別對待。

分析師們同樣支持Laurenzo向Anthropic提出的另一項建議——提高Token分配機制的透明度。

Gogia表示："用戶需要了解系統(tǒng)在底層究竟做了什么。不必事無巨細(xì)，但至少要足以判斷系統(tǒng)是真正推理了一個問題，還是僅僅給出了一個快速答案。如今，用戶只能從結(jié)果中推斷，這正是為什么會有用戶去分析日志和行為模式。這本不應(yīng)該是用戶的負(fù)擔(dān)。"

目前，Anthropic尚未回應(yīng)Laurenzo的GitHub提單，也未將其分配給任何處理人。

而對于那些期待快速解決算力問題的人來說，可能需要調(diào)低預(yù)期——至少要等到2027年。屆時，由博通代工的谷歌TPU芯片將加入Anthropic的服務(wù)器集群。在更多GPU到位、或公司決定以更高定價確定使用權(quán)歸屬之前，開發(fā)者或許只能一邊刷新討論帖，一邊眼看著Token被配給，靜待推理能力的回歸。

Q&A

Q1：Claude Code推理能力回退問題是如何被發(fā)現(xiàn)的？

A：AMD AI集團高級總監(jiān)Stella Laurenzo通過對6,852個會話文件中17,871個思考塊及234,760次工具調(diào)用進行定量分析，覆蓋今年1月至3月（含更新前后兩個時段），發(fā)現(xiàn)Claude Code在2月更新后出現(xiàn)推理能力下滑跡象，具體表現(xiàn)為模型在修改代碼前不再完整閱讀代碼，傾向于給出更快、更淺顯的答案，而非經(jīng)過深度推理的準(zhǔn)確解答。

Q2：為什么Claude Code會出現(xiàn)推理能力下滑？

A：分析師認(rèn)為根本原因在于算力和成本壓力。隨著用戶規(guī)模擴大，復(fù)雜工程任務(wù)所需的大量算力（包括中間推理步驟）難以為每個請求持續(xù)提供。為避免系統(tǒng)過載，系統(tǒng)會限制任務(wù)運行時長、推理深度以及并發(fā)任務(wù)數(shù)量，導(dǎo)致輸出質(zhì)量出現(xiàn)退化。

Q3：開發(fā)者面對Claude Code的限制，有哪些應(yīng)對建議？

A：分析師和用戶均提出了幾點建議：一是Anthropic應(yīng)推出高級付費層級，讓有需求的用戶為更強推理算力付費；二是提高Token分配機制的透明度，讓用戶了解系統(tǒng)在底層的推理情況；三是在Anthropic修復(fù)問題期間，可將復(fù)雜工程任務(wù)轉(zhuǎn)移至其他工具處理，以降低對單一平臺的依賴風(fēng)險。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.