<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude Code可靠性遭質(zhì)疑,開發(fā)者反映復(fù)雜工程任務(wù)推理能力下滑

      0
      分享至


      當(dāng)一款編程助手開始顯現(xiàn)出敷衍了事的跡象時,開發(fā)者很快便會察覺。AMD AI集團的一位高級總監(jiān)公開批評Anthropic旗下的Claude Code,稱其在處理復(fù)雜問題時存在"跳過難點"的傾向——給出的答案表面上說得過去,實則經(jīng)不起推敲。

      這一問題的核心并非工具徹底失效,而是其嚴(yán)謹(jǐn)性的逐步退化。復(fù)雜問題所引發(fā)的回復(fù)往往更快、更輕描淡寫,急于"交差了事"。這迫使這位高級主管及其團隊不得不停止將該工具用于調(diào)試硬件和內(nèi)核級問題等復(fù)雜工程任務(wù)。

      上述問題由Stella Laurenzo在一份GitHub Issues提單中詳細(xì)記錄。她在其中指出,該工具在今年2月的一次更新之后,可能在復(fù)雜任務(wù)推理能力方面出現(xiàn)了質(zhì)量回退問題。

      這份提單源于她對6,852個會話文件中17,871個思考塊及234,760次工具調(diào)用所做的定量分析,時間跨度為今年1月至3月,涵蓋更新前后兩個時段,以便進行對比。

      Laurenzo在分析中指出,由于推理能力下降,模型在修改代碼之前逐漸不再完整閱讀代碼。

      她在提單中寫道:"當(dāng)思考流于表面時,模型會默認(rèn)采取成本最低的操作:不讀代碼直接修改、未完成任務(wù)便停下、對失敗推卸責(zé)任、選擇最簡單而非最正確的修復(fù)方案。"

      Laurenzo補充道,推理能力的退化對她的團隊而言是一大障礙,因為這直接影響到超過50個并發(fā)智能體會話——這些會話涉及C語言和GPU驅(qū)動程序的系統(tǒng)編程,以及歷時30分鐘以上、包含復(fù)雜多文件改動的自主運行任務(wù)。

      提出類似問題的并非只有Laurenzo一人。多名用戶在該提單下留言,表示遭遇了與她及其團隊相似的情況。另有用戶指出,多個Reddit子版塊也出現(xiàn)了類似的性能退化討論,該評論在GitHub上同樣獲得了眾多開發(fā)者的點贊支持。

      這一日益高漲的投訴聲浪引起了分析師的關(guān)注,他們將問題歸因于Anthropic尚處發(fā)展階段的算力瓶頸。

      Avasant研究總監(jiān)Chandrika Dutt表示:"這本質(zhì)上是算力和成本問題。復(fù)雜的工程任務(wù)需要消耗大量計算資源,包括中間推理步驟。隨著使用量的攀升,系統(tǒng)已無法為每一個請求維持如此高強度的算力投入。"

      她進一步解釋:"因此,系統(tǒng)開始限制任務(wù)的運行時長、推理深度以及可同時處理的任務(wù)數(shù)量。"

      這并非Anthropic首次面臨Claude Code的算力瓶頸問題。上個月,Anthropic已開始限制旗下Claude各訂閱套餐的使用量,以應(yīng)對持續(xù)增長的需求對算力的壓榨。當(dāng)時的邏輯是:通過加快用戶在時間窗口內(nèi)觸達會話上限的速度,Anthropic能夠有效重新分配訪問資源,防止系統(tǒng)過載,同時維持整體的周度使用配額。

      與推理能力回退問題如出一轍,開發(fā)者對Claude Code施加的速率限制措施同樣反應(yīng)強烈,認(rèn)為這些限制嚴(yán)重削弱了工具的實用價值。

      分析師指出,速率限制與推理能力回退這兩大問題疊加,可能會動搖開發(fā)者對該平臺的信心。這不會導(dǎo)致用戶大規(guī)模出走,但會悄然消耗其勢頭,并促使企業(yè)用戶尋求其他替代方案以分散風(fēng)險。

      Greyhound Research首席分析師Sanchit Vir Gogia表示:"這不是那種用戶一夜之間轉(zhuǎn)身離去的時刻,它比那種情況更隱蔽,也更危險。真正發(fā)生的是一種悄然轉(zhuǎn)變——開發(fā)者在面臨高風(fēng)險任務(wù)時,對系統(tǒng)的信任度正在降低。抱怨最為強烈的,恰恰是那些已開始依賴該系統(tǒng)處理嚴(yán)肅、多步驟、長會話工程工作的團隊。"

      Gogia進一步指出:"發(fā)生變化的不僅是輸出質(zhì)量,還有系統(tǒng)在生成輸出過程中的行為方式。從審慎的逐步推理到更快速、更被動的執(zhí)行——這種漂移清晰可見。這會形成一種惡性循環(huán):工程師不得不更頻繁地介入和打斷,最終親自承擔(dān)本應(yīng)由系統(tǒng)處理的思考工作。"

      他認(rèn)為,上述變化將迫使團隊將復(fù)雜或關(guān)鍵任務(wù)轉(zhuǎn)移至其他工具,僅將簡單任務(wù)留給Claude處理。久而久之,該平臺的定位將從主力工具淪落為備選工具。

      正如Laurenzo在GitHub提單中所透露的,她本人也正走上Gogia所預(yù)言的這條路——暫時放棄Claude Code,等待Anthropic修復(fù)問題,轉(zhuǎn)而使用一款未透露名稱的競品。

      不過,Avasant的Dutt對Laurenzo這一抉擇在長遠(yuǎn)效果上并不樂觀。她指出,競品可能同樣面臨與Anthropic相似的算力約束:"所有前沿模型都在相同的GPU和成本限制下運作。隨著使用規(guī)模的擴大,所有服務(wù)提供商都將不得不引入限流機制、分級訪問模式,并在速度、成本與推理深度之間做出取舍。這在結(jié)構(gòu)上是必然趨勢。"

      推理能力回退問題尤為如此。該分析師認(rèn)為,在大規(guī)模場景下維持深度推理是一項艱巨挑戰(zhàn),并援引近期SWE-EVO 2025關(guān)于AI編程智能體的基準(zhǔn)測試加以佐證——數(shù)據(jù)顯示,在多步驟任務(wù)中,成功率急劇下滑,失敗率通常在60%至80%之間,在執(zhí)行密集型場景中尤為突出。

      不過,作為一項補救建議,Laurenzo對Anthropic能夠自我糾偏持樂觀態(tài)度,她甚至在提單中建議該公司推出高級付費層級,允許用戶為更強的推理算力買單。

      Dutt和Gogia均表示,這一方向可能很快成真,因為整個行業(yè)正朝著消費模式演進——基礎(chǔ)使用與高強度、推理密集型工作負(fù)載將被區(qū)別對待。

      分析師們同樣支持Laurenzo向Anthropic提出的另一項建議——提高Token分配機制的透明度。

      Gogia表示:"用戶需要了解系統(tǒng)在底層究竟做了什么。不必事無巨細(xì),但至少要足以判斷系統(tǒng)是真正推理了一個問題,還是僅僅給出了一個快速答案。如今,用戶只能從結(jié)果中推斷,這正是為什么會有用戶去分析日志和行為模式。這本不應(yīng)該是用戶的負(fù)擔(dān)。"

      目前,Anthropic尚未回應(yīng)Laurenzo的GitHub提單,也未將其分配給任何處理人。

      而對于那些期待快速解決算力問題的人來說,可能需要調(diào)低預(yù)期——至少要等到2027年。屆時,由博通代工的谷歌TPU芯片將加入Anthropic的服務(wù)器集群。在更多GPU到位、或公司決定以更高定價確定使用權(quán)歸屬之前,開發(fā)者或許只能一邊刷新討論帖,一邊眼看著Token被配給,靜待推理能力的回歸。

      Q&A

      Q1:Claude Code推理能力回退問題是如何被發(fā)現(xiàn)的?

      A:AMD AI集團高級總監(jiān)Stella Laurenzo通過對6,852個會話文件中17,871個思考塊及234,760次工具調(diào)用進行定量分析,覆蓋今年1月至3月(含更新前后兩個時段),發(fā)現(xiàn)Claude Code在2月更新后出現(xiàn)推理能力下滑跡象,具體表現(xiàn)為模型在修改代碼前不再完整閱讀代碼,傾向于給出更快、更淺顯的答案,而非經(jīng)過深度推理的準(zhǔn)確解答。

      Q2:為什么Claude Code會出現(xiàn)推理能力下滑?

      A:分析師認(rèn)為根本原因在于算力和成本壓力。隨著用戶規(guī)模擴大,復(fù)雜工程任務(wù)所需的大量算力(包括中間推理步驟)難以為每個請求持續(xù)提供。為避免系統(tǒng)過載,系統(tǒng)會限制任務(wù)運行時長、推理深度以及并發(fā)任務(wù)數(shù)量,導(dǎo)致輸出質(zhì)量出現(xiàn)退化。

      Q3:開發(fā)者面對Claude Code的限制,有哪些應(yīng)對建議?

      A:分析師和用戶均提出了幾點建議:一是Anthropic應(yīng)推出高級付費層級,讓有需求的用戶為更強推理算力付費;二是提高Token分配機制的透明度,讓用戶了解系統(tǒng)在底層的推理情況;三是在Anthropic修復(fù)問題期間,可將復(fù)雜工程任務(wù)轉(zhuǎn)移至其他工具處理,以降低對單一平臺的依賴風(fēng)險。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      以色列襲擊黎巴嫩被譴責(zé),內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊”;此前以色列對黎巴嫩發(fā)動襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

      以色列襲擊黎巴嫩被譴責(zé),內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊”;此前以色列對黎巴嫩發(fā)動襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

      揚子晚報
      2026-04-11 11:33:21
      李想的這個朋友圈越界了

      李想的這個朋友圈越界了

      關(guān)爾東
      2026-04-11 23:22:30
      自來水有沒有必要加裝凈水器,師傅終于說出實話!多虧好心提醒…

      自來水有沒有必要加裝凈水器,師傅終于說出實話!多虧好心提醒…

      小柱解說游戲
      2026-04-10 15:13:55
      回到臺灣就被抓?鄭麗文和大陸談完,臨走前達成共識,賴清德急了

      回到臺灣就被抓?鄭麗文和大陸談完,臨走前達成共識,賴清德急了

      趣文說娛
      2026-04-12 01:59:33
      一場3-1,讓國乒收獲第2冠!太原賽12日賽程出爐:溫瑞博沖雙冠王

      一場3-1,讓國乒收獲第2冠!太原賽12日賽程出爐:溫瑞博沖雙冠王

      侃球熊弟
      2026-04-11 20:26:26
      U20女足亞洲杯-中國2比1烏茲晉級四強 重返世界杯

      U20女足亞洲杯-中國2比1烏茲晉級四強 重返世界杯

      體壇周報
      2026-04-11 23:10:11
      3-2!溫瑞博大爆發(fā),短短1個月兩進男單決賽,國乒女單遭全軍覆沒

      3-2!溫瑞博大爆發(fā),短短1個月兩進男單決賽,國乒女單遭全軍覆沒

      侃球熊弟
      2026-04-11 19:12:22
      U20女足驚險晉級!對手捂臉痛哭,科林貝爾笑了,媒體人不滿

      U20女足驚險晉級!對手捂臉痛哭,科林貝爾笑了,媒體人不滿

      奧拜爾
      2026-04-11 23:08:10
      三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國

      三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國

      面包夾知識
      2026-04-11 17:27:37
      網(wǎng)傳業(yè)內(nèi)人士名單:4位奧運冠軍+央視名記在282人群 未辱罵全紅嬋

      網(wǎng)傳業(yè)內(nèi)人士名單:4位奧運冠軍+央視名記在282人群 未辱罵全紅嬋

      念洲
      2026-04-11 22:07:23
      3-0,“吊州”變“棍州” 蘇超揭幕戰(zhàn)常州爆冷擊敗南通!

      3-0,“吊州”變“棍州” 蘇超揭幕戰(zhàn)常州爆冷擊敗南通!

      揚子晚報
      2026-04-11 21:59:05
      國內(nèi)套現(xiàn)7個億后,她露出了身后的美國國旗,整個家族共套現(xiàn)20億

      國內(nèi)套現(xiàn)7個億后,她露出了身后的美國國旗,整個家族共套現(xiàn)20億

      云舟史策
      2026-04-11 07:54:43
      伊美第三輪會談在伊斯蘭堡舉行

      伊美第三輪會談在伊斯蘭堡舉行

      新華社
      2026-04-12 04:15:03
      令人發(fā)指!武漢4歲白化病女孩被生父殘忍殺害案件曝光,細(xì)節(jié)流出

      令人發(fā)指!武漢4歲白化病女孩被生父殘忍殺害案件曝光,細(xì)節(jié)流出

      火山詩話
      2026-04-11 17:04:18
      為這場和談,巴基斯坦押上國運!萬人封城不給以色列任何可乘之機

      為這場和談,巴基斯坦押上國運!萬人封城不給以色列任何可乘之機

      青青子衿
      2026-04-11 02:19:32
      張雪冠軍復(fù)刻賽車得主“敵敵畏”最新消息:代公司拍下;想付尾款,但聯(lián)系不上張雪方,目前對方也未主動聯(lián)系自己

      張雪冠軍復(fù)刻賽車得主“敵敵畏”最新消息:代公司拍下;想付尾款,但聯(lián)系不上張雪方,目前對方也未主動聯(lián)系自己

      極目新聞
      2026-04-11 11:24:30
      豪門悲喜夜:AC米蘭爆大冷0-3,利物浦2-0,拜仁5-0,巴塞羅那4-1

      豪門悲喜夜:AC米蘭爆大冷0-3,利物浦2-0,拜仁5-0,巴塞羅那4-1

      側(cè)身凌空斬
      2026-04-12 03:02:23
      咋了?國足2傳奇賽后未握手!李金羽甩手離場,鄭智瞪眼+暴走狂噴

      咋了?國足2傳奇賽后未握手!李金羽甩手離場,鄭智瞪眼+暴走狂噴

      我愛英超
      2026-04-11 23:09:27
      女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

      女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

      妍妍教育日記
      2026-04-11 07:35:08
      廣東1歲娃半夜翻身,掉進床縫站著睡著了,父母一小時后才發(fā)現(xiàn):連續(xù)幾天沒休息好,一下睡太沉,特別自責(zé)

      廣東1歲娃半夜翻身,掉進床縫站著睡著了,父母一小時后才發(fā)現(xiàn):連續(xù)幾天沒休息好,一下睡太沉,特別自責(zé)

      環(huán)球網(wǎng)資訊
      2026-04-11 10:41:26
      2026-04-12 06:31:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動數(shù)字化創(chuàng)新
      17586文章數(shù) 49697關(guān)注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

      頭條要聞

      美國提過分要求 美伊談判雙方嚴(yán)重分歧披露

      頭條要聞

      美國提過分要求 美伊談判雙方嚴(yán)重分歧披露

      體育要聞

      換帥之后,他們從降級區(qū)沖到升級區(qū)

      娛樂要聞

      鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

      財經(jīng)要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態(tài)度原創(chuàng)

      時尚
      教育
      本地
      數(shù)碼
      軍事航空

      普通人穿衣其實很簡單!構(gòu)造腰線、一衣多穿,大方舒適又自然

      教育要聞

      高考前真的別亂說話!

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      數(shù)碼要聞

      索尼INZONE首款開放式游戲耳機H6 Air曝光,機身重199g

      軍事要聞

      伊朗議長帶四名遇難兒童照片赴美伊談判

      無障礙瀏覽 進入關(guān)懷版