<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude變蠢了,新模型發布前的黑暗時刻?

      0
      分享至



      Claude Opus變蠢了。

      最近一段時間,越來越多用戶開始有一種很難講的感覺:雖然這個模型沒有明顯出錯,但也不再像以前那樣“聰明”。

      回答更快了,推理更短了,有時候看起來像是跳過了某些本該認真完成的步驟,變得敷衍了。

      如果這種情況只是個例,用戶可能還會懷疑是不是自己的問題,但當相似的聲音越來越多,這就不再是單純的“感覺不對”了。

      網上甚至開始出現一些視頻,調侃現在的Opus就像兇猛的獅子被摘了毛圈,發現原來只是一條狗。

      一個更直接的說法開始流傳:Opus被削了!

      這是真的嗎?如果是真的,它為什么會被削呢?



      01

      推理深度下降67%

      一開始只是零星的用戶在吐槽,說 Claude Opus“變懶了”“沒以前聰明了”。

      可能只是偶爾犯了一些過去不會犯的低級錯誤,或者在復雜任務里少做了幾步推理。

      某種意義上,和模型的協同很像是和真人的交往,一直以來配合得很好的“同事”某天忽然變臉了,擱誰誰都得難受。

      碰到這種情況,大多數人的第一反應都是懷疑自己:是不是prompt寫得不夠好?還是任務本來就不適合?這種情況應該只是偶然事件吧?

      但很快,在Reddit的Claude社區里,類似的反饋開始密集出現,而且描述高度一致:

      有人說它不再仔細讀代碼;有人說它更快給答案,但經常漏掉關鍵步驟;也有人發現,它在長任務中更容易“提前結束”,像是默認事情已經完成。



      當不同用戶在不同場景下開始重復同一類問題時,這件事似乎不再是所謂的“感覺不對”,更像是一種行為模式的變化。

      換句話說,不是感覺錯了,是模型真的在變。

      真正讓討論升級的是這個數字:有人在Claude Code的使用過程中,對歷史交互日志進行對比,發現模型在復雜任務中的推理過程明顯縮短,自2月更新以來,推理深度下降了67%。



      (參考鏈接:
      https://github.com/anthropics/claude-code/issues/42796)

      作者坦率地說明,67%是基于簽名長度與思考內容長度的相關估計,而不是直接測量。還提到一月份的日志被刪除了,所以基線對比不太準確。

      相比之下,報告里更有說服力的,其實是那些行為層面的變化。比如read:edit(讀取代碼vs修改代碼)的比例,從6.6下降到了2.0;3月8日之后,被stop hook捕捉到的違規行為有173次,而之前是0。



      不過數字是否精確并沒有那么重要,重要的是它讓一件原本模糊的體感問題,第一次被量化成一個可以討論的趨勢。

      于是,一個新詞在社區里開始流行:“AI shrinkflation”(AI縮水式通脹)

      縮水式通脹是一個經濟學術語,指的是商品的大小或數量減少,而價格不變。放在這里的意思也很直接,模型實際給到用戶的能力變少了,但模型看起來還是同一個名字。

      02

      敷衍的背后

      相比社區的激烈反應,Anthropic并沒有直接承認“模型變弱”。

      Claude Code的開發負責人Boris給出的解釋是,這些變化來自系統層的調整:包括工具調用方式、推理策略以及資源分配機制的變化,而不一定是模型本身能力的下降。

      他舉了個例子:在Claude Code中,一部分問題被認為源于工具鏈和系統prompt,而不是模型本身;與此同時,在高負載情況下,系統需要對算力、token和請求進行控制,這也會影響用戶體驗。

      在最新版本中,Anthropic引入了一種叫“自適應推理”(adaptive thinking)的機制,模型會根據任務復雜度,動態決定是否以及使用多少推理。

      也就是說,并不是模型變差了,只是模型開始“自己決定”要使用多少算力。



      (參考鏈接:
      https://news.ycombinator.com/item?id=47660925)

      從工程角度看,這是一種很合理的優化,簡單任務少思考,復雜任務多思考,以提升整體效率

      但問題在于,效率優化和能力削弱,在用戶體驗上并沒有區別。

      當一個模型開始更少閱讀上下文、更快給出答案、更頻繁地提前結束任務,用戶感受到的不會是優化,而是敷衍。

      而且這個自適應推理機制,從感性的角度來講,也確實會讓人不太舒服。

      還是拿人際交往的那個比喻:憑什么一開始好好的,用到后面就覺得我的事情不重要了?

      這種不適感很快被另一個變化放大了:Mythos還未發布就廣受關注,Claude Mythos Preview直接被Anthropic稱為“能力躍遷的一代”,在代碼與安全任務上表現出遠超以往的能力。因此它被限制性地提供給少數機構使用,用來加固“全球最關鍵的軟件系統”。

      當“更強的新模型”與“體感變差的舊模型”同時出現,一個在社區中不斷被提起的猜測開始成型:把舊模型削了再抬新模型,一捧一踩,就會顯得新模型有著巨大的升級。

      這個邏輯沒有直接證據,但它正在被越來越多用戶相信。



      03

      模型不再穩定

      實際上,類似的事情對AI來說并不陌生。

      早在2023年就有研究對比了GPT-4在不同時間的表現,發現同一個模型在幾個月內,推理方式和輸出行為都發生了明顯變化。這些變化后來被解釋為多種因素疊加的結果:包括推理策略調整、安全策略收緊,以及對成本和響應速度的優化。



      把陰謀論拋在一邊,如果確實存在一定程度的資源傾斜,在AI行業其實算是常態:無論是OpenAI還是Google,幾乎所有公司都會優先優化最新一代模型,舊模型則逐漸被邊緣化。

      算力是成本,也是生產力。當新模型的能力上限更高、潛在價值更大時,把更多資源投入進去,本身是一種理性的選擇。

      在這個過程中,舊模型的狀態自然會發生變化:被“降權”、推理深度被壓縮、資源分配被重新調整……這些都可以理解為一種工程上的取舍。

      不過理解歸理解,新模型不開放給大眾使用,舊模型又在毫無征兆的情況下弄成這樣,誰能輕易接受?



      從用戶的視角來看,最讓人不滿的并不是模型的“變蠢”,而是它的“不穩定”。

      當模型本身從一個穩定的工具變成一個會不斷變化的系統,它自己做出了“更好的調整”,沒有提示,沒有版本說明,也沒有邊界。

      作為用戶,你不知道它什么時候變了,不知道它具體變了什么,更不知道這種變化會不會影響你正在做的事情。

      你只能感受到它變了,變得沒以前好用了。

      這個時候,有一個新模型放在你的面前,看起來比現在這個更穩定、更可靠,或許用起來會更順手。

      于是選擇就變得微妙起來:似乎不再是你主動選擇新模型,而是舊模型的變化把你推向更新的那一個。

      即使你知道,新模型也可能在某一天變成下一個舊模型,可能還是會猝不及防地“優化”成讓人難受的版本。

      但在那一刻,差距已經擺在眼前。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      法布雷加斯:今天我們絕對沒發揮出預想的哪怕10%的水平

      法布雷加斯:今天我們絕對沒發揮出預想的哪怕10%的水平

      懂球帝
      2026-04-18 07:32:06
      6月1日交強險調整!950元固定費取消,好司機保費直接減掉一半

      6月1日交強險調整!950元固定費取消,好司機保費直接減掉一半

      復轉這些年
      2026-04-17 11:59:50
      太嚇人了!經超這個男演員整體挺帥,但一做大表情有點不敢恭維!

      太嚇人了!經超這個男演員整體挺帥,但一做大表情有點不敢恭維!

      小娛樂悠悠
      2026-04-17 09:50:08
      “都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

      “都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

      素十三兒
      2026-04-13 07:12:36
      牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

      牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

      奇思妙想草葉君
      2026-04-18 12:15:59
      人老了必須明白,晚年什么都可以沒有,唯獨不能沒有這兩樣東西

      人老了必須明白,晚年什么都可以沒有,唯獨不能沒有這兩樣東西

      叮當當科技
      2026-04-18 14:17:15
      妻子起訴離婚,8歲女兒問法官:我可以給你看一個爸爸的秘密嗎?

      妻子起訴離婚,8歲女兒問法官:我可以給你看一個爸爸的秘密嗎?

      夜闌故事集
      2026-04-11 11:15:03
      伊朗議長:絕不放棄控制霍爾木茲海峽,美妄言摧毀伊朗文明已失敗

      伊朗議長:絕不放棄控制霍爾木茲海峽,美妄言摧毀伊朗文明已失敗

      界面新聞
      2026-04-18 06:55:26
      下周行情(4.20-24日)要點早知道

      下周行情(4.20-24日)要點早知道

      玉名W
      2026-04-18 10:20:14
      暴漲!暴漲!霍爾木茲,又有變數!

      暴漲!暴漲!霍爾木茲,又有變數!

      中國基金報
      2026-04-18 09:19:43
      中央三個巡視組進駐最高人民法院等7家單位,聯絡方式公布

      中央三個巡視組進駐最高人民法院等7家單位,聯絡方式公布

      上觀新聞
      2026-04-18 08:58:02
      “黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

      “黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

      妍妍教育日記
      2026-03-29 07:40:03
      440公斤濃縮鈾引爆美伊危機,伊朗導彈產能激增

      440公斤濃縮鈾引爆美伊危機,伊朗導彈產能激增

      享用人生
      2026-04-15 21:19:18
      特斯拉 Optimus 人形機器人首批量產機型在上海超級工廠正式交付

      特斯拉 Optimus 人形機器人首批量產機型在上海超級工廠正式交付

      新浪財經
      2026-04-17 17:41:19
      太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

      太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

      互聯網.亂侃秀
      2026-04-18 11:34:41
      我醉后對女上司說:再扣工資我就娶了你,第二天她把我叫到辦公室

      我醉后對女上司說:再扣工資我就娶了你,第二天她把我叫到辦公室

      千秋文化
      2026-04-16 20:15:29
      伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

      伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

      郭蛹包工頭
      2026-04-17 14:14:44
      廣汽傳祺向往E8 PHEV要來了,3米軸距,還有激光雷達

      廣汽傳祺向往E8 PHEV要來了,3米軸距,還有激光雷達

      汽車公告板
      2026-04-18 16:30:35
      兩性關系:你信與不信,男性過了59,基本都有如下八個方面的需求

      兩性關系:你信與不信,男性過了59,基本都有如下八個方面的需求

      朗威談星座
      2026-04-18 14:24:08
      富貴花和頂級富豪的瓜!李小冉內定一公第一名!

      富貴花和頂級富豪的瓜!李小冉內定一公第一名!

      八卦瘋叔
      2026-04-18 11:09:08
      2026-04-18 17:39:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2389文章數 8059關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      日本又有新動作 軍事專家:其出兵海外的野心非常迫切

      頭條要聞

      日本又有新動作 軍事專家:其出兵海外的野心非常迫切

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      《穿普拉達的女王2》疑似辱華?

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      游戲
      健康
      本地
      數碼
      軍事航空

      玩家怒噴動態難度是垃圾設計!辛苦練級打裝備全沒用

      干細胞抗衰4大誤區,90%的人都中招

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      數碼要聞

      行業首發!智界V9將搭載恒冷智能大冰箱:斷電不斷冷

      軍事要聞

      解放軍護衛艦與外艦纏斗20小時 細節披露

      無障礙瀏覽 進入關懷版