<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic王炸Claude基準測試泄露,卡皮巴拉細節曝光!還在代碼里下毒

      0
      分享至


      新智元報道

      編輯:Aeneas KingHZ

      【新智元導讀】剛剛,Anthropic神秘王炸Mythos的基準測試泄露了,多項跑分直接刷新紀錄!另外,泄露源碼中還曝光出卡皮巴拉的細節:代號capabara-v2-fast,支持1M上下文。

      過去24小時,AI 圈的空氣里,都是焦灼和狂歡。

      先爆的是 Claude Code。

      Anthropic這款命令行終端工具的源碼意外泄露,很快就在GitHub上引發連鎖反應。大量開發者沖進去圍觀、Fork、拆解,隨后又出現了Python和Rust的「復刻版」。

      原本只屬于Anthropic內部的實驗,轉眼變成了整個行業的「公開的秘密」。

      誰也沒想到,第二波泄露來得更快。

      就在剛剛,Anthropic疑似下一代旗艦重磅旗艦模型Mythos的基準測試跑分,又又又泄露了。


      與以往Claude 4.x/5系列不同,Mythos被稱為獨立產品線,定位明顯更高。而從曝光的數據來看,它很可能是Anthropic目前最具野心的一次模型躍遷。

      從泄露信息來看,Mythos對比當前強勢模型Opus 4.6,幾乎在所有關鍵指標上都有明顯提升:

      • Terminal-Bench 2.0:78.4%(+13.0%)

      • SWE-bench Verified:87.4%(+6.6%)

      • OSWorld:79.6%(+6.9%)

      • BrowseComp:92.3%(+8.3%)

      • MCP Atlas:75.7%(+16.2%)

      • Finance Agent:82.1%(+21.4%)

      • GDPVal-AA-Elo: 2668 (+1062)

      • Humanity's Last Exam: 52.3% (無工具, +12.3%), 71.5% (有工具, +18.5%)


      如果這些數字屬實,那Mythos顯然又是一個巨大的升級。不僅在性能上,而且在定位上。

      在智能體編碼任務上,78.4%的Terminal-Bench和87.4%的SWE-bench證明,Mythos效果出眾。

      這是愚人節玩笑,還是泄露的真實數據?

      有人特意用谷歌的AI內容水印技術synthid驗了一下這張圖,大概率不是AI生成的。


      還有人放出了無水印版基準測試分數。


      總之,如果,泄露分數是真的,Anthropic恐怕要對Mythos收取天價!


      源代碼泄露,「卡皮巴拉」細節曝光

      另外,昨天泄露的Claude Code源代碼中,曝光了不少Anthropic「卡皮巴拉」模型的細節。


      從這些潛藏在代碼庫底層的蛛絲馬跡,可以解讀出不少信息:非常明顯,Anthropic不僅僅是在堆參數,他們正在解決一個所有長文本模型都面臨的「隱形頑疾」。


      不同于大家猜測的Mythos(目前尚無實據),代碼中明確指向了名為capybara-v2-fast的新模型。


      它具有1M Context。顯而易見,百萬上下文現在都成了新一代模型的入場券了。

      既然有「fast」版本,按照Anthropic的慣例,后續大概率會跟進能力更強的旗艦版。


      技術細節:一場精密的提示詞手術

      最有趣的不是參數,而是Anthropic如何處理生產環境下的模型故障。

      開發者發現,當Prompt的Shape在工具調用(Tool Use)返回結果后,如果長得太像一個「輪次邊界(Turn Boundary)」,Capybara會產生誤判,導致模型過早停止。

      因此,模型活還沒干完,就以為這輪對話結束了。

      為了修補這個Bug,Anthropic并沒有選擇單純重訓模型,而是進行了一場極為精密的「Prompt 手術」。

      首先,就是強制安全邊界,引入了Tool loaded.這樣的硬性邊界標記。

      然后,要重新定位那些具有風險的「同級模塊(Sibling Blocks)」。

      另外,還有信息壓縮,就是將提醒文本(Reminder Text)直接「擠」進工具結果中,確保模型能看到。

      針對空的工具輸出,還會強制添加非空標記,防止模型在空白處「斷片」。

      這樣,一臺精密的提示詞手術就完成了。

      天狗(Tengu)守門

      此外,Anthropic內部擁有一套名為tengu_*的灰度開關。


      這意味著所有這些針對Capybara的優化都不是盲目上線的。

      因為有著Kill-switch(自殺開關),一旦rollout 出現異常,就可以秒級回滾。

      而且代碼注釋中包含了大量的A/B測試證據。

      有趣的是,ant/internal用戶(Anthropic員工)是第一波「金絲雀」,只有在內部驗證通過后,才會向外部用戶解鎖。


      泄露代碼中顯示,

      Anthropic竟在代碼里下毒

      現在,全網大神都對泄露的源代碼展開分析了,有人發現:Anthropic變腹黑了?防友商白嫖,竟在代碼里下毒!

      在大模型圈,最讓底層廠商頭疼的事,莫過于辛辛苦苦跑出來的高質量數據,轉頭就被對手拿去搞了模型蒸餾。

      這不,有人從泄露的Claude Code底層代碼發現,Anthropic 為了反抓取,竟然喪心病狂地內置了兩套「反蒸餾全家桶」。

      第一招,就是「流式投毒」


      當你在跑任務時,Claude會在輸出流里偷偷摻沙子,隨機注入一堆虛假的工具調用指令。

      這些指令對你來說可能只是閃過的雜訊,但對于那些蹲在后臺抓取數據準備訓練的爬蟲來說,簡直就是劇毒的毒藥。

      如果拿回去訓練自家模型,只會讓它越來越瘋。

      第二招,則是「打碼大法」


      為了不讓友商復刻Claude強大的Agent執行邏輯,Anthropic把所有的工具調用細節都給模糊化了。

      反饋給輸出端的不再是詳細的邏輯步驟,而是像馬賽克一樣的簡短摘要。

      這次的爆料,也讓我們看到了Anthropic極其務實的一面。

      他們不只是追求性能,更是在細節上瘋狂「打補丁」,以確保在復雜的工具調用鏈條中,模型不會因為格式問題而崩掉。

      雖然官方尚未公布正式的SKU命名或發布日期,但從代碼的成熟度來看,Capybara家族已經箭在弦上。

      所以,「卡皮巴拉」會是Claude 3.5的升級版,還是全新的4.0系列模型呢?

      Anthropic,為何如此冷靜?

      有意思的是,面對如此大規模源代碼事件,Anthropic的態度倒是出奇的冷靜,他們只是默默地私下向GitHub倉庫發了DMCA(數字千年版權法)刪除通知。

      外媒得到的Anthropic解釋是,這次泄露事件屬于人為錯誤導致的發布打包問題,因為構成安全漏洞。

      Claude Code之父Boris Cherny也否認了這是由于bun的問題,只是輕描淡寫說了一句,「只是開發者的錯誤」。


      或許,讓Anthropic如此淡定的原因,就是框架并不是護城河。


      不少圈內人在復盤泄露的代碼后,得出了冷靜結論:Claude Code的框架本身并不神秘。 甚至有人直言不諱地指出,CC的框架只能算中規中矩,更像是基礎配置。

      在泄露發生之前,開源社區在任務編排、長上下文管理等細分維度上,已經存在不少優于CC的替代方案。


      但為什么Anthropic的產品依然讓開發者趨之若鶩?答案不在于那幾行Python或TypeScript代碼,而在于架構工程。

      比如Prompt的精細堆疊、工具鏈的無縫銜接、模型的容錯與自我糾正。這些細節絕非易事。

      源碼可以被復制,但這種對復雜系統的掌控力,是無法通過簡單的git clone獲得的。

      Cursor模式的成功就已經證明了,即使基于別人的模型,只要能在產品體驗和架構深度上做到極致,依然能打造出讓開發者無法離開的「殺手級產品」。


      因此,CC這次源碼泄露,實際上是將一個原本專有的「工業級工具箱」拋向了荒野,這就降低了所有人構建完善編碼智能體的門檻。

      未來要比拼的,就是誰能在這個開源的基石上,搭出最符合用戶直接的產品大廈。三個月,誰能長成新巨頭?

      多事之秋

      Anthropic人設翻車?

      Anthropic一直給自己立的人設是:一家行事謹慎的、造福全人類的AI公司。

      它發布關于AI風險的詳細研究成果,雇用了該領域最優秀的一些研究人員。

      它也一直在公開討論,開發這類強AI技術時應承擔怎樣的責任。

      所以,當與美國國防部展開交鋒時,Anthropic幾乎得到了全網聲援浪潮。

      然而,據上周四外媒報道,Anthropic承認正在測試代表能力「跨越式變化」的新AI模型。


      Anthropic意外公開了近3000份內部文件,其中包括一篇描述的博客草稿。


      之后,Anthropic確認確有此事:

      新模型代碼Capybara,在軟件工程、學術推理和網絡安全上,大大提升了性能;

      已向一小群專注于網絡安全測試和防御準備的早期用戶開放訪問權限。


      奇怪的是,Anthropic沒有阻止文件繼續泄露。

      連續的泄露事件,未必會立刻削弱Anthropic的模型實力,卻已經開始動搖它最寶貴的另一層護城河:外界對其內部治理、工程紀律和「安全優先」敘事的信任。

      當一家以謹慎著稱的公司,反復因為泄露站到聚光燈下,真正受考驗的,就不只是產品發布節奏,而是它自己最看重的「人設」。

      參考資料:

      https://x.com/synthwavedd/status/2039102384241049956

      https://x.com/forloopcodes/status/2038942169311195432

      https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      教師大局定了:若無意外,2026年中國教師隊伍可能會有3大變化

      教師大局定了:若無意外,2026年中國教師隊伍可能會有3大變化

      王姐懶人家常菜
      2026-04-07 04:04:11
      國央企“軟裁員”有多狠?不罵不裁不找茬,四招讓你主動提離職

      國央企“軟裁員”有多狠?不罵不裁不找茬,四招讓你主動提離職

      復轉這些年
      2026-04-05 17:50:56
      【意甲】阿萊格里:爭冠失敗!AC米蘭0-1客負那不勒斯

      【意甲】阿萊格里:爭冠失敗!AC米蘭0-1客負那不勒斯

      體壇周報
      2026-04-07 08:20:12
      本賽季至今,約基奇一共拿到33次三雙,東契奇8次,那威少呢?

      本賽季至今,約基奇一共拿到33次三雙,東契奇8次,那威少呢?

      兵哥籃球故事
      2026-04-07 15:29:49
      廣東3消息!杜鋒強調球隊困難,焦泊喬婉拒歸隊,薩姆納傷缺兩周

      廣東3消息!杜鋒強調球隊困難,焦泊喬婉拒歸隊,薩姆納傷缺兩周

      多特體育說
      2026-04-06 22:44:40
      莫蘭特灰熊生涯倒計時?重發神秘推文引猜測,這回真要走?

      莫蘭特灰熊生涯倒計時?重發神秘推文引猜測,這回真要走?

      仰臥撐FTUer
      2026-04-07 19:45:42
      金正恩稱韓國總統的道歉乃“寬宏大量之人”的行為

      金正恩稱韓國總統的道歉乃“寬宏大量之人”的行為

      遁走的兩輪
      2026-04-07 19:58:01
      戰爭有多燒錢,網友說我講一下我家里的局部戰爭你就明白

      戰爭有多燒錢,網友說我講一下我家里的局部戰爭你就明白

      侃神評故事
      2026-04-06 11:45:08
      初選結果出爐,藍營候選人落敗,張啟楷發聲!黃國昌耐人尋味

      初選結果出爐,藍營候選人落敗,張啟楷發聲!黃國昌耐人尋味

      愛意隨風起呀
      2026-04-07 16:19:47
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      書紀文譚
      2026-04-06 23:14:24
      29記三分仍輸球!騎士142-126大勝灰熊,哈登缺席9人上雙

      29記三分仍輸球!騎士142-126大勝灰熊,哈登缺席9人上雙

      郝小小看體育
      2026-04-07 11:21:56
      再見諸葛馬龍!掘金給火箭送大禮,卡馬拉轟30+5比伊森強

      再見諸葛馬龍!掘金給火箭送大禮,卡馬拉轟30+5比伊森強

      籃球看比賽
      2026-04-07 13:18:10
      張雪峰前妻終于表態!稱只想和女兒安靜生活,直言前夫承受了太多

      張雪峰前妻終于表態!稱只想和女兒安靜生活,直言前夫承受了太多

      萌神木木
      2026-04-07 16:07:31
      陳麗華去世,享年85歲:吃了唐僧肉,留下半條金寶街和一個唐僧

      陳麗華去世,享年85歲:吃了唐僧肉,留下半條金寶街和一個唐僧

      烏娛子醬
      2026-04-07 11:20:35
      馬斯克曾突然變臉,撕下美國遮羞布:沒了中國,誰也別想造電動車

      馬斯克曾突然變臉,撕下美國遮羞布:沒了中國,誰也別想造電動車

      近史談
      2026-04-02 19:12:33
      我接妻子下班,一男子突然拉住我,兄弟這我女友

      我接妻子下班,一男子突然拉住我,兄弟這我女友

      林林先生
      2026-03-26 15:05:39
      寶媽哭訴:脫褲子那一刻就沒了尊嚴!生娃七個尷尬瞬間,你中幾個

      寶媽哭訴:脫褲子那一刻就沒了尊嚴!生娃七個尷尬瞬間,你中幾個

      菁媽育兒
      2026-04-04 21:42:23
      伊朗總統說已準備好犧牲,超1400萬伊朗人愿為國捐軀

      伊朗總統說已準備好犧牲,超1400萬伊朗人愿為國捐軀

      每日經濟新聞
      2026-04-07 18:59:53
      起風了,特朗普被送醫救治?生命垂危消息傳開,魯比奧有望當總統

      起風了,特朗普被送醫救治?生命垂危消息傳開,魯比奧有望當總統

      回京歷史夢
      2026-04-07 18:43:24
      2026-04-07 20:43:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      家居
      健康
      親子
      房產
      軍事航空

      家居要聞

      雅致愜意 感知生活之美

      干細胞抗衰4大誤區,90%的人都中招

      親子要聞

      科普|科學備孕,需要做好哪些孕前檢查?

      房產要聞

      重磅!三亞擬出安居房新政!

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關懷版