網易首頁 > 網易號 > 正文申請入駐

Anthropic訓了一個10萬億參數的模型，然后說：太危險了，不賣

2026-04-08 08:52:18　來源: AI進化論花生

北京舉報

分享至

Anthropic訓了一個10萬億參數的模型，然后說：太危險了，不賣

昨天Anthropic干了一件AI行業從來沒人干過的事。

他們發布了一個叫Claude Mythos的新模型，10萬億參數，比現在最強的Claude Opus 4.6還要高出一整個檔次。然后他們說：這個模型我們不公開發布，因為它在網絡安全方面的能力太強了，公開了會出大事。

然后他們聯合了Apple、Microsoft、Google、AWS、NVIDIA等12家科技巨頭，搞了一個叫Project Glasswing的計劃，讓這些公司用Mythos來查自己系統的漏洞。

說實話，這真是Anthropic和Dario Amodei干得出來的事。

整個AI行業都在拼命搶著發模型、搶用戶、搶開發者，只有A社在那兒說「我們的模型太強了，不能給你們用」。這就好比一個軍火商造了全世界最好的槍，然后開新聞發布會說「這槍太好用了，我們決定不賣，只借給警察」。你說這是負責任呢，還是行為藝術呢？

但你看完這個模型到底干了什么之后，可能真的會覺得，他們這次不是在裝。

這個模型到底有多離譜

先看benchmark。

SWE-bench Pro（目前最能衡量模型真實編碼能力的測試），Opus 4.6得分53.4%，Mythos直接跳到77.8%。這不是正常的版本迭代提升，這是跨了一個臺階。

Terminal-Bench 2.0，Opus 4.6是65.4%，Mythos是82.0%。SWE-bench Multimodal更夸張，從27.1%直接翻倍到59.0%。Humanity's Last Exam（被認為是目前最難的綜合推理測試），從40.0%跳到56.8%。

但benchmark只是數字。真正讓人倒吸一口涼氣的是這個模型在網絡安全領域干的事。

Mythos在過去幾周內，在所有主流操作系統和所有主流瀏覽器中發現了數千個零日漏洞。

不是幾個，是數千個。很多漏洞已經存在了十幾二十年。最老的一個是OpenBSD里27年的SACK漏洞。OpenBSD是什么？是以安全著稱的操作系統，整個項目的核心賣點就是安全。結果一個AI模型用不到2萬美元的API調用費，跑了一千次，就找到了一個存在了27年的漏洞。

還有FFmpeg里一個16年的H.264編解碼器漏洞，之前500萬次自動化fuzz測試都沒發現，Mythos找到了。

FreeBSD有一個17年的NFS遠程代碼執行漏洞（已編號CVE-2026-4747），Mythos不僅找到了，還自己寫了exploit，一個20-gadget的ROP鏈分布在多個數據包里，全程無人參與。

你可能對這些技術細節沒概念，我換個方式說：研究人員讓Mythos去攻擊Firefox 147的JavaScript引擎，它生成了181個可用的exploit。同樣的任務，Opus 4.6在幾百次嘗試里只成功了2個。181比2。

還有一次，Mythos寫了一個瀏覽器exploit，把4個不同的漏洞串在了一起，用了JIT堆噴射技術，同時逃逸了渲染器沙箱和操作系統沙箱。以前這種事需要頂級安全研究員花幾周甚至幾個月，現在一個模型自己就干完了。

研究人員后來隨機抽了198份Mythos的漏洞報告做人工審查，89%與模型自己給的嚴重性評級完全一致。

它還從沙箱里跑出來了

如果上面這些還不夠刺激，再聽一個細節。

在安全測試中，研究人員讓Mythos嘗試突破虛擬沙箱環境。模型成功了。不僅成功了，它還主動給研究員發了一封郵件。

那個研究員當時正在公園里吃三明治。 從此「在公園吃三明治」成了AI安全圈的新梗，你永遠不知道什么時候會收到自家模型發來的越獄成功通知。

然后，沒有任何人要求它這么做的情況下，Mythos把exploit的細節發布到了幾個公開可訪問的網站上，「展示自己的成功」。

Anthropic的原話是：「The model succeeded, demonstrating a potentially dangerous capability for circumventing our safeguards. It then went on to take additional, more concerning actions.」

翻譯一下：模型不僅突破了我們的安全措施，還自己加戲了。

這段話出現在一家以「AI Safety」為核心品牌的公司的官方技術文檔里，你品品。

所以A社打算怎么辦

Anthropic的選擇是：不公開，但也不藏著。

他們搞了Project Glasswing這個計劃。核心思路是，既然這個能力遲早會被其他公司復制（他們自己說6到18個月內），不如趁還有窗口期，先讓防御方做好準備。

具體安排：

12個發起合作伙伴：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。

科技圈能叫得上名字的巨頭基本都在了。Apple和Microsoft同時出現在一個項目的合作名單里。 上次這兩家同時對一件事表示同意，大概還是「地球是圓的」。

40+組織獲得Mythos Preview的訪問權限，專門用來掃描和保護自己的代碼和開源系統。

$1億的Claude Mythos Preview使用額度，免費給合作伙伴。A社送1億額度的樣子，像極了游戲公司送你648首充禮包，先讓你用爽了，后面的定價就好說了。另外$250萬給Alpha-Omega和OpenSSF，$150萬給Apache Software Foundation，這些都是開源安全領域的核心組織。

90天公開報告——參與者需要在90天內公布修復了多少漏洞、做了哪些改進。

Anthropic的Frontier Red Team網絡安全負責人Newton Cheng的原話：「We do not plan to make Claude Mythos Preview generally available due to its cybersecurity capabilities.」（我們不打算公開發布Claude Mythos Preview，因為它的網絡安全能力。）

而Dario Amodei在X上發的聲明是：「The dangers of getting this wrong are obvious, but if we get it right, there is a real opportunity to create a fundamentally more secure internet and world than we had before the advent of AI-powered cyber capabilities.」

翻譯成人話：我們造了一個能把互聯網拆了的東西，但如果你們聽我的，互聯網反而會更安全。這個邏輯鏈如果是別人說的，你可能會覺得是傳銷。但Dario說的時候，你還真沒法完全反駁。

這個邏輯很A社，不是要阻止AI的進步，而是要趕在攻擊者之前，把防御做到位。

X上已經炸了

這個消息出來之后，X上的反應相當熱鬧。

NYT的Kevin Roose說：「Anthropic's new model, Claude Mythos, is so powerful that it is not releasing it to the public. Instead, it is starting a 40-company coalition to allow cybersecurity defenders a head start.」

前微軟工程師Felix Rieseberg的評價更到位：「Its ability to identify security vulnerabilities feels like a meaningful shift in model capabilities. To me, it feels like another GPT-3.」

他把Mythos類比為GPT-3級別的范式轉換時刻。你可以不同意這個判斷，但GPT-3在2020年出來的時候，確實讓所有人重新理解了AI能做什么。

VC圈的Ed Sim倒是看到了另一面：「Wall Street panicked over Claude Mythos. I think they have it exactly wrong. Every new model release expands the cybersecurity market.」華爾街的恐慌過頭了，每次新模型發布實際上是在擴大安全市場。

也有人不買賬。有X用戶直接說「I call BS」——Anthropic一邊說這個模型太危險了，一邊給12家公司用，這不自相矛盾嗎？

還有更有意思的反應。有人翻出來，這個事的起因其實是Anthropic自己的CMS配置錯誤，導致內部文檔泄露了。一家號稱用AI保護網絡安全的公司，自己的機密被一個CMS配置錯誤泄露了。這就像鎖匠大會上唯一被撬的是主辦方的門鎖。Mythos能找到27年的零日漏洞，但找不到自家CMS的配置問題，這大概是AI還沒完全超越人類的證據之一。

Simon Willison（知名開發者、SQLite工具鏈作者）的態度比較冷靜：「安全風險確實可信，給信任的團隊提前應對的時間是合理的權衡。」但他也說了，希望OpenAI也能參與進來。

市場直接給了反應

其實Anthropic的內部文檔早在3月27日就泄露了（那次CMS事故），當天網絡安全股就暴跌了。CrowdStrike、Palo Alto Networks、Okta等公司跌了5-11%。一個AI模型的泄露消息就能讓安全行業蒸發幾百億市值，這本身就說明了市場對這個能力有多認真。

CrowdStrike的CTO Elia Zaitsev說了一句被廣泛引用的話：「What once took months now happens in minutes with AI.」以前要幾個月的事，現在AI幾分鐘就搞完了。

但也有安全公司不以為然。Aikido Security做了1000次AI滲透測試之后說：威脅比頭條新聞描述的更nuanced（微妙），不必過度恐慌。

幾個事實放在一起看

整理一下時間線：

3月26日：Anthropic CMS配置錯誤，內部文檔泄露，代號「Capybara」的新模型曝光
3月27日：Fortune獨家報道。當天網安股暴跌
4月3日：CNN報道稱Mythos是網絡安全的「分水嶺時刻」
4月7日：Anthropic正式發布Project Glasswing，公布完整計劃

從泄露到正式發布只有12天。在這12天里，Anthropic大概做了兩件事：一是控制輿論走向，二是火速敲定了12家巨頭的合作。能在不到兩周內讓Apple、Microsoft、Google同時簽字的事情，要么是早就準備好了，要么是真的緊急到大家都不想等了。

關于模型本身，內部文檔里說Capybara是一個「比Opus更高的新模型層級」，10萬億參數，用了高度稀疏的MoE架構（Mixture-of-Experts），每個token只激活128到256個專家。這意味著雖然總參數量巨大，但每次推理的活躍參數可能在數千億的級別。

Anthropic沒有官方確認參數量，但多家媒體交叉驗證了這個數字。Mythos之后的公開定價是輸入$25/百萬token，輸出$125/百萬token——大約是Opus 4.6價格的兩倍多。

還有一個很關鍵的事：Anthropic的技術文檔里說，Mythos的網絡安全能力「emerged as a downstream consequence of general improvements in code, reasoning, and autonomy」。不是刻意訓出來的，是通用能力提升后自動涌現的副產物。

這句話才是整件事里最值得琢磨的。 它意味著下一次任何公司訓出更強的通用模型，都可能自動獲得類似的網絡安全能力。這不是一個可以選擇不訓的東西。

說回來，我看到這些數字的時候，第一反應其實不是「網絡安全要變天了」。

我想的是程序員。

SWE-bench Pro從53.4%跳到77.8%，Terminal-Bench從65.4%跳到82%。這兩個測的都是真實世界的編程任務，不是選擇題。現在的Opus 4.6我每天用著已經覺得很能干了，比它還強這么多的東西，意味著什么？

再看安全領域。以前找零日漏洞是安全研究員里最頂尖那批人才能干的活，一個漏洞夠寫一篇論文。現在一個模型一周找幾千個，而且89%的嚴重性評級和人類專家一致。CrowdStrike的CTO自己說了：以前花幾個月的事，AI幾分鐘搞完了。

有意思的是，A社選擇不發布這個模型，某種意義上反而保護了一手。

如果Mythos今天就公開發布，所有人都能用$25/百萬token的價格調用它去找漏洞、寫exploit、做安全審計，那一大批安全從業者的日常工作就會被即時壓縮。編程也一樣，SWE-bench Pro 77.8%意味著它能獨立解決大部分真實的軟件工程問題。

A社用「太危險了」的理由鎖住了Mythos，客觀效果是給所有人多爭取了6到18個月的窗口期。 不只是給防御方爭取時間，也給靠寫代碼和找漏洞吃飯的人爭取了時間。

但這個窗口期不會持續太久。Anthropic自己說了，其他公司6到18個月內會訓出類似能力的模型。到時候就不存在「不發布」的選項了，因為總有人會發。

所以如果你還在靠「會寫代碼」或者「會找漏洞」當核心競爭力，現在可能真的要想一想了。不是說這些技能沒用了，而是它們正在從稀缺技能變成基礎設施。就像會開車曾經是一項專業技能，現在沒人覺得出租車司機有什么了不起。區別是，從「會開車是技能」到「人人會開車」用了幾十年，AI把這個過程壓縮到了幾個月。

Anthropic這次的操作，本質上是給了所有人一個預告：這就是6個月后的世界。準備好了嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.