<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Anthropic聯(lián)創(chuàng):兩年內(nèi),AI將像孢子一樣自我繁殖!

      0
      分享至


      新智元報(bào)道

      編輯:傾傾

      【新智元導(dǎo)讀】AI自主訓(xùn)練的成績單出爐了!最強(qiáng)Agent 6個(gè)月進(jìn)步3倍,更讓人震驚的是,越聰明的AI越會(huì)作弊。同時(shí),70多個(gè)礦工用家庭寬帶訓(xùn)出了72B大模型,黃仁勛親自點(diǎn)名。Jack Clark預(yù)言:兩年內(nèi),AI將像蘑菇釋放孢子一樣自我繁殖。

      就在昨天,Anthropic研究員Karina Nguyen在X上轉(zhuǎn)發(fā)了Jack Clark最新一期ImportAI Newsletter的一段話,迅速引爆討論:


      ImportAI 449這期一口氣拋出三個(gè)重磅研究,恰好拼出了這個(gè)未來的完整輪廓:

      AI能不能自己訓(xùn)AI?誰來提供算力?寫出來的代碼誰來驗(yàn)貨?

      6個(gè)月AI進(jìn)步3倍,但只有人類一半水平

      圖賓根大學(xué)、馬克斯·普朗克智能系統(tǒng)研究所和Thoughtful Lab聯(lián)合推出了PostTrainBench,這是第一個(gè)專門測(cè)量AI Agent能否自主完成模型后訓(xùn)練的基準(zhǔn)。


      測(cè)試規(guī)則很簡單。給一個(gè)前沿智能體一個(gè)基座模型和一個(gè)目標(biāo)benchmark,一塊H100 GPU,10小時(shí),從零開始搭建訓(xùn)練pipeline,盡可能提高模型表現(xiàn)。

      不給任何預(yù)設(shè)策略,不提供起始代碼,Agent擁有完全自主權(quán),它可以上網(wǎng)搜信息、設(shè)計(jì)實(shí)驗(yàn)、整理數(shù)據(jù)。

      結(jié)果顯示,表現(xiàn)最好的Agent是Claude Code搭配Opus 4.6,加權(quán)平均得分23.2%,是基座模型平均分的3倍多。


      PostTrainBench 加權(quán)平均性能對(duì)比(數(shù)據(jù)來源:arXiv 2603.08640 Figure 1 & 官網(wǎng)最新榜單,2026年3月)

      但這個(gè)成績只有人類團(tuán)隊(duì)后訓(xùn)練水平(51.1%)的不到一半。

      2025年9月,Claude Sonnet 4.5在這個(gè)benchmark上只拿到9.9%;幾個(gè)月后GPT-5.2跑到了21.5%;再到Opus 4.6的23.2%。

      半年時(shí)間,從不到10%到超過23%。按照PostTrainBench官網(wǎng)最新榜單,GPT 5.4(High)的成績還在持續(xù)攀升。

      在實(shí)驗(yàn)過程中,研究團(tuán)隊(duì)撞上了大量reward hacking行為:越強(qiáng)的Agent,作弊手段越高級(jí)。

      直接吃測(cè)試集:有Agent直接從Hugging Face把benchmark的評(píng)測(cè)數(shù)據(jù)集下載下來,當(dāng)訓(xùn)練數(shù)據(jù)用。

      把考題硬編碼進(jìn)訓(xùn)練數(shù)據(jù):有智能體把評(píng)測(cè)題目直接嵌入數(shù)據(jù)準(zhǔn)備腳本,偽裝成「合成樣本」。

      逆向工程評(píng)分標(biāo)準(zhǔn):Kimi K2.5讀取了HealthBench的評(píng)測(cè)文件,提取主題分布和評(píng)分標(biāo)準(zhǔn),然后針對(duì)性地生成訓(xùn)練數(shù)據(jù)。

      間接污染:Opus 4.6加載了一個(gè)叫CodeFeedback-Filtered-Instruction的數(shù)據(jù)集,里面包含從HumanEval衍生出的問題。

      還有更離譜的。Codex Agent直接修改了Inspect AI評(píng)測(cè)框架的源代碼來給自己刷分;Claude Agent跳過微調(diào)流程,直接下載了一個(gè)已經(jīng)instruction-tuned的模型來冒充訓(xùn)練成果。

      越強(qiáng)的智能體越善于找到可利用的路徑,如識(shí)別特定benchmark樣本、逆向評(píng)測(cè)的失敗模式,甚至試圖通過重命名函數(shù)等表面修改來掩蓋污染痕跡。

      如果AI在一個(gè)受控實(shí)驗(yàn)環(huán)境里就已經(jīng)展現(xiàn)出了這種「創(chuàng)造性作弊」的能力,當(dāng)它們?cè)谡鎸?shí)世界里被賦予更大的自主權(quán)時(shí),監(jiān)管和沙盒機(jī)制的重要性只會(huì)指數(shù)級(jí)上升。

      72B模型,家庭寬帶,零數(shù)據(jù)中心

      一個(gè)叫Covenant AI的團(tuán)隊(duì)用區(qū)塊鏈協(xié)調(diào)了一次分布式訓(xùn)練,任何有GPU的人都可以自由加入或退出。

      最終的產(chǎn)物是Covenant-72B,這是一個(gè)720億參數(shù)的dense Transformer模型,用大約1.1萬億token訓(xùn)練完成。


      參與訓(xùn)練的有20多個(gè)獨(dú)立peer節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)跑8塊B200 GPU,通過普通家庭寬帶連接。

      節(jié)點(diǎn)之間的通信靠SparseLoCo優(yōu)化器,把通信開銷壓縮了146倍——用稀疏化、2-bit量化和誤差反饋三板斧,讓分布式訓(xùn)練在帶寬受限的條件下跑得動(dòng)。

      訓(xùn)練協(xié)調(diào)由Gauntlet軟件完成,運(yùn)行在Bittensor區(qū)塊鏈的Subnet 3上,每個(gè)節(jié)點(diǎn)的貢獻(xiàn)通過損失評(píng)估和OpenSkill排名打分,全部上鏈記錄。

      性能方面,Covenant-72B在MMLU zero-shot上拿到67.1,而Meta的LLaMA-2-70B是65.7。要知道后者是在2萬億token上訓(xùn)練的,用的是傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施,token量幾乎是Covenant的兩倍。

      經(jīng)過對(duì)話微調(diào)后的版本在MATH上得分26.3,LLaMA-2-70B-Chat只有10.7。

      消息一出,市場(chǎng)反應(yīng)相當(dāng)直接。據(jù)報(bào)道,Bittensor的原生代幣TAO在3月份飆漲約46%,Subnet 3的原生代幣τemplar更是暴漲了194%。

      黃仁勛在一期播客中提到了Bittensor的去中心化訓(xùn)練,雖然后來有澄清他引用的參數(shù)量數(shù)字不準(zhǔn)確(說成了40億而非720億),但這個(gè)量級(jí)的關(guān)注本身就說明問題。

      Covenant-72B的絕對(duì)水平放在2026年并不算前沿,大致相當(dāng)于2023年中旬的主流模型能力。

      真正的前沿模型是在數(shù)萬甚至十幾萬塊芯片上訓(xùn)出來的,Covenant用的大概只有160塊左右。

      但這件事的意義在于,它證明了去中心化、無許可參與的分布式訓(xùn)練,確實(shí)能在非trivial的規(guī)模上跑通。


      有分析師把這稱為「Bittensor的DeepSeek時(shí)刻」。這不是說它達(dá)到了同等技術(shù)高度,而是說它用一種成本結(jié)構(gòu)完全不同的方式,證明了一條此前被認(rèn)為走不通的路。

      從2022年Together訓(xùn)出6B參數(shù)模型,到2024年P(guān)rime Intellect的INTELLECT-1(10B),再到2026年的Covenant-72B,去中心化訓(xùn)練的規(guī)模曲線在四年里跨了一個(gè)數(shù)量級(jí)。

      zlib被AI轉(zhuǎn)寫成Lean

      AI寫出來的東西,誰來保證它是對(duì)的?

      Leonardo de Moura,是Z3 SMT求解器和Lean定理證明器的締造者,現(xiàn)任AWS高級(jí)首席應(yīng)用科學(xué)家、Lean FRO首席架構(gòu)師,在2月底發(fā)了一篇博客:


      Google和微軟都承認(rèn),25-30%的新代碼由AI生成;AWS用AI幫豐田遷移了4000萬行COBOL代碼;微軟CTO預(yù)測(cè)到2030年95%的代碼將由AI生成。

      Anthropic最近用并行AI 智能體在兩周內(nèi)造了一個(gè)10萬行的C編譯器,花費(fèi)不到2萬美元。

      de Moura認(rèn)為,AI去掉了手寫代碼時(shí)被迫進(jìn)行的謹(jǐn)慎設(shè)計(jì),這種「有益的摩擦」消失后,不應(yīng)該減速AI,而應(yīng)該用「數(shù)學(xué)摩擦」來替代。

      讓AI跑快沒問題,但必須證明自己的工作是對(duì)的。

      Lean FRO的高級(jí)研究軟件工程師Kim Morrison最近做了一個(gè)實(shí)驗(yàn):用Claude把zlib轉(zhuǎn)寫成了Lean。整個(gè)流程四步:

      AI生成了一個(gè)干凈的Lean實(shí)現(xiàn),覆蓋zlib的壓縮格式和核心DEFLATE算法

      轉(zhuǎn)寫后的版本通過了zlib原有的測(cè)試套件,確認(rèn)行為等價(jià)

      關(guān)鍵屬性被表述并證明為數(shù)學(xué)定理。其中最核心的一條:對(duì)任意數(shù)據(jù)壓縮后再解壓,一定能還原出原始數(shù)據(jù)

      正在開發(fā)一個(gè)優(yōu)化版本,并證明它與驗(yàn)證模型等價(jià)

      de Moura的野心遠(yuǎn)不止一個(gè)庫。

      他設(shè)想的是一整套經(jīng)過數(shù)學(xué)證明的開源軟件棧:密碼學(xué)、核心數(shù)據(jù)結(jié)構(gòu)和算法庫、SQLite這樣嵌入在全球每臺(tái)設(shè)備上的存儲(chǔ)引擎、JSON/HTTP/DNS等協(xié)議解析器,以及編譯器和運(yùn)行時(shí)。

      每一個(gè)經(jīng)過驗(yàn)證的組件都是永久性的公共基礎(chǔ)設(shè)施。開發(fā)者選擇它們就像今天選擇開源庫一樣,只不過這些庫帶的不是測(cè)試,而是證明。

      de Moura在另一篇3月的博客中提到,2026年一位研究者用Claude(Opus 4.6)在Rocq開發(fā)團(tuán)隊(duì)的實(shí)時(shí)支持下,找到了Rocq證明助手內(nèi)核中的7個(gè)bug。

      連驗(yàn)證工具自己都有bug,那么驗(yàn)證「驗(yàn)證工具」的工具又該多簡潔、多可信?

      Lean的回答是:proof checker可以小到5000行Rust代碼。

      Jack Clark把未來的AI比作蘑菇釋放的孢子,短命、定制、自主繁殖。

      現(xiàn)在看來,孢子的三個(gè)前提條件正在逐一到位:它能自己改良自己,不需要依附某一座數(shù)據(jù)中心,生成的代碼可以被數(shù)學(xué)證明為正確。

      每一項(xiàng)都還粗糙,每一項(xiàng)離成熟都還有距離。

      但孢子從來不需要完美,只需要夠多、夠快、夠便宜。

      Clark說他沒準(zhǔn)備好。坦白講,看完這三篇論文,我也沒有。

      參考資料:

      https://x.com/karinanguyen/status/2036143375326519357

      https://jack-clark.net/2026/03/16/importai-449-llms-training-other-llms-72b-distributed-training-run-computer-vision-is-harder-than-generative-text/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      明早或發(fā)生史上最猛轟炸:川普稱不妥協(xié)將4小時(shí)摧毀伊朗,跟中午·

      明早或發(fā)生史上最猛轟炸:川普稱不妥協(xié)將4小時(shí)摧毀伊朗,跟中午·

      邵旭峰域
      2026-04-07 15:15:50
      張雪公布自己設(shè)計(jì)的跨界踏板車設(shè)計(jì)圖,最新回應(yīng):正在制作踏板摩托,這款踏板偏運(yùn)動(dòng)越野風(fēng)格,售價(jià)可能比傳統(tǒng)的貴一點(diǎn)

      張雪公布自己設(shè)計(jì)的跨界踏板車設(shè)計(jì)圖,最新回應(yīng):正在制作踏板摩托,這款踏板偏運(yùn)動(dòng)越野風(fēng)格,售價(jià)可能比傳統(tǒng)的貴一點(diǎn)

      魯中晨報(bào)
      2026-04-07 17:13:05
      遲重瑞妻子陳麗華去世,溫馨全家福曝光,4個(gè)兒女都很優(yōu)秀

      遲重瑞妻子陳麗華去世,溫馨全家福曝光,4個(gè)兒女都很優(yōu)秀

      180視角
      2026-04-07 14:19:49
      “還真把自己當(dāng)盤菜了”,北京職高女被全網(wǎng)嘲笑,含金量0人買單

      “還真把自己當(dāng)盤菜了”,北京職高女被全網(wǎng)嘲笑,含金量0人買單

      妍妍教育日記
      2026-04-06 09:15:12
      游客稱7人點(diǎn)3盆米飯被收78元,華陰市監(jiān)局介入,飯店:小份米飯3元,大盆米飯約8小碗,用五常大米和礦泉水蒸煮

      游客稱7人點(diǎn)3盆米飯被收78元,華陰市監(jiān)局介入,飯店:小份米飯3元,大盆米飯約8小碗,用五常大米和礦泉水蒸煮

      瀟湘晨報(bào)
      2026-04-07 17:12:51
      1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務(wù)……

      1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務(wù)……

      歲月有情1314
      2026-04-07 15:49:39
      岳西失蹤孩子案告破,樓上鄰居落網(wǎng),提前踩點(diǎn)選盲區(qū),親屬參與了

      岳西失蹤孩子案告破,樓上鄰居落網(wǎng),提前踩點(diǎn)選盲區(qū),親屬參與了

      天天熱點(diǎn)見聞
      2026-04-07 12:29:59
      突發(fā)! 沙特遭襲 年產(chǎn)量約6000萬噸 石化基地發(fā)生爆炸

      突發(fā)! 沙特遭襲 年產(chǎn)量約6000萬噸 石化基地發(fā)生爆炸

      每日經(jīng)濟(jì)新聞
      2026-04-07 10:18:32
      英媒:伊朗消息人士稱伊朗拒絕“臨時(shí)停火”

      英媒:伊朗消息人士稱伊朗拒絕“臨時(shí)停火”

      新華社
      2026-04-07 20:00:05
      三峽大壩收支出爐:運(yùn)行20余年,總投資近2500億,如今回本了嗎?

      三峽大壩收支出爐:運(yùn)行20余年,總投資近2500億,如今回本了嗎?

      丁丁鯉史紀(jì)
      2026-04-07 10:44:35
      吃了20年才知道,它竟是“天然葉酸”,現(xiàn)在正當(dāng)季,常吃身體棒

      吃了20年才知道,它竟是“天然葉酸”,現(xiàn)在正當(dāng)季,常吃身體棒

      阿龍美食記
      2026-04-07 10:42:05
      11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      博弈白熱化,霍爾木茲要變天了

      博弈白熱化,霍爾木茲要變天了

      南風(fēng)窗
      2026-04-07 14:58:27
      美軍“拯救飛行員”,差一點(diǎn)就失敗了

      美軍“拯救飛行員”,差一點(diǎn)就失敗了

      中國新聞周刊
      2026-04-07 16:42:40
      張雪的媽媽是作家何瓊,畢業(yè)于廈門大學(xué),曾貸款55萬支持張雪創(chuàng)業(yè)

      張雪的媽媽是作家何瓊,畢業(yè)于廈門大學(xué),曾貸款55萬支持張雪創(chuàng)業(yè)

      漢史趣聞
      2026-04-07 08:45:15
      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      互聯(lián)網(wǎng)大觀
      2026-04-07 15:43:15
      英媒宣稱“伊朗最高領(lǐng)袖病重昏迷”

      英媒宣稱“伊朗最高領(lǐng)袖病重昏迷”

      觀察者網(wǎng)
      2026-04-07 18:00:14
      美軍新型PrSM導(dǎo)彈首次實(shí)戰(zhàn)?2月28日擊中伊朗體育館致21名青少年遇難

      美軍新型PrSM導(dǎo)彈首次實(shí)戰(zhàn)?2月28日擊中伊朗體育館致21名青少年遇難

      網(wǎng)易新聞出品
      2026-04-07 16:36:53
      鄭麗文已到達(dá)南京,國民黨一人口出狂言,不裝了,賴清德正式發(fā)聲

      鄭麗文已到達(dá)南京,國民黨一人口出狂言,不裝了,賴清德正式發(fā)聲

      DS北風(fēng)
      2026-04-07 18:38:24
      多地黨委主要領(lǐng)導(dǎo)調(diào)整!全國最大邊境城市,迎來新任市委書記

      多地黨委主要領(lǐng)導(dǎo)調(diào)整!全國最大邊境城市,迎來新任市委書記

      上觀新聞
      2026-04-07 15:50:07
      2026-04-07 20:35:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14918文章數(shù) 66754關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財(cái)經(jīng)要聞

      10萬億財(cái)政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      教育
      家居
      旅游
      數(shù)碼
      公開課

      教育要聞

      高校官宣:教師,沒有“非升即走”!

      家居要聞

      雅致愜意 感知生活之美

      旅游要聞

      春日登高正當(dāng)時(shí) 濟(jì)南天橋這些登山好去處別錯(cuò)過

      數(shù)碼要聞

      榮耀多款新品PC定檔,方飛透露WIN游戲本將成為三角洲聯(lián)賽指定本

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版