<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Autoresearch 全自動寫代碼、寫論文,Claude、Codex、龍蝦紛紛復現

      0
      分享至

      Karpathy 最近搞了一個叫 autoresearch 的項目,一出手就在圈內炸了鍋。

      核心思路簡單到離譜:你去睡覺,AI 幫你通宵做實驗

      一覺醒來,100 多個實驗結果整整齊齊地擺在面前。

      更猛的是,社區在此基礎上迅速衍生出了好幾個項目,把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化,到直接幫你寫論文。

      我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一

      Karpathy 的 autoresearch:用 Markdown 編程的研究機構

      項目地址:https://github.com/karpathy/autoresearch

      Karpathy 在 README 里寫了一段非常有畫面感的話:

      曾經,前沿 AI 研究是由肉體大腦完成的,他們在吃飯、睡覺和其他娛樂之間擠出時間做研究,偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。
      Karpathy autoresearch 實驗進展圖

      核心玩法是什么?

      整個項目只有三個關鍵文件:

      文件

      作用

      誰來改?

      prepare.py

      數據準備、評估函數、dataloader

      ? 不能動

      train.py

      模型架構、優化器、訓練循環

      AI 改這個

      program.md

      AI Agent 的行為指令

      ? 人類改這個

      這個設計太妙了——你不再寫 Python,你寫 Markdown

      program.md就是你的"研究組織代碼",定義 AI Agent 的行為模式:怎么實驗、怎么評估、怎么決定保留還是回滾

      實驗循環長這樣:

      永遠循環:
      1. 看當前 git 狀態
      2. 改 train.py,嘗試一個想法
      3. git commit
      4. 跑實驗(5分鐘固定時長)
      5. 讀取結果:val_bpb 有沒有降低?
      6. 降了 → 保留,推進分支
      7. 沒降 → git reset 回滾
      8. 記錄到 results.tsv
      9. 繼續下一個實驗

      每次實驗固定跑 5 分鐘,一個小時跑大約 12 個實驗。你睡 8 小時,AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里

      program.md里有一條非常霸氣的規則:

      NEVER STOP: 一旦實驗循環開始,不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了,想得更深一些。循環持續到人類手動打斷為止

      快速上手:

      # 安裝 uv 包管理器
      curl -LsSf https://astral.sh/uv/install.sh | sh

      # 安裝依賴
      uv sync

      # 下載數據和訓練 tokenizer
      uv run prepare.py

      # 手動跑一次訓練(驗證環境正常)
      uv run train.py

      然后開啟你的 Claude Code 或者 Codex,對它說一句話就行:

      Hi have a look at program.md and let's kick off a new experiment!

      醒來看results.tsv

      設計哲學上有幾點我覺得特別精彩:

      • 固定時間預算:所有實驗都是 5 分鐘,不管你怎么改架構改參數,都是公平比較

      • 簡潔性原則:同等效果下更簡單的代碼優先。刪代碼能保持效果?那就是贏

      • 單一指標:只看val_bpb(驗證集 bits per byte),越低越好

      • Git 即記憶:所有實驗都 commit,成功推進分支,失敗就 reset

      不過這個項目目前只支持 NVIDIA GPU(在 H100 上測試),對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。

      Codex Autoresearch:把自主研究推廣到一切有指標的場景

      項目地址:https://github.com/leo-lilinxiao/codex-autoresearch


      Codex Autoresearch Banner

      Karpathy 的 autoresearch 只做 ML 訓練,而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。

      它是一個 OpenAI Codex 的 Skill(技能插件),核心理念:只要你有一個可以衡量的數字指標,它就能幫你自動優化。

      你只需用一句話描述目標,Codex 會自動分析項目、確認指標、然后進入自主迭代循環。

      看幾個實際場景:

      你說的話

      Codex 做什么

      "提高測試覆蓋率"

      掃描項目,提出指標,自動寫測試直到達標

      "修復 12 個失敗的測試"

      逐個檢測修復,直到全部通過

      "為什么 API 返回 503?"

      用科學方法排查根因,給出可證偽的假設

      "這段代碼安全嗎?"

      STRIDE + OWASP 審計,每個發現都有代碼證據

      架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。

      你可以盯著它跑,也可以讓它后臺無人值守地跑一整夜。

      實驗循環跟 Karpathy 的一脈相承:

      共享循環核心(永遠循環或 N 次):
      1. 審查當前狀態 + git 歷史 + 結果日志
      2. 選一個假設
      3. 做一個原子改動
      4. git commit
      5. 跑驗證 + 安全護欄
      6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
      7. 記錄結果
      8. 健康檢查
      9. 連續 3 次丟棄 → 調整策略;5 次 → 轉向;2 次轉向 → 搜索網絡
      10. 重復

      它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓",注入到下一輪實驗的決策中。

      安裝也很簡單:

      git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
      cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

      然后在 Codex 里說:

      $codex-autoresearch
      I want to get rid of all the `any` types in my TypeScript code

      走開,回來看結果。

      Claude Autoresearch:9 個命令覆蓋全場景

      項目地址:https://github.com/uditgoenka/autoresearch

      這個是面向 Claude Code 的版本,口號很直白:

      "設定目標 → Claude 跑循環 → 你醒來看結果"

      跟 Codex 版本類似,也是泛化的自主迭代框架,但這個項目在命令體系上做得更完整,提供了 9 個開箱即用的命令:

      命令

      功能

      /autoresearch

      核心自主迭代循環

      /autoresearch:plan

      交互式配置向導

      /autoresearch:security

      STRIDE + OWASP 安全審計

      /autoresearch:ship

      發布前檢查工作流

      /autoresearch:debug

      科學方法自主排 bug

      /autoresearch:fix

      自動修復所有錯誤

      /autoresearch:scenario

      場景驅動測試生成

      /autoresearch:predict

      多角色預分析

      /autoresearch:learn

      自動生成/更新文檔

      它定義了8 條核心規則,這也是整個 autoresearch 范式的精髓:

      1. 循環到底——無限循環或 N 次循環后總結

      2. 先讀后寫——理解上下文再動手

      3. 一次一改——原子性修改,壞了知道是哪步

      4. 機械驗證——不要主觀的"看起來行",要指標

      5. 自動回滾——失敗立刻撤回

      6. 簡單為王——同樣效果,代碼越少越好

      7. Git 即記憶——所有實驗都進 git 歷史

      8. 卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變

      安裝方式(推薦插件安裝):

      # 在 Claude Code 中運行
      /plugin marketplace add uditgoenka/autoresearch
      /plugin install autoresearch@autoresearch

      或者手動復制:

      git clone https://github.com/uditgoenka/autoresearch.git
      cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
      cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch

      然后試試:

      /autoresearch
      Goal: Increase test coverage from 72% to 90%
      Scope: src/**/*.test.ts, src/**/*.ts
      Metric: coverage % (higher is better)
      Verify: npm test -- --coverage | grep "All files"
      Guard: npm test
      AutoResearchClaw:最激進的——直接幫你寫論文

      項目地址:https://github.com/aiming-lab/AutoResearchClaw


      AutoResearchClaw

      前面幾個還是在"優化代碼/模型"的范疇,這貨直接把目標拉到了全自主寫論文

      口號:"Chat an Idea. Get a Paper."——你說一個想法,它給你出一篇會議論文


      AutoResearchClaw 框架圖

      23 個階段,8 個大的 Phase,全自動流水線

      Phase A: 研究范圍界定         Phase E: 實驗執行
      1. 主題初始化 12. 實驗運行
      2. 問題分解 13. 迭代改進(自動修復)

      Phase B: 文獻發現 Phase F: 分析與決策
      3. 搜索策略 14. 結果分析(多 Agent)
      4. 文獻收集(真實 API) 15. 研究決策(PIVOT/REFINE)
      5. 文獻篩選 [人工關口]
      6. 知識提取 Phase G: 論文寫作
      16. 論文大綱
      Phase C: 知識綜合 17. 論文初稿
      7. 綜合 18. 同行評審(證據檢查)
      8. 假設生成(多角色辯論) 19. 論文修訂

      Phase D: 實驗設計 Phase H: 最終化
      9. 實驗設計 [人工關口] 20. 質量關口 [檢查]
      10. 代碼生成 21. 知識歸檔
      11. 資源規劃 22. 導出發布(LaTeX)
      23. 引用驗證

      最終產出一整套交付物:

      產出

      paper_draft.md

      完整論文(引言、相關工作、方法、實驗、結論)

      paper.tex

      可編譯的 LaTeX(NeurIPS/ICML/ICLR 模板)

      references.bib

      真實的 BibTeX 引用(來自 OpenAlex、Semantic Scholar、arXiv)

      experiment runs/

      生成的實驗代碼 + 沙箱運行結果

      charts/

      自動生成的對比圖表

      reviews.md

      多 Agent 同行評審

      幾個讓我印象深刻的設計:

      1. 引用不造假:文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文,還有 4 層引用驗證。這一點非常關鍵,其他自動寫論文的工具最大的問題就是瞎編引用

      2. 自愈機制:實驗失敗了會自動診斷修復;假設不成立會自動 PIVOT 換方向

      3. 多 Agent 辯論:假設生成和結果分析都用多視角辯論機制,不是單一 LLM 的"自說自話"

      4. 跨平臺支持:通過 ACP(Agent Client Protocol),支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端

      5. Sentinel 哨兵:后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛

      快速上手:

      # 克隆安裝
      git clone https://github.com/aiming-lab/AutoResearchClaw.git
      cd AutoResearchClaw
      python3 -m venv .venv && source .venv/bin/activate
      pip install -e .

      # 交互式配置
      researchclaw setup
      researchclaw init

      # 一條命令跑起來
      export OPENAI_API_KEY="sk-..."
      researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

      它已經 showcase 了 8 個領域(數學、統計、生物、計算、NLP、RL、視覺、魯棒性)的全自主生成論文

      橫向對比:四個項目怎么選?

      特性

      Karpathy autoresearch

      Codex Autoresearch

      Claude Autoresearch

      AutoResearchClaw

      核心場景

      ML 模型訓練優化

      通用代碼質量

      通用代碼質量

      全自主寫論文

      Agent 平臺

      任意

      OpenAI Codex

      Claude Code

      多平臺 ACP

      自主程度

      高(永不停止)

      高(后臺模式)

      高(無限循環)

      極高(23 階段流水線)

      迭代粒度

      改 train.py

      任意代碼改動

      任意代碼改動

      文獻→實驗→論文

      評估方式

      val_bpb

      自定義指標

      自定義指標

      多維質量評審

      GPU 要求

      需要 NVIDIA GPU

      不需要

      不需要

      按任務而定

      適合誰

      ML 研究者

      工程師/開發者

      工程師/開發者

      科研工作者


      老章說兩句

      這一波 autoresearch 生態的爆發,本質上是三個趨勢交匯:

      第一,Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。

      第二,范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。

      第三,Git 是天然的 Agent 記憶。每次實驗 commit,失敗就 revert,成功就推進。這比任何復雜的狀態管理系統都優雅。

      說白了,這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼,改完就改完了。現在是讓它進入一個無限循環:改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。

      我覺得 AutoResearchClaw 是最值得關注的一個。

      雖然全自主寫論文的質量還沒法跟頂級研究者比,但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。

      當然,這些項目也有很明顯的局限:

      • 只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定

      • API 成本不低。跑一夜的實驗,token 費用可能不便宜

      • 創造性有限。它擅長的是在已知空間內暴力搜索,真正顛覆性的創新還是得靠人類

      但方向是對的。

      當 Agent 能力繼續提升、成本繼續下降,"你定義方向,AI 做苦力"可能真的會成為科研和工程的常態。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      摧毀海上偷渡鏈!“獴獵”行動68人落網細節曝光

      摧毀海上偷渡鏈!“獴獵”行動68人落網細節曝光

      環球網資訊
      2026-04-19 13:23:28
      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      娛樂圈的筆娛君
      2026-04-20 02:07:08
      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      通往遠方的路
      2026-04-20 09:57:44
      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      一個有靈魂的作者
      2026-04-19 19:40:53
      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      荷蘭豆愛健康
      2026-04-19 21:53:37
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      苗苗情感說
      2026-04-19 12:38:15
      文班亞馬季后賽首秀:傳承開始

      文班亞馬季后賽首秀:傳承開始

      張佳瑋寫字的地方
      2026-04-20 12:23:10
      張蘭暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      張蘭暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      樂悠悠娛樂
      2026-04-20 10:47:48
      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      魯中晨報
      2026-04-17 17:00:03
      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      墨印齋
      2026-04-14 00:57:55
      復雜的黎巴嫩,走投無路的真主黨

      復雜的黎巴嫩,走投無路的真主黨

      寰宇大觀察
      2026-04-17 17:36:11
      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      一口娛樂
      2026-04-20 01:43:39
      解氣?。?!來而不往非禮也!中國海軍今天出手了!

      解氣?。。矶煌嵌Y也!中國海軍今天出手了!

      樂趣紀史
      2026-04-20 08:03:19
      浙江25歲女子深夜跑進急診,疼到臉色發白,醫生:近兩三年這類患者越來越多,嚴重的會造成不可逆傷害

      浙江25歲女子深夜跑進急診,疼到臉色發白,醫生:近兩三年這類患者越來越多,嚴重的會造成不可逆傷害

      環球網資訊
      2026-04-20 09:25:07
      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創姓改稱

      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創姓改稱

      有范又有料
      2026-04-19 00:03:10
      張雪機車,全球訂單狂飆

      張雪機車,全球訂單狂飆

      第一財經資訊
      2026-04-18 18:42:46
      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      貝殼財經
      2026-04-19 23:56:03
      一伊朗油輪突破美國封鎖進入伊朗水域

      一伊朗油輪突破美國封鎖進入伊朗水域

      每日經濟新聞
      2026-04-20 07:10:32
      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      證券時報
      2026-04-19 22:52:02
      2026-04-20 12:55:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3334文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      健康
      數碼
      家居
      本地
      公開課

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      華為全新鴻蒙電腦搭載云晰柔光屏,硬件級低藍光,今日下午發布

      家居要聞

      自然慢調 慢享時光

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版