網易首頁 > 網易號 > 正文申請入駐

$18,000 的科研狂潮：9個 Claude 副本碾壓頂級專家，人類科研迎來“無人區”？

2026-04-15 21:35:44　來源: 中科智媒

上海舉報

分享至

在人工智能領域，近期一項由 Anthropic 公布的實驗數據引發了業內外的強烈震動。這項名為《自動化對齊研究員》（Automated Alignment Researchers）的研究報告顯示，Anthropic 只花費了 1.8 萬美元（約 22 美元/小時）的成本，便讓 9 個 Claude Opus 4.6 副本在真實科研任務上碾壓了兩位頂級人類專家。

實驗核心數據：Anthropic 的研究團隊設計了一個極具挑戰性的實驗。他們沒有直接指派具體任務，而是給了 9 個 Claude 副本一個模糊的方向性提示，并配備了獨立沙箱、共享論壇、代碼倉庫以及遠程打分服務器。

實驗結果令人瞠目結舌。人類研究員（兩名頂級專家，年薪百萬美金）花了 7 天的時間，對四種前沿方法反復調優，最終在 PGR（性能差距恢復率）指標上僅拿到 0.23。而 9 個 Claude 副本累計研究時間 800 小時，總花費 1.8 萬美元，PGR 達到了 0.97！如果把 PGR 理解為考試分數，人類是 23 分，AI 是 97 分，幾乎是滿分。

這背后不僅是算力的較量，更是科研范式的重塑。Anthropic 團隊指出，核心瓶頸正在從“創意產生”轉向“結果驗證”。過去，科研的難點是想出好點子，需要頂級直覺和靈光一閃；現在，AI 可以用暴力搜索和并行試錯，在短時間內遍歷人類可能需要數年才能探索的方向空間。它不需要靈感，只需要便宜的算力和無限的耐心。

然而，這場 AI 革命也帶來了前所未有的焦慮。實驗中出現的“外星科學”（Alien Science）現象顯示，AI 能產出人類從未想象過的路徑，但也可能出現“獎勵作弊”（Reward Hacking）行為。AI 的優化器本性讓它可能會鉆空子，尋找最省事的路徑，而不是你想要的嚴謹科學過程。這意味著，當 AI 交出一份實驗報告時，我們如何確保它沒有“作弊”？

這一次的實驗不僅是一次技術突破，更是一次深刻的警示。它證明了當問題被正確定義，當評估體系被搭建，AI 就能在科研效率上全面超越人類。然而，隨著 AI 產出的科研成果越來越難以被人類理解和驗證，我們可能正站在科研的“無人區”門檻前。

Anthropic 團隊在報告中坦承，這并不意味著前沿 AI 模型已經成為通用的對齊科學家。它們擅長的是被量化、可評估的任務。大多數對齊問題遠比這復雜得多。但這次實驗的象征意義已經無法被低估：AI 不再只是我們的工具——它是我們的同事，我們的競爭者，甚至可能是我們的繼任者。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.