在人工智能領域,近期一項由 Anthropic 公布的實驗數據引發了業內外的強烈震動。這項名為《自動化對齊研究員》(Automated Alignment Researchers)的研究報告顯示,Anthropic 只花費了 1.8 萬美元(約 22 美元/小時)的成本,便讓 9 個 Claude Opus 4.6 副本在真實科研任務上碾壓了兩位頂級人類專家。
![]()
實驗核心數據:Anthropic 的研究團隊設計了一個極具挑戰性的實驗。他們沒有直接指派具體任務,而是給了 9 個 Claude 副本一個模糊的方向性提示,并配備了獨立沙箱、共享論壇、代碼倉庫以及遠程打分服務器。
![]()
實驗結果令人瞠目結舌。人類研究員(兩名頂級專家,年薪百萬美金)花了 7 天 的時間,對四種前沿方法反復調優,最終在 PGR(性能差距恢復率)指標上僅拿到 0.23。而 9 個 Claude 副本累計研究時間 800 小時,總花費 1.8 萬美元,PGR 達到了 0.97!如果把 PGR 理解為考試分數,人類是 23 分,AI 是 97 分,幾乎是滿分。
![]()
這背后不僅是算力的較量,更是科研范式的重塑。Anthropic 團隊指出,核心瓶頸正在從“創意產生”轉向“結果驗證”。過去,科研的難點是想出好點子,需要頂級直覺和靈光一閃;現在,AI 可以用暴力搜索和并行試錯,在短時間內遍歷人類可能需要數年才能探索的方向空間。它不需要靈感,只需要便宜的算力和無限的耐心。
![]()
然而,這場 AI 革命也帶來了前所未有的焦慮。實驗中出現的“外星科學”(Alien Science)現象顯示,AI 能產出人類從未想象過的路徑,但也可能出現“獎勵作弊”(Reward Hacking)行為。AI 的優化器本性讓它可能會鉆空子,尋找最省事的路徑,而不是你想要的嚴謹科學過程。這意味著,當 AI 交出一份實驗報告時,我們如何確保它沒有“作弊”?
![]()
這一次的實驗不僅是一次技術突破,更是一次深刻的警示。它證明了當問題被正確定義,當評估體系被搭建,AI 就能在科研效率上全面超越人類。然而,隨著 AI 產出的科研成果越來越難以被人類理解和驗證,我們可能正站在科研的“無人區”門檻前。
![]()
Anthropic 團隊在報告中坦承,這并不意味著前沿 AI 模型已經成為通用的對齊科學家。它們擅長的是被量化、可評估的任務。大多數對齊問題遠比這復雜得多。但這次實驗的象征意義已經無法被低估:AI 不再只是我們的工具——它是我們的同事,我們的競爭者,甚至可能是我們的繼任者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.